Αλγόριθμος BIRCH.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Advertisements

Αλγόριθμοι σχεδίασης βασικών 2D σχημάτων (ευθεία)
Γραφήματα & Επίπεδα Γραφήματα
Αλέξανδρος Σαχινίδης, ΜΒΑ, Ph.D. ΙΟΥΝΙΟΣ 2009
ΜοντελοποίησηΈργα ΜαθήματαΑξιολόγηση Αναστοχασμος Μαθήματα.
-Στοίβα-Ουρά - Πλεονεκτήματα πινάκων -Δομές δεδομένων δευτερεύουσας μνήμης -Πληροφορική και δεδομένα -Παραδείγματα-Προβλήματα ψευδοκώδικα.
Πιθανοκρατικοί Αλγόριθμοι
Τα στοιχειώδη περί γεωδαιτικών υπολογισμών
Χρήση και αξιοποίηση των ΤΠΕ κατά τη διδασκαλία των μαθηματικών στη δευτεροβάθμια ελληνική εκπαίδευση Δρ. Σάλτας Βασίλειος, Ιωαννίδου Ευφροσύνη Τμήμα.
ΥΠΟΠΡΟΓΡΑΜΜΑΤΑ ΤΜΗΜΑΤΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ
ΤΑ ΜΕΡΗ ΤΟΥ ΠΟΔΗΛΑΤΟΥ
Εισαγωγή στους Η/Υ Πίνακες.
Πινακες (Arrays) Σημασια Συνταξη Αρχικοποιηση Προσβαση Παραμετροι
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
Καλή και δημιουργική χρονιά.
ΕΙΣΑΓΩΓΗ ΣΤΑ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ
Page  1 Ο.Παλιάτσου Γαλλική Επανάσταση 1 ο Γυμνάσιο Φιλιππιάδας.
© GfK 2012 | Title of presentation | DD. Month
-17 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Σεπτέμβριος 2013 Δείκτης > +20 Δείκτης 0 a +20 Δείκτης 0 a -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
+21 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Δεκέμβριος 2013 Δείκτης > +20 Δείκτης 0 να +20 Δείκτης 0 να -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Δυαδικά Δένδρα Αναζήτησης, Δένδρα AVL
Στατιστική Ι Παράδοση 5 Οι Δείκτες Διασποράς Διασπορά ή σκεδασμός.
Εργασία Η υλοποίηση του αλγορίθμου συγχώνευσης θα πρέπει να χρησιμοποιεί την ιδέα των ροών (streams). Θα πρέπει να υπάρχουν δύο διαφορετικά είδη.
Αναγνώριση Προτύπων.
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
Γραφήματα & Επίπεδα Γραφήματα
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Συναρτησιακές Εξαρτήσεις.
Κοντινότεροι Κοινοί Πρόγονοι α βγ θ δεζ η π ν ι κλμ ρσ τ κκπ(λ,ι)=α, κκπ(τ,σ)=ν, κκπ(λ,π)=η κκπ(π,σ)=γ, κκπ(ξ,ο)=κ ξο κκπ(ι,ξ)=β, κκπ(τ,θ)=θ, κκπ(ο,μ)=α.
Δυναμικός Προγραμματισμός
1 Θεματική Ενότητα Γραφήματα & Επίπεδα Γραφήματα.
Προσεγγιστικοί Αλγόριθμοι
Αποκεντρωμένη Διοίκηση Μακεδονίας Θράκης ∆ιαχείριση έργων επίβλεψης µε σύγχρονα µέσα και επικοινωνία C2G, B2G, G2G Γενική Δ/νση Εσωτερικής Λειτουργίας.
Στοιχεία Διοίκησης Επιχειρήσεων
ΑΣΚΗΣΗ 5 η Δίνονται τα παρακάτω στοιχεία: 1.Εκταση Συσταδικός τύπος 1 100Ηα Συσταδικός τύπος 2 200Ηα Συσταδικός τύπος 3 60Ηα 2. Ογκος ανα Ηα και περίοδο.
Η επιρροή του χώρου εργασίας των σχολικών τάξεων στη μάθηση
Ισορροπημένα Δένδρα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μπορούμε να επιτύχουμε χρόνο εκτέλεσης για.
Δομές Αναζήτησης TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Χειριζόμαστε ένα σύνολο στοιχείων όπου το κάθε.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
Ο ΗΛΕΚΤΡΟΝΙΚΟΣ ΥΠΟΛΟΓΙΣΤΗΣ
Γράφοι: Προβλήματα και Αλγόριθμοι
Τεχνολογία ΛογισμικούSlide 1 Αλγεβρική Εξειδίκευση u Καθορισμός τύπων αφαίρεσης σε όρους σχέσεων μεταξύ τύπων λειτουργιών.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
ANAKOINWSH H 2η Ενδιάμεση Εξέταση μεταφέρεται στις αντί για , την 24 Νοεμβρίου στις αίθουσες ΧΩΔ και 110 λόγω μη-διαθεσιμότητας.
Ανάπτυξη Πρωτοτύπου Λογισμικού
Στατιστική Ι Παράδοση 9 Ο Δείκτης Συσχέτισης.
Ουρά Προτεραιότητας: Heap
Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης
Τα προϊόντα της EmGoldEx Τα προϊόντα της EmGoldEx Ράβδοι χρυσού 24k καθαρότητας 999,9 απο 1 έως 100 γραμμάρια Όλες οι ράβδοι χρυσού είναι πιστοποιημένες.
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.
ΜΑΘΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗ ΜΕΤΑΓΓΙΣΗ ΑΙΜΑΤΟΣ - ΑΙΜΟΔΟΣΙΑ
Αναζήτηση – Δέντρα (2 ο Μέρος) Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων)
Δομές Δεδομένων - Ισοζυγισμένα Δυαδικά Δένδρα (balanced binary trees)
Συσταδοποίηση IΙ Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006.
1 Μελέτη κανόνων συμμετοχής σε ομότιμα δίκτυα επικοινωνίας μέσω προσομοίωσης Φοιτητής : Χρήστος Ι. Καρατζάς Επιβλέποντες Καθηγητές : Γ. Πολύζος – Κ. Κουρκουμπέτης.
Θεωρία Γράφων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές Κεφάλαιο 4: Συνδεσμικότητα Data Engineering Lab 1.
1 Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Πανεπιστήμιο Πατρών ΟΝΤΟΚΕΝΤΡΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΙΙ (C++) Τάξεις και Αφαίρεση Δεδομένων.
+19 Δεκέμβριος 2014 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20 Δείκτης < -20 Συνολικά της ΕΕ: +5 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20.
Λεξικό, Union – Find Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ1 Συσταδοποίηση IIΙ Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction.
Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ1 Συσταδοποίηση II Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction.
Δομές Δεδομένων 1 Θέματα Απόδοσης. Δομές Δεδομένων 2 Οργανώνοντας τα Δεδομένα  Η επιλογή της δομής δεδομένων και του αλγορίθμου επηρεάζουν το χρόνο εκτέλεσης.
Δυναμικός Κατακερματισμός
ΟΜΑΔΕΣ Δημιουργία Ομάδων
Επίλυση Προβλημάτων με Αναζήτηση
Εξωτερική Αναζήτηση Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη
Διαχρονικές Δομές Δεδομένων
Δυναμικός Κατακερματισμός
Μεταγράφημα παρουσίασης:

Αλγόριθμος BIRCH

BIRCH – Ορισμός Balanced Iterative Reducing and Clustering using Hierarchies 2 / 32

BIRCH – Ορισμός Ένας απρόβλεπτος αλγόριθμος εξόρυξης δεδομένων(data mining) χρησιμοποιώντας την ιεραρχική ομαδοποίηση(hierarchical clustering) σε ιδιαίτερα μεγάλα σύνολα δεδομένων. Μετρικά Δεδομένα Αυξητικός και ιεραρχικός 3 / 32

Data Clustering Cluster Μια συλλογή από αντικείμενα δεδομένων που είναι παρόμοια το ένα με το άλλο και αντιμετωπίζονται συλλογικά ως ομάδα. Data Clustering – ομαδοποίηση ενός συνόλου δεδομένων σε clusters. 4 / 32

Data Clustering – Προβλήματα Πολύ μεγάλα σύνολα δεδομένων για να χωρέσουν στην κύρια μνήμη. I/O εργασίες κοστίζουν περισσότερο (η πρόσβαση δίσκο είναι τάξεις μεγέθους μεγαλύτερη από ό, τι η πρόσβαση στη RAM) – Περιορισμένοι Υπολογιστικοί πόροι BIRCH προσφέρει I/O με γραμμικό κόστος σε σχέση με το μέγεθος του συνόλου δεδομένων. 5 / 32

Data Clustering – Κατηγορίες Αλγορίθμων Αλγόριθμοι βασισμένοι σε πιθανότητες (COBWEB and CLASSIT) Αλγόριθμοι βασισμένοι σε μετρικές απόστασης(KMEANS, KMEDOIDS and CLARANS) 6 / 32

BIRCH Γενικά κάθε απόφαση για ομαδοποίηση γίνεται χωρίς σάρωση όλων των σημείων δεδομένων και των ήδη δημιουργημένων clusters. Δεν είναι όλα τα αντικείμενα το ίδιο σημαντικά για την ομαδοποίηση Χρησιμοποιεί όλη τη διαθέσιμη μνήμη για να επιτύχει γραμμικό χρόνο Ι/Ο απαιτώντας μια μόνο σάρωση της βάσης Το πρόβλημα μετασχηματίζεται στην ομαδοποίηση ενός συνόλου από “περιλήψεις” αντί ενός συνόλου αντικειμένων 7 / 32

BIRCH - Έννοιες και Ορολογία Hierarchical clustering 8 / 32

BIRCH - Έννοιες και Ορολογία Hierarchical clustering Ο αλγόριθμος ξεκινά με ένα μόνο σημείο( κάθε σημείο στη βάση δεδομένων θεωρείται ένα cluster) Μετά ομαδοποιεί τα κοντινότερα σημεία στο ίδιο cluster και συνεχίζει μέχρι να έχουμε ένα μόνο cluster. Ο υπολογισμός των clusters γίνεται στη χειρότερη περίπτωση σε O(n2) χρόνο. 9 / 32

BIRCH - Έννοιες και Ορολογία Clustering Feature- Χαρακτηριστικό Συσταδοποίησης Ο BIRCH δημιουργεί ένα ζυγισμένο δέντρο CF tree καθώς διατρέχει τα δεδομένα. Κάθε κόμβος στο CF tree αντιπροσωπεύει ένα cluster και χαρακτηρίζεται από μια CF τριάδα (N, LS, SS). 10 / 32

Ορισμοί Δεδομένης μια ομάδας από αντικείμενα , ορίζουμε: Κέντρο Δεδομένης μια ομάδας από αντικείμενα , ορίζουμε: Κέντρο Ακτίνα Μέση απόσταση των σημείων από το κέντρο Διάμετρος Μέση pair-wise απόσταση των σημείων μέσα στην ομάδα

BIRCH - Έννοιες και Ορολογία Clustering Feature Given N d-dimensional data points in a cluster,  Xi (i = 1, 2, 3, … , N) CF vector of the cluster is defined as a triple CF = (N,LS,SS): N - number of data points in the cluster LS - linear sum of the N data points SS - square sum of the N data points 11 / 32

BIRCH - Έννοιες και Ορολογία CF Tree ένα ισοζυγισμένο δέντρο με δύο παραμέτρους: - παράγοντα διακλάδωσης B - δοθέν κατώφλι T Κάθε εσωτερικός κόμβος αποτελείται από το πολύ B εγγραφές της μορφής [CFi, childi], όπου childi είναι δείκτης στο i-οστό κόμβο-παιδί και CFi είναι ένα CF της υποσυστάδας που αντιπροσωπεύεται από το παιδί. Κάθε εσωτερικός κόμβος αντιπροσωπεύει ένα cluster κατασκευασμένo από όλα τα subclusters που δημιουργούνται από αυτές τις εγγραφές. 12 / 32

BIRCH - Έννοιες και Ορολογία CF Tree Ένα φύλλο αποτελείται το πολύ από L εγγραφές της μορφής [CFi], όπου i = 1, 2, …, L . Αποτελείται από δύο δείκτες, prev and next, που ενώνουν όλα τα φύλλα μαζί για αποδοτικές σαρώσεις. Ένα φύλλο απεικονίζει ένα cluster φτιαγμένο από όλα τα subclusters που απεικονίζουν τις εγγραφές του. Όλες οι εγγραφές ενός φύλλου υπακούν σε ένα όριο που υποδεικνύεται από τη τιμή κατωφλίου T. Η διάμετρος ενός κόμβου φύλλου  μικρότερη από Τ. 13 / 32

BIRCH - Έννοιες και Ορολογία CF Tree 14 / 32

BIRCH - Έννοιες και Ορολογία CF Tree Το μέγεθος του CF Tree είναι μια συνάρτηση τουT (όσο μεγαλύτερο το T , τόσο μικρότερο το δέντρο). P (page size σε bytes) είναι το μέγιστο μέγεθος ενός κόμβου B και L καθορίζονται από το P (που μπορεί να είναι διαφορετικό για καλύτερη απόδοση). Πολύ συμπαγής αναπαράσταση του συνόλου δεδομένων, επειδή κάθε είσοδο σε ένα φύλλο δεν είναι ένα μεμονωμένο σημείο δεδομένων, αλλά ένα subcluster. 15 / 32

BIRCH - Έννοιες και Ορολογία CF Tree Το κάθε φύλλο περιέχει ένα cluster. Το μέγεθος του κάθε cluster σε ένα φύλλο δεν είναι μεγαλύτερο από Τ. 16 / 32

BIRCH algorithm Παράδειγμα CF Тree Αρχικά, τα δεδομένα αποτελούν ένα cluster root A A 17 / 32

BIRCH algorithm Παράδειγμα CF Тree Όταν φτάνουν τα δεδομένα, ελέγχουμε αν το μέγεθος του cluster δεν ξεπερνά το κατώφλι Τ. root A T A 18 / 32

BIRCH algorithm Παράδειγμα CF Тree Αν το μέγεθος του cluster μεγαλώνει αρκετά, τότε το cluster «σπάει» σε δύο και τα σημεία αναδιανέμονται. root A B B T A 19 / 32

BIRCH algorithm Παράδειγμα CF Тree Σε κάθε κόμβο, το CF δέντρο κρατά ως πληροφορία: το κέντρο του cluster και το Μ.Ο του αθροίσματος των τετραγώνων για να υπολογίζει σωστά το μέγεθος του cluster root A B B A 20 / 32

BIRCH algorithm Άλλο παράδειγμα CF Tree Insertion LN3 LN2 sc1 Root LN1 21 / 32

BIRCH algorithm Άλλο παράδειγμα CF Tree Insertion Αν ο παράγοντας διακλάδωσης του φύλλου υπερβαίνει το 3, τότε το LN1 χωρίζεται. sc7 sc6 LN3 sc5 sc4 LN2 Root LN1’’ LN1’ LN1’ LN1’’ LN2 LN3 sc3 sc1 sc2 sc8 sc8 sc1 sc2 sc3 sc4 sc5 sc6 sc7 22 / 32

BIRCH algorithm Άλλο παράδειγμα CF Tree Insertion Root LN3 NLN1 NLN2 sc5 sc4 sc7 LN2 sc6 NLN2 LN1’ LN1’’ LN2 LN3 LN1’’ NLN1 sc3 sc1 sc2 sc8 LN1’ sc8 sc1 sc2 sc3 sc4 sc5 sc6 sc7 23 / 32

BIRCH algorithm Φάση 1: Σάρωση όλων των δεδομένων και δημιουργία ενός αρχικού CF tree, χρησιμοποιώ-ντας τη δεδομένη ποσότητα της μνήμης και το χώρο στο δίσκο. Φάση 2: Συμπύκνωση στο επιθυμητό μήκος δημιουργώντας ένα μικρότερο CF Tree Φάση 3: Global clustering. Φάση 4: Cluster refining – αυτό είναι προαιρετι-κό, και απαιτεί περισσότερες σαρώσεις στα δεδομένα για βελτίωση των αποτελεσμάτων. 24 / 32

BIRCH algorithm 24 / 32

BIRCH algorithm Φάση 1 – Δημιουργία αρχικού CF tree Ξεκινά με ένα συγκεκριμένο κατώφλι, σκανάρει όλα τα δεδομένα και εισάγει τα σημεία στο δέντρο. Αν δεν υπάρχει αρκετή μνήμη, αυξάνουμε τη τιμή του κατωφλίου και κατασκευάζεται νέο μικρότερο CF tree εισάγοντας τα φύλλα του προηγούμενου στο μικρότερο. Καλή τιμή κατωφλίου: σημαντικό αλλά δύσκολα προβλέψιμο. Απομάκρυνση των outliers (όταν αναδομείται το δέντρο). 25 / 32

BIRCH algorithm Φάση 2 – Συμπύκνωση δεδομένων Προετοιμασία για τη Φάση 3. Υπάρχει ένα κενό μεταξύ του μεγέθους της Φάσης 1 και της εισόδου της φάσης 3. Σαρώνει τα φύλλα στο αρχικό CF tree για να δομήσει το μικρότερο, ενώ αφαιρεί περισσότερα outliners και ομαδοποιεί τα subclusters σε μεγαλύτερα. 26 / 32

BIRCH algorithm Φάση 3-Συσταδοποίηση Προβλήματα από τη Φάση 1: Η σειρά εισόδου επηρεάζει αρνητικά το αποτέλεσμα. Κάθε είσοδος περιορισμένο μέγεθος – πρόβλημα για συσταδοποίηση. Φάση 3: Χρησιμοποιεί ένα αλγόριθμο συσταδοποίησης. Κάθε φύλλο ως ξεχωριστό σημείο για τη συσταδοποίηση. 27 / 32

BIRCH algorithm Φάση 4 – Προαιρετικά Πρόσθετο πέρασμα από τα δεδομένα για διόρθωση ανακριβειών και συσπειρώσεις clusters Χρησιμοποιεί τα centroids των clusters από τη Φάση 3 και συσταδοποιεί εκ νέου τα σημεία Συγκλίνει σε ελάχιστο (ανεξάρτητα από το πλήθος των επαναλήψεων). Απομακρύνει τα outliers που είναι μακριά από το centroid. 28 / 32

BIRCH algorithm-Διαχείριση Μνήμης Η φάση 4 μπορεί να επιλύσει τυχόν ανακρίβειες που προήλθαν από την έλλειψη επαρκούς μνήμης Trade-off χώρου/χρόνου. Αν η διαθέσιμη μνήμη είναι λίγη, τότε αφιερώνουμε περισσότερο χρόνο στην φάση 4 28 / 32

Συμπεράσματα Πλεονεκτήματα O Birch πιο γρήγορος από άλλους (CLARANS and KMEANS) σε μεγάλα σύνολα δεδομένων. Φορτώνει όλα τα δεδομένα μόνο μια φορά. Διαχειρίζεται τα outliers καλύτερα. Ανώτερος από τους άλλους ως προς σταθερότητα και επεκτασιμότητα. 29 / 32

Συμπεράσματα Μειονεκτήματα Κάθε κόμβος μπορεί να χωρέσει μόνο ένα συγκεκριμένο αριθμό από σημεία λόγω μεγέθους – περιορισμός στη φυσική έννοια του cluster. Αν τα clusters δεν έχουν σφαιρικό σχήμα, δεν αποδίδει καλά γιατί χρησιμοποιεί την ακτίνα και τη διάμετρο για να ελέγξει τα όρια του cluster. 30 / 32

Βιβλιογραφία T. Zhang, R. Ramakrishnan and M. Livny: BIRCH : An Efficient Data Clustering Method for Very Large Databases T. Zhang, R. Ramakrishnan and M. Livny: A New Data Clustering Algorithm and Its Applications Faculty of Electrical Engineering, University of Belgrade, The BIRCH Algorithm, Davitkov Miroslav, 2011/3116 31 / 32