Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Αλγόριθμος BIRCH. B alanced I terative R educing and C lustering using H ierarchies 2 / 32 BIRCH – Ορισμός.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Αλγόριθμος BIRCH. B alanced I terative R educing and C lustering using H ierarchies 2 / 32 BIRCH – Ορισμός."— Μεταγράφημα παρουσίασης:

1 Αλγόριθμος BIRCH

2 B alanced I terative R educing and C lustering using H ierarchies 2 / 32 BIRCH – Ορισμός

3 Ένας απρόβλεπτος αλγόριθμος εξόρυξης δεδομένων(data mining) χρησιμοποιώντας την ιεραρχική ομαδοποίηση(hierarchical clustering) σε ιδιαίτερα μεγάλα σύνολα δεδομένων. 3 / 32 Μετρικά Δεδομένα Αυξητικός και ιεραρχικός

4 Data Clustering Cluster 4 / 32 o Μια συλλογή από αντικείμενα δεδομένων που είναι παρόμοια το ένα με το άλλο και αντιμετωπίζονται συλλογικά ως ομάδα. Data Clustering – ομαδοποίηση ενός συνόλου δεδομένων σε clusters.

5 o Πολύ μεγάλα σύνολα δεδομένων για να χωρέσουν στην κύρια μνήμη. 5 / 32 o I/O εργασίες κοστίζουν περισσότερο (η πρόσβαση δίσκο είναι τάξεις μεγέθους μεγαλύτερη από ό, τι η πρόσβαση στη RAM) – Περιορισμένοι Υπολογιστικοί πόροι o BIRCH προσφέρει I/O με γραμμικό κόστος σε σχέση με το μέγεθος του συνόλου δεδομένων. Data Clustering – Προβλήματα

6 6 / 32 Αλγόριθμοι βασισμένοι σε πιθανότητες (COBWEB and CLASSIT) Αλγόριθμοι βασισμένοι σε μετρικές απόστασης(KMEANS, KMEDOIDS and CLARANS) Data Clustering – Κατηγορίες Αλγορίθμων

7 7 / 32  κάθε απόφαση για ομαδοποίηση γίνεται χωρίς σάρωση όλων των σημείων δεδομένων και των ήδη δημιουργημένων clusters.  Δεν είναι όλα τα αντικείμενα το ίδιο σημαντικά για την ομαδοποίηση  Χρησιμοποιεί όλη τη διαθέσιμη μνήμη για να επιτύχει γραμμικό χρόνο Ι/Ο απαιτώντας μια μόνο σάρωση της βάσης  Το πρόβλημα μετασχηματίζεται στην ομαδοποίηση ενός συνόλου από “περιλήψεις” αντί ενός συνόλου αντικειμένων BIRCH Γενικά

8 8 / 32 BIRCH - Έννοιες και Ορολογία Hierarchical clustering

9 9 / 32  Ο αλγόριθμος ξεκινά με ένα μόνο σημείο( κάθε σημείο στη βάση δεδομένων θεωρείται ένα cluster)  Μετά ομαδοποιεί τα κοντινότερα σημεία στο ίδιο cluster και συνεχίζει μέχρι να έχουμε ένα μόνο cluster.  Ο υπολογισμός των clusters γίνεται στη χειρότερη περίπτωση σε O(n 2 ) χρόνο. BIRCH - Έννοιες και Ορολογία Hierarchical clustering

10 10 / 32  Ο BIRCH δημιουργεί ένα ζυγισμένο δέντρο CF tree καθώς διατρέχει τα δεδομένα.  Κάθε κόμβος στο CF tree αντιπροσωπεύει ένα cluster και χαρακτηρίζεται από μια CF τριάδα (N, LS, SS). BIRCH - Έννοιες και Ορολογία Clustering Feature- Χαρακτηριστικό Συσταδοποίησης

11 Ορισμοί Δεδομένης μια ομάδας από αντικείμενα, ορίζουμε: Κέντρο Ακτίνα Μέση απόσταση των σημείων από το κέντρο Διάμετρος Μέση pair-wise απόσταση των σημείων μέσα στην ομάδα

12 11 / 32 Given N d-dimensional data points in a cluster, X i (i = 1, 2, 3, …, N) CF vector of the cluster is defined as a triple CF = (N,LS,SS): - N - number of data points in the cluster - LS - linear sum of the N data points - SS - square sum of the N data points BIRCH - Έννοιες και Ορολογία Clustering Feature

13 ένα ισοζυγισμένο δέντρο με δύο παραμέτρους: - παράγοντα διακλάδωσης B - δοθέν κατώφλι T Κάθε εσωτερικός κόμβος αποτελείται από το πολύ B εγγραφές της μορφής [CF i, child i ], όπου child i είναι δείκτης στο i-οστό κόμβο-παιδί και CF i είναι ένα CF της υποσυστάδας που αντιπροσωπεύεται από το παιδί. Κάθε εσωτερικός κόμβος αντιπροσωπεύει ένα cluster κατασκευασμένo από όλα τα subclusters που δημιουργούνται από αυτές τις εγγραφές. 12 / 32 BIRCH - Έννοιες και Ορολογία CF Tree

14 Ένα φύλλο α π οτελείται το π ολύ α π ό L εγγραφές της μορφής [CF i ], ό π ου i = 1, 2, …, L. Αποτελείται από δύο δείκτες, prev and next, που ενώνουν όλα τα φύλλα μαζί για αποδοτικές σαρώσεις. 13 / 32 Ένα φύλλο απεικονίζει ένα cluster φτιαγμένο από όλα τα subclusters που απεικονίζουν τις εγγραφές του. τιμή κατωφλίου T Όλες οι εγγραφές ενός φύλλου υπακούν σε ένα όριο που υποδεικνύεται από τη τιμή κατωφλίου T. BIRCH - Έννοιες και Ορολογία CF Tree Η διάμετρος ενός κόμβου φύλλου  μικρότερη από Τ.

15 14 / 32 BIRCH - Έννοιες και Ορολογία CF Tree

16 Το μέγεθος του CF Tree είναι μια συνάρτηση τουT (όσο μεγαλύτερο το T, τόσο μικρότερο το δέντρο). Πολύ συμπαγής αναπαράσταση του συνόλου δεδομένων, επειδή κάθε είσοδο σε ένα φύλλο δεν είναι ένα μεμονωμένο σημείο δεδομένων, αλλά ένα subcluster. PP (page size σε bytes) είναι το μέγιστο μέγεθος ενός κόμβου B και L καθορίζονται από το P (που μπορεί να είναι διαφορετικό για καλύτερη απόδοση). 15 / 32 BIRCH - Έννοιες και Ορολογία CF Tree

17 Το κάθε φύλλο περιέχει ένα cluster. ΤΤο μέγεθος του κάθε cluster σε ένα φύλλο δεν είναι μεγαλύτερο από Τ. 16 / 32 BIRCH - Έννοιες και Ορολογία CF Tree

18 Παράδειγμα CF Тree Αρχικά, τα δεδομένα αποτελούν ένα cluster A root A 17 / 32 BIRCH algorithm

19 A root A T 18 / 32 BIRCH algorithm Παράδειγμα CF Тree Όταν φτάνουν τα δεδομένα, ελέγχουμε αν το μέγεθος του cluster δεν ξεπερνά το κατώφλι Τ.

20 root A T B AB 19 / 32 BIRCH algorithm Παράδειγμα CF Тree Αν το μέγεθος του cluster μεγαλώνει αρκετά, τότε το cluster «σπάει» σε δύο και τα σημεία αναδιανέμονται.

21 root A B AB 20 / 32 BIRCH algorithm Παράδειγμα CF Тree Σε κάθε κόμβο, το CF δέντρο κρατά ως πληροφορία: το κέντρο του cluster και το Μ.Ο του αθροίσματος των τετραγώνων για να υπολογίζει σωστά το μέγεθος του cluster

22 Άλλο παράδειγμα CF Tree Insertion 21 / 32 sc8 sc1 Root LN1LN2 LN3 sc3sc2sc4sc5sc7sc6 sc7 sc6 LN3 sc5 sc4 LN2 LN1 sc1 sc2 sc3 sc8 BIRCH algorithm

23 22 / 32 Αν ο παράγοντας διακλάδωσης του φύλλου υπερβαίνει το 3, τότε το LN1 χωρίζεται. sc8sc1 Root LN1’LN2LN3 sc3sc2sc4sc5sc7sc6 sc7 sc6 LN3 sc5 sc4 LN2 LN1’ sc1 sc2 sc3 sc8 LN1’’ Άλλο παράδειγμα CF Tree Insertion BIRCH algorithm

24 23 / 32 Αν ο παράγοντας διακλάδωσης ενός κόμβου υπερβαίνει το 3, τότε η ρίζα χωρίζεται και το ύψος του CF Δέντρου αυξάνεται κατά ένα. sc8sc1 Root LN1’LN2LN3 sc3sc2sc4sc5sc7sc6 sc7 sc6 LN3 sc5 sc4 LN2 LN1’ sc1 sc2 sc3 sc8 LN1’’ NLN2 NLN1 NLN2 Άλλο παράδειγμα CF Tree Insertion BIRCH algorithm

25 Φάση 1Φάση 1: Σάρωση όλων των δεδομένων και δημιουργία ενός αρχικού CF tree, χρησιμοποιώ- ντας τη δεδομένη ποσότητα της μνήμης και το χώρο στο δίσκο. Φάση 2Φάση 2: Συμπύκνωση στο επιθυμητό μήκος δημιουργώντας ένα μικρότερο CF Tree Φάση 3Φάση 3: Global clustering. Φάση 4Φάση 4: Cluster refining – αυτό είναι προαιρετι- κό, και απαιτεί περισσότερες σαρώσεις στα δεδομένα για βελτίωση των αποτελεσμάτων. 24 / 32 BIRCH algorithm

26 24 / 32 BIRCH algorithm

27 Φάση 1 – Δημιουργία αρχικού CF tree Ξεκινά με ένα συγκεκριμένο κατώφλι, σκανάρει όλα τα δεδομένα και εισάγει τα σημεία στο δέντρο. Αν δεν υπάρχει αρκετή μνήμη, αυξάνουμε τη τιμή του κατωφλίου και κατασκευάζεται νέο μικρότερο CF tree εισάγοντας τα φύλλα του προηγούμενου στο μικρότερο. Καλή τιμή κατωφλίου: σημαντικό αλλά δύσκολα προβλέψιμο. Απομάκρυνση των outliers (όταν αναδομείται το δέντρο). 25 / 32 BIRCH algorithm

28 Προετοιμασία για τη Φάση 3. Υπάρχει ένα κενό μεταξύ του μεγέθους της Φάσης 1 και της εισόδου της φάσης 3. Σαρώνει τα φύλλα στο αρχικό CF tree για να δομήσει το μικρότερο, ενώ αφαιρεί περισσότερα outliners και ομαδοποιεί τα subclusters σε μεγαλύτερα. 26 / 32 BIRCH algorithm Φάση 2 – Συμπύκνωση δεδομένων

29 Προβλήματα από τη Φάση 1: –Η σειρά εισόδου επηρεάζει αρνητικά το αποτέλεσμα. –Κάθε είσοδος περιορισμένο μέγεθος – πρόβλημα για συσταδοποίηση. Φάση 3: –Χρησιμοποιεί ένα αλγόριθμο συσταδοποίησης. –Κάθε φύλλο ως ξεχωριστό σημείο για τη συσταδοποίηση. 27 / 32 BIRCH algorithm Φάση 3-Συσταδοποίηση

30 Πρόσθετο πέρασμα από τα δεδομένα για διόρθωση ανακριβειών και συσπειρώσεις clusters Χρησιμοποιεί τα centroids των clusters από τη Φάση 3 και συσταδοποιεί εκ νέου τα σημεία Συγκλίνει σε ελάχιστο (ανεξάρτητα από το πλήθος των επαναλήψεων). Απομακρύνει τα outliers που είναι μακριά από το centroid. 28 / 32 BIRCH algorithm Φάση 4 – Προαιρετικά

31 Η χρήση της μνήμης από τον BIRCH εξαρτάται από την κατανομή των δεδομένων και όχι από το πλήθος τους Στις φάσεις 1-3, ο BIRCH χρησιμοποιεί όλη την διαθέσιμη μνήμη για να δημιουργήσει όσο το δυνατόν πιο συμπαγείς ομάδες Η φάση 4 μπορεί να επιλύσει τυχόν ανακρίβειες που προήλθαν από την έλλειψη επαρκούς μνήμης Trade-off χώρου/χρόνου. Αν η διαθέσιμη μνήμη είναι λίγη, τότε αφιερώνουμε περισσότερο χρόνο στην φάση 4 28 / 32 BIRCH algorithm -Διαχείριση Μνήμης

32 O Birch πιο γρήγορος από άλλους (CLARANS and KMEANS) σε μεγάλα σύνολα δεδομένων. Φορτώνει όλα τα δεδομένα μόνο μια φορά. Διαχειρίζεται τα outliers καλύτερα. Ανώτερος από τους άλλους ως προς σταθερότητα και επεκτασιμότητα. 29 / 32 Πλεονεκτήματα Συμπεράσματα

33 Κάθε κόμβος μπορεί να χωρέσει μόνο ένα συγκεκριμένο αριθμό από σημεία λόγω μεγέθους – περιορισμός στη φυσική έννοια του cluster. Αν τα clusters δεν έχουν σφαιρικό σχήμα, δεν αποδίδει καλά γιατί χρησιμοποιεί την ακτίνα και τη διάμετρο για να ελέγξει τα όρια του cluster. 30 / 32 Μειονεκτήματα Συμπεράσματα

34 T. Zhang, R. Ramakrishnan and M. Livny: BIRCH : An Efficient Data Clustering Method for Very Large Databases T. Zhang, R. Ramakrishnan and M. Livny: A New Data Clustering Algorithm and Its Applications Faculty of Electrical Engineering, University of Belgrade, The BIRCH Algorithm, Davitkov Miroslav, 2011/ / 32 Βιβλιογραφία


Κατέβασμα ppt "Αλγόριθμος BIRCH. B alanced I terative R educing and C lustering using H ierarchies 2 / 32 BIRCH – Ορισμός."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google