Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
1
Αλγόριθμος BIRCH
2
BIRCH – Ορισμός Balanced Iterative Reducing and Clustering using
Hierarchies 2 / 32
3
BIRCH – Ορισμός Ένας απρόβλεπτος αλγόριθμος εξόρυξης δεδομένων(data mining) χρησιμοποιώντας την ιεραρχική ομαδοποίηση(hierarchical clustering) σε ιδιαίτερα μεγάλα σύνολα δεδομένων. Μετρικά Δεδομένα Αυξητικός και ιεραρχικός 3 / 32
4
Data Clustering Cluster
Μια συλλογή από αντικείμενα δεδομένων που είναι παρόμοια το ένα με το άλλο και αντιμετωπίζονται συλλογικά ως ομάδα. Data Clustering – ομαδοποίηση ενός συνόλου δεδομένων σε clusters. 4 / 32
5
Data Clustering – Προβλήματα
Πολύ μεγάλα σύνολα δεδομένων για να χωρέσουν στην κύρια μνήμη. I/O εργασίες κοστίζουν περισσότερο (η πρόσβαση δίσκο είναι τάξεις μεγέθους μεγαλύτερη από ό, τι η πρόσβαση στη RAM) – Περιορισμένοι Υπολογιστικοί πόροι BIRCH προσφέρει I/O με γραμμικό κόστος σε σχέση με το μέγεθος του συνόλου δεδομένων. 5 / 32
6
Data Clustering – Κατηγορίες Αλγορίθμων
Αλγόριθμοι βασισμένοι σε πιθανότητες (COBWEB and CLASSIT) Αλγόριθμοι βασισμένοι σε μετρικές απόστασης(KMEANS, KMEDOIDS and CLARANS) 6 / 32
7
BIRCH Γενικά κάθε απόφαση για ομαδοποίηση γίνεται χωρίς σάρωση όλων των σημείων δεδομένων και των ήδη δημιουργημένων clusters. Δεν είναι όλα τα αντικείμενα το ίδιο σημαντικά για την ομαδοποίηση Χρησιμοποιεί όλη τη διαθέσιμη μνήμη για να επιτύχει γραμμικό χρόνο Ι/Ο απαιτώντας μια μόνο σάρωση της βάσης Το πρόβλημα μετασχηματίζεται στην ομαδοποίηση ενός συνόλου από “περιλήψεις” αντί ενός συνόλου αντικειμένων 7 / 32
8
BIRCH - Έννοιες και Ορολογία
Hierarchical clustering 8 / 32
9
BIRCH - Έννοιες και Ορολογία
Hierarchical clustering Ο αλγόριθμος ξεκινά με ένα μόνο σημείο( κάθε σημείο στη βάση δεδομένων θεωρείται ένα cluster) Μετά ομαδοποιεί τα κοντινότερα σημεία στο ίδιο cluster και συνεχίζει μέχρι να έχουμε ένα μόνο cluster. Ο υπολογισμός των clusters γίνεται στη χειρότερη περίπτωση σε O(n2) χρόνο. 9 / 32
10
BIRCH - Έννοιες και Ορολογία
Clustering Feature- Χαρακτηριστικό Συσταδοποίησης Ο BIRCH δημιουργεί ένα ζυγισμένο δέντρο CF tree καθώς διατρέχει τα δεδομένα. Κάθε κόμβος στο CF tree αντιπροσωπεύει ένα cluster και χαρακτηρίζεται από μια CF τριάδα (N, LS, SS). 10 / 32
11
Ορισμοί Δεδομένης μια ομάδας από αντικείμενα , ορίζουμε: Κέντρο
Δεδομένης μια ομάδας από αντικείμενα , ορίζουμε: Κέντρο Ακτίνα Μέση απόσταση των σημείων από το κέντρο Διάμετρος Μέση pair-wise απόσταση των σημείων μέσα στην ομάδα
12
BIRCH - Έννοιες και Ορολογία
Clustering Feature Given N d-dimensional data points in a cluster, Xi (i = 1, 2, 3, … , N) CF vector of the cluster is defined as a triple CF = (N,LS,SS): N - number of data points in the cluster LS - linear sum of the N data points SS - square sum of the N data points 11 / 32
13
BIRCH - Έννοιες και Ορολογία
CF Tree ένα ισοζυγισμένο δέντρο με δύο παραμέτρους: - παράγοντα διακλάδωσης B - δοθέν κατώφλι T Κάθε εσωτερικός κόμβος αποτελείται από το πολύ B εγγραφές της μορφής [CFi, childi], όπου childi είναι δείκτης στο i-οστό κόμβο-παιδί και CFi είναι ένα CF της υποσυστάδας που αντιπροσωπεύεται από το παιδί. Κάθε εσωτερικός κόμβος αντιπροσωπεύει ένα cluster κατασκευασμένo από όλα τα subclusters που δημιουργούνται από αυτές τις εγγραφές. 12 / 32
14
BIRCH - Έννοιες και Ορολογία
CF Tree Ένα φύλλο αποτελείται το πολύ από L εγγραφές της μορφής [CFi], όπου i = 1, 2, …, L . Αποτελείται από δύο δείκτες, prev and next, που ενώνουν όλα τα φύλλα μαζί για αποδοτικές σαρώσεις. Ένα φύλλο απεικονίζει ένα cluster φτιαγμένο από όλα τα subclusters που απεικονίζουν τις εγγραφές του. Όλες οι εγγραφές ενός φύλλου υπακούν σε ένα όριο που υποδεικνύεται από τη τιμή κατωφλίου T. Η διάμετρος ενός κόμβου φύλλου μικρότερη από Τ. 13 / 32
15
BIRCH - Έννοιες και Ορολογία
CF Tree 14 / 32
16
BIRCH - Έννοιες και Ορολογία
CF Tree Το μέγεθος του CF Tree είναι μια συνάρτηση τουT (όσο μεγαλύτερο το T , τόσο μικρότερο το δέντρο). P (page size σε bytes) είναι το μέγιστο μέγεθος ενός κόμβου B και L καθορίζονται από το P (που μπορεί να είναι διαφορετικό για καλύτερη απόδοση). Πολύ συμπαγής αναπαράσταση του συνόλου δεδομένων, επειδή κάθε είσοδο σε ένα φύλλο δεν είναι ένα μεμονωμένο σημείο δεδομένων, αλλά ένα subcluster. 15 / 32
17
BIRCH - Έννοιες και Ορολογία
CF Tree Το κάθε φύλλο περιέχει ένα cluster. Το μέγεθος του κάθε cluster σε ένα φύλλο δεν είναι μεγαλύτερο από Τ. 16 / 32
18
BIRCH algorithm Παράδειγμα CF Тree
Αρχικά, τα δεδομένα αποτελούν ένα cluster root A A 17 / 32
19
BIRCH algorithm Παράδειγμα CF Тree
Όταν φτάνουν τα δεδομένα, ελέγχουμε αν το μέγεθος του cluster δεν ξεπερνά το κατώφλι Τ. root A T A 18 / 32
20
BIRCH algorithm Παράδειγμα CF Тree
Αν το μέγεθος του cluster μεγαλώνει αρκετά, τότε το cluster «σπάει» σε δύο και τα σημεία αναδιανέμονται. root A B B T A 19 / 32
21
BIRCH algorithm Παράδειγμα CF Тree
Σε κάθε κόμβο, το CF δέντρο κρατά ως πληροφορία: το κέντρο του cluster και το Μ.Ο του αθροίσματος των τετραγώνων για να υπολογίζει σωστά το μέγεθος του cluster root A B B A 20 / 32
22
BIRCH algorithm Άλλο παράδειγμα CF Tree Insertion LN3 LN2 sc1 Root LN1
21 / 32
23
BIRCH algorithm Άλλο παράδειγμα CF Tree Insertion
Αν ο παράγοντας διακλάδωσης του φύλλου υπερβαίνει το 3, τότε το LN1 χωρίζεται. sc7 sc6 LN3 sc5 sc4 LN2 Root LN1’’ LN1’ LN1’ LN1’’ LN2 LN3 sc3 sc1 sc2 sc8 sc8 sc1 sc2 sc3 sc4 sc5 sc6 sc7 22 / 32
24
BIRCH algorithm Άλλο παράδειγμα CF Tree Insertion
Root LN3 NLN1 NLN2 sc5 sc4 sc7 LN2 sc6 NLN2 LN1’ LN1’’ LN2 LN3 LN1’’ NLN1 sc3 sc1 sc2 sc8 LN1’ sc8 sc1 sc2 sc3 sc4 sc5 sc6 sc7 23 / 32
25
BIRCH algorithm Φάση 1: Σάρωση όλων των δεδομένων και δημιουργία ενός αρχικού CF tree, χρησιμοποιώ-ντας τη δεδομένη ποσότητα της μνήμης και το χώρο στο δίσκο. Φάση 2: Συμπύκνωση στο επιθυμητό μήκος δημιουργώντας ένα μικρότερο CF Tree Φάση 3: Global clustering. Φάση 4: Cluster refining – αυτό είναι προαιρετι-κό, και απαιτεί περισσότερες σαρώσεις στα δεδομένα για βελτίωση των αποτελεσμάτων. 24 / 32
26
BIRCH algorithm 24 / 32
27
BIRCH algorithm Φάση 1 – Δημιουργία αρχικού CF tree
Ξεκινά με ένα συγκεκριμένο κατώφλι, σκανάρει όλα τα δεδομένα και εισάγει τα σημεία στο δέντρο. Αν δεν υπάρχει αρκετή μνήμη, αυξάνουμε τη τιμή του κατωφλίου και κατασκευάζεται νέο μικρότερο CF tree εισάγοντας τα φύλλα του προηγούμενου στο μικρότερο. Καλή τιμή κατωφλίου: σημαντικό αλλά δύσκολα προβλέψιμο. Απομάκρυνση των outliers (όταν αναδομείται το δέντρο). 25 / 32
28
BIRCH algorithm Φάση 2 – Συμπύκνωση δεδομένων
Προετοιμασία για τη Φάση 3. Υπάρχει ένα κενό μεταξύ του μεγέθους της Φάσης 1 και της εισόδου της φάσης 3. Σαρώνει τα φύλλα στο αρχικό CF tree για να δομήσει το μικρότερο, ενώ αφαιρεί περισσότερα outliners και ομαδοποιεί τα subclusters σε μεγαλύτερα. 26 / 32
29
BIRCH algorithm Φάση 3-Συσταδοποίηση Προβλήματα από τη Φάση 1:
Η σειρά εισόδου επηρεάζει αρνητικά το αποτέλεσμα. Κάθε είσοδος περιορισμένο μέγεθος – πρόβλημα για συσταδοποίηση. Φάση 3: Χρησιμοποιεί ένα αλγόριθμο συσταδοποίησης. Κάθε φύλλο ως ξεχωριστό σημείο για τη συσταδοποίηση. 27 / 32
30
BIRCH algorithm Φάση 4 – Προαιρετικά
Πρόσθετο πέρασμα από τα δεδομένα για διόρθωση ανακριβειών και συσπειρώσεις clusters Χρησιμοποιεί τα centroids των clusters από τη Φάση 3 και συσταδοποιεί εκ νέου τα σημεία Συγκλίνει σε ελάχιστο (ανεξάρτητα από το πλήθος των επαναλήψεων). Απομακρύνει τα outliers που είναι μακριά από το centroid. 28 / 32
31
BIRCH algorithm-Διαχείριση Μνήμης
Η φάση 4 μπορεί να επιλύσει τυχόν ανακρίβειες που προήλθαν από την έλλειψη επαρκούς μνήμης Trade-off χώρου/χρόνου. Αν η διαθέσιμη μνήμη είναι λίγη, τότε αφιερώνουμε περισσότερο χρόνο στην φάση 4 28 / 32
32
Συμπεράσματα Πλεονεκτήματα
O Birch πιο γρήγορος από άλλους (CLARANS and KMEANS) σε μεγάλα σύνολα δεδομένων. Φορτώνει όλα τα δεδομένα μόνο μια φορά. Διαχειρίζεται τα outliers καλύτερα. Ανώτερος από τους άλλους ως προς σταθερότητα και επεκτασιμότητα. 29 / 32
33
Συμπεράσματα Μειονεκτήματα
Κάθε κόμβος μπορεί να χωρέσει μόνο ένα συγκεκριμένο αριθμό από σημεία λόγω μεγέθους – περιορισμός στη φυσική έννοια του cluster. Αν τα clusters δεν έχουν σφαιρικό σχήμα, δεν αποδίδει καλά γιατί χρησιμοποιεί την ακτίνα και τη διάμετρο για να ελέγξει τα όρια του cluster. 30 / 32
34
Βιβλιογραφία T. Zhang, R. Ramakrishnan and M. Livny: BIRCH : An Efficient Data Clustering Method for Very Large Databases T. Zhang, R. Ramakrishnan and M. Livny: A New Data Clustering Algorithm and Its Applications Faculty of Electrical Engineering, University of Belgrade, The BIRCH Algorithm, Davitkov Miroslav, 2011/3116 31 / 32
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.