Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης."— Μεταγράφημα παρουσίασης:

1 Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης

2 K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης προσδιορίζεται Υλοποιείται από μια επαναληπτική διαδικασία με αρχική τυχαία διαμέριση και αναθεωρείται μέχρι να φτάσουμε στη βέλτιστη ποιότητα k-windows: ασχολείται μ’ αυτό το πρόβλημα χρησιμοποιώντας τη τεχνική Παραθύρων (επιτρέπει την εξέταση μόνο ενός ορισμένου αριθμού στοιχείων σε κάθε επανάληψη)

3 k-windows τροποποίηση του κλασσικού αλγορίθμου συσταδοποίησης k-means στόχος: καλύτερη χρονική πολυπλοκότητα μεγαλύτερη ακρίβεια στο χωρισμό των clusters Σύλληψη όλων των στοιχείων που ανήκουν σ’ ένα cluster μέσα στο d-διάστατο window Κεντρική Ιδέα: χρήση ενός window για να καθοριστεί ένα cluster. 3

4 The window Είναι μια ορθογώνια περιοχή στο d- διαστάσεων Ευκλείδιο Χώρο, όπου το d είναι ο αριθμός των διαφορετικών αριθμητικών χαρακτηριστικών Κάθε window είναι ένα d-range μιας σταθερής α και έχει συγκεκριμένο μέγεθος Προσπαθούμε να τοποθετήσουμε ένα d- διαστάσεων window έτσι ώστε να περιέχει όλα τα στοιχεία που ανήκουν σε ένα μόνο cluster 4

5 Διαδικασίες Movement-Μετακίνηση στόχος: τοποθέτηση κάθε window όσο γίνεται πιο κοντά στο κέντρο του cluster Κάθε window μετακινείται μέσα στον Ευκλείδειο Χώρο για να κεντράρει τον εαυτό του ανάλογα με το μέσο όρο των σημείων που περιλαμβάνει. 5

6 Διαδικασίες Enlargement-Διεύρυνση Βελτίωση της ποιότητας του κάθε window Προσπάθεια αύξησης του window έτσι ώστε να περιλαμβάνει όσο το δυνατόν περισσότερα στοιχεία της τρέχουσας συστάδας. 6

7 Διαδικασίες Μετακινήσεις και διευρύνσεις σε ένα παράθυρο 7 Διαδικασίες

8 Αλγόριθμος 8

9 Α΄Φάση 1. k κέντρα επιλέγονται(ίσως και με τυχαίο τρόπο). Τα d-range έχουν σα κέντρα τα k μέσα και καθένα είναι στη περιοχή α 2. Βρίσκουμε τα σημεία που ανήκουν σε καθένα από τα d-range(χρήση του range tree) 3. Ο μέσος όρος των σημείων που ανήκουν στο παράθυρο υπολογίζεται! Κάθε τέτοιος όρος καθορίζει ένα νέο d-range. 4. Επανάληψη των 2,3 μέχρι να μην έχουμε μετακίνηση. 9

10 Range-tree Ταξινομημένη tree data structure που κρατά ένα κατάλογο σημείων Τοποθετεί όλα τα σημεία σε μια δεδομένη περιοχή όπου πρόκειται να κρατηθούν αποτελεσματικά 10

11 Αλγόριθμος Β΄Φάση: υπολογισμός της ποιότητας 1. Τα d-ranges αυξάνονται προκειμένου να περιέχουν όσο δυνατό περισσότερα στοιχεία από το cluster, διατηρώντας το μέσο όρο τους κατά τη διάρκεια της διερεύνησης. 2. If r < v τότε επαναϋπολογίζω το παράθυρο 3. Αυξάνω και τη περιοχή σε α΄ > α ή ξεκινώ με διαφορετικά αρχικά kmeans. 11

12 Παράδειγμα a) Έχουμε 3 clusters και 6 windows b) Μετά τη συγχώνευση, ο αλγόριθμος έχει προσδιορίσει σωστά τις 3 συστάδες 12

13 k-Windows – Βασικά βήματα 13 Move windows to find cluster centers (fig a) 1.Select k points as centers of d-windows of size a. 2.Window means becomes new center. 3.Repeat until stopping criterion (movement of center). Enlarge windows to determine cluster edges (fig b) 1.Enlarge one dimension by a specified percent. 2.Relocate window as above. 3.Keep only if increase in instances in window exceeds threshold

14 Unsupervised K-Windows (UKW) 14 Ξεκινάμε με ένα αρκετά μεγάλο αριθμό παραθύρων Συγχώνευση για να καθοριστεί αυτόματα ο αριθμός των clusters Για κάθε ζευγάρι επικαλυπτόμενων παραθύρων, υπολογίζω το ποσοστό % επικάλυψης για κάθε παράθυρο a)Μεγάλη επικάλυψη, θεωρείται ίδιο cluster, το W1 διαγράφεται. b)Πολλά σημεία από κοινού, θεωρείται το ίδιο cluster. c)Μικρή επικάλυψη, θεωρούνται δύο διαφορετικά clusters.

15 k-windows Πλεονεκτήματα Μειώνει τον αριθμό των σημείων που πρέπει να εξεταστούν για πιθανή ομοιότητα Μικρή Χρονική πολυπλοκότητα Αποτελέσματα υψηλής ποιότητας Μειονεκτήματα Δε μπορεί να εφαρμοστεί σε «μεγάλες» τοποθετήσεις λόγω υπερ-γραμμικών απαιτήσεων για το range tree. 15

16 16 k-means Vs k-windows Ο πιο διαδεδομένος Συχνά συγκλίνει σε τοπικό ελάχιστο Υπολογιστικά μπορεί να είναι πολύ δαπανηρός Καλύτερος χρόνος εκτέλεσης Καλύτερη ακρίβεια διαίρεσης αντικειμένων Μπορεί να βρει τον κατάλληλο αριθμό συστάδων Μπορεί εύκολα να εκτελεστεί παράλληλα


Κατέβασμα ppt "Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google