Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Ανάλυση συστάδων: βασικές έννοιες και αλγόριθμοι

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Ανάλυση συστάδων: βασικές έννοιες και αλγόριθμοι"— Μεταγράφημα παρουσίασης:

1 Ανάλυση συστάδων: βασικές έννοιες και αλγόριθμοι
Κεφάλαιο 8 Εξόρυξη δεδομένων by Tan, Steinbach, Kumar © Tan,Steinbach, Kumar Introduction to Data Mining /18/

2 Τι είναι συσταδοποίηση?
Εύρεση συστάδων (ομάδων) αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε συστάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων συστάδων Οι αποστάσεις μέσα στη συστάδα ελαχιστοποιούνται Οι αποστάσεις ανάμεσα στις συστάδες μεγιστοποιούνται

3 Εφαρμογές Κατανόηση Περίληψη (summarization)
ομαδοποίηση γονιδίων και πρωτεϊνών που έχουν την ίδια λειτουργία, εικόνες, χαρακτηριστικά ασθενειών μετοχών με παρόμοια διακύμανση τιμών, ομαδοποίηση weblog για εύρεση παρόμοιων προτύπων προσπέλασης, ομαδοποίηση σχετιζόμενων αρχείων για browsing, ομαδοποίηση κειμένων πελάτες με παρόμοια συμπεριφορά Περίληψη (summarization) Μείωση μεγέθους μεγάλων datasets Συσταδοποίηση επιπέδου βροχής στην Australia

4 Τι δεν είναι συσταδοποίηση?
Κατηγοριοποίηση με επίβλεψη Have class label information Απλή κατάτμηση Κατάτμηση φοιτητών σε διαφορετικά γκρουπ αλφαβητικά, με βάση το επώνυμο Αποτελέσματα ενός query Groupings are a result of an external specification Κατάτμηση γράφων Some mutual relevance and synergy, but areas are not identical

5 Ασάφεια Πόσες συστάδες? 6 συστάδες 2 συστάδες 4 συστάδες

6 Πότε μια συσταδοποίηση είναι καλή?
Μια μέθοδος συσταδοποίησης είναι καλή αν παράγει συστάδες καλής ποιότητας Μεγάλη ομοιότητα εντός της συστάδας και Μικρή ομοιότητα ανάμεσα στις συστάδες Η ποιότητα εξαρτάται από τη Μέτρηση ομοιότητας και Μέθοδο υλοποίησης της συσταδοποίησης

7 Είδη συσταδοποίησης Μια συσταδοποίηση είναι ένα σύνολο από συστάδες
Βασική διάκριση ανάμεσα σε ιεραρχικό (hierarchical) και διαχωριστικό (partitional) σύνολο από συστάδες Διαχωριστική Συσταδοποίηση (Partitional Clustering) Ένας διαμερισμός των αντικειμένων σε μη επικαλυπτόμενα - non- overlapping - υποσύνολα (συστάδες) τέτοιος ώστε κάθε αντικείμενο ανήκει σε ακριβώς ένα υποσύνολο Ιεραρχική Συσταδοποίηση (Hierarchical clustering) Ένα σύνολο από εμφωλευμένες (nested) ομάδες. Επιτρέπουμε σε μια συστάδα να έχει υπο-συστάδες οργανωμένες σε ένα ιεραρχικό δέντρο.

8 Διαχωριστική Συσταδοποίηση
Διαχωριστική συσταδοποίηση Αρχικά σημεία

9 Ιεραρχική συσταδοποίηση
Ιεραρχική Συσταδοποίηση Παραδοσιακό δενδρόγραμμα (dendrogram) Μη ιεραρχική συσταδοποίηση Μη παραδοσιακό δενδρόγραμμα

10 Άλλες διακρίσεις μεταξύ συνόλων συστάδων
Αποκλειστικές vs μη-αποκλειστικές Στις μη αποκλειστικές συστάδες τα σημεία μπορεί να ανήκουν σε πολλαπλές συστάδες. Μπορεί να αναπαραστούν πολλαπλές κλάσεις ή οριακά σημεία Ασαφείς (Fuzzy) vs μη-ασαφή Στην ασαφή συσταδοποίηση ένα σημείο ανήκει σε κάθε συστάδα με ένα βάρος μεταξύ 0 και 1 Το άθροισμα των βαρών είναι 1 Η πιθανοτική συσταδοποίηση έχει παρόμοια χαρακτηριστικά Μερική και πλήρης Σε μερικές περιπτώσεις θέλουμε να συσταδοποιήσουμε μερικά μόνο δεδομένα Ετερογενείς και ομογενείς Συστάδες διαφορετικών μεγεθών, σχημάτων και πυκνοτήτων

11 Είδη συστάδων Καλώς Διαχωρισμένες Συστάδες
Συστάδες βασισμένες σε κέντρο ή πρότυπο Συνεχείς Συστάδες Συστάδες βασισμένες στην πυκνότητα Εννοιολογική συσταδοποίηση Συστάδες βασισμένες σε μια Αντικειμενική Συνάρτηση

12 Τύποι συστάδων: Καλώς Διαχωρισμένες Συστάδες
Καλώς Διαχωρισμένες Συστάδες: Μια συστάδα είναι ένα σύνολο από σημεία τέτοια ώστε κάθε σημείο μιας συστάδας είναι κοντινότερο σε (ή πιο όμοιο με) όλα τα άλλα σημεία της συστάδας από ότι σε οποιοδήποτε άλλο σημείο που δεν ανήκει στη συστάδα. 3 καλώς διαχωρισμένες συστάδες

13 Types of Clusters: Center-Based
Μια συστάδα είναι ένα σύνολο από αντικείμενα τέτοιο ώστε ένα αντικείμενο στην συστάδα είναι κοντινότερο σε (ή πιο όμοιο με) το «κέντρο» ή πρότυπο της συστάδας από ότι από το κέντρο οποιασδήποτε άλλης συστάδας. Το κέντρο της ομάδας είναι συχνά centroid, ο μέσος όρος των σημείων της συστάδας, ή a medoid, το πιο «αντιπροσωπευτικό» σημείο της συστάδας (πχ όταν κατηγορικά γνωρίσματα) 4 συστάδες βασισμένες σε κέντρο

14 Τύποι συστάδων: Συνεχείς Συστάδες
Συνεχής Συστάδες (Contiguous Cluster) (Κοντινότερος γείτονα ή μεταβατικά) – Βάσει γειτνίασης Μια συστάδα είναι ένα σύνολο σημείων τέτοιο ώστε κάθε σημείο είναι πιο κοντά σε ένα ή περισσότερα σημεία της συστάδας από ό,τι σε οποιοδήποτε άλλο σημείο εκτός συστάδας Συχνά σε περιπτώσεις συστάδων με μη κανονικό σχήμα ή με αλληλοπλεκόμενα σχήματα – ή όταν έχουμε γραφήματα και θέλουμε να βρούμε συνεκτικά υπογραφήματα Πρόβλημα με θόρυβο 8 συνεχείς συστάδες

15 Τύποι συστάδων: Συστάδες βασισμένες στην πυκνότητα
Μια συστάδα είναι μια πυκνή περιοχή από σημεία την οποία χωρίζουν από άλλες περιοχές μεγάλης πυκνότητας περιοχές χαμηλής πυκνότητας Συχνά σε περιπτώσεις συστάδων με μη κανονικό σχήμα ή με αλληλοπλεκόμενα σχήματα ή όταν θόρυβος ή outliers 6 συστάδες βασισμένες στην πυκνότητα

16 Τύποι συστάδων: Εννοιολογική συσταδοποίηση
Συστάδες με κοινή ιδιότητα ή εννοιολογικές συστάδες. Εντοπίζει συστάδες που μοιράζονται τα ίδια χαρακτηριστικά ή αντιπροσωπεύουν ένα συγκεκριμένο concept. 2 επικαλυπτόμενοι κύκλοι

17 Τύποι συστάδων: Συστάδες βασισμένες σε μια Αντικειμενική Συνάρτηση
Εύρεση συστάδων που ελαχιστοποιούν ή μεγιστοποιούν μια αντικειμενική συνάρτηση Απαρίθμηση όλων των δυνατών τρόπων χωρισμού των σημείων σε συστάδες και υπολογισμού του «πόσο καλό» (“goodness”) είναι κάθε πιθανό σύνολο από συστάδες χρησιμοποιώντας τη δοθείσα αντικειμενική συνάρτηση (NP-hard) Οι στόχοι (objectives) μπορεί να είναι ολικοί (global) ή τοπικοί (local) . Οι ιεραρχικοί συνήθως τοπικού Οι διαχωριστικοί ολικές

18 Τύποι συστάδων: Συστάδες βασισμένες σε μια Αντικειμενική Συνάρτηση…
Αντιστοίχισε το πρόβλημα συσταδοποίησης σε μια διαφορετική περιοχή και λύσε το πρόβλημα σε εκείνη την περιοχή. Η μήτρα απόστασης ορίζει έναν γράφο με βάρη, όπου οι κόμβοι είναι τα σημεία για συσταδοποίηση και οι ακμές είναι οι αποστάσεις μεταξύ των σημείων. Η συσταδοποίηση είναι ισοδύναμη με το σπάσιμο του γράφου σε connected components, έναν για κάθε συστάδα. Στόχος είναι η ελαχιστοποίηση των βαρών των ακμών μεταξύ σημείων της ίδιας συστάδας και η μεγιστοποίηση μεταξύ διαφορετικών συστάδων.

19 Τα χαρακτηριστικά των δεδομένων είναι πολύ σημαντικά
Είδος μέτρησης της εγγύτητας (proximity) ή πυκνότητας (density) Συμπληρωματικό αλλά σημαντικό για την συσταδοποίηση Αραιότητα (Sparseness) Ορίζει τύπο εγγύτητας Επιτυγχάνει απόδοση Είδος ιδιοτήτων (πχ, συνεχόμενα, κατηγορικά, κλπ) Καθορίζει τύπο εγγύτητας Είδος δεδομένων (πχ κείμενο, σημεία στον χάρτη, κλπ) Other characteristics, e.g., autocorrelation Μέγεθος διαστάσεων (Dimensionality) Θόρυβος και outliers Είδος κατανομής

20 Αλγόριθμοι συσταδοποίησης
K-means και παραλλαγές Ιεραρχική συσταδοποίηση Συσταδοποίηση με βάση την πυκνότητα Density- based clustering - DBSCAN

21 K-means Clustering Διαχωριστικός αλγόριθμος
(βασισμένος σε πρότυπο) Κάθε συστάδα συσχετίζεται με ένα κεντρικό σημείο (centroid) Κάθε σημείο ανατίθεται στη συστάδα με το κοντινότερο κεντρικό σημείο Ο αριθμός των ομάδων, Κ, είναι είσοδος στον αλγόριθμο Ο βασικός αλγόριθμος είναι πολύ απλός 1: Επιλογή Κ σημείων ως τα αρχικά κεντρικά σημεία 2: Repeat 3: Ανάθεση όλων των αρχικών σημείων στο κοντινότερο τους από τα K κεντρικά σημεία 4: Επανα-υπολογισμός του κεντρικού σημείου κάθε συστάδας 5: Until τα κεντρικά σημεία να μην αλλάζουν

22 K-means Clustering – Λεπτομέρειες
1. Τα αρχικά κεντρικά σημεία συνήθως επιλέγονται τυχαία. Οι συστάδες που παράγονται διαφέρουν από το ένα τρέξιμο του αλγορίθμου στο άλλο . Το κεντρικό σημείο είναι (συνήθως) ο μέσος των σημείων της συστάδας. το οποίο μπορεί να μην είναι ένα από τα δεδομένα εισόδου Η εγγύτητα των σημείων υπολογίζεται με βάση κάποια απόσταση που εξαρτάται από το είδος των σημείων (cosine similarity, Euclidian distance, etc.), στα παραδείγματα θα θεωρήσουμε την Ευκλείδεια απόσταση Ο K-means συγκλίνει για κοινές μετρικές αποστάσεων. Η σύγκλιση συμβαίνει σε λίγες επαναλήψεις. Συνήθως το κριτήριο διακοπής αλλάζει σε «Μέχρι σχετικά λίγα σημεία αλλάξουν συστάδες» ή η απόσταση μεταξύ των νέων κεντρικών σημείων από τα παλιά να είναι μικρή

23 Πολυπλοκότητα χώρου-χρόνου
Χώρος: αποθηκεύουμε μόνα τα κέντρα Η πολυπλοκότητα είναι O(I * n * K * d) n = αριθμός σημείων, K = αριθμός συστάδων, I = αριθμός επαναλήψεων, d = αριθμός γνωρισμάτων (διάσταση)

24 K-means: Βασικός Αλγόριθμος
Αρχική κατάσταση, Κ = 3 συστάδες Αρχικά σημεία k1, k2, k3

25 K-means: Βασικός Αλγόριθμος
Τα σημεία ανατίθενται στο πιο γειτονικό από τα 3 αρχικά σημεία

26 K-means: Βασικός Αλγόριθμος
Επανα-υπολογισμός του κέντρου (κέντρου βάρους) κάθε σημείου

27 K-means: Βασικός Αλγόριθμος
Νέα ανάθεση των σημείων Νέα κέντρα βάρους

28 K-means: Βασικός Αλγόριθμος
Δεν αλλάζει τίποτα -> ΤΕΛΟΣ

29 Two different K-means Clusterings
Original Points Optimal Clustering Sub-optimal Clustering

30 Importance of Choosing Initial Centroids

31 Importance of Choosing Initial Centroids

32 K-means Εκτίμηση ποιότητας
Η πιο συνηθισμένη μέτρηση είναι το άθροισμα των τετράγωνων του λάθους (Sum of Squared Error (SSE)) Για κάθε σημείο, το λάθος είναι η απόστασή του από την κοντινότερη συστάδα Για να πάρουμε το SSE, παίρνουμε το τετράγωνο αυτών των λαθών και τα προσθέτουμε Όπου dist Ευκλείδεια απόσταση, x είναι ένα σημείο στη συστάδα Ci και mi είναι ο αντιπρόσωπος (κεντρικό σημείο) της συστάδας Ci c Μπορούμε να δείξουμε ότι το σημείο που ελαχιστοποιεί το SSE για τη συστάδα είναι ο μέσος όρος ci = 1/mi Σ x Ci x Δοθέντων δύο συστάδων, μπορούμε να επιλέξουμε αυτήν με το μικρότερο λάθος

33 K-means Εκτίμηση ποιότητας
Ένας τρόπος να βελτιώσουμε τη συσταδοποίηση (ελάττωση του SSE) είναι να μεγαλώσουμε το K Αλλά γενικά μια καλή συσταδoποίηση με μικρό Κ μπορεί να έχει μικρότερο SSE από μια κακή συσταδοποίηση με μεγάλο K

34 Importance of Choosing Initial Centroids …

35 Importance of Choosing Initial Centroids …

36 Problems with Selecting Initial Points
Αν υπάρχουν K «πραγματικές συστάδες» η πιθανότητα να επιλέξουμε ένα κέντρο από κάθε συστάδα είναι μικρή, συγκεκριμένα αν όλες οι συστάδες έχουν το ίδιο μέγεθος n, τότε: Π.χ., εαν K = 10, τότε πιθανότητα = 10!/1010 = Μερικές φορές τα αρχικά κέντρα θα επαναπροσδιορίσουν τον εαυτό τους και μερικές φορές όχι Δείτε το παράδειγμα με 5 ζεύγη συστάδων

37 10 Clusters Example Starting with two initial centroids in one cluster of each pair of clusters

38 10 Clusters Example Starting with two initial centroids in one cluster of each pair of clusters

39 10 Clusters Example Starting with some pairs of clusters having three initial centroids, while other have only one.

40 10 Clusters Example Starting with some pairs of clusters having three initial centroids, while other have only one.

41 Λύσεις για την επιλογή αρχικών σημείων
Πολλαπλά τρεξίματα Βοηθά, αλλά οι πιθανότητες δεν είναι με το μέρος μας Δειγματοληψία και χρήση κάποιας ιεραρχικής τεχνικής Επιλογή παραπάνω από k αρχικών σημείων και μετά επιλογή k από αυτά τα αρχικά κεντρικά σημεία (πχ τα πιο απομακρυσμένα μεταξύ τους) Postprocessing Bisecting K-means (με διχοτόμηση) Not as susceptible to initialization issues

42 Άδειες συστάδες Βασικός αλγόριθμος μπορεί να οδηγήσει σε άδειες αρχικές συστάδες Πολλές στρατηγικές Επιλογή του σημείου που είναι πιο μακριά από όλα τα τωρινά κέντρα = επιλογή του σημείου που συμβάλει περισσότερο στο SSE Ένα σημείο από τη συστάδα με το υψηλότερο SSE – θα οδηγήσει σε «σπάσιμο» της άρα σε μείωση του λάθους Αν πολλές άδειες συστάδες, τα παραπάνω βήματα μπορεί να επαναληφθούν πολλές φορές

43 Άδειες συστάδες 2 φυσικές συστάδες

44 Άδειες συστάδες Έστω ότι k=3 και αρχικά κέντρα τα σημεία 3, 5 και 6

45 Άδειες συστάδες Μετά την πρώτη επανάληψη, 3 συστάδες
3,2,1 και 7 (κόκκινη) 4,5 (μπλε) 6 (πράσινη) Σημείωση: το 4 «πάει» στον μπλε, γιατί είναι πιο κοντά στο 5 από ότι στο 3

46 Άδειες συστάδες Το κόκκινο κέντρο πιο κοντά στο 4 λόγω των 1,2,7
Το κόκκινο κέντρο πιο κοντά στο 4 λόγω των 1,2,7 Το μπλε κέντρο πιο μακρυά από το 5 λόγω του 4

47 Άδειες συστάδες Στην τελευταία επανάληψη, το 4 είναι πιο κοντά στο κέντρο του κόκκινου και το 5 πιο κοντά στο κέντρο του πράσινου Ο μπλε μένει χωρίς σημεία!

48 Σταδιακή ενημέρωση κεντρικών σημείων
Στο βασικό Κ-means, το κέντρα ενημερώνεται αφού όλο τα σημεία έχουν ανατεθεί στο κέντρο Μια παραλλαγή είναι να ενημερώνονται τα κέντρα μετά από κάθε ανάθεση (incremental approach) Κάθε ανάθεση ενημερώνει 0 ή 2 κέντρα Πιο δαπανηρό Έχει σημασία η σειρά εισαγωγής/εξέτασης των σημείων Δεν υπάρχουν άδειες συστάδες Μπορεί να χρησιμοποιηθούν βάρη – αν υπάρχει κάποια τυχαία αντικειμενική συνάρτηση – έλεγχος τι συμφέρει κάθε φορά

49 Προ και Μετα Επεξεργασία
Ολικό SSE και SSE Συστάδας Προ-επεξεργασία Κανονικοποίηση των δεδομένων Απομάκρυνση outliers Post-processing Split-Merge (διατηρώντας το ίδιο K) Διαχωρισμός (split) συστάδων με το σχετικά μεγαλύτερο SSE Δημιουργία μια νέας συστάδας: πχ επιλέγοντας το σημείο που είναι πιο μακριά από όλα τα κέντρα ή τυχαία επιλογή σημείου ή επιλογή του σημείου με το μεγαλύτερο SSE Συνένωση (merge) συστάδων που είναι σχετικά κοντινές (τα κέντρα τους έχουν την μικρότερη απόσταση) ή τις δυο συστάδες που οδηγούν στην μικρότερη αύξηση του SSE Διαγραφή συστάδας και ανακατανομή των σημείων της σε άλλες συστάδες (αυτό που οδηγεί στην μικρότερη αύξηση του SSE)

50 K-means με διχοτόμηση (bisecting k-means)
Παραλλαγή που μπορεί να παράγει μια διαχωριστική ή ιεραρχική συσταδοποίηση

51 Bisecting K-means Example

52 K-means: Περιορισμοί O K-means έχει προβλήματα όταν οι συστάδες έχουν
Διαφορετικά Μεγέθη Διαφορετικές Πυκνότητες Non-globular shapes Έχει προβλήματα όταν τα δεδομένα έχουν outliers

53 K-means: Περιορισμοί – διαφορετικά μεγέθη
Original Points K-means (3 Clusters) Δεν μπορεί να βρει το μεγάλο κόκκινο, γιατί είναι πολύ μεγαλύτερος από τους άλλους

54 K-means: Περιορισμοί – διαφορετικές πυκνότητες
Original Points K-means (3 Clusters) Δεν μπορεί να διαχωρίσει τους δυο μικρούς γιατί είναι πολύ πυκνοί σε σχέση με τον ένα μεγάλο

55 K-means: Περιορισμοί – μη κυκλικά σχήματα
Original Points K-means (2 Clusters) Δεν μπορεί να βρει τις δύο συστάδες γιατί έχουν μη κυκλικά σχήματα

56 Ξεπερνώντας τους περιορισμούς
Original Points K-means Clusters Μια λύση είναι να χρησιμοποιηθούν πολλές συστάδες Βρίσκει τμήματα των συστάδων, αλλά πρέπει να τα συγκεντρώσουμε

57 Overcoming K-means Limitations
Original Points K-means Clusters

58 Overcoming K-means Limitations
Original Points K-means Clusters

59 Παρένθεση – Ορισμοί Μια παρένθεση Μέση τιμή Απόσταση

60 Γενική Τάση Αριθμητικό Μέσο/Μέση Τιμή- Mean (αλγεβρική μέτρηση) (sample vs. population): Αριθμητικό μέσο με βάρος (Weighted arithmetic mean) Trimmed mean: κόβουμε τις ακραίες τιμές (πχ τα μεγαλύτερα και μικρότερα (p/2)%) Μέσο – μεσαία τιμή (median) - διάμεσο: Μεσαία τιμή αν μονός αριθμός, ο μέσος όρος των δυο μεσαίων τιμών, αλλιώς Το μέσο συμπεριφέρεται καλύτερα όταν δεδομένα με μη ομοιόμορφη κατανομή (skewed) Παράδειγμα Μέσο (3+4)/2 = 3.5 Μέση τιμή ( )/6 = 17.5 Trimmed 40%

61 Γενική Τάση Mode Η τιμή που εμφανίζεται πιο συχνά στα δεδομένα
Η τιμή που εμφανίζεται πιο συχνά στα δεδομένα Unimodal, bimodal, trimodal (πιο συχνά εμφανίζεται μία, δύο ή τρεις διαφορετικές τιμές) Midrange (μέσο διαστήματος) (min()+max())/2

62 Γενική Τάση Median, mean and mode of symmetric, positively and negatively skewed data

63 Γενική Τάση Distributed measure (κατανεμημένη μέτρηση): μπορούν να υπολογιστούν αν χωρίσουμε τα αρχικά δεδομένα σε μικρότερα υποσύνολα, υπολογίσουμε την τιμή σε κάθε υποσύνολο και τις συγχωνεύουμε πχ sum(), count(), max(), min() Algebraic measure (αλγεβρική μέτρηση): μπορεί να υπολογιστεί αν εφαρμόσουμε μια αλγεβρική (πολυωνυμική) συνάρτηση σε μία ή περισσότερες κατανεμημένες μετρήσεις (πχ avg()= sum()/count()) Holistic measure (ολιστική μέτρηση) πρέπει να υπολογιστεί στο σύνολο των δεδομένων

64 Διασπορά Mean (μέση τιμή) Variance (σ2) Standard deviation (σ)

65 Απόσταση και Ομοιότητα

66 Κριτήρια Ομοιότητας -Απόσταση
Μια αριθμητική μέτρηση για το πόσο όμοια είναι δυο αντικείμενα Μεγαλύτερη όσο πιο όμοια είναι τα αντικείμενα μεταξύ τους Συχνά τιμές στο [0, 1] Μη Ομοιότητα (dissimilarity) Μια αριθμητική μέτρηση για το πόσο διαφορετικά είναι δυο αντικείμενα Μικρότερη όσο ποιο όμοια είναι τα αντικείμενα μεταξύ τους Η ελάχιστη τιμή είναι συνήθως 0 (όταν τα ίδια), αλλά το πάνω όρο διαφέρει

67 Κριτήρια Ομοιότητας Γνωστές ιδιότητες για την ομοιότητα:
s(p, q) = 1 (ή μέγιστη ομοιότητα) μόνο αν p = q. s(p, q) = s(q, p) για κάθε p και q (Συμμετρία)

68 Κριτήρια Ομοιότητας -Απόσταση
Η ομοιότητα-μη ομοιότητα μεταξύ δύο αντικειμένων μετριέται συνήθως βάση μιας συνάρτησης απόστασης ανάμεσα στα αντικείμενα Εξαρτάται από το είδος των δεδομένων, δηλαδή από το είδος των γνωρισμάτων τους

69 Κριτήρια Ομοιότητας Συναρτήσεις απόστασης (distance functions)
Συχνές ιδιότητες: 1. d(i, j)  0 2. d(i, i) = 0 (ανακλαστική) 3. d(i, j) = d(j, i) (συμμετρική) 4. d(i, j)  d(i, h) + d(h, j) (τριγωνική ανισότητα) Όταν ισχύουν και οι 4, η συνάρτηση απόστασης ονομάζεται και μετρική απόστασης (distance metric)

70 Αποστάσεις Δύο μεγάλες κατηγορίες:
Ευκλείδειες (βασισμένες στη θέση των σημείων, αποστάσεις των σημείων στο χώρο, έννοια της μέσης τιμής) Μη Ευκλείδειες (βασισμένες σε άλλες ιδιότητες των σημείων πλην της θέσης τους)

71 Ορισμός Απόστασης Είναι μετρική απόστασης
Έστω δυο μεταβλητές i και j με n γγνωρίσματα xik και xjk i = (xi1, xi2, …, xin) and j = (xj1, xj2, …, xjn) Ο πιο συνηθισμένος τρόπος – Ευκλείδεια απόσταση: Είναι μετρική απόστασης

72 Ορισμός Απόστασης Έστω δυο μεταβλητές i και j με n γνωρίσματα xik και xjk i = (xi1, xi2, …, xin) and j = (xj1, xj2, …, xjn) Manhattan ή city-block Είναι μετρική απόστασης

73 Ορισμός Απόστασης Παράδειγμα

74 Ορισμός Απόστασης b = (9,8) L2-norm: dist(x,y) = (42+32) = 5 5 3
Παράδειγμα b = (9,8) L2-norm: dist(x,y) = (42+32) = 5 5 3 L1-norm: dist(x,y) = 4+3 = 7 4 a = (5,5)

75 Ορισμός Απόστασης Παράδειγμα Πίνακας Δεδομένων Πίνακας Απόστασης

76 Ορισμός Απόστασης Έστω δυο μεταβλητές i και j με n γγνωρίσματα xik και xjk i = (xi1, xi2, …, xin) and j = (xj1, xj2, …, xjn) Minkowski (p-norm): Είναι μετρική απόστασης

77 Ορισμός Απόστασης p = 1. City block (Manhattan, taxicab, L1 norm). Hamming distance, όταν δυαδικά διανύσματα = αριθμός bits που διαφέρουν p = 2. Ευκλείδεια απόσταση p  . “supremum” (Lmax norm, L norm) απόσταση. Η μέγιστη απόσταση μεταξύ οποιουδήποτε γνωρίσματος (διάστασης) των δυο διανυσμάτων το maximum το όριο όταν το p τείνει στο ∞ στην Lp norm: παίρνοντας την p th των διαφορών, αθροίζοντας και παίρνοντας την n th ρίζα.

78 Ορισμός Απόστασης Παράδειγμα Πίνακες Απόστασης

79 Ορισμός Απόστασης Συχνά, Βάρη πχ για Ευκλείδεια απόσταση:

80 Μη Ευκλείδειες αποστάσεις
Jaccard distance Cosine distance Edit distance Hamming Distance

81 Ορισμός Απόστασης Δυαδικές Μεταβλητές
Συχνά δεδομένα με μόνο δυαδικά γνωρίσματα (δυαδικά διανύσματα) Συμμετρικές (τιμές 0 και 1 έχουν την ίδια σημασία) Invariant ομοιότητα Μη συμμετρικές (η συμφωνία στο 1 πιο σημαντική – πχ όταν το 1 σηματοδοτεί την ύπαρξη κάποιας ασθένειας) Non-invariant (Jaccard)

82 Ορισμός Απόστασης Μεταξύ δύο αντικειμένων i και j με δυαδικά γνωρίσματα M01 = ο αριθμός των γνωρισμάτων που το i έχει τιμή 0 και το j έχει 1 M10 = ο αριθμός των γνωρισμάτων που το i έχει τιμή 1 και το j έχει 0 M00 = ο αριθμός των γνωρισμάτων που το i έχει τιμή 0 και το j έχει 0 M11 = ο αριθμός των γνωρισμάτων που το i έχει τιμή 1 και το j έχει 1 ΟΜΟΙΟΤΗΤΑ Απλό ταίριασμα – συμμετρικές μεταβλητές SMC = αριθμός ταιριασμάτων / αριθμός γνωρισμάτων = (M11 + M00) / (M01 + M10 + M11 + M00) J = αριθμός 11 ταιριασμάτων / αριθμό μη μηδενικών γνωρισμάτων = (M11) / (M01 + M10 + M11) J - Συντελεστής Jaccard – Jaccard Coefficient – μη συμμετρικές μεταβλητές (διαφορετική σημασία στην τιμή 1 και στην τιμή 0)

83 Ορισμός Απόστασης Παράδειγμα p = 1 0 0 0 0 0 0 0 0 0
q = M01 = 2 M10 = 1 M00 = 7 M11 = 0 SMC = (M11 + M00)/(M01 + M10 + M11 + M00) = (0+7) / ( ) = 0.7 J = (M11) / (M01 + M10 + M11) = 0 / ( ) = 0 J = #1(p BAND q) / #1(p BOR Q)

84 Μ01 Μ10 + d ( i , j ) = Μ01 Μ10 + d ( i , j ) = Μ11 sim ( i , j ) =
Ορισμός Απόστασης Αντικείμενο j 1 Contigency πίνακας για δυαδικά δεδομένα 1 Μ11 Μ10 Αντικείμενο i Μ01 Μ00 Μέτρηση απόστασης για συμμετρικές δυαδικές μεταβλητές Μ01 Μ10 + d ( i , j ) = 1 – συμμετρική-ομοιότητα Μ11 + Μ10 + Μ01 + Μ00 Μ01 Μ10 + Μέτρηση απόστασης για μη συμμετρικές δυαδικές μεταβλητές d ( i , j ) = Μ01 Μ10 Μ11 + Μ11 Jaccard coefficient sim ( i , j ) = Jaccard Μ01 Μ10 Μ11 +

85 Ορισμός Απόστασης Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4
Παράδειγμα τα γνωρίσματα μη συμμετρικά Έστω Y-P να αντιστοιχούν στο 1 και το Ν στο 0 Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4 Jack M Y N P N N N Mary F Y N P N P N Jim M Y P N N N N 75 . 2 1 ) , ( 67 33 = + mary jim d jack

86 Κατηγορικές Μεταβλητές χωρίς Διάταξη (nominal)
Ορισμός Απόστασης Κατηγορικές Μεταβλητές χωρίς Διάταξη (nominal) Γενίκευση των δυαδικών μεταβλητών (γνωρισμάτων) όπου μπορούν να πάρουν παραπάνω από 2 τιμές, πχ κόκκινο, πράσινο, κίτρινο 1η Μέθοδος: Απλό ταίριασμα m: # ταιριάσματα, p: συνολικός # μεταβλητών 2η Μέθοδος: Χρήση πολλών δυαδικών μεταβλητών Μία για κάθε μία από τις μ τιμές

87 Jaccard ομοιότητα για Σύνολα
Sim (C1, C2) = |C1C2|/|C1C2|.

88 Παράδειγμα 3 τομή. 8 ένωση. Jaccard ομοιότητα = 3/8

89 Jaccard ομοιότητα για Σύνολα
Δυαδική αναπαράσταση συνόλου (1 το στοιχείο υπάρχει, 0 Αλλιώς) p1 = 10111; p2 = Μέγεθος τομής = 3; Μέγεθος ένωσης = 4, ομοιότητα Jaccard (όχι απόσταση) = 3/4. d(x,y) = 1 – (ομοιότητα Jaccard) = 1/4.

90 Jaccard ομοιότητα για Σύνολα
d(x,x) = 0 γιατί xx = xx. d(x,y) = d(y,x) γιατί η ένωση και η τομή είναι συμμετρικές d(x,y) > 0 γιατί |xy| < |xy|. d(x,y) < d(x,z) + d(z,y) ?.

91 Ομοιότητα συνημίτονου (cosine similarity)
Ορισμός Απόστασης Ομοιότητα συνημίτονου (cosine similarity) Αν d1 and d2 είναι διανύσματα κειμένου cos( d1, d2 ) = (d1  d2) / ||d1|| ||d2|| , όπου  εσωτερικό γινόμενο || d || το μήκος του d. Παράδειγμα: d1 = d2 = d1  d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 ||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481 ||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d1, d2 ) = .3150 Θέλουμε μια απόσταση που να αγνοεί τα 0 (όπως η Jaccard) αλλά να δουλεύει και για μη δυαδικά δεδομένα Επίσης, αγνοεί το μήκος των διανυσμάτων

92 Ομοιότητα συνημίτονου (cosine similarity)
Ορισμός Απόστασης Ομοιότητα συνημίτονου (cosine similarity) Γεωμετρική ερμηνεία Ομοιότητα 1, όταν η γωνία 0 – που σημαίνει ότι τα x και y ίδια (αν εξαιρέσουμε το μήκος τους) Ομοιότητα 0, όταν η γωνία 90 (κανένας κοινός όρος)

93 Απόσταση Edit x = abcde ; y = bcduve.
Για δύο συμβολοσειρές (strings) ο ελάχιστος αριθμός εισαγωγών/διαγραφών χαρακτήρων που χρειάζονται για να πάμε από τη μία στην άλλη x = abcde ; y = bcduve. Turn x into y by deleting a, then inserting u and v after d. Edit distance = 3..

94 Ιεραρχική Συσταδοποίηση: Βασικά
Παράγει ένα σύνολο από εμφωλευμένες συστάδες οργανωμένες σε ένα ιεραρχικό δέντρο Μπορεί να παρασταθεί με ένα δένδρο-γραμμα Ένα διάγραμμα που μοιάζει με δένδρο και καταγράφει τις ακολουθίες από συγχωνεύσεις (merges) και διαχωρισμούς (splits)

95 Ιεραρχική Συσταδοποίηση: Πλεονεκτήματα
Δε χρειάζεται να υποθέσουμε ένα συγκεκριμένο αριθμό από συστάδες Οποιοσδήποτε επιθυμητός αριθμός από συστάδες μπορεί να επιτευχθεί κόβοντας το δενδρόγραμμα στο κατάλληλο επίπεδο Μπορεί να αντιστοιχούν σε λογικές ταξινομήσεις Για παράδειγμα στις βιολογικές επιστήμες (ζωικό βασίλειο, phylogeny reconstruction, …)

96 Ιεραρχική Συσταδοποίηση
Δυο βασικοί τύποι ιεραρχικής συσταδοποίησης Συσσωρευτικός (Agglomerative): Αρχίζει με τα σημεία ως ξεχωριστές συστάδες Σε κάθε βήμα, συγχωνεύει το πιο κοντινό ζευγάρι συστάδων μέχρι να μείνει μόνο μία (ή k) συστάδες Διαιρετικός (Divisive): Αρχίζει με μία συστάδα που περιέχει όλα τα σημεία Σε κάθε βήμα, διαχωρίζει μία συστάδα, έως κάθε συστάδα να περιέχει μόνο ένα σημείο (ή να δημιουργηθούν k συστάδες) Οι παραδοσιακοί αλγόριθμοι χρησιμοποιούν έναν πίνακα ομοιότητα ή απόστασης διαχωρισμός ή συγχώνευση μιας ομάδας τη φορά

97 Συσσωρευτική Ιεραρχική Συσταδοποίηση (ΣΙΣ) (anglomerative)
Η πιο δημοφιλής τεχνική συσταδοποίησης Βασικός αλγόριθμος Υπολογισμός του Πίνακα Γειτνίασης Έστω κάθε σημείο αποτελεί και μια συστάδα Repeat Συγχώνευση των δύο κοντινότερων συστάδων Ενημέρωση του Πίνακα Γειτνίασης Until να μείνει μία μόνο συστάδα Βασική λειτουργία είναι ο υπολογισμός της γειτνίασης δυο συστάδων Διαφορετικοί αλγόριθμοι με βάση το πως ορίζεται η απόσταση ανάμεσα σε δύο συστάδες

98 Starting Situation Αρχικά: Κάθε σημείο και συστάδα και ένας Πίνακας Γειτνίασης (proximity matrix) p1 p3 p5 p4 p2 . . . . Proximity Matrix

99 Intermediate Situation
Μετά από κάποιες συγχωνεύσεις, έχουμε κάποιες συστάδες C2 C1 C3 C5 C4 C3 C4 Πίνακας Γειτνίασης C1 C5 C2

100 Intermediate Situation
Θέλουμε να συγχωνεύσουμε τις δύο κοντινότερες συστάδες (C2 και C5) και να ενημερώσουμε τον πίνακα γειτνίασης. C2 C1 C3 C5 C4 C3 C4 Πίνακας Γειτνίασης C1 C5 C2

101 After Merging Μετά τη συγχώνευση η ερώτηση είναι: Πως ενημερώνουμε τον πίνακα γειτνίασης C2 U C5 C1 C3 C4 C1 ? ? ? ? ? C2 U C5 C3 C3 ? C4 ? C4 Πίνακας Γειτνίασης C1 C2 U C5

102 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων
p1 p3 p5 p4 p2 . . . . Ομοιότητα? MIN MAX Μέσος όρος της συστάδας Η απόσταση μεταξύ των κεντρικών σημείων Άλλες μέθοδοι βασισμένες σε μια αντικειμενική συνάρτηση Η μέθοδος του Ward χρησιμοποιεί τετραγωνικά λάθη Πίνακας Γειτνίασης

103 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων
p1 p3 p5 p4 p2 . . . . MIN MAX Μέσος όρος της συστάδας Η απόσταση μεταξύ των κεντρικών σημείων Άλλες μέθοδοι βασισμένες σε μια αντικειμενική συνάρτηση Η μέθοδος του Ward χρησιμοποιεί τετραγωνικά λάθη Πίνακας Γειτνίασης

104 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων
p1 p3 p5 p4 p2 . . . . MIN MAX Μέσος όρος της συστάδας Η απόσταση μεταξύ των κεντρικών σημείων Άλλες μέθοδοι βασισμένες σε μια αντικειμενική συνάρτηση Η μέθοδος του Ward χρησιμοποιεί τετραγωνικά λάθη Πίνακας Γειτνίασης

105 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων
p1 p3 p5 p4 p2 . . . . MIN MAX Μέσος όρος της συστάδας Η απόσταση μεταξύ των κεντρικών σημείων Άλλες μέθοδοι βασισμένες σε μια αντικειμενική συνάρτηση Η μέθοδος του Ward χρησιμοποιεί τετραγωνικά λάθη Πίνακας Γειτνίασης

106 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων
p1 p3 p5 p4 p2 . . . . MIN MAX Μέσος όρος της συστάδας Η απόσταση μεταξύ των κεντρικών σημείων Άλλες μέθοδοι βασισμένες σε μια αντικειμενική συνάρτηση Η μέθοδος του Ward χρησιμοποιεί τετραγωνικά λάθη Πίνακας Γειτνίασης

107 Cluster Similarity: MIN or Single Link
Η ομοιότητα μεταξύ δυο συστάδων βασίζεται στα δυο πιο όμοια (πιο γειτονικά) σημεία στις διαφορετικές συστάδες (με όρους γραφημάτων – shortest edge) Καθορίζεται από ένα ζεύγος τιμών, δηλαδή μια ακμή (link) του γραφήματος γειτνίασης. 1 2 3 4 5

108 Hierarchical Clustering: MIN
5 1 2 3 4 5 6 4 3 2 1 Nested Clusters Dendrogram

109 Strength of MIN Two Clusters Original Points
Can handle non-elliptical shapes

110 Limitations of MIN Two Clusters Original Points
Ευαίσθητο σε θόρυβο και outliers

111 Cluster Similarity: MAX or Complete Linkage
MΑΧ ή πλήρους συνδεσιμότητας (complete linkage) - Αναζητά κλίκες Η ομοιότητα μεταξύ δυο συστάδων βασίζεται στα δυο λιγότερο όμοια (πιο μακρινά) σημεία στις διαφορετικές συστάδες (longest edge) – δηλαδή, οι συστάδες με την μικρότερη τέτοια απόσταση Καθορίζεται από όλα τα ζεύγη τιμών στις δύο συστάδες. 1 2 3 4 5

112 Hierarchical Clustering: MAX
5 4 1 2 3 4 5 6 2 3 1 Nested Clusters Dendrogram

113 Strength of MAX Two Clusters Original Points
Less susceptible to noise and outliers

114 Limitations of MAX Two Clusters Original Points
Tends to break large clusters Biased towards globular clusters

115 ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: Μέσο Ομάδας
Κοντινότητα δύο συστάδων είναι η μέση τιμή της ανα-δύο κοντινότητας (average of pairwise proximity) μεταξύ των σημείων των δύο συστάδων. Χρήση μέσης γιατί η ολική θα έδινε προτίμηση στις μεγάλες συστάδες 1 2 3 4 5

116 Hierarchical Clustering: Group Average
5 4 1 2 3 4 5 6 2 3 1 Φωλιασμένες Συστάδες Dendrogram

117 Hierarchical Clustering: Group Average
Μεταξύ ΜΙΝ (Single) και MAX (Complete Link) Πλεονεκτήματα μικρότερη ευαισθησία σε θόρυβο και outliers Μειονεκτήματα Ευνοεί κυκλικές συστάδες

118 Cluster Similarity: Ward’s Method
Βασισμένο στην αύξηση του SSE όταν συγχωνεύονται οι δύο συστάδες Παρόμοιο με group average εάν η απόσταση είναι η distance squared μικρότερη ευαισθησία σε θόρυβο και outliers Ευνοεί κυκλικές συστάδες Ιεραρχικό ανάλογο του K-means Μπορεί να χρησιμοποιηθεί για την αρχικοποίηση του k-meanls

119 Hierarchical Clustering: Comparison
5 5 1 2 3 4 5 6 4 4 1 2 3 4 5 6 3 2 2 1 MIN MAX 3 1 5 5 1 2 3 4 5 6 1 2 3 4 5 6 4 4 2 2 Ward’s Method 3 3 1 Group Average 1

120 ΣΙΣ: Πολυπλοκότητα Χρόνου και Χώρου
O(N2) χώρος για την αποθήκευση του πίνακα γειτνίασης N αριθμός σημείων. O(N3) time in many cases Είναι N βήματα και σε κάθε βήμα το μέγεθος, N2, του πίνακα γειτνίασης πρέπει να αλλάξει και να γίνει αναζήτηση σε αυτό Η πολυπλοκότητα μπορεί να μειωθεί σε O(N2 log(N) ) χρόνο σε μερικές περιπτώσεις Εάν κρατήσουμε ταξινόμηση των αποστάσεων, πχ heap

121 ΣΙΣ: Περιορισμοί και Προβλήματα
Οι αποφάσεις είναι τελικές – αφού δυο συστάδες συγχωνευτούν αυτό δεν μπορεί να αλλάξει Δεν ελαχιστοποιούν άμεσα κάποια αντικειμενική συνάρτηση Διαφορετικά σχήματα έχουν προβλήματα με ένα ή περισσότερα από τα παρακάτω : Ευαισθησία σε θόρυβο και outliers. Difficulty handling different sized clusters and convex shapes Σπάσιμο μεγάλων clusters

122 MST: Divisive Hierarchical Clustering
Build MST (Minimum Spanning Tree) Start with a tree that consists of any point In successive steps, look for the closest pair of points (p, q) such that one point (p) is in the current tree but the other (q) is not Add q to the tree and put an edge between p and q

123 MST: Divisive Hierarchical Clustering
Use MST for constructing hierarchy of clusters

124 DBSCAN is a density-based algorithm.
Density = number of points within a specified radius (Eps) A point is a core point if it has more than a specified number of points (MinPts) within Eps These are points that are at the interior of a cluster A border point has fewer than MinPts within Eps, but is in the neighborhood of a core point A noise point is any point that is not a core point or a border point.

125 DBSCAN: Core, Border, and Noise Points

126 DBSCAN Algorithm Eliminate noise points
Perform clustering on the remaining points

127 DBSCAN: Core, Border and Noise Points
Original Points Point types: core, border and noise Eps = 10, MinPts = 4

128 When DBSCAN Works Well Original Points Clusters Resistant to Noise
Can handle clusters of different shapes and sizes

129 When DBSCAN Does NOT Work Well
(MinPts=4, Eps=9.75). Original Points Varying densities High-dimensional data (MinPts=4, Eps=9.92)

130 DBSCAN: Determining EPS and MinPts
Idea is that for points in a cluster, their kth nearest neighbors are at roughly the same distance Noise points have the kth nearest neighbor at farther distance So, plot sorted distance of every point to its kth nearest neighbor

131 Cluster Validity For supervised classification we have a variety of measures to evaluate how good our model is Accuracy, precision, recall For cluster analysis, the analogous question is how to evaluate the “goodness” of the resulting clusters? But “clusters are in the eye of the beholder”! Then why do we want to evaluate them? To avoid finding patterns in noise To compare clustering algorithms To compare two sets of clusters To compare two clusters

132 Clusters found in Random Data
DBSCAN Random Points K-means Complete Link

133 Different Aspects of Cluster Validation
Determining the clustering tendency of a set of data, i.e., distinguishing whether non-random structure actually exists in the data. Comparing the results of a cluster analysis to externally known results, e.g., to externally given class labels. Evaluating how well the results of a cluster analysis fit the data without reference to external information. - Use only the data Comparing the results of two different sets of cluster analyses to determine which is better. Determining the ‘correct’ number of clusters. For 2, 3, and 4, we can further distinguish whether we want to evaluate the entire clustering or just individual clusters.

134 Measures of Cluster Validity
Numerical measures that are applied to judge various aspects of cluster validity, are classified into the following three types. External Index: Used to measure the extent to which cluster labels match externally supplied class labels. Entropy Internal Index: Used to measure the goodness of a clustering structure without respect to external information. Sum of Squared Error (SSE) Relative Index: Used to compare two different clusterings or clusters. Often an external or internal index is used for this function, e.g., SSE or entropy Sometimes these are referred to as criteria instead of indices However, sometimes criterion is the general strategy and index is the numerical measure that implements the criterion.

135 Measuring Cluster Validity Via Correlation
Two matrices Proximity Matrix “Incidence” Matrix One row and one column for each data point An entry is 1 if the associated pair of points belong to the same cluster An entry is 0 if the associated pair of points belongs to different clusters Compute the correlation between the two matrices Since the matrices are symmetric, only the correlation between n(n-1) / 2 entries needs to be calculated. High correlation indicates that points that belong to the same cluster are close to each other. Not a good measure for some density or contiguity based clusters.

136 Measuring Cluster Validity Via Correlation
Correlation of incidence and proximity matrices for the K-means clusterings of the following two data sets. Corr = Corr =

137 Using Similarity Matrix for Cluster Validation
Order the similarity matrix with respect to cluster labels and inspect visually.

138 Using Similarity Matrix for Cluster Validation
Clusters in random data are not so crisp DBSCAN

139 Using Similarity Matrix for Cluster Validation
Clusters in random data are not so crisp K-means

140 Using Similarity Matrix for Cluster Validation
Clusters in random data are not so crisp Complete Link

141 Using Similarity Matrix for Cluster Validation
DBSCAN

142 Internal Measures: SSE
Clusters in more complicated figures aren’t well separated Internal Index: Used to measure the goodness of a clustering structure without respect to external information SSE SSE is good for comparing two clusterings or two clusters (average SSE). Can also be used to estimate the number of clusters

143 Internal Measures: SSE
SSE curve for a more complicated data set SSE of clusters found using K-means

144 Framework for Cluster Validity
Need a framework to interpret any measure. For example, if our measure of evaluation has the value, 10, is that good, fair, or poor? Statistics provide a framework for cluster validity The more “atypical” a clustering result is, the more likely it represents valid structure in the data Can compare the values of an index that result from random data or clusterings to those of a clustering result. If the value of the index is unlikely, then the cluster results are valid These approaches are more complicated and harder to understand. For comparing the results of two different sets of cluster analyses, a framework is less necessary. However, there is the question of whether the difference between two index values is significant

145 Statistical Framework for SSE
Example Compare SSE of against three clusters in random data Histogram shows SSE of three clusters in 500 sets of random data points of size 100 distributed over the range 0.2 – 0.8 for x and y values

146 Statistical Framework for Correlation
Correlation of incidence and proximity matrices for the K-means clusterings of the following two data sets. Corr = Corr =

147 Internal Measures: Cohesion and Separation
Cluster Cohesion: Measures how closely related are objects in a cluster Example: SSE Cluster Separation: Measure how distinct or well- separated a cluster is from other clusters Example: Squared Error Cohesion is measured by the within cluster sum of squares (SSE) Separation is measured by the between cluster sum of squares Where |Ci| is the size of cluster i

148 Internal Measures: Cohesion and Separation
Example: SSE BSS + WSS = constant m 1 m1 2 3 4 m2 5 K=1 cluster: K=2 clusters:

149 Internal Measures: Cohesion and Separation
A proximity graph based approach can also be used for cohesion and separation. Cluster cohesion is the sum of the weight of all links within a cluster. Cluster separation is the sum of the weights between nodes in the cluster and nodes outside the cluster. cohesion separation

150 Internal Measures: Silhouette Coefficient
Silhouette Coefficient combine ideas of both cohesion and separation, but for individual points, as well as clusters and clusterings For an individual point, i Calculate a = average distance of i to the points in its cluster Calculate b = min (average distance of i to points in another cluster) The silhouette coefficient for a point is then given by s = 1 – a/b if a < b, (or s = b/a if a  b, not the usual case) Typically between 0 and 1. The closer to 1 the better. Can calculate the Average Silhouette width for a cluster or a clustering

151 External Measures of Cluster Validity: Entropy and Purity

152 Final Comment on Cluster Validity
“The validation of clustering structures is the most difficult and frustrating part of cluster analysis. Without a strong effort in this direction, cluster analysis will remain a black art accessible only to those true believers who have experience and great courage.” Algorithms for Clustering Data, Jain and Dubes


Κατέβασμα ppt "Ανάλυση συστάδων: βασικές έννοιες και αλγόριθμοι"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google