Ανάλυση συστάδων: βασικές έννοιες και αλγόριθμοι Κεφάλαιο 8 Εξόρυξη δεδομένων by Tan, Steinbach, Kumar © Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 1
Τι είναι συσταδοποίηση? Εύρεση συστάδων (ομάδων) αντικειμένων έτσι ώστε τα αντικείμενα σε κάθε συστάδα να είναι όμοια (ή να σχετίζονται) και διαφορετικά (ή μη σχετιζόμενα) από τα αντικείμενα των άλλων συστάδων Οι αποστάσεις μέσα στη συστάδα ελαχιστοποιούνται Οι αποστάσεις ανάμεσα στις συστάδες μεγιστοποιούνται
Εφαρμογές Κατανόηση Περίληψη (summarization) ομαδοποίηση γονιδίων και πρωτεϊνών που έχουν την ίδια λειτουργία, εικόνες, χαρακτηριστικά ασθενειών μετοχών με παρόμοια διακύμανση τιμών, ομαδοποίηση weblog για εύρεση παρόμοιων προτύπων προσπέλασης, ομαδοποίηση σχετιζόμενων αρχείων για browsing, ομαδοποίηση κειμένων πελάτες με παρόμοια συμπεριφορά Περίληψη (summarization) Μείωση μεγέθους μεγάλων datasets Συσταδοποίηση επιπέδου βροχής στην Australia
Τι δεν είναι συσταδοποίηση? Κατηγοριοποίηση με επίβλεψη Have class label information Απλή κατάτμηση Κατάτμηση φοιτητών σε διαφορετικά γκρουπ αλφαβητικά, με βάση το επώνυμο Αποτελέσματα ενός query Groupings are a result of an external specification Κατάτμηση γράφων Some mutual relevance and synergy, but areas are not identical
Ασάφεια Πόσες συστάδες? 6 συστάδες 2 συστάδες 4 συστάδες
Πότε μια συσταδοποίηση είναι καλή? Μια μέθοδος συσταδοποίησης είναι καλή αν παράγει συστάδες καλής ποιότητας Μεγάλη ομοιότητα εντός της συστάδας και Μικρή ομοιότητα ανάμεσα στις συστάδες Η ποιότητα εξαρτάται από τη Μέτρηση ομοιότητας και Μέθοδο υλοποίησης της συσταδοποίησης
Είδη συσταδοποίησης Μια συσταδοποίηση είναι ένα σύνολο από συστάδες Βασική διάκριση ανάμεσα σε ιεραρχικό (hierarchical) και διαχωριστικό (partitional) σύνολο από συστάδες Διαχωριστική Συσταδοποίηση (Partitional Clustering) Ένας διαμερισμός των αντικειμένων σε μη επικαλυπτόμενα - non- overlapping - υποσύνολα (συστάδες) τέτοιος ώστε κάθε αντικείμενο ανήκει σε ακριβώς ένα υποσύνολο Ιεραρχική Συσταδοποίηση (Hierarchical clustering) Ένα σύνολο από εμφωλευμένες (nested) ομάδες. Επιτρέπουμε σε μια συστάδα να έχει υπο-συστάδες οργανωμένες σε ένα ιεραρχικό δέντρο.
Διαχωριστική Συσταδοποίηση Διαχωριστική συσταδοποίηση Αρχικά σημεία
Ιεραρχική συσταδοποίηση Ιεραρχική Συσταδοποίηση Παραδοσιακό δενδρόγραμμα (dendrogram) Μη ιεραρχική συσταδοποίηση Μη παραδοσιακό δενδρόγραμμα
Άλλες διακρίσεις μεταξύ συνόλων συστάδων Αποκλειστικές vs μη-αποκλειστικές Στις μη αποκλειστικές συστάδες τα σημεία μπορεί να ανήκουν σε πολλαπλές συστάδες. Μπορεί να αναπαραστούν πολλαπλές κλάσεις ή οριακά σημεία Ασαφείς (Fuzzy) vs μη-ασαφή Στην ασαφή συσταδοποίηση ένα σημείο ανήκει σε κάθε συστάδα με ένα βάρος μεταξύ 0 και 1 Το άθροισμα των βαρών είναι 1 Η πιθανοτική συσταδοποίηση έχει παρόμοια χαρακτηριστικά Μερική και πλήρης Σε μερικές περιπτώσεις θέλουμε να συσταδοποιήσουμε μερικά μόνο δεδομένα Ετερογενείς και ομογενείς Συστάδες διαφορετικών μεγεθών, σχημάτων και πυκνοτήτων
Είδη συστάδων Καλώς Διαχωρισμένες Συστάδες Συστάδες βασισμένες σε κέντρο ή πρότυπο Συνεχείς Συστάδες Συστάδες βασισμένες στην πυκνότητα Εννοιολογική συσταδοποίηση Συστάδες βασισμένες σε μια Αντικειμενική Συνάρτηση
Τύποι συστάδων: Καλώς Διαχωρισμένες Συστάδες Καλώς Διαχωρισμένες Συστάδες: Μια συστάδα είναι ένα σύνολο από σημεία τέτοια ώστε κάθε σημείο μιας συστάδας είναι κοντινότερο σε (ή πιο όμοιο με) όλα τα άλλα σημεία της συστάδας από ότι σε οποιοδήποτε άλλο σημείο που δεν ανήκει στη συστάδα. 3 καλώς διαχωρισμένες συστάδες
Types of Clusters: Center-Based Μια συστάδα είναι ένα σύνολο από αντικείμενα τέτοιο ώστε ένα αντικείμενο στην συστάδα είναι κοντινότερο σε (ή πιο όμοιο με) το «κέντρο» ή πρότυπο της συστάδας από ότι από το κέντρο οποιασδήποτε άλλης συστάδας. Το κέντρο της ομάδας είναι συχνά centroid, ο μέσος όρος των σημείων της συστάδας, ή a medoid, το πιο «αντιπροσωπευτικό» σημείο της συστάδας (πχ όταν κατηγορικά γνωρίσματα) 4 συστάδες βασισμένες σε κέντρο
Τύποι συστάδων: Συνεχείς Συστάδες Συνεχής Συστάδες (Contiguous Cluster) (Κοντινότερος γείτονα ή μεταβατικά) – Βάσει γειτνίασης Μια συστάδα είναι ένα σύνολο σημείων τέτοιο ώστε κάθε σημείο είναι πιο κοντά σε ένα ή περισσότερα σημεία της συστάδας από ό,τι σε οποιοδήποτε άλλο σημείο εκτός συστάδας Συχνά σε περιπτώσεις συστάδων με μη κανονικό σχήμα ή με αλληλοπλεκόμενα σχήματα – ή όταν έχουμε γραφήματα και θέλουμε να βρούμε συνεκτικά υπογραφήματα Πρόβλημα με θόρυβο 8 συνεχείς συστάδες
Τύποι συστάδων: Συστάδες βασισμένες στην πυκνότητα Μια συστάδα είναι μια πυκνή περιοχή από σημεία την οποία χωρίζουν από άλλες περιοχές μεγάλης πυκνότητας περιοχές χαμηλής πυκνότητας Συχνά σε περιπτώσεις συστάδων με μη κανονικό σχήμα ή με αλληλοπλεκόμενα σχήματα ή όταν θόρυβος ή outliers 6 συστάδες βασισμένες στην πυκνότητα
Τύποι συστάδων: Εννοιολογική συσταδοποίηση Συστάδες με κοινή ιδιότητα ή εννοιολογικές συστάδες. Εντοπίζει συστάδες που μοιράζονται τα ίδια χαρακτηριστικά ή αντιπροσωπεύουν ένα συγκεκριμένο concept. 2 επικαλυπτόμενοι κύκλοι
Τύποι συστάδων: Συστάδες βασισμένες σε μια Αντικειμενική Συνάρτηση Εύρεση συστάδων που ελαχιστοποιούν ή μεγιστοποιούν μια αντικειμενική συνάρτηση Απαρίθμηση όλων των δυνατών τρόπων χωρισμού των σημείων σε συστάδες και υπολογισμού του «πόσο καλό» (“goodness”) είναι κάθε πιθανό σύνολο από συστάδες χρησιμοποιώντας τη δοθείσα αντικειμενική συνάρτηση (NP-hard) Οι στόχοι (objectives) μπορεί να είναι ολικοί (global) ή τοπικοί (local) . Οι ιεραρχικοί συνήθως τοπικού Οι διαχωριστικοί ολικές
Τύποι συστάδων: Συστάδες βασισμένες σε μια Αντικειμενική Συνάρτηση… Αντιστοίχισε το πρόβλημα συσταδοποίησης σε μια διαφορετική περιοχή και λύσε το πρόβλημα σε εκείνη την περιοχή. Η μήτρα απόστασης ορίζει έναν γράφο με βάρη, όπου οι κόμβοι είναι τα σημεία για συσταδοποίηση και οι ακμές είναι οι αποστάσεις μεταξύ των σημείων. Η συσταδοποίηση είναι ισοδύναμη με το σπάσιμο του γράφου σε connected components, έναν για κάθε συστάδα. Στόχος είναι η ελαχιστοποίηση των βαρών των ακμών μεταξύ σημείων της ίδιας συστάδας και η μεγιστοποίηση μεταξύ διαφορετικών συστάδων.
Τα χαρακτηριστικά των δεδομένων είναι πολύ σημαντικά Είδος μέτρησης της εγγύτητας (proximity) ή πυκνότητας (density) Συμπληρωματικό αλλά σημαντικό για την συσταδοποίηση Αραιότητα (Sparseness) Ορίζει τύπο εγγύτητας Επιτυγχάνει απόδοση Είδος ιδιοτήτων (πχ, συνεχόμενα, κατηγορικά, κλπ) Καθορίζει τύπο εγγύτητας Είδος δεδομένων (πχ κείμενο, σημεία στον χάρτη, κλπ) Other characteristics, e.g., autocorrelation Μέγεθος διαστάσεων (Dimensionality) Θόρυβος και outliers Είδος κατανομής
Αλγόριθμοι συσταδοποίησης K-means και παραλλαγές Ιεραρχική συσταδοποίηση Συσταδοποίηση με βάση την πυκνότητα Density- based clustering - DBSCAN
K-means Clustering Διαχωριστικός αλγόριθμος (βασισμένος σε πρότυπο) Κάθε συστάδα συσχετίζεται με ένα κεντρικό σημείο (centroid) Κάθε σημείο ανατίθεται στη συστάδα με το κοντινότερο κεντρικό σημείο Ο αριθμός των ομάδων, Κ, είναι είσοδος στον αλγόριθμο Ο βασικός αλγόριθμος είναι πολύ απλός 1: Επιλογή Κ σημείων ως τα αρχικά κεντρικά σημεία 2: Repeat 3: Ανάθεση όλων των αρχικών σημείων στο κοντινότερο τους από τα K κεντρικά σημεία 4: Επανα-υπολογισμός του κεντρικού σημείου κάθε συστάδας 5: Until τα κεντρικά σημεία να μην αλλάζουν
K-means Clustering – Λεπτομέρειες 1. Τα αρχικά κεντρικά σημεία συνήθως επιλέγονται τυχαία. Οι συστάδες που παράγονται διαφέρουν από το ένα τρέξιμο του αλγορίθμου στο άλλο . Το κεντρικό σημείο είναι (συνήθως) ο μέσος των σημείων της συστάδας. το οποίο μπορεί να μην είναι ένα από τα δεδομένα εισόδου Η εγγύτητα των σημείων υπολογίζεται με βάση κάποια απόσταση που εξαρτάται από το είδος των σημείων (cosine similarity, Euclidian distance, etc.), στα παραδείγματα θα θεωρήσουμε την Ευκλείδεια απόσταση Ο K-means συγκλίνει για κοινές μετρικές αποστάσεων. Η σύγκλιση συμβαίνει σε λίγες επαναλήψεις. Συνήθως το κριτήριο διακοπής αλλάζει σε «Μέχρι σχετικά λίγα σημεία αλλάξουν συστάδες» ή η απόσταση μεταξύ των νέων κεντρικών σημείων από τα παλιά να είναι μικρή
Πολυπλοκότητα χώρου-χρόνου Χώρος: αποθηκεύουμε μόνα τα κέντρα Η πολυπλοκότητα είναι O(I * n * K * d) n = αριθμός σημείων, K = αριθμός συστάδων, I = αριθμός επαναλήψεων, d = αριθμός γνωρισμάτων (διάσταση)
K-means: Βασικός Αλγόριθμος Αρχική κατάσταση, Κ = 3 συστάδες Αρχικά σημεία k1, k2, k3
K-means: Βασικός Αλγόριθμος Τα σημεία ανατίθενται στο πιο γειτονικό από τα 3 αρχικά σημεία
K-means: Βασικός Αλγόριθμος Επανα-υπολογισμός του κέντρου (κέντρου βάρους) κάθε σημείου
K-means: Βασικός Αλγόριθμος Νέα ανάθεση των σημείων Νέα κέντρα βάρους
K-means: Βασικός Αλγόριθμος Δεν αλλάζει τίποτα -> ΤΕΛΟΣ
Two different K-means Clusterings Original Points Optimal Clustering Sub-optimal Clustering
Importance of Choosing Initial Centroids
Importance of Choosing Initial Centroids
K-means Εκτίμηση ποιότητας Η πιο συνηθισμένη μέτρηση είναι το άθροισμα των τετράγωνων του λάθους (Sum of Squared Error (SSE)) Για κάθε σημείο, το λάθος είναι η απόστασή του από την κοντινότερη συστάδα Για να πάρουμε το SSE, παίρνουμε το τετράγωνο αυτών των λαθών και τα προσθέτουμε Όπου dist Ευκλείδεια απόσταση, x είναι ένα σημείο στη συστάδα Ci και mi είναι ο αντιπρόσωπος (κεντρικό σημείο) της συστάδας Ci c Μπορούμε να δείξουμε ότι το σημείο που ελαχιστοποιεί το SSE για τη συστάδα είναι ο μέσος όρος ci = 1/mi Σ x Ci x Δοθέντων δύο συστάδων, μπορούμε να επιλέξουμε αυτήν με το μικρότερο λάθος
K-means Εκτίμηση ποιότητας Ένας τρόπος να βελτιώσουμε τη συσταδοποίηση (ελάττωση του SSE) είναι να μεγαλώσουμε το K Αλλά γενικά μια καλή συσταδoποίηση με μικρό Κ μπορεί να έχει μικρότερο SSE από μια κακή συσταδοποίηση με μεγάλο K
Importance of Choosing Initial Centroids …
Importance of Choosing Initial Centroids …
Problems with Selecting Initial Points Αν υπάρχουν K «πραγματικές συστάδες» η πιθανότητα να επιλέξουμε ένα κέντρο από κάθε συστάδα είναι μικρή, συγκεκριμένα αν όλες οι συστάδες έχουν το ίδιο μέγεθος n, τότε: Π.χ., εαν K = 10, τότε πιθανότητα = 10!/1010 = 0.00036 Μερικές φορές τα αρχικά κέντρα θα επαναπροσδιορίσουν τον εαυτό τους και μερικές φορές όχι Δείτε το παράδειγμα με 5 ζεύγη συστάδων
10 Clusters Example Starting with two initial centroids in one cluster of each pair of clusters
10 Clusters Example Starting with two initial centroids in one cluster of each pair of clusters
10 Clusters Example Starting with some pairs of clusters having three initial centroids, while other have only one.
10 Clusters Example Starting with some pairs of clusters having three initial centroids, while other have only one.
Λύσεις για την επιλογή αρχικών σημείων Πολλαπλά τρεξίματα Βοηθά, αλλά οι πιθανότητες δεν είναι με το μέρος μας Δειγματοληψία και χρήση κάποιας ιεραρχικής τεχνικής Επιλογή παραπάνω από k αρχικών σημείων και μετά επιλογή k από αυτά τα αρχικά κεντρικά σημεία (πχ τα πιο απομακρυσμένα μεταξύ τους) Postprocessing Bisecting K-means (με διχοτόμηση) Not as susceptible to initialization issues
Άδειες συστάδες Βασικός αλγόριθμος μπορεί να οδηγήσει σε άδειες αρχικές συστάδες Πολλές στρατηγικές Επιλογή του σημείου που είναι πιο μακριά από όλα τα τωρινά κέντρα = επιλογή του σημείου που συμβάλει περισσότερο στο SSE Ένα σημείο από τη συστάδα με το υψηλότερο SSE – θα οδηγήσει σε «σπάσιμο» της άρα σε μείωση του λάθους Αν πολλές άδειες συστάδες, τα παραπάνω βήματα μπορεί να επαναληφθούν πολλές φορές
Άδειες συστάδες 2 φυσικές συστάδες
Άδειες συστάδες Έστω ότι k=3 και αρχικά κέντρα τα σημεία 3, 5 και 6
Άδειες συστάδες Μετά την πρώτη επανάληψη, 3 συστάδες 3,2,1 και 7 (κόκκινη) 4,5 (μπλε) 6 (πράσινη) Σημείωση: το 4 «πάει» στον μπλε, γιατί είναι πιο κοντά στο 5 από ότι στο 3
Άδειες συστάδες Το κόκκινο κέντρο πιο κοντά στο 4 λόγω των 1,2,7 Το κόκκινο κέντρο πιο κοντά στο 4 λόγω των 1,2,7 Το μπλε κέντρο πιο μακρυά από το 5 λόγω του 4
Άδειες συστάδες Στην τελευταία επανάληψη, το 4 είναι πιο κοντά στο κέντρο του κόκκινου και το 5 πιο κοντά στο κέντρο του πράσινου Ο μπλε μένει χωρίς σημεία!
Σταδιακή ενημέρωση κεντρικών σημείων Στο βασικό Κ-means, το κέντρα ενημερώνεται αφού όλο τα σημεία έχουν ανατεθεί στο κέντρο Μια παραλλαγή είναι να ενημερώνονται τα κέντρα μετά από κάθε ανάθεση (incremental approach) Κάθε ανάθεση ενημερώνει 0 ή 2 κέντρα Πιο δαπανηρό Έχει σημασία η σειρά εισαγωγής/εξέτασης των σημείων Δεν υπάρχουν άδειες συστάδες Μπορεί να χρησιμοποιηθούν βάρη – αν υπάρχει κάποια τυχαία αντικειμενική συνάρτηση – έλεγχος τι συμφέρει κάθε φορά
Προ και Μετα Επεξεργασία Ολικό SSE και SSE Συστάδας Προ-επεξεργασία Κανονικοποίηση των δεδομένων Απομάκρυνση outliers Post-processing Split-Merge (διατηρώντας το ίδιο K) Διαχωρισμός (split) συστάδων με το σχετικά μεγαλύτερο SSE Δημιουργία μια νέας συστάδας: πχ επιλέγοντας το σημείο που είναι πιο μακριά από όλα τα κέντρα ή τυχαία επιλογή σημείου ή επιλογή του σημείου με το μεγαλύτερο SSE Συνένωση (merge) συστάδων που είναι σχετικά κοντινές (τα κέντρα τους έχουν την μικρότερη απόσταση) ή τις δυο συστάδες που οδηγούν στην μικρότερη αύξηση του SSE Διαγραφή συστάδας και ανακατανομή των σημείων της σε άλλες συστάδες (αυτό που οδηγεί στην μικρότερη αύξηση του SSE)
K-means με διχοτόμηση (bisecting k-means) Παραλλαγή που μπορεί να παράγει μια διαχωριστική ή ιεραρχική συσταδοποίηση
Bisecting K-means Example
K-means: Περιορισμοί O K-means έχει προβλήματα όταν οι συστάδες έχουν Διαφορετικά Μεγέθη Διαφορετικές Πυκνότητες Non-globular shapes Έχει προβλήματα όταν τα δεδομένα έχουν outliers
K-means: Περιορισμοί – διαφορετικά μεγέθη Original Points K-means (3 Clusters) Δεν μπορεί να βρει το μεγάλο κόκκινο, γιατί είναι πολύ μεγαλύτερος από τους άλλους
K-means: Περιορισμοί – διαφορετικές πυκνότητες Original Points K-means (3 Clusters) Δεν μπορεί να διαχωρίσει τους δυο μικρούς γιατί είναι πολύ πυκνοί σε σχέση με τον ένα μεγάλο
K-means: Περιορισμοί – μη κυκλικά σχήματα Original Points K-means (2 Clusters) Δεν μπορεί να βρει τις δύο συστάδες γιατί έχουν μη κυκλικά σχήματα
Ξεπερνώντας τους περιορισμούς Original Points K-means Clusters Μια λύση είναι να χρησιμοποιηθούν πολλές συστάδες Βρίσκει τμήματα των συστάδων, αλλά πρέπει να τα συγκεντρώσουμε
Overcoming K-means Limitations Original Points K-means Clusters
Overcoming K-means Limitations Original Points K-means Clusters
Παρένθεση – Ορισμοί Μια παρένθεση Μέση τιμή Απόσταση
Γενική Τάση Αριθμητικό Μέσο/Μέση Τιμή- Mean (αλγεβρική μέτρηση) (sample vs. population): Αριθμητικό μέσο με βάρος (Weighted arithmetic mean) Trimmed mean: κόβουμε τις ακραίες τιμές (πχ τα μεγαλύτερα και μικρότερα (p/2)%) Μέσο – μεσαία τιμή (median) - διάμεσο: Μεσαία τιμή αν μονός αριθμός, ο μέσος όρος των δυο μεσαίων τιμών, αλλιώς Το μέσο συμπεριφέρεται καλύτερα όταν δεδομένα με μη ομοιόμορφη κατανομή (skewed) Παράδειγμα 1 2 3 4 5 90 Μέσο (3+4)/2 = 3.5 Μέση τιμή (1+2+3+4+5+90)/6 = 17.5 Trimmed 40%
Γενική Τάση Mode Η τιμή που εμφανίζεται πιο συχνά στα δεδομένα Η τιμή που εμφανίζεται πιο συχνά στα δεδομένα Unimodal, bimodal, trimodal (πιο συχνά εμφανίζεται μία, δύο ή τρεις διαφορετικές τιμές) Midrange (μέσο διαστήματος) (min()+max())/2
Γενική Τάση Median, mean and mode of symmetric, positively and negatively skewed data
Γενική Τάση Distributed measure (κατανεμημένη μέτρηση): μπορούν να υπολογιστούν αν χωρίσουμε τα αρχικά δεδομένα σε μικρότερα υποσύνολα, υπολογίσουμε την τιμή σε κάθε υποσύνολο και τις συγχωνεύουμε πχ sum(), count(), max(), min() Algebraic measure (αλγεβρική μέτρηση): μπορεί να υπολογιστεί αν εφαρμόσουμε μια αλγεβρική (πολυωνυμική) συνάρτηση σε μία ή περισσότερες κατανεμημένες μετρήσεις (πχ avg()= sum()/count()) Holistic measure (ολιστική μέτρηση) πρέπει να υπολογιστεί στο σύνολο των δεδομένων
Διασπορά Mean (μέση τιμή) Variance (σ2) Standard deviation (σ)
Απόσταση και Ομοιότητα
Κριτήρια Ομοιότητας -Απόσταση Μια αριθμητική μέτρηση για το πόσο όμοια είναι δυο αντικείμενα Μεγαλύτερη όσο πιο όμοια είναι τα αντικείμενα μεταξύ τους Συχνά τιμές στο [0, 1] Μη Ομοιότητα (dissimilarity) Μια αριθμητική μέτρηση για το πόσο διαφορετικά είναι δυο αντικείμενα Μικρότερη όσο ποιο όμοια είναι τα αντικείμενα μεταξύ τους Η ελάχιστη τιμή είναι συνήθως 0 (όταν τα ίδια), αλλά το πάνω όρο διαφέρει
Κριτήρια Ομοιότητας Γνωστές ιδιότητες για την ομοιότητα: s(p, q) = 1 (ή μέγιστη ομοιότητα) μόνο αν p = q. s(p, q) = s(q, p) για κάθε p και q (Συμμετρία)
Κριτήρια Ομοιότητας -Απόσταση Η ομοιότητα-μη ομοιότητα μεταξύ δύο αντικειμένων μετριέται συνήθως βάση μιας συνάρτησης απόστασης ανάμεσα στα αντικείμενα Εξαρτάται από το είδος των δεδομένων, δηλαδή από το είδος των γνωρισμάτων τους
Κριτήρια Ομοιότητας Συναρτήσεις απόστασης (distance functions) Συχνές ιδιότητες: 1. d(i, j) 0 2. d(i, i) = 0 (ανακλαστική) 3. d(i, j) = d(j, i) (συμμετρική) 4. d(i, j) d(i, h) + d(h, j) (τριγωνική ανισότητα) Όταν ισχύουν και οι 4, η συνάρτηση απόστασης ονομάζεται και μετρική απόστασης (distance metric)
Αποστάσεις Δύο μεγάλες κατηγορίες: Ευκλείδειες (βασισμένες στη θέση των σημείων, αποστάσεις των σημείων στο χώρο, έννοια της μέσης τιμής) Μη Ευκλείδειες (βασισμένες σε άλλες ιδιότητες των σημείων πλην της θέσης τους)
Ορισμός Απόστασης Είναι μετρική απόστασης Έστω δυο μεταβλητές i και j με n γγνωρίσματα xik και xjk i = (xi1, xi2, …, xin) and j = (xj1, xj2, …, xjn) Ο πιο συνηθισμένος τρόπος – Ευκλείδεια απόσταση: Είναι μετρική απόστασης
Ορισμός Απόστασης Έστω δυο μεταβλητές i και j με n γνωρίσματα xik και xjk i = (xi1, xi2, …, xin) and j = (xj1, xj2, …, xjn) Manhattan ή city-block Είναι μετρική απόστασης
Ορισμός Απόστασης Παράδειγμα
Ορισμός Απόστασης b = (9,8) L2-norm: dist(x,y) = (42+32) = 5 5 3 Παράδειγμα b = (9,8) L2-norm: dist(x,y) = (42+32) = 5 5 3 L1-norm: dist(x,y) = 4+3 = 7 4 a = (5,5)
Ορισμός Απόστασης Παράδειγμα Πίνακας Δεδομένων Πίνακας Απόστασης
Ορισμός Απόστασης Έστω δυο μεταβλητές i και j με n γγνωρίσματα xik και xjk i = (xi1, xi2, …, xin) and j = (xj1, xj2, …, xjn) Minkowski (p-norm): Είναι μετρική απόστασης
Ορισμός Απόστασης p = 1. City block (Manhattan, taxicab, L1 norm). Hamming distance, όταν δυαδικά διανύσματα = αριθμός bits που διαφέρουν p = 2. Ευκλείδεια απόσταση p . “supremum” (Lmax norm, L norm) απόσταση. Η μέγιστη απόσταση μεταξύ οποιουδήποτε γνωρίσματος (διάστασης) των δυο διανυσμάτων το maximum το όριο όταν το p τείνει στο ∞ στην Lp norm: παίρνοντας την p th των διαφορών, αθροίζοντας και παίρνοντας την n th ρίζα.
Ορισμός Απόστασης Παράδειγμα Πίνακες Απόστασης
Ορισμός Απόστασης Συχνά, Βάρη πχ για Ευκλείδεια απόσταση:
Μη Ευκλείδειες αποστάσεις Jaccard distance Cosine distance Edit distance Hamming Distance
Ορισμός Απόστασης Δυαδικές Μεταβλητές Συχνά δεδομένα με μόνο δυαδικά γνωρίσματα (δυαδικά διανύσματα) Συμμετρικές (τιμές 0 και 1 έχουν την ίδια σημασία) Invariant ομοιότητα Μη συμμετρικές (η συμφωνία στο 1 πιο σημαντική – πχ όταν το 1 σηματοδοτεί την ύπαρξη κάποιας ασθένειας) Non-invariant (Jaccard)
Ορισμός Απόστασης Μεταξύ δύο αντικειμένων i και j με δυαδικά γνωρίσματα M01 = ο αριθμός των γνωρισμάτων που το i έχει τιμή 0 και το j έχει 1 M10 = ο αριθμός των γνωρισμάτων που το i έχει τιμή 1 και το j έχει 0 M00 = ο αριθμός των γνωρισμάτων που το i έχει τιμή 0 και το j έχει 0 M11 = ο αριθμός των γνωρισμάτων που το i έχει τιμή 1 και το j έχει 1 ΟΜΟΙΟΤΗΤΑ Απλό ταίριασμα – συμμετρικές μεταβλητές SMC = αριθμός ταιριασμάτων / αριθμός γνωρισμάτων = (M11 + M00) / (M01 + M10 + M11 + M00) J = αριθμός 11 ταιριασμάτων / αριθμό μη μηδενικών γνωρισμάτων = (M11) / (M01 + M10 + M11) J - Συντελεστής Jaccard – Jaccard Coefficient – μη συμμετρικές μεταβλητές (διαφορετική σημασία στην τιμή 1 και στην τιμή 0)
Ορισμός Απόστασης Παράδειγμα p = 1 0 0 0 0 0 0 0 0 0 q = 0 0 0 0 0 0 1 0 0 1 M01 = 2 M10 = 1 M00 = 7 M11 = 0 SMC = (M11 + M00)/(M01 + M10 + M11 + M00) = (0+7) / (2+1+0+7) = 0.7 J = (M11) / (M01 + M10 + M11) = 0 / (2 + 1 + 0) = 0 J = #1(p BAND q) / #1(p BOR Q)
Μ01 Μ10 + d ( i , j ) = Μ01 Μ10 + d ( i , j ) = Μ11 sim ( i , j ) = Ορισμός Απόστασης Αντικείμενο j 1 Contigency πίνακας για δυαδικά δεδομένα 1 Μ11 Μ10 Αντικείμενο i Μ01 Μ00 Μέτρηση απόστασης για συμμετρικές δυαδικές μεταβλητές Μ01 Μ10 + d ( i , j ) = 1 – συμμετρική-ομοιότητα Μ11 + Μ10 + Μ01 + Μ00 Μ01 Μ10 + Μέτρηση απόστασης για μη συμμετρικές δυαδικές μεταβλητές d ( i , j ) = Μ01 Μ10 Μ11 + Μ11 Jaccard coefficient sim ( i , j ) = Jaccard Μ01 Μ10 Μ11 +
Ορισμός Απόστασης Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4 Παράδειγμα τα γνωρίσματα μη συμμετρικά Έστω Y-P να αντιστοιχούν στο 1 και το Ν στο 0 Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4 Jack M Y N P N N N Mary F Y N P N P N Jim M Y P N N N N 75 . 2 1 ) , ( 67 33 = + mary jim d jack
Κατηγορικές Μεταβλητές χωρίς Διάταξη (nominal) Ορισμός Απόστασης Κατηγορικές Μεταβλητές χωρίς Διάταξη (nominal) Γενίκευση των δυαδικών μεταβλητών (γνωρισμάτων) όπου μπορούν να πάρουν παραπάνω από 2 τιμές, πχ κόκκινο, πράσινο, κίτρινο 1η Μέθοδος: Απλό ταίριασμα m: # ταιριάσματα, p: συνολικός # μεταβλητών 2η Μέθοδος: Χρήση πολλών δυαδικών μεταβλητών Μία για κάθε μία από τις μ τιμές
Jaccard ομοιότητα για Σύνολα Sim (C1, C2) = |C1C2|/|C1C2|.
Παράδειγμα 3 τομή. 8 ένωση. Jaccard ομοιότητα = 3/8
Jaccard ομοιότητα για Σύνολα Δυαδική αναπαράσταση συνόλου (1 το στοιχείο υπάρχει, 0 Αλλιώς) p1 = 10111; p2 = 10011. Μέγεθος τομής = 3; Μέγεθος ένωσης = 4, ομοιότητα Jaccard (όχι απόσταση) = 3/4. d(x,y) = 1 – (ομοιότητα Jaccard) = 1/4.
Jaccard ομοιότητα για Σύνολα d(x,x) = 0 γιατί xx = xx. d(x,y) = d(y,x) γιατί η ένωση και η τομή είναι συμμετρικές d(x,y) > 0 γιατί |xy| < |xy|. d(x,y) < d(x,z) + d(z,y) ?.
Ομοιότητα συνημίτονου (cosine similarity) Ορισμός Απόστασης Ομοιότητα συνημίτονου (cosine similarity) Αν d1 and d2 είναι διανύσματα κειμένου cos( d1, d2 ) = (d1 d2) / ||d1|| ||d2|| , όπου εσωτερικό γινόμενο || d || το μήκος του d. Παράδειγμα: d1 = 3 2 0 5 0 0 0 2 0 0 d2 = 1 0 0 0 0 0 0 1 0 2 d1 d2= 3*1 + 2*0 + 0*0 + 5*0 + 0*0 + 0*0 + 0*0 + 2*1 + 0*0 + 0*2 = 5 ||d1|| = (3*3+2*2+0*0+5*5+0*0+0*0+0*0+2*2+0*0+0*0)0.5 = (42) 0.5 = 6.481 ||d2|| = (1*1+0*0+0*0+0*0+0*0+0*0+0*0+1*1+0*0+2*2) 0.5 = (6) 0.5 = 2.245 cos( d1, d2 ) = .3150 Θέλουμε μια απόσταση που να αγνοεί τα 0 (όπως η Jaccard) αλλά να δουλεύει και για μη δυαδικά δεδομένα Επίσης, αγνοεί το μήκος των διανυσμάτων
Ομοιότητα συνημίτονου (cosine similarity) Ορισμός Απόστασης Ομοιότητα συνημίτονου (cosine similarity) Γεωμετρική ερμηνεία Ομοιότητα 1, όταν η γωνία 0 – που σημαίνει ότι τα x και y ίδια (αν εξαιρέσουμε το μήκος τους) Ομοιότητα 0, όταν η γωνία 90 (κανένας κοινός όρος)
Απόσταση Edit x = abcde ; y = bcduve. Για δύο συμβολοσειρές (strings) ο ελάχιστος αριθμός εισαγωγών/διαγραφών χαρακτήρων που χρειάζονται για να πάμε από τη μία στην άλλη x = abcde ; y = bcduve. Turn x into y by deleting a, then inserting u and v after d. Edit distance = 3..
Ιεραρχική Συσταδοποίηση: Βασικά Παράγει ένα σύνολο από εμφωλευμένες συστάδες οργανωμένες σε ένα ιεραρχικό δέντρο Μπορεί να παρασταθεί με ένα δένδρο-γραμμα Ένα διάγραμμα που μοιάζει με δένδρο και καταγράφει τις ακολουθίες από συγχωνεύσεις (merges) και διαχωρισμούς (splits)
Ιεραρχική Συσταδοποίηση: Πλεονεκτήματα Δε χρειάζεται να υποθέσουμε ένα συγκεκριμένο αριθμό από συστάδες Οποιοσδήποτε επιθυμητός αριθμός από συστάδες μπορεί να επιτευχθεί κόβοντας το δενδρόγραμμα στο κατάλληλο επίπεδο Μπορεί να αντιστοιχούν σε λογικές ταξινομήσεις Για παράδειγμα στις βιολογικές επιστήμες (ζωικό βασίλειο, phylogeny reconstruction, …)
Ιεραρχική Συσταδοποίηση Δυο βασικοί τύποι ιεραρχικής συσταδοποίησης Συσσωρευτικός (Agglomerative): Αρχίζει με τα σημεία ως ξεχωριστές συστάδες Σε κάθε βήμα, συγχωνεύει το πιο κοντινό ζευγάρι συστάδων μέχρι να μείνει μόνο μία (ή k) συστάδες Διαιρετικός (Divisive): Αρχίζει με μία συστάδα που περιέχει όλα τα σημεία Σε κάθε βήμα, διαχωρίζει μία συστάδα, έως κάθε συστάδα να περιέχει μόνο ένα σημείο (ή να δημιουργηθούν k συστάδες) Οι παραδοσιακοί αλγόριθμοι χρησιμοποιούν έναν πίνακα ομοιότητα ή απόστασης διαχωρισμός ή συγχώνευση μιας ομάδας τη φορά
Συσσωρευτική Ιεραρχική Συσταδοποίηση (ΣΙΣ) (anglomerative) Η πιο δημοφιλής τεχνική συσταδοποίησης Βασικός αλγόριθμος Υπολογισμός του Πίνακα Γειτνίασης Έστω κάθε σημείο αποτελεί και μια συστάδα Repeat Συγχώνευση των δύο κοντινότερων συστάδων Ενημέρωση του Πίνακα Γειτνίασης Until να μείνει μία μόνο συστάδα Βασική λειτουργία είναι ο υπολογισμός της γειτνίασης δυο συστάδων Διαφορετικοί αλγόριθμοι με βάση το πως ορίζεται η απόσταση ανάμεσα σε δύο συστάδες
Starting Situation Αρχικά: Κάθε σημείο και συστάδα και ένας Πίνακας Γειτνίασης (proximity matrix) p1 p3 p5 p4 p2 . . . . Proximity Matrix
Intermediate Situation Μετά από κάποιες συγχωνεύσεις, έχουμε κάποιες συστάδες C2 C1 C3 C5 C4 C3 C4 Πίνακας Γειτνίασης C1 C5 C2
Intermediate Situation Θέλουμε να συγχωνεύσουμε τις δύο κοντινότερες συστάδες (C2 και C5) και να ενημερώσουμε τον πίνακα γειτνίασης. C2 C1 C3 C5 C4 C3 C4 Πίνακας Γειτνίασης C1 C5 C2
After Merging Μετά τη συγχώνευση η ερώτηση είναι: Πως ενημερώνουμε τον πίνακα γειτνίασης C2 U C5 C1 C3 C4 C1 ? ? ? ? ? C2 U C5 C3 C3 ? C4 ? C4 Πίνακας Γειτνίασης C1 C2 U C5
ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων p1 p3 p5 p4 p2 . . . . Ομοιότητα? MIN MAX Μέσος όρος της συστάδας Η απόσταση μεταξύ των κεντρικών σημείων Άλλες μέθοδοι βασισμένες σε μια αντικειμενική συνάρτηση Η μέθοδος του Ward χρησιμοποιεί τετραγωνικά λάθη Πίνακας Γειτνίασης
ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων p1 p3 p5 p4 p2 . . . . MIN MAX Μέσος όρος της συστάδας Η απόσταση μεταξύ των κεντρικών σημείων Άλλες μέθοδοι βασισμένες σε μια αντικειμενική συνάρτηση Η μέθοδος του Ward χρησιμοποιεί τετραγωνικά λάθη Πίνακας Γειτνίασης
ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων p1 p3 p5 p4 p2 . . . . MIN MAX Μέσος όρος της συστάδας Η απόσταση μεταξύ των κεντρικών σημείων Άλλες μέθοδοι βασισμένες σε μια αντικειμενική συνάρτηση Η μέθοδος του Ward χρησιμοποιεί τετραγωνικά λάθη Πίνακας Γειτνίασης
ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων p1 p3 p5 p4 p2 . . . . MIN MAX Μέσος όρος της συστάδας Η απόσταση μεταξύ των κεντρικών σημείων Άλλες μέθοδοι βασισμένες σε μια αντικειμενική συνάρτηση Η μέθοδος του Ward χρησιμοποιεί τετραγωνικά λάθη Πίνακας Γειτνίασης
ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων p1 p3 p5 p4 p2 . . . . MIN MAX Μέσος όρος της συστάδας Η απόσταση μεταξύ των κεντρικών σημείων Άλλες μέθοδοι βασισμένες σε μια αντικειμενική συνάρτηση Η μέθοδος του Ward χρησιμοποιεί τετραγωνικά λάθη Πίνακας Γειτνίασης
Cluster Similarity: MIN or Single Link Η ομοιότητα μεταξύ δυο συστάδων βασίζεται στα δυο πιο όμοια (πιο γειτονικά) σημεία στις διαφορετικές συστάδες (με όρους γραφημάτων – shortest edge) Καθορίζεται από ένα ζεύγος τιμών, δηλαδή μια ακμή (link) του γραφήματος γειτνίασης. 1 2 3 4 5
Hierarchical Clustering: MIN 5 1 2 3 4 5 6 4 3 2 1 Nested Clusters Dendrogram
Strength of MIN Two Clusters Original Points Can handle non-elliptical shapes
Limitations of MIN Two Clusters Original Points Ευαίσθητο σε θόρυβο και outliers
Cluster Similarity: MAX or Complete Linkage MΑΧ ή πλήρους συνδεσιμότητας (complete linkage) - Αναζητά κλίκες Η ομοιότητα μεταξύ δυο συστάδων βασίζεται στα δυο λιγότερο όμοια (πιο μακρινά) σημεία στις διαφορετικές συστάδες (longest edge) – δηλαδή, οι συστάδες με την μικρότερη τέτοια απόσταση Καθορίζεται από όλα τα ζεύγη τιμών στις δύο συστάδες. 1 2 3 4 5
Hierarchical Clustering: MAX 5 4 1 2 3 4 5 6 2 3 1 Nested Clusters Dendrogram
Strength of MAX Two Clusters Original Points Less susceptible to noise and outliers
Limitations of MAX Two Clusters Original Points Tends to break large clusters Biased towards globular clusters
ΣΙΣ: Ορισμός απόστασης μεταξύ συστάδων: Μέσο Ομάδας Κοντινότητα δύο συστάδων είναι η μέση τιμή της ανα-δύο κοντινότητας (average of pairwise proximity) μεταξύ των σημείων των δύο συστάδων. Χρήση μέσης γιατί η ολική θα έδινε προτίμηση στις μεγάλες συστάδες 1 2 3 4 5
Hierarchical Clustering: Group Average 5 4 1 2 3 4 5 6 2 3 1 Φωλιασμένες Συστάδες Dendrogram
Hierarchical Clustering: Group Average Μεταξύ ΜΙΝ (Single) και MAX (Complete Link) Πλεονεκτήματα μικρότερη ευαισθησία σε θόρυβο και outliers Μειονεκτήματα Ευνοεί κυκλικές συστάδες
Cluster Similarity: Ward’s Method Βασισμένο στην αύξηση του SSE όταν συγχωνεύονται οι δύο συστάδες Παρόμοιο με group average εάν η απόσταση είναι η distance squared μικρότερη ευαισθησία σε θόρυβο και outliers Ευνοεί κυκλικές συστάδες Ιεραρχικό ανάλογο του K-means Μπορεί να χρησιμοποιηθεί για την αρχικοποίηση του k-meanls
Hierarchical Clustering: Comparison 5 5 1 2 3 4 5 6 4 4 1 2 3 4 5 6 3 2 2 1 MIN MAX 3 1 5 5 1 2 3 4 5 6 1 2 3 4 5 6 4 4 2 2 Ward’s Method 3 3 1 Group Average 1
ΣΙΣ: Πολυπλοκότητα Χρόνου και Χώρου O(N2) χώρος για την αποθήκευση του πίνακα γειτνίασης N αριθμός σημείων. O(N3) time in many cases Είναι N βήματα και σε κάθε βήμα το μέγεθος, N2, του πίνακα γειτνίασης πρέπει να αλλάξει και να γίνει αναζήτηση σε αυτό Η πολυπλοκότητα μπορεί να μειωθεί σε O(N2 log(N) ) χρόνο σε μερικές περιπτώσεις Εάν κρατήσουμε ταξινόμηση των αποστάσεων, πχ heap
ΣΙΣ: Περιορισμοί και Προβλήματα Οι αποφάσεις είναι τελικές – αφού δυο συστάδες συγχωνευτούν αυτό δεν μπορεί να αλλάξει Δεν ελαχιστοποιούν άμεσα κάποια αντικειμενική συνάρτηση Διαφορετικά σχήματα έχουν προβλήματα με ένα ή περισσότερα από τα παρακάτω : Ευαισθησία σε θόρυβο και outliers. Difficulty handling different sized clusters and convex shapes Σπάσιμο μεγάλων clusters
MST: Divisive Hierarchical Clustering Build MST (Minimum Spanning Tree) Start with a tree that consists of any point In successive steps, look for the closest pair of points (p, q) such that one point (p) is in the current tree but the other (q) is not Add q to the tree and put an edge between p and q
MST: Divisive Hierarchical Clustering Use MST for constructing hierarchy of clusters
DBSCAN is a density-based algorithm. Density = number of points within a specified radius (Eps) A point is a core point if it has more than a specified number of points (MinPts) within Eps These are points that are at the interior of a cluster A border point has fewer than MinPts within Eps, but is in the neighborhood of a core point A noise point is any point that is not a core point or a border point.
DBSCAN: Core, Border, and Noise Points
DBSCAN Algorithm Eliminate noise points Perform clustering on the remaining points
DBSCAN: Core, Border and Noise Points Original Points Point types: core, border and noise Eps = 10, MinPts = 4
When DBSCAN Works Well Original Points Clusters Resistant to Noise Can handle clusters of different shapes and sizes
When DBSCAN Does NOT Work Well (MinPts=4, Eps=9.75). Original Points Varying densities High-dimensional data (MinPts=4, Eps=9.92)
DBSCAN: Determining EPS and MinPts Idea is that for points in a cluster, their kth nearest neighbors are at roughly the same distance Noise points have the kth nearest neighbor at farther distance So, plot sorted distance of every point to its kth nearest neighbor
Cluster Validity For supervised classification we have a variety of measures to evaluate how good our model is Accuracy, precision, recall For cluster analysis, the analogous question is how to evaluate the “goodness” of the resulting clusters? But “clusters are in the eye of the beholder”! Then why do we want to evaluate them? To avoid finding patterns in noise To compare clustering algorithms To compare two sets of clusters To compare two clusters
Clusters found in Random Data DBSCAN Random Points K-means Complete Link
Different Aspects of Cluster Validation Determining the clustering tendency of a set of data, i.e., distinguishing whether non-random structure actually exists in the data. Comparing the results of a cluster analysis to externally known results, e.g., to externally given class labels. Evaluating how well the results of a cluster analysis fit the data without reference to external information. - Use only the data Comparing the results of two different sets of cluster analyses to determine which is better. Determining the ‘correct’ number of clusters. For 2, 3, and 4, we can further distinguish whether we want to evaluate the entire clustering or just individual clusters.
Measures of Cluster Validity Numerical measures that are applied to judge various aspects of cluster validity, are classified into the following three types. External Index: Used to measure the extent to which cluster labels match externally supplied class labels. Entropy Internal Index: Used to measure the goodness of a clustering structure without respect to external information. Sum of Squared Error (SSE) Relative Index: Used to compare two different clusterings or clusters. Often an external or internal index is used for this function, e.g., SSE or entropy Sometimes these are referred to as criteria instead of indices However, sometimes criterion is the general strategy and index is the numerical measure that implements the criterion.
Measuring Cluster Validity Via Correlation Two matrices Proximity Matrix “Incidence” Matrix One row and one column for each data point An entry is 1 if the associated pair of points belong to the same cluster An entry is 0 if the associated pair of points belongs to different clusters Compute the correlation between the two matrices Since the matrices are symmetric, only the correlation between n(n-1) / 2 entries needs to be calculated. High correlation indicates that points that belong to the same cluster are close to each other. Not a good measure for some density or contiguity based clusters.
Measuring Cluster Validity Via Correlation Correlation of incidence and proximity matrices for the K-means clusterings of the following two data sets. Corr = -0.9235 Corr = -0.5810
Using Similarity Matrix for Cluster Validation Order the similarity matrix with respect to cluster labels and inspect visually.
Using Similarity Matrix for Cluster Validation Clusters in random data are not so crisp DBSCAN
Using Similarity Matrix for Cluster Validation Clusters in random data are not so crisp K-means
Using Similarity Matrix for Cluster Validation Clusters in random data are not so crisp Complete Link
Using Similarity Matrix for Cluster Validation DBSCAN
Internal Measures: SSE Clusters in more complicated figures aren’t well separated Internal Index: Used to measure the goodness of a clustering structure without respect to external information SSE SSE is good for comparing two clusterings or two clusters (average SSE). Can also be used to estimate the number of clusters
Internal Measures: SSE SSE curve for a more complicated data set SSE of clusters found using K-means
Framework for Cluster Validity Need a framework to interpret any measure. For example, if our measure of evaluation has the value, 10, is that good, fair, or poor? Statistics provide a framework for cluster validity The more “atypical” a clustering result is, the more likely it represents valid structure in the data Can compare the values of an index that result from random data or clusterings to those of a clustering result. If the value of the index is unlikely, then the cluster results are valid These approaches are more complicated and harder to understand. For comparing the results of two different sets of cluster analyses, a framework is less necessary. However, there is the question of whether the difference between two index values is significant
Statistical Framework for SSE Example Compare SSE of 0.005 against three clusters in random data Histogram shows SSE of three clusters in 500 sets of random data points of size 100 distributed over the range 0.2 – 0.8 for x and y values
Statistical Framework for Correlation Correlation of incidence and proximity matrices for the K-means clusterings of the following two data sets. Corr = -0.9235 Corr = -0.5810
Internal Measures: Cohesion and Separation Cluster Cohesion: Measures how closely related are objects in a cluster Example: SSE Cluster Separation: Measure how distinct or well- separated a cluster is from other clusters Example: Squared Error Cohesion is measured by the within cluster sum of squares (SSE) Separation is measured by the between cluster sum of squares Where |Ci| is the size of cluster i
Internal Measures: Cohesion and Separation Example: SSE BSS + WSS = constant m 1 m1 2 3 4 m2 5 K=1 cluster: K=2 clusters:
Internal Measures: Cohesion and Separation A proximity graph based approach can also be used for cohesion and separation. Cluster cohesion is the sum of the weight of all links within a cluster. Cluster separation is the sum of the weights between nodes in the cluster and nodes outside the cluster. cohesion separation
Internal Measures: Silhouette Coefficient Silhouette Coefficient combine ideas of both cohesion and separation, but for individual points, as well as clusters and clusterings For an individual point, i Calculate a = average distance of i to the points in its cluster Calculate b = min (average distance of i to points in another cluster) The silhouette coefficient for a point is then given by s = 1 – a/b if a < b, (or s = b/a - 1 if a b, not the usual case) Typically between 0 and 1. The closer to 1 the better. Can calculate the Average Silhouette width for a cluster or a clustering
External Measures of Cluster Validity: Entropy and Purity
Final Comment on Cluster Validity “The validation of clustering structures is the most difficult and frustrating part of cluster analysis. Without a strong effort in this direction, cluster analysis will remain a black art accessible only to those true believers who have experience and great courage.” Algorithms for Clustering Data, Jain and Dubes