ΟΜΑΔΕΣ Δημιουργία Ομάδων ΟΜΑΔΕΣ Δημιουργία Ομάδων Μεθοδολογίες ομαδοποίησης δεδομένων: Μέθοδοι για την εύρεση των κατηγοριών και των υποκατηγοριών που σχηματίζουν τα δεδομένα του εκάστοτε προβλήματος. Ομαδοποίηση (clustering): εργαλείο ανάλυσης δεδομένων, οργανώνει πρότυπα σε ομάδες (clusters) ή κατηγορίες, πρότυπα που ανήκουν σε μια ομάδα (ομοιότητα μεταξύ τους) Αποτελέσματα ομαδοποίησης: ταξινόμηση νέων δεδομένων, έλεγχος ομοιογένειας δεδομένων, συμπίεση δεδομένων ΣΧΗΜΑ 5.1: Σύνολα δεδομένων στον δυσδιάστατο χώρο Δύο Ομάδες - Δεν υπάρχει μια μοναδική τεχνική ομαδοποίησης όλων των περιπτώσεων Ανθρώπινη αντίληψη: καλύτερη τεχνική ομαδοποίησης (2-d, 3-d χώρο) Υψηλότερες διαστάσεις όχι καλή Πληθώρα μεθόδων - αφορούν συγκεκριμένες εφαρμογές
ΟΜΑΔΕΣ Δημιουργία Ομάδων ΟΜΑΔΕΣ Δημιουργία Ομάδων
ΟΜΑΔΕΣ Δημιουργία Ομάδων ΟΜΑΔΕΣ Δημιουργία Ομάδων Αλγόριθμοι θα ανακαλύψουν ομάδες ακόμα και εάν τα δεδομένα είναι τυχαία Τι αντιπροσωπεύουν τα σημεία, ποια έννοια έχει η ομάδα στην εφαρμογή Αντί της εύρεσης φυσικής δομής δεδομένων, επιβολή αυθαίρετης δομής Σκεπτικισμός για τα αποτελέσματα - Αυξάνουν την κατανόηση του προβλήματος; Ναι! Ομάδες έχουν επιλεγεί σωστά Εάν αποτέλεσμα έρχεται σε αντίθεση με διαίσθηση δεν έχει γίνει πλήρως κατανοητό το πρόβλημα
ΟΜΑΔΕΣ Εφαρμογές Ιατρική: Ομαδοποίηση ασθενειών και συμπτωμάτων ΟΜΑΔΕΣ Εφαρμογές Ιατρική: Ομαδοποίηση ασθενειών και συμπτωμάτων Ψυχιατρική: Διάγνωση ομάδων συμπτωμάτων - παράνοια, σχιζοφρένεια Αρχαιολογία: ταξινόμηση πέτρινων εργαλείων, ταφικά κτερίσματα Ανάλυση εικόνας (image analysis): ομάδες pixels με παρόμοια χαρακτηριστικά (χρώμα, texture)
ΟΜΑΔΕΣ Ιδανικές ομάδες ΟΜΑΔΕΣ Ιδανικές ομάδες Αποτελείται από ένα σύνολο παρομοίων προτύπων Απόσταση μεταξύ προτύπων ίδιας ομάδας μικρότερη από απόσταση μεταξύ προτύπων διαφορετικών ομάδων Ομάδες αποτελούν συνδεδεμένες περιοχές με σχετικά μεγάλη πυκνότητα, διαχωρίζονται από άλλες ομάδες με περιοχές χαμηλής πυκνότητας Αρχικός σχεδιασμός καθορίζει τι σημαίνει ομάδα για την εφαρμογή Μεθοδολογίες ομαδοποίησης βασίζονται σε ιδανικές δομές ομαδοποίησης Περισσότεροι αλγόριθμοι ομαδοποίησης πάντοτε τοποθετούν τα δύο πλησιέστερα πρότυπα στην ίδια ομάδα
ΟΜΑΔΕΣ Μεθοδολογίες Ομαδοποίησης ΟΜΑΔΕΣ Μεθοδολογίες Ομαδοποίησης Ιεραρχικοί (hierarchical) Διαχωριστικοί (partitional) Ιεραρχική δομή δεδομένων Δενδρόγραμμα Συσσωρευτική (Agglomerate) Aρχικά: N ομάδες - μία για κάθε πρότυπο Ενδιάμεσα: ομάδες ενοποιούνται Τελικά: μια ομάδα που περιέχει όλα τα πρότυπα Διαμοιραστική (divisive) Aρχικά: μια ομάδα που περιέχει όλα τα πρότυπα Ενδιάμεσα: ομάδες διασπώνται Τελικά: N ομάδες - μία για κάθε πρότυπο Εφαρμογές: ταξινόμηση φυτών και ζώων
ΟΜΑΔΕΣ Μεθοδολογίες Ομαδοποίησης ΟΜΑΔΕΣ Μεθοδολογίες Ομαδοποίησης Διαχωριστικοί (partitional) Στόχος είναι η δημιουργία ενός συνόλου ομάδων οι οποίες διαχωρίζουν τα δεδομένα σε παρόμοιες ενότητες Πρότυπα τα οποία βρίσκονται σε μικρή απόσταση θεωρούνται ότι είναι όμοια Προκαθορισμένος αριθμός κατηγοριών Χρησιμοποιούν συναρτήσεις κριτηρίων (criterion functions) όπως μέθοδοι ελαχιστοποίησης τετραγώνων, εκτιμητές πυκνότητας και πλησιέστερους γείτονες. Εφαρμογές: Κατηγορίες του προβλήματος δεν σχηματίζουν ευδιάκριτες ομάδες (υπάρχει αλληλοεπικάλυψη) διάκριση μεταξύ μεθόδων ομαδοποίησης και αλγόριθμων ομαδοποίησης Η ίδια μέθοδος ομαδοποίησης μπορεί να υλοποιηθεί διαφορετικά έχοντας σαν αποτέλεσμα την δημιουργία πολλών διαφορετικών αλγορίθμων ομαδοποίησης Forgy’s, Isodata είναι βασισμένοι σε μεθόδους οι οποίες ελαχιστοποιούν το τετραγωνικό σφάλμα
ΟΜΑΔΕΣ Ιεραρχική ομαδοποίηση ΟΜΑΔΕΣ Ιεραρχική ομαδοποίηση Iατρείο μικρών ζώων δύο μεγάλες ομάδες γάτες, σκύλοι Εάν δύο πρότυπα ανήκουν στην ίδια ομάδα σε ένα επίπεδο, τότε θα ανήκουν στην ίδια ομάδα σε κάθε υψηλότερο επίπεδο Πρότυπα 1, 2
ΟΜΑΔΕΣ Ιεραρχική ομαδοποίηση ΟΜΑΔΕΣ Ιεραρχική ομαδοποίηση 1. Καταχώρηση κάθε ένα από τα N πρότυπα σε μια μοναδική ομάδα 2. Να βρεθούν οι ομάδες με την μεγαλύτερη ομοιότητα μεταξύ τους και να συνχωνευτούν σε μια ομάδα 3. Επανάληψη του βήματος 2 έως ότου όλα τα πρότυπα να ανήκουν στην ίδια ομάδα Χρησιμοποιώντας διαφορετικές μεθόδους για τον καθορισμό της ομοιότητας μεταξύ των ομάδων προκύπτουν διαφορετικοί αλγόριθμοι. Δημοφιλή μέτρα απόστασης: Ευκλέιδεια και Ιπποδάμεια Αλγόριθμος απλής σύνδεσης (Single Linkage) μέθοδος πλησιέστερης γενετίασης (nearest neighbor) ή ελάχιστη μέθοδος (minimum method) απόσταση μεταξύ ομάδων: ελάχιστη απόσταση μεταξύ δύο προτύπων διαφορετικών ομάδων
ΟΜΑΔΕΣ Αλγόριθμος απλής σύνδεσης ΟΜΑΔΕΣ Αλγόριθμος απλής σύνδεσης
ΟΜΑΔΕΣ Αλγόριθμος απλής σύνδεσης ΟΜΑΔΕΣ Αλγόριθμος απλής σύνδεσης
ΟΜΑΔΕΣ Αλγόριθμος απλής σύνδεσης ΟΜΑΔΕΣ Αλγόριθμος απλής σύνδεσης
ΟΜΑΔΕΣ Αλγόριθμος πλήρους σύνδεσης ΟΜΑΔΕΣ Αλγόριθμος πλήρους σύνδεσης Ονομάζεται επίσης μέγιστη μέθοδος (maximum method) ή απομακρυσμένης γειτνίασης (farthest neighbor). απόσταση μεταξύ ομάδων: μέγιστη απόσταση μεταξύ δύο προτύπων που ανήκουν σε διαφορετικές ομάδες πλησιέστερες ομάδες {1} και {2} ενώνονται
ΟΜΑΔΕΣ Αλγόριθμος πλήρους σύνδεσης ΟΜΑΔΕΣ Αλγόριθμος πλήρους σύνδεσης μέγιστη απόσταση μεταξύ των ομάδων {1,2} {3}: 11.7 υπόλοιπες στήλες απλά διατηρούνται και αντιγράφονται Μικρότερη απόσταση μεταξύ ομάδων 8: {4}, {5}
ΟΜΑΔΕΣ Αλγόριθμος πλήρους σύνδεσης ΟΜΑΔΕΣ Αλγόριθμος πλήρους σύνδεσης μέγιστη απόσταση μεταξύ των ομάδων {1,2} {3,4}: 21.5 υπόλοιπες στήλες απλά διατηρούνται και αντιγράφονται Μικρότερη απόσταση μεταξύ ομάδων 9.8: {4,5}, {3} {1,2} {3,4,5}
ΟΜΑΔΕΣ Αλγόριθμος πλήρους σύνδεσης ΟΜΑΔΕΣ Αλγόριθμος πλήρους σύνδεσης κόβοντας δενδρόγραμμα στo 10 2 ομάδες. κόβοντας δενδρόγραμμα στo 5 4 ομάδες Που λοιπόν πρέπει να κόψουμε το δενδρόγραμμα; Eυριστική μέθοδος: μεγάλο κάθετο κενό μεγάλο χρόνο ζωής: η διαφορά μεταξύ της απόστασης κατά την οποία η ομάδα ενώνεται από την απόσταση την οποία δημιουργήθηκε. Κόβεται δενδρόγραμμα στo 10 2 ομάδες
ΟΜΑΔΕΣ Σύγκριση Αλγόριθμων ΟΜΑΔΕΣ Σύγκριση Αλγόριθμων Διαφορετικός ο τρόπος καθορισμού της ομοιότητας των προτύπων διαφορετικές ομαδοποίησης για τα ίδια δεδομένα Αλγόριθμος απλής σύνδεσης μειονεκτεί από το φαινόμενο της αλυσίδας: όπου απομακρυσμένα πρότυπα τοποθετούνται στην ίδια ομάδα επειδή έχουν ένα κοινό γειτονικό πρότυπο. Παραδείγματα Duda και Hart Η γραφική αναπαράσταση του αλγόριθμου απλής σύνδεσης είναι μια ελάχιστη δενδρική εξάπλωση (minimum spanning tree) η οποία δημιουργείται προσθέτοντας την πιο κοντινή τιμή μεταξύ των δύο ομάδων.
ΟΜΑΔΕΣ Σύγκριση Αλγόριθμων ΟΜΑΔΕΣ Σύγκριση Αλγόριθμων
ΟΜΑΔΕΣ Σύγκριση Αλγόριθμων ΟΜΑΔΕΣ Σύγκριση Αλγόριθμων α) οι ομάδες είναι συμπαγείς και καλά διαχωρίσιμες αλγόριθμος απλής σύνδεσης βρίσκει εύκολα τις διαχωρίσιμες ομάδες. β) πρότυπα δημιουργούν γέφυρα μεταξύ ομάδων αποτέλεσμα: δημιουργία απρόσμενων ομάδων, μια μεγάλη επιμήκης ομάδα και μια μικρή και συμπαγή. Φαίνεται το φαινόμενο της αλυσίδας. Εφόσον τα αποτελέσματα μιας ομαδοποίησης είναι ιδιαίτερα ευαίσθητα στον θόρυβο και σε μικρές αποκλίσεις των προτύπων στον χώρο τότε το φαινόμενο της αλυσίδας είναι μειονέκτημα. Εάν οι ομάδες είναι επιμήκεις τότε η δημιουργία αλυσίδας μπορεί να είναι και πλεονέκτημα γ) παράδειγμα
ΟΜΑΔΕΣ Σύγκριση Αλγόριθμων ΟΜΑΔΕΣ Σύγκριση Αλγόριθμων Η γραφική αναπαράσταση του αλγορίθμου πλήρης σύνδεσης είναι η δημιουργία ενός γράφου στο οποίο ακμές ενώνουν όλα τα πρότυπα ή κόμβους σε μια ομάδα. Κάθε ομάδα αποτελεί ένα πλήρες υπογράφο. Η απόσταση μεταξύ των ομάδων καθορίζεται από την απόσταση των απομακρυσμένων προτύπων στις δύο ομάδες. Όταν γειτονικά πρότυπα συνενώνονται ο γράφος αλλάζει προσθέτοντας ακμές μεταξύ όλων των πρότυπων κάθε ομάδας. Διάμετρος ομάδας: μεγίστη απόσταση μεταξύ προτύπων στην ομάδα Aπόσταση ομάδων: διάμετρος της συνένωσης των δύο ομάδων.
ΟΜΑΔΕΣ Σύγκριση Αλγόριθμων ΟΜΑΔΕΣ Σύγκριση Αλγόριθμων Κάθε επανάληψη των βημάτων αλγορίθμου πλήρης σύνδεσης αυξάνει κατά το λιγότερο δυνατόν την διάμετρο της νέας ομάδας. Πλεονέκτημα όταν οι πραγματικές ομάδες είναι συμπαγείς και παρόμοιες σε μέγεθος, Παραδείγματα α) και β) Αντίθετα όταν οι πραγματικές ομάδες δεν έχουν αυτά τα χαρακτηριστικά, τότε αποτελέσματα αυθαίρετα Παράδειγμα γ) άλλες συναρτήσεις όπως μέσες τιμές, και το (Centroid) κέντρα βάρους. Αλγόριθμος σύνδεσης μέσων τιμών (average linkage) Αλγόριθμος σύνδεσης κέντρων βάρους (centroid linkage). Μέθοδος Ward: Iεραρχικός αλγόριθμος ο οποίος χρησιμοποιεί τεχνικές ανάλυσης διακύμανσης (analysis of variance)
ΟΜΑΔΕΣ Αλγόριθμος σύνδεσης μέσων τιμών ΟΜΑΔΕΣ Αλγόριθμος σύνδεσης μέσων τιμών Ο αλγόριθμος απλής σύνδεσης δημιουργεί ομάδες επιμήκης ενώ ο αλγόριθμος πλήρης σύνδεσης παράγει πιο συμπαγείς ομάδες. Ο αλγόριθμος σύνδεσης μέσων τιμών είναι μια προσπάθεια του συμβιβασμού μεταξύ των άκρων των αλγόριθμων απλής και πλήρης σύνδεσης. απόσταση μεταξύ ομάδων: μέση απόσταση των προτύπων κάθε διαφορετικής ομάδας. πλησιέστερες ομάδες {1} και {2} ενώνονται
ΟΜΑΔΕΣ Αλγόριθμος σύνδεσης μέσων τιμών ΟΜΑΔΕΣ Αλγόριθμος σύνδεσης μέσων τιμών Αρχικός πίνακα απόστασης: d(1,3) = 11.7 d(2,3)=8.1 d({1,2},3)=9.9 υπόλοιπες στήλες απλά διατηρούνται και αντιγράφονται Μικρότερη απόσταση μεταξύ ομάδων 8: {4}, {5}
ΟΜΑΔΕΣ Αλγόριθμος σύνδεσης μέσων τιμών ΟΜΑΔΕΣ Αλγόριθμος σύνδεσης μέσων τιμών Δεύτερο πίνακα απόστασης: d({1,2},4) = 18.0 d({1,2},5)=19.7 d({1,2},{4,5})=18.9 Μικρότερη απόσταση μεταξύ ομάδων 9.8: {4,5}, {3} {1,2} {3,4,5} Το αποτέλεσμα είναι ακριβώς το ίδιο με τον αλγόριθμο πλήρη σύνδεσης. Ο αλγόριθμος σύνδεσης μεσών τιμών είναι αποτελεσματικός για συμπαγή πρότυπα. Επιπλέον, μπορεί να χρησιμοποιηθεί και σε επιμήκεις ομάδες.
ΟΜΑΔΕΣ Μέθοδος Ward Ονομάζεται επίσης μέθοδος ελάχιστης διακύμανσης (mimimum-variance). Αρχικά όλα τα πρότυπα γίνονται ατομικές ομάδες. Σε κάθε επανάληψη συνενώνεται το ζευγάρι το οποίο παράγει το μικρότερο τετραγωνικό σφάλμα. Τετραγωνικό σφάλμα ομάδας
ΟΜΑΔΕΣ Μέθοδος Ward 5 ομάδες, κάθε μια αποτελείται από ένα πρότυπο Τετραγωνικό Σφάλμα 0 10 διαφορετικοί τρόποι για συνένωση 5 ομάδων {1} [4,4] {2} [8,4] μ = [6,4] E{1,2}= E{3}=0 E{4}=0 E{5}=0 E = 8 + 0 + 0 + 0 =8 Ομάδες {1} και {2} ενώνονται
ΟΜΑΔΕΣ Μέθοδος Ward Ομάδες {1,2} {3} {4} {5} Μικρότερο Ε = 40 Ομάδες {1,2} {3} {4} {5} Μικρότερο Ε = 40 {4,5} ενώνονται {1,2} {3} {4,5}
ΟΜΑΔΕΣ Μέθοδος Ward Μικρότερο Ε = 94 Οι ομάδες {3} και {4,5} ενώνονται Ιεραρχικοί αλγόριθμοι αποτελεσματικοί για μικρό αριθμό προτύπων (<20)