Αναγνώριση Προτύπων.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Bayes Classifiers.
Advertisements

27 Νοέμβρη 2002.
Matching.
Αυτο-συσχέτιση (auto-correlation)
Πιθανότητες & Τυχαία Σήματα Συσχέτιση
Robustness in Geometric Computations Christoph M. Hoffmann.
Αναγνώριση Προτύπων.
Μια Μπεϋζιανή Μέθοδος για την Επαγωγή Πιθανοτικών Δικτύων από Δεδομένα ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ B. Μεγαλοοικονόμου, Χ. Μακρής.
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Αυτόματη Ομαδοποίηση Κινητών Χρηστών Βάσει Πληροφορίας Θέσης Επιβλέπων Καθηγητής: Χατζηευθυμιάδης Ευστάθιος Αθήνα, Ιούλιος 2012 Όνομα: Μπισμπίκης Γεώργιος.
Αναγνώριση Προτύπων.
Μικροσυστοιχίες και ανάλυση δεδομένων
Αναγνώριση Προτύπων.
Γραφήματα & Επίπεδα Γραφήματα
Independent Component Analysis (ICA) Ιανουάριος 2012.
Διαίρει και Βασίλευε πρόβλημα μεγέθους Ν διάσπαση πρόβλημα μεγέθους Ν-k πρόβλημα μεγέθους k.
Κ. Μόδη: Γεωστατιστική και Εφαρμογές της (Κεφάλαιο 5) 1 Τυχαία συνάρτηση Μία τυχαία συνάρτηση (ΤΣ) είναι ένας κανόνας με τον οποίο σε κάθε αποτέλεσμα ζ.
Δυναμικός Προγραμματισμός
Εξόρυξη Δεδομένων και Τεχνητά Νευρωνικά Δίκτυα
Κ. Μόδη: Γεωστατιστική και Εφαρμογές της (Κεφάλαιο 3) 1 Από κοινού κατανομή δύο ΤΜ Στην περίπτωση που υπάρχουν δύο ΤΜ ενδιαφέροντος, η συνάρτηση κατανομής.
Αριθμητικές Μέθοδοι Βελτιστοποίησης Θεωρία & Λογισμικό Τμήμα Πληροφορικής - Πανεπιστήμιο Ιωαννίνων Ι. Η. Λαγαρής.
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Ανάλυση Πολλαπλής Παλινδρόμησης
Αλγόριθμοι Συσταδοποίησης και Κατηγοριοποίησης Βιολογικών Δεδομένων
ΚΕΦΑΛΑΙΟ 5 ΧΩΡΙΚΗ ΔΕΙΓΜΑΤΟΛΗΨΙΑ
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
Βασικές Αρχές Μέτρησης
ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Βασικές Έννοιες Ψηφιοποίηση Συνεχών Σημάτων
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής και Τηλεπικοινωνιών Learning to Learn: Algorithmic Inspirations from Human Problem Solving.
ΒΕΣ 06: Προσαρμοστικά Συστήματα στις Τηλεπικοινωνίες © 2007 Nicolas Tsapatsoulis Προσαρμοστικοί Αλγόριθμοι Υλοποίησης Βέλτιστων Ψηφιακών Φίλτρων: Ο αναδρομικός.
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.
Κ. Μόδη: Γεωστατιστική και Εφαρμογές της (Κεφάλαιο 4) 1 Από κοινού κατανομή πολλών ΤΜ Ορίζεται ως από κοινού συνάρτηση κατανομής F(x 1, …, x n ) n τυχαίων.
ΜΑΘΗΜΑ: ΣΧΕΔΙΑΣΗ ΑΛΓΟΡΙΘΜΩΝ ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Τμ.
ΚΕΦΑΛΑΙΟ 6 ΓΕΩΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΙ ΚΑΙ ΤΕΧΝΙΚΕΣ: ΣΗΜΕΙΑ
ΒΕΣ 06: Προσαρμοστικά Συστήματα στις Τηλεπικοινωνίες © 2007 Nicolas Tsapatsoulis Προσαρμοστικοί Αλγόριθμοι Υλοποίησης Βέλτιστων Ψηφιακών Φίλτρων: Ο αλγόριθμος.
Computational Imaging Laboratory ΤΜΗΥΠ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ Υπολογιστική Όραση.
Εισαγωγή στην Έννοια του Αλγορίθμου και στον Προγραμματισμό
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Ροές Δεδομένων (3 ο Μέρος)
Διάλεξη  Μέτρηση: Είναι μια διαδικασία κατά την οποία προσδίδουμε αριθμητικά δεδομένα σε κάποιο αντικείμενο, σύμφωνα με κάποια προκαθορισμένα.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟΔΟΥΣ Άπληστη Αναζήτηση και Αναζήτηση Α* ΣΠΥΡΟΣ ΛΥΚΟΘΑΝΑΣΗΣ, ΚΑΘΗΓΗΤΗΣ.
ΕΛΕΓΧΟΙ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ Η πιο συνηθισμένη στατιστική υπόθεση είναι η λεγόμενη Υπόθεση Μηδέν H 0. –Υποθέτουμε ότι η εμφανιζόμενη διαφορά μεταξύ μιας.
Παρουσίαση πτυχιακής εργασίας Σαλιάρη Αικατερίνη Επιβλέπων καθηγητής: Αθανάσιος Νικολαΐδης.
ΗΛΕΚΤΡΙΚΕΣ ΜΕΤΡΗΣΕΙΣ ΣΦΑΛΜΑΤΑ ΜΕΤΡΗΣΗΣ.
ΥΝ Ι: ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ 1 ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ (Τεχνητά Νευρωνικά Δίκτυα και Γενετικοί Αλγόριθμοι) ΣΠΥΡΟΣ ΛΥΚΟΘΑΝΑΣΗΣ, ΚΑΘΗΓΗΤΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ.
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ II Καθ. Πέτρος Π. Γρουμπός Διάλεξη 8η Στοχαστικά Σήματα - 1.
ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΔΙΑΣΠΟΡΑΣ - ΑΣΥΜΜΕΤΡΙΑΣ - ΚΥΡΤΩΣΕΩΣ
Η Διαδικασία της Αναλυτικής Ιεράρχησης
Δυναμικός Κατακερματισμός
ΟΜΑΔΕΣ Δημιουργία Ομάδων
Ασκήσεις WEKA Νευρωνικά δίκτυα.
Ψηφιακή Επεξεργασία Εικόνας
Independent Component Analysis (ICA)
ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή
Η Έννοια της τυχαίας Διαδικασίας
Έλεγχος υποθέσεων με την χ2 «χι -τετράγωνο» κατανομή
Ταξινόμηση Πολυφασματικών Εικόνων
Η ΕΝΝΟΙΑ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ
Ονοματεπώνυμο : ………………………. Τμήμα : Β…. α ή β
Ονοματεπώνυμο : Χρυσούλα Αγγελοπούλου Καθηγήτρια Πληροφορικής
Σχέση μεταξύ δυο ποσοτικών μεταβλητών & Μονοπαραγοντική γραμμική εξάρτηση 2017.
Τμήμα Μηχανικών Πληροφορικής Τ.Ε.
ΤΑΞΙΝΟΜΗΣΗ ΠΡΟΤΥΠΩΝ ΜΕ ΣΥΝΑΡΤΗΣΕΙΣ ΑΠΟΣΤΑΣΗΣ Απλοί Ταξινομητές
Μη Γραμμικός Προγραμματισμός
ΤΜΗΜΑ ΙΑΤΡΙΚΩΝ ΕΡΓΑΣΤΗΡΙΩΝ
Δυναμικός Κατακερματισμός
Μη Γραμμικός Προγραμματισμός
Μεταγράφημα παρουσίασης:

Αναγνώριση Προτύπων

Σημερινό Μάθημα Μη-επιβλεπόμενη εκπαίδευση (Clustering) Μη-παραμετρική Μη-επιβλεπόμενη εκπαίδευση Μέτρα εγγύτητας Αλγόριθμος k-means ISODATA Ιεραρχικό clustering Δεντρογράμματα

Επιβλεπόμενη vs Μη-Επιβλεπόμενη Μάθηση Μέχρι τώρα θεωρήσαμε μεθόδους αναγνώρισης με classification όπου το πρότυπο χαρακτηρίζεται από τα μεγέθη {x,ω} Αυτά τα προβλήματα αναγνώρισης ονομάζονται Επιβλεπόμενα (supervised) αφού διατίθενται και το χαρακτηριστικό διάνυσμα και η σωστή απάντηση. Υπάρχουν όμως περιπτώσεις όπου δίνεται το χαρακτηριστικό διάνυσμα χωρίς την κλάση. Αυτές οι μέθοδοι καλούνται Μη-Επιβλεπόμενες (unsupervised) λόγω του ότι δεν χρησιμοποιούν τη σωστή απάντηση. Ερωτήσεις 1) Τι είναι επιβλεπόμενη και τι μη-επιβλεπόμενη μάθηση;

Επιβλεπόμενη vs Μη-Επιβλεπόμενη Μάθηση Αν και η μέθοδοι μη επιβλεπόμενης μάθηση φαίνονται περιορισμένων δυνατοτήτων υπάρχουν πολλές περιπτώσεις που επιβάλλεται η χρήση τους: Ο χαρακτηρισμός πολλών δεδομένων μπορεί να αποβεί δαπανηρός (π.χ. αναγνώριση ομιλίας) Το είδος της κλάσης μπορεί να μην είναι γνωστό εξ’αρχής. Ερωτήσεις 1) Μπορείτε να φανταστείτε περιπτώσει όπου επιβάλλεται η χρήση μη επιβλεπόμενης μάθησης;

Κατηγοριοποιήση των μη-επιβλεπόμενων μεθόδων εκμάθησης Παραμετρικές (μείγματα κατανομών): Αυτές οι μέθοδοι μοντελοποιούν την υπό συνθήκη πυκνότητα πιθανότητας με ένα μίγμα παραμετρικών πυκνοτήτων με σκοπό να βρουν τις παραμέτρους του μοντέλου. Μη-παραμετρικές (clustering): Δεν γίνεται υπόθεση για την πυκνότητα πιθανότητα αλλά επιχειρείται διαχωρισμός των δεδομένων σε κλάσεις. Ερωτήσεις 1) Ποιες είναι οι κατηγορίες των μη-επιβλεπόμενων μεθόδων μάθησης και πως λειτουργεί η καθεμία;

Μη-παραμετρική Μη-επιβλεπόμενη εκπαίδευση Δεν ασχολούμαστε με συναρτήσεις πυκνότητας Αναζητούμε ομαδοποιήσεις (clusters) σε ένα σύνολο δεδομένων Το μη παραμετρικό clustering συμπεριλαμβάνει 3 βήματα: Ορισμός ενός μέτρου ομοιότητας (ανομοιότητας) μεταξύ των παραδειγμάτων Ορισμός κριτηρίου για clustering (συνάρτηση) Ορισμός αλγορίθμου βελτιστοποίησης της συνάρτησης κριτηρίου Ερωτήσεις 1) Πως λειτουργεί το μη παραμετρικό clustering;

Μέτρα εγγύτητας Ένας κανόνας μέτρησης της απόστασης d(x,y) μεταξύ δύο διανυσμάτων x και y πρέπει να πληρεί τις ιδιότητες: Αν έχει και την ιδιότητα: Τότε καλείται νόρμα και δηλώνεται ως d(x,y)=||x-y|| Ερωτήσεις 1) Τι ονομάζουμε νόρμα και πως ορίζεται;

Μέτρα εγγύτητας Η πιο γενική μορφή ενός μέτρου απόστασης είναι

Γνωστά μέτρα εγγύτητας Μέτρο Minkowski (Lk) Η επιλογή του k εξαρτάται από την έμφαση που θέλουμε να δώσουμε σε μεγάλες διαφορές μεταξύ διαστάσεων Απόσταση Manhattan (L1 norm) Όταν χρησιμοποιείται με δυαδικά διανύσματα είναι γνωστή και ως απόσταση Hamming Ερωτήσεις 1) Αναφέρετε συνηθισμένα μέτρα εγγύτητας.

Γνωστά μέτρα εγγύτητας Euclidean απόσταση (L2 norm) Chebyshev απόσταση (L∞ norm)

Γνωστά μέτρα εγγύτητας Μη γραμμική απόσταση: Εσωτερικό γινόμενο (απαιτεί κανονικοποιημένα διανύσματα) Correlation coefficient (συσχέτιση)

Συνάρτηση κριτηρίου για clustering Όταν έχει ορισθεί μέτρο ομοιότητας (ανομοιότητας) χρειάζεται να ορίσουμε μια συνάρτηση κριτηρίου Η πιο γνωστή συνάρτηση κριτηρίου για clustering είναι το άθροισμα τετραγωνικού λάθους Μετράει πόσο καλά το σετ δεδομένων απέχει από τα κέντρα των clusters Επίσης χρησιμοποιούνται οι scatter matrices από το LDA Ερωτήσεις 1) Τι είναι η συνάρτηση κριτηρίου για clustering και πως χρησιμοποιείται;

Αξιοπιστία cluster Η επιλογή του μέτρου ομοιότητας (ανομοιότητας) έχει άμεση επίδραση στα παραγόμενα clusters H αξιοπιστία των clusters και το πλήθος τους είναι υποκειμενικά

Επαναληπτική βελτιστοποίηση Άπαξ και οριστεί συνάρτηση κριτηρίου, απομένει να ορίσουμε διαμερισμό που να ελαχιστοποιεί το κριτήριο. Εξαντλητική απαρίθμηση όλων των διαμερισμών δεν είναι εφικτή. Φανταστείτε ότι πρόβλημα 5 clusters και 100 παραδειγμάτων δίνει 1067 διαμερισμούς.

Επαναληπτική βελτιστοποίηση Ο πιο κοινός τρόπος είναι η επαναληπτική προσέγγιση: Βρες λογικό αρχικό διαμερισμό Μετέφερε δείγματα ώστε να βελτιστοποιηθεί η συνάρτηση κριτηρίου Τέτοιες προσεγγιστικές μέθοδοι παράγουν υποβέλτιστες λύσεις αλλά είναι υπολογιστικά βολικές

Επαναληπτική βελτιστοποίηση Υπάρχουν δύο κατηγορίες επαναληπτικών προσεγγίσεων: Επίπεδοι αλγόριθμοι για clustering Παράγουν σετ ανεξάρτητων clusters Οι πιο γνωστοί είναι οι k-means και ISODATA Ιεραρχικοί αλγόριθμοι για clustering Το αποτέλεσμα είναι μια ιεραρχία εμφωλιασμένων clusters Χωρίζονται στους ενωτικούς (agglomerative) και διαχωριστικούς (divisive) Ερωτήσεις 1) Τι είναι η επαναληπτική βελτιστοποίηση; Αναφέρετε κατηγορίες αλγορίθμων επαναληπτικών προσεγγίσεων.

Αλγόριθμος k-means Είναι απλή διαδικασία clustering που επιδιώκει την ελαχιστοποίηση της συνάρτησης JMSE με επαναληπτική διαδικασία: Ερωτήσεις 1) Περιγράψτε τον αλγόριθμο k-means.

Αλγόριθμος k-means Όρισε το πλήθος των clusters Απέδωσε κάθε δείγμα στο πλησιέστερο μέσο Αν η κατανομή των δειγμάτων δεν άλλαξε τερμάτισε, αλλιώς βήμα 3

Αλγόριθμος k-means Ο k-means χρησιμοποιείται στην επεξεργασία σήματος για διανυσματικό κβαντισμό Μονοδιάστατα σήματα κβαντίζονται σε αριθμό επιπέδων για μετάδοση ή αποθήκευση με δυαδικό τρόπο Κβαντίζουμε το πολυδιάστατο διάνυσμα επιλέγοντας ένα σετ πολυδιάστατων προτύπων (κέντρα clusters) Αυτά τα κέντρα των clusters αποτελούν το codebook της εφαρμογής

Αλγόριθμος k-means

ISODATA ISODATA είναι συντομογραφία του Iterative Self-Organizing Data Analysis Technique Algorithm Είναι επέκταση του k-means που εμπεριέχει ευριστικούς τρόπους για την αυτόματη επιλογή του πλήθους των κλάσεων Ο χρήστης επιλέγει τις παραμέτρους: NMIN_EX ελάχιστο πλήθος δειγμάτων ανά cluster ND επιθυμητό πλήθος cluster σS2 μέγιστη διασπορά για διαχωρισμό clusters DMERGE μέγιστη απόσταση για ένωση clusters NMERGE μέγιστο πλήθος clusters που μπορούν να ενωθούν Ερωτήσεις 1) Περιγράψτε τον ISODATA αλγόριθμο.

ISODATA Εκτέλεσε k-means clustering Διάσπασε όσα clusters έχουν αρκετά ανόμοια δεδομένα Ένωσε όσα clusters έχουν αρκετά όμοια δεδομένα Βήμα 1

ISODATA Πλεονεκτήματα Διαθέτει δυνατότητες αυτό-οργάνωσης Ευελιξία στον να καταργεί clusters με λίγα δείγματα Ικανότητα να διαιρεί clusters με ανομοιότητες Ικανότητα να ενώνει clusters με ομοιότητες Μειονεκτήματα Τα δεδομένα πρέπει να είναι γραμμικά διαχωριζόμενα Δύσκολος ο προκαθορισμός των παραμέτρων και καθοριστικός Για μεγάλα σετ ή πλήθος clusters υπάρχουν καλύτεροι αλγόριθμοι Στην πράξη εφαρμόζεται για διάφορες παραμέτρους και επιλέγεται ο συνδυασμός με το μικρότερο τετραγωνικό σφάλμα Ερωτήσεις 1) Αναφέρετε τα μειονεκτήματα και τα πλεονεκτήματα του ISODATA.

Ιεραρχικό clustering O k-means και ο ISODATA δημιουργούν ανεξάρτητα clusters με αποτέσμα μια επίπεδη αναπαράσταση των δεδομένων Μερικές φορές επιθυμούμε ιεραρχική αναπαράσταση με clusters και sub-clusters σε δεντρική δομή Οι ιεραρχικές μέθοδοι χωρίζονται σε: Ενωτικές (Agglomerative ή bottom-up): ξεκινούν με Ν clusters που ενώνονται διαδοχικά μέχρι να μείνει ένα Διαχωριστικές (Divisive ή top-down): ξεκινούν με ένα cluster που διασπάται μέχρι να δημιουργήθούν Ν Ερωτήσεις 1) Ποιες είναι οι δύο βασικές τεχνικές Ιεραρχικού clustering;

{{x1, {x2, x3}}, {{{x4, x5}, {x6, x7}}, x8}} Δεντρογράμματα Προτιμώνται για την αναπαράσταση ιεραρχικών clusters Το δεντρόγραμμα είναι δυαδικό δέντρο που δείχνει τη δομή των clusters Επιπλέον δείχνει το μέτρο ομοιότητας μεταξύ clusters Εναλλακτική αναπαράσταση είναι με σύνολα {{x1, {x2, x3}}, {{{x4, x5}, {x6, x7}}, x8}} Τα δεντρογράμματα δεν δίνουν ποσοτική πληροφορία Μεγάλη ομοιότητα Ερωτήσεις 1) Τι είναι τα δεντρογράμματα και πως χρησιμοποιούνται; Δώστε ένα παράδειγμα. Μικρή ομοιότητα

Διαχωριστικό Clustering Όρισε NC clusters και NEX επιθυμητό Ξεκίνησε με ένα μεγάλο cluster Βρες «χειρότερο» cluster Διαίρεσε το Αν NC< NEX πήγαινε στο 2 Ερωτήσεις 1) Πως λειτουργεί το διαχωριστικό Clustering;

Διαχωριστικό Clustering Μεγαλύτερο πλήθος δειγμάτων Μεγαλύτερη διασπορά Μεγαλύτερο τετραγωνικό λάθος Διαχωρισμός clusters Μέσο ή μεσαίο ως προς ένα χαρακτηριστικό Κάθετα ως προς την κατεύθυνση μεγαλύτερης διασποράς Η διαχωριστικοί είναι πιο επίπονοι υπολογιστικά από τους ενωτικούς Ερωτήσεις Με ποια κριτήρια γίνεται η επιλογή του χειρότερου cluster; Με ποιους τρόπους μπορεί να γίνει ο διαχωρισμός των clusters;

Ενωτικό Clustering Όρισε NC clusters και NEX επιθυμητό Ένωσε τα Αν NC>Nex πήγαινε στο 2 Ερωτήσεις 1) Πως λειτουργεί το ενωτικό clustering;

Ενωτικό clustering Ελάχιστη Απόσταση Όταν χρησιμοποιείται το dmin για την απόσταση μεταξύ clusters, πρόκειται για τον ΝΝ αλγόριθμο (single-linkage clustering) Αν ο αλγόριθμος τρέξει μέχρι να μείνει ένα cluster έχουμε ελάχιστο δέντρο Ευνοεί classes μεγάλου μήκους Ερωτήσεις 1) Τι διαφοροποιήσεις υπάρχουν στο ενωτικό clustering ανάλογα με την απόσταση που χρησιμοποιείται;

Ενωτικό clustering Μέγιστη Απόσταση Όταν χρησιμοποιείται το dmax πρόκειται για τον αλγόριθμο μακρύτερου γείτονα (farthest neighbor ή complete-linkage clustering) Κάθε cluster αποτελεί υπο-γράφο Ευνοεί συμπαγείς classes

Ενωτικό clustering Μεσαία και μέση απόσταση Η ελάχιστη και μέγιστη απόσταση είναι ιδιαίτερα ευαίσθητες σε outliers καθώς το μέτρο των μεταξύ κλάσεων αποστάσεων περιέχει μέγιστα ή ελάχιστα Οι μέση και μεσαία απόσταση είναι πιο ευέλικτες Η μεσαία απόσταση είναι πιο ελκυστική υπολογιστικά Η μέση απόσταση περιλαμβάνει τον υπολογισμό NiNj αποστάσεων για κάθε ζεύγος cluster.

Ενωτικό clustering παράδειγμα X = {1, 3, 4, 9, 10, 13, 21, 23, 28, 29} Ένωσε clusters με single-linkage

Ενωτικό clustering, ελάχιστη Vs. μέγιστη απόσταση clustering 9 πόλεων στις USA