Συσταδοποίηση Δεδομένων. Εισαγωγικά Το πρόβλημα της συσταδοποίησης σχετίζεται με την τμηματοποίηση (partitioning, clustering) ενός συνόλου δεδομένων σε.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Εξόρυξη Χωρικών Δεδομένων
Advertisements

Nikos Louloudakis Nikos Orfanoudakis Irini Genitsaridi
Δένδρα van Emde Boas TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A A A Μελετάμε την περίπτωση όπου αποθηκεύουμε.
Ανάλυση Πολλαπλής Παλινδρόμησης
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Αναγνώριση Προτύπων.
Αλγόριθμοι και Πολυπλοκότητα
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ Πρόγραμμα μεταπτυχιακών σπουδών Προσαρμοστικό σχήμα συμπίεσης δεδομένων.
Αναγνώριση Προτύπων.
Γραφήματα & Επίπεδα Γραφήματα
Διαίρει και Βασίλευε πρόβλημα μεγέθους Ν διάσπαση πρόβλημα μεγέθους Ν-k πρόβλημα μεγέθους k.
Κοντινότεροι Κοινοί Πρόγονοι α βγ θ δεζ η π ν ι κλμ ρσ τ κκπ(λ,ι)=α, κκπ(τ,σ)=ν, κκπ(λ,π)=η κκπ(π,σ)=γ, κκπ(ξ,ο)=κ ξο κκπ(ι,ξ)=β, κκπ(τ,θ)=θ, κκπ(ο,μ)=α.
ΔΤΨΣ 150: Ψηφιακή Επεξεργασία Εικόνας © 2005 Nicolas Tsapatsoulis Κατάτμηση Εικόνων: Κατάτμηση με βάση τις περιοχές Τμήμα Διδακτικής της Τεχνολογίας και.
Προσεγγιστικοί Αλγόριθμοι
Αναγνώριση Προτύπων.
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Αλγόριθμος BIRCH.
Αλγόριθμοι Συσταδοποίησης και Κατηγοριοποίησης Βιολογικών Δεδομένων
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Δομές Δεδομένων.
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
Συσταδοποίηση Δεδομένων
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.
Συσταδοποίηση Δεδομένων
ΜΑΘΗΜΑ: ΣΧΕΔΙΑΣΗ ΑΛΓΟΡΙΘΜΩΝ ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Παρασκευή, 3 Απριλίου 2015Τμ.
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Λεξικό, Union – Find Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
ΚΕΦΑΛΑΙΟ 6 ΓΕΩΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΙ ΚΑΙ ΤΕΧΝΙΚΕΣ: ΣΗΜΕΙΑ
Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ1 Συσταδοποίηση II Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - 4ο εξάμηνο1 Ανάλυση Αλγορίθμων b Θέματα: Ορθότητα Χρονική αποδοτικότητα Χωρική αποδοτικότητα Βελτιστότητα b Προσεγγίσεις:
Computational Imaging Laboratory ΤΜΗΥΠ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΣΗΜΑΤΩΝ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ Υπολογιστική Όραση.
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι13-1 Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ο αλγόριθμος Dijkstra για εύρεση βραχυτέρων μονοπατιών.
Olympia Nikou1 Τίτλος Παρουσίασης: Προσεγγιστικός Υπολογισμός των λύσεων ενός προβλήματος με: Δειγματοληψία στον χώρο αναζήτησης των λύσεων.
ΚΕΦΑΛΑΙΟ Τι είναι αλγόριθμος
Τεχνολογία ΛογισμικούSlide 1 Εξειδίκευση Βασισμένη σε Μοντέλο u Τυπική εξειδίκευση λογισμικού με ανάπτυξη μαθηματικού μοντέλου για το σύστημα.
Διάλεξη 3: Περιγραφή αριθμητικών μεθόδων (συνέχεια)
Πρόβλεψη Θέσης Χρήστη σε Κινητά Δίκτυα - Ταξινομητής Βέλτιστης Παύσης Σπύρος Γεωργάκης Διπλωματική Εργασία.
Συσταδοποίηση Ι Οι διαφάνειες στηρίζονται στο P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006.
Διάλεξη 14: Εισαγωγή στη ροή ρευστών
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Ροές Δεδομένων (3 ο Μέρος)
Συνδετικότητα γραφήματος (graph connectivity). α β Υπάρχει μονοπάτι μεταξύ α και β; Παραδείγματα: υπολογιστές ενός δικτύου ιστοσελίδες ισοδύναμες μεταβλητές.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΕΥΡΕΤΙΚΕΣ ΜΕΘΟΔΟΥΣ Άπληστη Αναζήτηση και Αναζήτηση Α* ΣΠΥΡΟΣ ΛΥΚΟΘΑΝΑΣΗΣ, ΚΑΘΗΓΗΤΗΣ.
ΥΝ Ι: ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ 1 ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ (Τεχνητά Νευρωνικά Δίκτυα και Γενετικοί Αλγόριθμοι) ΣΠΥΡΟΣ ΛΥΚΟΘΑΝΑΣΗΣ, ΚΑΘΗΓΗΤΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ.
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
ΔΥΑΔΙΚΗ ΑΝΑΖΗΤΗΣΗ & ΤΑΞΙΝΟΜΗΣΗ ΜΕ ΣΥΓΧΩΝΕΥΣΗ. Δυαδική αναζήτηση (Binary search) ΔΕΔΟΜΕΝΟ: ένα μεγάλο αρχείο που περιέχει τιμές z [0,1,…,n-1] ταξινομημένες.
Γράφημα Συνδυαστικό αντικείμενο που αποτελείται από 2 σύνολα:
Ευρετήρια Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Δυναμικός Κατακερματισμός
ΟΜΑΔΕΣ Δημιουργία Ομάδων
Προβλήματα Ικανοποίησης Περιορισμών
Ασκήσεις WEKA Νευρωνικά δίκτυα.
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Μέγιστη ροή Κατευθυνόμενο γράφημα 12 Συνάρτηση χωρητικότητας
Εισαγωγή στη Βιοπληροφορική
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
Συσταδοποίηση Δεδομένων
Διάλεξη 15: O αλγόριθμος SIMPLE
Αλγόριθμοι για ανάθεση συχνοτήτων και έλεγχο αποδοχής κλήσεων σε κυψελικά ασύρματα δίκτυα (μέρος ΙIΙ)
Μέγιστη ροή Κατευθυνόμενο γράφημα 12 Συνάρτηση χωρητικότητας
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Ταξινόμηση Πολυφασματικών Εικόνων
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΑΕΠΠ
Μη Γραμμικός Προγραμματισμός
(2,4) Trees 11/15/2018 8:56 PM (2,4) Δέντρα (2,4) Δέντρα.
Διαχρονικές Δομές Δεδομένων
Δυναμικός Κατακερματισμός
Μη Γραμμικός Προγραμματισμός
Μεταγράφημα παρουσίασης:

Συσταδοποίηση Δεδομένων

Εισαγωγικά Το πρόβλημα της συσταδοποίησης σχετίζεται με την τμηματοποίηση (partitioning, clustering) ενός συνόλου δεδομένων σε συστάδες έτσι ώστε τα στοιχεία του συνόλου των δεδομένων που ανήκουν σε μία συστάδα να είναι περισσότερο όμοια μεταξύ τους από ότι είναι με τα στοιχεία των άλλων συστάδων. Η συσταδοποίηση μπορεί να βρεθεί με διαφορετικά ονόματα σε διαφορετικά πεδία, όπως μη εποπτευόμενη μάθηση (unsupervised learning) στην αναγνώριση προτύπων, αριθμητική ταξονομία (numerical taxonomy) στην βιολογία, οικολογία, τυπολογία, στις κοινωνικές επιστήμες και τμηματοποίηση (segmentation, partitioning) στη θεωρία των γράφων και στις Βάσεις Δεδομένων

Εφαρμογές Συσταδοποίησης Μείωση Δεδομένων Παραγωγή/’Ελεγχος υπόθεσης Περιγραφή Παραδείγματα: Επιχειρήσεις Βιολογία Χωρική Ανάλυση Στοιχείων Εξόρυξη στο Παγκόσμιο Ιστό Ψυχολογία και Ιατρική Summarization Compression Mechanism for Categorizarion

Βήματα Διαδικασίας Συσταδοποίησης

Παράδειγμα Συσταδοποίησης

Θέματα Συσταδοποίησης  Διαχείριση ακραίων σημείων (Outliers, ανακάλυψη ή απομάκρυνση με τεχνικές εξόρυξης ακραίων σημείων)  Χειρισμός δυναμικών δεδομένων  Eρμηνεία αποτελεσμάτων  Αξιολόγηση αποτελεσμάτων  Αριθμός ομάδων  Εξελιξιμότητα (Scalability)

Μέθοδοι Συσταδοποίησης Οι μέθοδοι μπορούν να κατηγοριοποιηθούν με βάση: Τον τύπο δεδομένων που εισάγονται στον αλγόριθμο. Τη μέθοδο που καθορίζει την συσταδοποίηση του συνόλου των δεδομένων. Τη θεωρία και τις θεμελιώδεις έννοιες στις οποίες είναι βασισμένες οι τεχνικές ανάλυσης συστάδας.

Κατηγοριοποίηση με βάση τύπο δεδομένων Συσταδοποίηση αριθμητικών δεδομένων Κατηγορική Συσταδοποίηση Κειμενική Συσταδοποίηση

Κατηγοριοποίηση με βάση Μέδοδο Συσταδοποίησης Ιεραρχική Συσταδοποίηση (Hierarchical Clustering) Συσταδοποίηση Διαμέρισης (Partitioning Clustering) Ασαφής συσταδοποίηση (Fuzzy Clustering) Συσταδοποίηση βασισμένη στα δίκτυα Kohonen (Kohonen Net Clustering) Συσταδοποίηση βασισμένη στην πυκνότητα (Density-based Clustering) Συσταδοποίηση βασισμένη σε πλέγμα (Grid-based Clustering) Συσταδοποίηση υποχώρων (Subspace Clustering).

Διάκριση με βάση το Μέγεθος της Β.Δ. Οι περισσότεροι αλγόριθμοι υποθέτουν μία μεγάλη δομή δεδομένων που είναι memory resident. Η ομαδοποίηση μπορεί να πραγματοποιηθεί πρώτα σε ένα δείγμα της Β.Δ. και στη συνέχεια να εφαρμοστεί σε όλη τη Β.Δ. Η ομαδοποίηση μπορεί να πραγματοποιηθεί πρώτα σε μία συμπιεσμένη αναπαράσταση Αλγόριθμοι BIRCH DBSCAN CURE

Έννοια της Συστάδας Well Separated (μία συστάδα είναι το σύνολο των αντικειμένων όπου κάθε αντικείμενο είναι πιο κοντά σε κάθε άλλο αντικείμενο της συστάδας, από ότι σε κάποιο άλλο αντικείμενο). Prototype Based (μία συστάδα είναι τα αντικείμενα που είναι πιο κοντά σε ένα πρωτότυπο (prototype) από ότι κάποιο άλλο αντικείμενο. Συνήθως σαν πρωτότυπο επιλέγεται το μέσο των σημείων μίας συστάδας). Graph Based (μία συνεκτική συνιστώσα ή μία κλίκα του γραφήματος). Density Based (μία πυκνή περιοχή αντικειμένων που περιβάλλεται από μία αραιή) Shared Property (conceptual clusters) ( σύνολο αντικειμένων που μοιράζονται μία ιδιότητα – έχει εφαρμογή κυρίως σε κατηγορικά αντικείμενα)

Ταξινόμηση με βάση Μέδοδο Συσταδοποίησης (2)

Βασικές Έννοιες – Ορισμοί(1) Ένα αντικείμενο x είναι ένα διάνυσμα d τιμών: x = (x 1,... x d ), όπου x i είναι η τιμή τoυ i-οστού χαρακτηριστικού (feature) του αντικειμένου και d η διάσταση του αντικειμένου ή του χώρου που δημιουργείται από τα αντικείμενα.

Αναπαράσταση Χαρακτηριστικών (1) Τα features διακρίνονται σε: Quantitative features: continuous values (π.χ. βάρος), discrete values (π.χ. ο αριθμός των υπολογιστών), interval values (π.χ. η διάρκεια ενός γεγονότος). Qualitative features: Ονομαστικά (nominal) or unordered (π.χ. χρώμα), Ordinal (π.χ. στρατιωτική διάκριση ή ποιοτική αξιολόγηση της θερμοκρασίας (“ζεστό” or “κρύο”) ή της έντασης του ήχου (“ήσυχα” or “δυνατά”)). Structured features: (trees, symbolic objects)

Αναπαράσταση Χαρακτηριστικών (2) Feature selection τεχνικές: αναγνωρίζουν ένα υποσύνολο από τα υπάρχοντα features για περαιτέρω χρήση Feature extraction τεχνικές: υπολογίζουν νέα features από το αρχικό σύνολο. Σε κάθε περίπτωση, στόχος είναι να βελτιωθεί η απόδοση της διαδικασίας ταξινόμησης και να γίνει πιο εύκολος ο υπολογισμός-υλοποίησή της.

Μετρικές Ομοιότητας (1) Για patterns με συνεχή features η πιο συνηθισμένη μετρική απόστασης είναι η Ευκλείδεια απόσταση: που είναι ειδική περίπτωση (p=2) της μετρικής Minkowski.

Μετρικές Ομοιότητας (2) Μετρικές Minkowski: Μετρική Mahalanobis (για αντιμετώπιση linear correlation) Μετρική Jaccard, ή συνημιτόνου (για κατηγορικά δεδομένα)

Μετρικές Ομοιότητας (3) Με βάση τα γειτονικά σημεία:mutual neighbor distance (MND)

Αναπαράσταση των clusters(1) Με χρήση των centroids ή ενός συνόλου από τα πιο απομακρυσμένα σημεία του cluster.

Αναπαράσταση των clusters(2) Με χρήση λογικών εκφράσεων/κόμβων σε ένα δένδρο ταξινόμησης.

Μετρικές Ομοιότητας Ευκλείδια απόσταση + διαισθητική χροιά (απόσταση σε 2D, 3D) + σύνολο δεδομένων με μικρά ή απομονωμένα clusters - η μεγάλη κλίμακα μεγέθους υποβαθμίζει τη μικρή. Λύση: κανονικοποίηση, ζύγιση - γραμμική σχέση χαρακτηριστικών => πρόβλημα

Kλιμάκωση και Στάθμιση Τρεις κοινοί τρόποι για κλιμάκωση είναι: 1. Διαίρεση κάθε μεταβλητής με τον μέσο όρο όλων των τιμών που λαμβάνει. 2. Διαίρεση κάθε μεταβλητής με το εύρος του πεδίου τιμών της (διαφορά μεταξύ της μικρότερης και μεγαλύτερης τιμής που λαμβάνει η μεταβλητή) 3. Αφαιρούμε τον μέσο όρο από κάθε μεταβλητή και μετά διαιρούμε με την τυπική απόκλιση. Η διαδικασία αυτή κλιμάκωσης «καλείται μετατροπή σε Ζ-τιμή».

Η στάθμιση υλοποιεί το διαφορετικό ενδιαφέρον που μπορεί να έχουμε για κάποιες μεταβλητές σε σχέση με τις άλλες. Δίνοντας διαφορετικά βάρη στις μεταβλητές, δίνουμε μεγαλύτερη σημασία στα μεγέθη της μεταβλητής με μεγαλύτερο βάρος. Η διαδικασία επιλογής βαρών (weights) είναι ένα από τα προβλήματα βελτιστοποίησης (optimization problems) και μπορεί να επιλυθεί με τη χρήση γενετικών αλγορίθμων.

Παράμετροι Ομαδοποίησης

Ιεραρχικοί Αλγόριθμοι Συσσωρευτικοί (Agglomerative) Διαιρετικοί (Partitioning)

Ιεραρχικοί Αλγόριθμοι Ομαδοποίησης(1)

Ιεραρχικοί Αλγόριθμοι Ομαδοποίησης(2) Κριτήρια σύνδεσης: Μονή σύνδεση(single linkage): μικρότερη απόσταση ανάμεσα σε ζεύγη συστάδων. Μέση σύνδεση(average linkage): μέση απόσταση ανάμεσα σε ζεύγη συστάδων. Πλήρης σύνδεση(complete linkage): μέγιστη απόσταση ανάμεσα σε ζεύγη συστάδων. Απόσταση μεταξύ centroids O single link αλγόριθμος έχει ως μειονέκτημα το καλούμενο chaining effect.

Ιεραρχικοί Αλγόριθμοι Ταξινόμησης(1)

Ιεραρχικοί Αλγόριθμοι Ταξινόμησης(2) Κριτήρια σύνδεσης: Μονή σύνδεση(single linkage): μικρότερη απόσταση ανάμεσα σε ζεύγη συστάδων. Μέση σύνδεση(average linkage): μέση απόσταση ανάμεσα σε ζεύγη συστάδων. Πλήρης σύνδεση(complete linkage): μέγιστη απόσταση ανάμεσα σε ζεύγη συστάδων. O single link αλγόριθμος έχει ως μειονέκτημα το καλούμενο chaining effect.

Συσσωρευτικός Αλγόριθμος (1) (Single Link) Τοποθέτησε κάθε pattern σε ένα cluster, δημιούργησε μία λίστα αποστάσεων για κάθε ζεύγος σημείων (σε αύξουσα σειρά) Μετακινήσου στη λίστα και για κάθε απόσταση d k δημιούργησε ένα γράφημα συνδέοντας ομάδες με απόσταση μικρότερη του d k Σταμάτησε όταν σχηματιστεί ένα πλήρες γράφημα. Η έξοδος είναι μία εμφωλευμένη ιεραρχία σπό γραφήματα που μπορούν να αποκοπούν σε κάποιο επίπεδο.

Συσσωρευτικός Αλγόριθμος (2) (Single Link) Υπολόγισε τον πίνακα γειτνίασης με την απόσταση μεταξύ κάθε ζεύγους προτύπων. Εντόπισε το πιο κοντινό ζεύγος clusters με βάση τον πίνακα γειτνίασης. Συγχώνευσε τα δύο clusters σε ένα. Εάν όλα τα patterns είναι σε ένα cluster σταμάτησε αλλιώς συνέχισε.

Single Link Clustering

Διαμεριστικοί Αλγόριθμοι Δημιουργούν ομάδες σε ένα βήμα Απαιτείται (κατά κανόνα) γνώση του μεγέθους της ομάδας Συνήθως διαχειρίζεται στατικά σύνολα Μερικοί ιεραρχικοί αλγόριθμοι μπορούν να μετατραπούν σε διαμεριστικούς.

Αλγόριθμος Τετραγωνικού σφάλματος Αρχικό σύνολο από clusters centers επιλεγμένο τυχαία. Ανάθεσε τα αντικείμενα στα πιο κοντινά cluster centers Επαναϋπολόγισε το κέντρο του κάθε cluster Υπολόγισε το τετραγωνικό σφάλμα: Επανέλαβε την ανωτέρω διαδικασία μέχρις ότου η διαφορά μεταξύ δύο διαδοχικών τετραγωνικών σφαλμάτων, να είναι πιο μικρή από ένα όριο.

k-Means Αλγόριθμος K-Means Αρχικό σύνολο από clusters centers επιλεγμένο τυχαία. Ανάθεσε τα αντικείμενα στα πιο κοντινά cluster centers Επαναϋπολόγισε το κέντρο του κάθε cluster Επαναληπτικά, αντικείμενα μετακινούνται ανάμεσα σε σύνολο από clusters έως ότου εντοπιστεί το επιθυμητό σύνολο. Ουσιαστικά ο αλγόριθμος επιχειρεί να ελαχιστοποιήσει τη μέση τετραγωνική απόσταση των δεδομένων από τα πλησιέστερα κέντρα των συστάδων και δίνεται από τον τύπο (άρα μπορεί να θεωρηθεί αλγόριθμος τετραγωνικού σφάλματος)

1. Ανάθεση των αρχικών κέντρων, v i i = 1, 2,..., c, για τις c συστάδες. Για κάθε επανάληψη r = 1,..., r max : 2. Υπολογισμός της απόστασης κάθε στοιχείου του συνόλου δεδομένων από το κέντρο κάθε συστάδας d ki = (x k - v i ) 2, k = 1, 2,.., n i = 1, 2,..., c 3. Κάθε στοιχείο x k αντιστοιχίζεται στην συστάδα με την ελάχιστη απόσταση 4. Υπολογισμός των νέων κέντρων των συστάδων όπου n i ο αριθμός των στοιχείων που ανήκουν στην i συστάδα μέχρι στιγμής. 5. then stop else r = r + 1, goto 2

O Bisecting K-Means Αλγόριθμος 1. Initialize the list to contain the cluster with all points 2. Repeat 3. Remove a cluster from the list of clusters 4. {perform several “trial” bissections} 5. for i =1 to number of trials do 6. bisect the selected cluster using basic k-means 7. end for 8. Select the two clusters with the lowest total SSE 9. Add these clusters to the list of clusters. 10. Until the list of clusters contains K clusters It is often used as an preprocessing phase for initialization.

Παραλλαγές του k-Means Ο αλγόριθμος ISODATA ο οποίος περιλαμβάνει μία διαδικασία για αναζήτηση του καλύτερου αριθμού συστάδων με βάση κάποιο κόστος εκτέλεσης. Ο Fuzzy C-Means ο οποίος επεκτείνει τον κλασικό αλγόριθμο K-Means χρησιμοποιώντας την θεωρία της ασαφής λογικής και Ο SAS PROC FASTCLUS, ο οποίος ελέγχει την διαδικασία συσταδοποίησης υιοθετώντας δύο ακόμα παραμέτρους, την max_rad και min_size. Η πρώτη παράμετρος ελέγχει τον ελάχιστο αριθμό στοιχείων που μπορεί να έχει κάθε συστάδα ενώ η δεύτερη καθορίζει ότι η απόσταση κάθε στοιχείου μίας συστάδας από το κέντρο της συστάδας δεν πρέπει να είναι μεγαλύτερη του max_rad. O k-windows που χρησιμοποιεί τεχνικές υπολογιστικής γεωμετρίας.

Fuzzy C-Means Clustering 1. Επέλεξε μία αρχικά fuzzy διαμέριση των N αντικειμένων σε k clusters επιλέγοντας ένα NxK πίνακα γειτνίασης U. H τιμή u ij καθορίζει το βαθμό συμμετοχής του αντικειμένου x i στο cluster c j 2. Με βάση το U υπολόγισε την τιμή ενός fuzzy κριτηρίου: όπου 3.Επανυπολόγισε τα cluster centers για να μειώσεις το κριτήριο αυτό. 4. Επανέλαβε το βήμα 2.

Εκλέπτυνση αρχικών σημείων Μία λύση στο πρόβλημα αρχικοποίησης συσταδοποίησης είναι η παραμετροποίηση κάθε συστάδας. Αυτή η παραμετροποίηση μπορεί να «τελεστεί» καθορίζοντας τα μέγιστα της συνάρτησης πυκνότητας πιθανότητας των δεδομένων και τοποθετώντας ένα κέντρο συστάδας σε κάθε μέγιστο. Η εκτίμηση όμως της πυκνότητας σε πολυδιάστατα δεδομένα είναι δύσκολη διαδικασία.

Αλγόριθμος Εκλέπτυνσης (1)

Αλγόριθμος Εκλέπτυνσης (2)

PAM (Partitioning Around Medoids) Partitioning Around Medoids (PAM) (K- Medoids) Αντιμετωπίζει ικανοποιητικά τους outliers. Η διάταξη εισόδου δεν επηρεάζει τα αποτελέσματα. Δεν κλιμακώνεται ικανοποιητικά. Κάθε cluster αντιπροσωπεύεται με ένα μόνο αντικείμενο που καλείται medoid. Το αρχικό σύνολο k medoids επιλέγεται τυχαία.

PAM 1. Τυχαία επιλογή Κ αντιπροσώπων για τις συστάδες. 2. Υπολογισμός του συνολικού κόστους TC ih για όλα τα ζεύγη των αντικειμένων O i, O h όπου το O i είναι το τρέχον επιλεγμένο αντικείμενο και το O h είναι ένα μη επιλεγμένο αντικείμενο. 3. Επιλέγουμε το ζεύγος Ο i, Ο h το οποίο αντιστοιχεί στο min Oi, Oh TC ih. Εάν το συνολικό κόστος είναι αρνητικό αντικαθιστούμε το Ο i με το Ο h και επιστρέφουμε στο βήμα Διαφορετικά, για κάθε μη επιλεγμένο αντικείμενο, βρίσκουμε το αντικείμενο αντιπρόσωπο που προσεγγίζει περισσότερο. Τότε ο αλγόριθμος σταματά.

PAM Cost Calculation Σε κάθε βήμα του αλγορίθμου τα medoids αλλάζουν εάν τα συνολικά κόστη βελτιώνονται. C jih – η αλλαγή κόστους για ένα αντικείμενο t j συσχετίζεται με την εναλλαγή του medoid t i με το non- medoid t h.

PAM Algorithm

Αλγόριθμος CLARA (Clustering LARge Applications) 1. Για i = , επαναλαμβάνουμε τα ακόλουθα βήματα: 2. Επιλέγουμε ένα δείγμα k αντικειμένων με τυχαίο τρόπο από το σύνολο των δεδομένων και καλούμε τον αλγόριθμο ΡΑΜ για να βρούμε τους k αντιπροσώπους για τις συστάδες. 3. Για κάθε αντικείμενο Οj στο σύνολο δεδομένων, καθορίζουμε πoιο από τα k medoids προσεγγίζει περισσότερο το Οj. 4. Υπολογίζουμε την συνολική ανομοιότητα για την συσταδοποίηση που λαμβάνεται από το προηγούμενο βήμα. Εάν αυτή η τιμή είναι μικρότερη από το τρέχον ελάχιστο, χρησιμοποιούμε αυτή την τιμή του ελαχίστου σαν τρέχον ελάχιστο και διατηρούμε τα k medoids που βρήκαμε στο βήμα 2 σαν το καλύτερο σύνολο των medoids που έχουμε μέχρι στιγμής. 5. Επιστρέφουμε στο βήμα 1 και ξεκινάμε με την επόμενη επανάληψη.

Αλγόριθμος CLARANS (Clustering Large Applications based on Randomized Search) 1. Αρχικοποίηση των παραμέτρων numlocal (αριθμός τοπικών βέλτιστων που θα αναζητηθούν) και maxneighbor (μέγιστος αριθμός γειτόνων που μπορούν να εξεταστούν). Αρχικοποιούμε το i σε 1 και θέτουμε ως ελάχιστο κόστος mincost έναν μεγάλο αριθμό. 2. Καθορισμός της μεταβλητής current (τρέχον κόμβος προς εξέταση) ώστε να αναφέρεται σε έναν αρχικό κόμβο G n,k. 3. Θέτουμε το j ίσο με Θεωρούμε έναν τυχαίο γείτονα S του τρέχοντος και υπολογίζουμε το κόστος αντικατάστασης του τρέχοντος κόμβου από τον γειτονικό κόμβο. 5. Εάν ο S έχει μικρότερο κόστος, θέτουμε ως τρέχον κόμβο (current) τον S και επιστρέφουμε στο βήμα Διαφορετικά, αυξάνουμε το j κατά 1. Εάν j  maxneighbor, επιστρέφουμε στο βήμα Διαφορετικά, όταν το j > maxneighbor, συγκρίνουμε το κόστος του τρέχοντος κόμβου current με το ελάχιστο κόστος mincost. Εάν το πρώτο είναι μικρότερο από το mincost, θέτουμε ως mincost το κόστος του current και ορίζουμε ως καλύτερο κόμβο (bestnode) τον current. 8. Αυξάνουμε το i κατά 1. Εάν i > numlocal, εξάγουμε τον καλύτερο κόμβο και η διαδικασία σταματά. Διαφορετικά, επιστρέφουμε στο βήμα 2.

Ομαδοποίηση Μεγάλου Όγκου Δεδομένων Ένα σάρωμα των δεδομένων Αυξητικοί Δουλεύουν με περιορισμένη μνήμη Επεξεργασία κάθε πλειάδας μία φορά.

Γενική Μεθοδολογία Ανάγνωση ενός υποσυνόλου δεδομένων στην κύρια μνήμη Εφαρμογή τεχνικών συσταδοποίησης στα δεδομένα της κύριας μνήμης Συνδυασμός αποτελεσμάτων με αυτά προηγουμένων δειγμάτων Διαχωρισμός σε τρεις τύπους: (α) στοιχεία που χρειάζονται συνεχώς, (β) στοιχεία που μπορούν να απορριφθούν, (γ) στοιχεία που αποθηκεύονται συμπιεσμένα

Αλγόριθμος CURE (Clustering Using Representatives) Ο CURE, αποτελείται από ένα ιεραρχικό και ένα διαμεριστικό σχήμα, τα βασικά χαρακτηριστικά του είναι: Mπορεί να αναγνωρίζει συστάδες αυθαίρετων σχημάτων (π.χ. ελλειψοειδή) Eίναι εύρωστος στην παρουσία των outliers Oι απαιτήσεις του σε χώρο αποθήκευσης είναι γραμμική συνάρτηση του αριθμού των στοιχείων εισόδου και η χρονική πολυπλοκότητα του είναι O(n 2 ) για δεδομένα μικρών διαστάσεων, όπου n είναι ο αριθμός των στοιχείων εισόδου. Ο αλγόριθμος μπορεί να εφαρμοστεί αποδοτικά και για συσταδοποίηση μεγάλων βάσεων δεδομένων συνδυάζοντας τεχνικές τυχαίας δειγματοποίησης (sampling) και τμηματοποίησης (partitioning)

Βασική Ιδέα Ο αλγόριθμος αρχίζει λαμβάνοντας κάθε σημείο εισόδου σαν ξεχωριστή συστάδα και σε κάθε βήμα που ακολουθεί συγχωνεύει τα πλησιέστερα ζευγάρια συστάδων. Για να υπολογιστεί η απόσταση μεταξύ των συστάδων, αποθηκεύονται για κάθε συστάδα c αντιπρόσωποι (representatives). Οι αντιπρόσωποι αυτοί καθορίζονται επιλέγοντας αρχικά τα πιο διάσπαρτα σημεία μέσα σε μία συστάδα και στη συνέχεια μετακινούμε τα σημεία προς το μέσο της συστάδας κατά ένα ποσοστό α. Η απόσταση μεταξύ των συστάδων είναι η απόσταση μεταξύ των πιο κοντινών αντιπροσώπων δύο συστάδων. Έτσι μόνο τα σημεία αντιπρόσωποι μίας συστάδας χρησιμοποιούνται για να υπολογίσουμε την απόσταση της από μία άλλη συστάδα.

CURE Algorithm

Επεκτάσεις Το δείγμα του συνόλου των δεδομένων μας διαιρείται σε τμήματα στα οποία και εκτελείται ο αλγόριθμος συσταδοποίησης. Στην συνέχεια με βάση τις συστάδες που έχουν προσδιοριστεί στα τμήματα, εφαρμόζεται ο αλγόριθμος για την εύρεση των συστάδων του συνόλου των δεδομένων. Η βασική ιδέα είναι να τμηματοποιήσουμε το δείγμα μας σε p τμήματα, καθένα μεγέθους n/p. Στην συνέχεια εφαρμόζουμε συσταδοποίηση σε κάθε τμήμα μέχρι ο αριθμός των συστάδων σε κάθε τμήμα να μειωθεί σε n/pq για κάποια σταθερά q > 1.

CURE for Large Databases Επιλογή τυχαίου δείγματος (μεγέθους n) από τα δεδομένα. Διαμέριση του δείγματος σε p διαμερίσεις ίδιου μεγέθους Ομαδοποίησε τα σημεία σε κάθε διαμέριση, σε n/pq ομάδες, χρησιμοποιώντας την ιεραρχική εκδοχή του CURE λαμβάνοντας έτσι ένα σύνολο από n/q ομάδες. Κατά τη διαδικασία ομαδοποίησης απομάκρυνε ακραία σημεία (μικρές ή αργά αυξανόμενες). Εφάρμοσε στους εκπροσώπους των ομάδων τον αλγόριθμο CURE για να ομαδοποιήσεις n/q ομάδες, μέχρις ότου μείνουν μόνο K ομάδες. Ανάθεσε τα υπόλοιπα σημεία, στην κοντινότερη ομάδα, για να παραχθεί μία πλήρης ομαδοποίηση.

BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) Ζυγισμένη επαναληπτικά μείωση και ομαδοποίηση με χρήση ιεραρχιών. Αυξητική, ιεραρχική, ένα σάρωμα δεδομένων Εφαρμόσιμο μόνο σε αριθμητικά δεδομένα Αποθήκευση πληροφορίας ομαδοποίησης σε ένα δέντρο. Κάθε στοιχείο σε ένα δέντρο εμπεριέχει πληροφορίας σχετικά με μία ομάδα. Νέοι κόμβοι εισέρχονται στο δέντρο.

Παράμετροι Ομαδοποίησης

Χαρακτηριστικό Ομαδοποίησης Ο αλγόριθμος είναι αυξητικός και ιεραρχικός Το CF-tree λειτουργεί ως ένα B-tree. To CF-tree: CF (Clustering Feature) Τριπλέτα: (N,LS,SS) N: Αριθμός σημείων σε ένα cluster LS: Άθροισμα σημείων σε ένα cluster SS: Άθροισμα τετραγώνων σημείων σε ένα cluster άρα ακτίνα και διάμετρος υπολογίσιμη CF Tree Ζυγισμένο δέντρο ψαξίματος Ο κόμβος έχει CF τριπλέτα για κάθε παιδί Το φύλλο αναπαριστά συστάδα και έχει CF τιμή για κάθε υποσυστάδα. Η υποσυστάδα έχει μέγιστη διάμετρο Τ

BIRCH Αλγόριθμος

Node splitting Node splitting is done by choosing the farthest pair of entries as seeds, and redistributing the remaining entries Split always propagates to the root even without splits in intermediate nodes Sometimes when the split stops at node Nj we could employ merging refinement where we scan to find the two closest entries and merge them. If there are enough entries for the two children we are ok otherwise we split again.

Βελτίωση Συστάδων Δημιουργία αρχικού CF-tree. Αν δεν υπάρχει επαρκής χώρος, το κατώφλι αυξάνεται, και ένα νέο μικρότερο δέντρο κατασκευάζεται. Μετά το πέρας του αλγορίθμου, εφάρμοσε μία διαφορετική προσέγγιση, στα φύλλα του CF-tree. Η αρχική εργασία προτείνει έναν συσσωρευτικό ιεραρχικό αλγόριθμο, θα μπορούσαν να χρησιμοποιηθούν και άλλοι. Η τελευταία φάση (προαιρετική) επανασυσταδοποιεί τα σημεία με βάση την απόστασή τους από το νέο κέντρο.

Αλγόριθμος DBSCAN DBSCAN Density Based Spatial Clustering για Εφαρμογές με Θόρυβο Outliers δεν θα επηρεάσουν τη δημιουργία του cluster. Είσοδος MinPts – ελάχιστος αριθμός σημείων στο cluster Eps – για κάθε σημείο στο cluster θα πρέπει να υπάρχει ένα άλλο σημείο με λiγότερη από αυτή την απόσταση.

Density Concepts

Βασικές Έννοιες Ένα αντικείμενο p είναι άμεσα πυκνά-προσεγγίσιμο από ένα αντικείμενο q εάν 1. το αντικείμενο ανήκει στο υποσύνολο των αντικειμένων που βρίσκονται στη γειτονιά του q 2. ο αριθμός των αντικειμένων που περιέχονται στη γειτονιά του q είναι μεγαλύτερος από ένα όριο MinPts. Ένα αντικείμενο p είναι πυκνά-προσεγγίσιμο από ένα αντικείμενο q, p->D q, εάν υπάρχει μια ακολουθία από αντικείμενα p 1,….,p n, p 1 =q, p n =p τέτοια ώστε το p i + 1 να είναι άμεσα πυκνά-προσεγγίσιμο από το p i. Ένα αντικείμενο p είναι πυκνά-σννδεδεμένο με ένα αντικείμενο q εάν υπάρχει ένα αντικείμενο o τέτοιο ώστε τόσο το p όσο και το q να είναι πυκνά-προσεγγίσιμα από το o. Μία συστάδα C στο σύνολο των δεδομένων D είναι ένα μη-κενό υποσύνολο του D το οποίο ικανοποιεί τις ακόλουθες συνθήκες: 1. Για κάθε p, q  D: εάν p  c και p- >D q, τότε q  C 2. Για κάθε p, q  D: το p είναι πυκνά-συνδεδεμένο με το q. Έστω ότι C 1, C 2,..., C n είναι οι συστάδες του συνόλου δεδομένων D. Ορίζουμε ως θόρυβο το σύνολο των αντικειμένων στην βάση δεδομένων D τα οποία δεν ανήκουν σε καμία συστάδα Ci.

Αδυναμίες Αλγορίθμου  Επηρεάζεται από τις τιμές των παραμέτρων Eps και MinPts, οι οποίες είναι δύσκολο να προσδιοριστούν.  Όπως όλοι οι ιεραρχικοί αλγόριθμοι πάσχει από το πρόβλημα της μη ευρωστίας καθώς στην περίπτωση που υπάρχει μία πυκνή σειρά σημείων που συνδέει δύο συστάδες ο DBSCAN μπορεί να τελειώσει συγχωνεύοντας τις δύο συστάδες.  Η χρήση δείγματος για να περιοριστεί το μέγεθος της εισόδου στην εφαρμογή των αλγορίθμων που βασίζονται στην πυκνότητα δεν είναι εφικτή. Ο λόγος είναι ότι ακόμα και αν το δείγμα είναι μεγάλο, μπορεί να υπάρχουν μεγάλες διακυμάνσεις στην πυκνότητα των σημείων μέσα σε κάθε συστάδα στο τυχαίο δείγμα  Θετικό: χρόνος τρεξίματος O(nlogn).

Αυξητικός DBSCAN Έχει αποδειχθεί ότι κατά την εισαγωγή ή διαγραφή ενός αντικειμένου p, το σύνολο των αντικειμένων που επηρεάζονται (δηλαδή αντικείμενα τα οποία μπορεί να μεταβάλλουν την συμμετοχή τους στις συστάδες), είναι τα αντικείμενα που ανήκουν στην γειτονιά του αντικειμένου p καθώς και όλα τα αντικείμενα που είναι πυκνά προσεγγίσιμα από ένα από τα αντικείμενα του συνόλου D  {p}. Αντίθετα, η συμμετοχή των άλλων αντικειμένων, που δεν ανήκουν στο σύνολο των επηρεαζόμενων αντικειμένων, στις συστάδες δεν μεταβάλλεται. Συνεπώς, με βάση τον αλγόριθμο DBSCAN μπορούν να σχεδιαστούν αποδοτικοί αλγόριθμοι ώστε να υποστηρίξουν τις εισαγωγές και διαγραφές στην διαδικασία της συσταδοποίησης.

Βασισμένοι σε Πλέγμα STING (Statistical Information Grid-based method) - Διαίρεση του χώρου σε κελιά - Υπολογισμός παραμέτρων (μέσος, διακύμανση, ελάχιστο,μέγιστο, τύπος κατανομής) - κτίσιμο ιεραρχικής δομής

Συσταδοποίηση για σύνολα με Κατηγορικά Δεδομένα (1) Η χρήση της ευκλείδιας απόστασης προβληματική, και η χρήση διαμεριστικού αλγορίθμου προβληματική, καθώς καθώς υπολογίζουμε κέντρα το κέντρο όλο και περισσότερο απλώνεται σε περισσότερα πεδία Η χρήση Jaccard coefficient όπου η ομοιότητα ανάμεσα από δύο συναλλαγές T 1 και T 2 είναι έχει το πρόβλημα ότι δεν ελέγχει την συνολική ποιότητα του cluster αλλά ελέγχει μόνο τοπικά.

Συσταδοποίηση για σύνολα με Κατηγορικά Δεδομένα (2) ROCK (RΟbust Clustering Algorithm for Categorical Attribute) Εισάγει δύο νέες έννοιες: Γείτονες. Οι γείτονες ενός σημείου είναι εκείνα τα σημεία τα οποία παρουσιάζουν σημαντική ομοιότητα με αυτό. Θεωρούμε την sim (p i, p j ) ως την συνάρτηση ομοιότητας με βάση την οποία εκτιμούμε την εγγύτητα μεταξύ δύο σημείων και η οποία κυμαίνεται μεταξύ του 0 και 1. Η συνάρτηση μπορεί να είναι ένα οποιαδήποτε καλά ορισμένο μέτρο απόστασης ή ακόμα και μία μη μετρική συνάρτηση (π.χ. μία συνάρτηση ομοιότητας που παρέχεται από ειδικούς στο πεδίο που ανήκουν τα στοιχεία που συγκρίνουμε). Δεδομένου λοιπόν μίας συνάρτησης ομοιότητας και ενός ορίου θ (θ [0,1]), ένα ζεύγος σημείων p i, p j είναι γείτονες εάν ισχύει η ακόλουθη ανισότητα: Δεσμοί. Ο δεσμός link(p i, p j ) ορίζεται ως ο αριθμός των κοινών γειτόνων μεταξύ των στοιχείων pi, pj.

Συνάρτηση Κριτήριο Η ακόλουθη συνάρτηση κριτήριο θα πρέπει να μεγιστοποιείται για k συστάδες: f(θ) μία παράμετρος η οποία ελέγχει τους γείτονες ενός κόμβου, n f(θ) o μέσος όρος γειτόνων ενός κόμβου.

Μέτρα Ποιότητας Μπορούμε να ορίσουμε το μέτρο ποιότητας g(C i,C j ) ως εξής:

Αλγόριθμος ROCK

Συσταδοποίηση Kohonen Net Τα νευρωνικά δίκτυα Kohonen παρέχουν έναν τρόπο κατηγοριοποίησης των δεδομένων μέσω αυτό-οργανωμένων (self-organizing) δικτύων τεχνητών νευρώνων. Δύο βασικές έννοιες που κυριαρχούν στα δίκτυα Kohonen και είναι σημαντικό να κατανοήσουμε είναι, η ανταγωνιστική μάθηση και η αυτό- οργάνωση. Ο όρος ανταγωνιστική μάθηση αφορά στην εύρεση ενός νευρώνα ο οποίος προσεγγίζει περισσότερο το πρότυπο εισόδου. Το δίκτυο στη συνέχεια τροποποιεί αυτό τον νευρώνα και τους γειτονικούς του (ανταγωνιστική μάθηση με αυτόοργάνωση) έτσι ώστε να μοιάζουν περισσότερο με το πρότυπο. Το επίπεδο ενεργοποίησης είναι:

Αλγόριθμος Kohonen Τα βασικά βήματα του Kohonen αλγορίθμου είναι τα εξής: Βήμα 1ο : Για κάθε νευρώνα στο επίπεδο Kohonen λαμβάνεται ένα πλήρες αντίγραφο ενός προτύπου εισόδου. Βήμα 2ο : Βρίσκουμε το νευρώνα που είναι ο «νικητής». Ο νικητής είναι αυτός με το μικρότερο επίπεδο ενεργοποίησης: Βήμα 3ο : Για κάθε νευρώνα που είναι «νικητής» καθώς και για τους φυσικούς γειτονικούς του κόμβους, χρησιμοποιείται ο ακόλουθος κανόνας εκπαίδευσης για την τροποποίηση των βαρών: όπου α είναι ο ρυθμός μάθησης ο οποίος μειώνεται με το χρόνο (αρχίζει από την τιμή 1 και μειώνεται σταδιακά μέχρι την τιμή 0), rij είναι η απόσταση μεταξύ του νικητή και του κόμβου που πρόκειται να ενημερωθεί και sigma είναι η ακτίνα γειτονίας η οποία μειώνεται με το χρόνο. Βήμα 4ο : Επανάληψη των βημάτων 1-3 για κάθε νέο πρότυπο εισόδου. Βήμα 5ο : Επανάληψη βήματος 4 έως ότου όλα τα πρότυπα εισόδου εξεταστούν (αυτό καθορίζει την τιμή του 1). Βήμα 6ο : Επανάληψη βήματος 5 για ένα καθορισμένο αριθμό φορών

Evolutionary Methods Οι υποψήφιες λύσεις για το clustering αντιμετωπίζονται ως χρωμοσώματα. Οι πιο συνήθεις ενέργειες είναι: επιλογή, επανασυνδυασμός και μεταβολή. Κάθε μία μετατρέπει ένα ή περισσότερα χρωμοσώματα εισόδου σε ένα ή περισσότερα χρωμοσώματα εξόδου. Μια συνάρτηση «υγείας» που υπολογίζεται για ένα χρωμόσωμα, καθορίζει την πιθανότητά του να επιζήσει στην επόμενη γενεά.

GA Algorithm

Genetic Algorithm Example {A,B,C,D,E,F,G,H} Τυχαία επίλεξε αρχική λύση {A,C,E} {B,F} {D,G,H} ή , , Suppose crossover at point four and choose 1st and 3rd individuals: , , What should termination criteria be?

BEA Bond Energy Algorithm Database design (physical and logical) Vertical fragmentation Determine affinity (bond) between attributes based on common usage. Algorithm outline: Create affinity matrix Convert to BOND matrix Create regions of close bonding

BEA

Comparison of Clustering Techniques