Ανακάλυψη Γνώσης (Knowledge Discovery)

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Προεπεξεργασία Δεδομένων
Advertisements

Προεπεξεργασία Δεδομένων
Αξιοπιστία Γ. Σιδερίδης
Οφέλη Εφαρμογών Επιχειρηματικής Ευφυΐας
Συνιστώσες δεδομένων  Αντίληψη(concept):το αντικείμενο μάθησης  Υπόδειγμα(instance):το ξεχωριστό και ανεξάρτητο παράδειγμα(example) ενός concept  Χαρακτηριστικό(attribute):η.
Βλάσσης Νικόλαος Α.Μ Γεωργακόπουλος Παναγιώτης Α.Μ Δεπάστα Χαρίκλεια Α.Μ Κουτσιώρα Τριανταφυλλιά Α.Μ
Συσταδοποίηση Ι Μέρος των διαφανειών είναι από το P.-N. Tan, M.Steinbach, V. Kumar, «Introduction to Data Mining», Addison Wesley, 2006.
Network Inference Μπαλάφα Κασιανή - Αδριανή Πλασταρά Κατερίνα.
ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΔΙΟΙΚΗΣΗΣ Μαρία Καρύδα, Επίκουρη Καθηγήτρια
WEIGHTED CLUSTERING ΠΡΟΗΓΜΕΝΗ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ Μιχάλης Χριστόπουλος Μ Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence.
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
ΑΠΟΘΗΚΕΣ ΚΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Δρ. Παναγιώτης Συμεωνίδης
Μαρία Καρύδα, Επίκουρη Καθηγήτρια Γραφείο B13, Κτήριο Λυμπέρη Ώρες Γραφείου: Δευτέρα, Τρίτη, Τετάρτη 10:00 – 11: 00
Τεχνικές Ερωτηματολογίου Άρης Κουμπαρέλης Καθ. Εφαρμογών Τμ. Δημοσίων Σχέσεων & Επικοινωνίας ΤΕΙ Ιονίων Νήσων - Αργοστόλι.
Εισαγωγή στη Βιοπληροφορική Ενότητα 9: Text Mining Μακρής Χρήστος, Τσακαλίδης Αθανάσιος, Ιωάννου Μαρίνα Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ και Πληροφορικής.
Eιδικά θέματα βάσεων χωρικών δεδομένων και θεωρία συστημάτων - Θ Ενότητα 10: (Spatial) Data Warehouse. (Spatial) Data Mining Δήμος Πανταζής Dr, MSc, Αγρ.Τοπ.Μηχ.
ΕΡΗΜΟΙ. Οι έρημοι καταλαμβάνουν το ένα τρίτο της εδαφικής επιφάνειας της Γης]. Οι θερμές έρημοι έχουν συνήθως μεγάλο ημερήσιο και περιοδικό εύρος θερμοκρασιών,
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Εισαγωγή. Συστάσεις Ι Ποιός είμαι εγώ: Γραφείο: Β.3 Προτιμώμενες ώρες γραφείου: 11:00-18:00 Ενδιαφέροντα Web mining,
Σχεδιασμός των Μεταφορών Ενότητα #7 annex: Καταμερισμός στα μεταφορικά μέσα - Assignment in transport means. Δρ. Ναθαναήλ Ευτυχία Πολυτεχνική Σχολή Τμήμα.
Φυσική Α Γυμνασίου Ευαγγελία Αγγελίδου Σχολική Σύμβουλος ΠΕ04 – Δ ΔΔΕ Αθήνας.
Eιδικά θέματα βάσεων χωρικών δεδομένων και θεωρία συστημάτων - Θ Ενότητα 3: Παραδείγματα και εφαρμογές συστημάτων Δήμος Πανταζής Dr, MSc, Αγρ.Τοπ.Μηχ.
BIOΣΤΑΤΙΣΤΙΚΗ Δρ. Γιώργος Μαρκάκης Καθηγητής Στατιστικής - Βιοστατιστικής Τ.Ε.Ι. Κρήτης
Συστήματα Υποστήριξης Αποφάσεων Δομή και Χαρακτηριστικά ΣΥΑ.
Προσδιορισμός Απαιτήσεων στην ανάπτυξη Π.Σ. (Διάλεξη 8)
ΣΥΣΤΗΜΑΤΑ ΥΠΟΣΤΗΡΙΞΗΣ ΑΠΟΦΑΣΕΩΝ Δημήτριος Κ. Καρδαράς
N. ΝΙΚΗΤΑΚΟΣ καθηγητής Παν. Αιγαίου Δ.Παπαχρήστος μέλος ΕΔΙΠ ΑΕΙ ΠΕΙΡΑΙΑ ΤΤ ΠΑΝΕΠΙΣΤΗΜΙΟ Α ΙΓΑIΟΥ & ΑΕΙ ΠΕΙΡΑΙΑ Τ.Τ. Τμήματα Ναυτιλίας και Επιχειρηματικών.
Καλώς ήλθατε, μαθητές! Όνομα δασκάλου. Πρόγραμμα τάξης 8:15 - 9:00Το σχολείο ξεκινά, παίρνουμε παρουσίες 9: :00Ανάγνωση και έκθεση 10: :00Ορθογραφία.
ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ΜΕ ΧΡΗΣΗ JAVA: ΤΟ ΛΟΓΙΣΜΙΚΟ WEKA
Κύκλος Πληροφορίας Δεδομένα: Δεδομένα Πληροφορία Γνώση Παραγωγή
Θερμοδυναμικό σύστημα – Μακροσκοπικές μεταβλητές
ΜΕΘΟΔΟΛΟΓΙΑ ΤΗΣ ΕΡΕΥΝΑΣ
Ανάπτυξη και Αξιολόγηση Έννοιας Νέου Προϊόντος/Υπηρεσίας
ΤΕΧΝΟΛΟΓΙΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΙΑΚΩΝ ΔΙΑΔΙΚΑΣΙΩΝ
Ανάλυση συστάδων: βασικές έννοιες και αλγόριθμοι
Εξόρυξη γνώσης Εισαγωγή
Ασκήσεις Κεφάλαιο 11.
Το πρόβλημα της μέτρησης Μέτρηση είναι η ένταξη αριθμών σε αντικείμενα σύμφωνα με oρισμένους κανόνες και υπό την βασική προϋπόθεση ότι υπάρχει ακριβής.
Μεθοδολογία της έρευνας στις Κοινωνικές Επιστήμες Ι &ΙΙ
Μέθοδοι Ανάπτυξης Συστημάτων
Εισαγωγή στην Προσομοίωση
Εισαγωγή στην επιλογή μονάδων και τη δειγματοληψία
«Άσκηση (1)» Στη διάρκεια μιας 4ετούς περιόδου υπήρξαν 532 τραυματισμοί του προσωπικού οφειλόμενοι σε ατυχήματα, σε κάποια ιατρικά εργαστήρια. Οι αριθμοί.
Σωκράτης Τουμπεκτσής users.sch.gr/stoumpektsis
Καθηγητής Στατιστικής - Βιοστατιστικής
«ΑΣΚΗΣΗ 1» Κατά την διάρκεια της χρονικής περιόδου οι ετήσιοι αριθμοί θανάτων από καρκίνο στις Ηνωμένες Πολιτείες από ανήλθαν στις ,
ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ.
Data Warehouse Refreshment via ETL tools
ΣΤΑΤΙΣΤΙΚΗ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ
Όνομα σχολείου Ημερομηνία
Αξιοπιστία Γ. Σιδερίδης
Θεωρία Πολιτισμικού Κεφαλαίου και Εκπαίδευση
Πληροφοριακά Συστήματα και επιχείρηση
Βασικές αρχές μέτρησης, Μεταβλητές, Βασικές έννοιες στατιστικής
Στρατηγικό Σχέδιο για το Συνήγορο του Πολίτη 20 χρόνια μετά - Στόχοι 2020.
Εισαγωγή & Ανάλυση δεδομένων με το SPSS
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ
ΤΕΙ Σερρών Σχολή Διοίκησης & Οικονομίας Τμήμα Διοίκησης Επιχειρήσεων
DATA MINING ΕΞΑΜΗΝΙΑΙΟ ΘΕΜΑ ΣΤΟ ΜΑΘΗΜΑ ‘ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ ΧΩΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΘΕΩΡΙΑ ΣΥΣΤΗΜΑΤΩΝ’
האם ניתן להגדיל את עוצמת המבחן?
ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΙΟΣΤΑΤΙΣΤΙΚΗ
OLTP System Online Transaction Processing (Operational System)
ΤΙΤΛΟΣ ΤΗΣ ΕΚΔΗΛΩΣΗΣ ΣΑΣ
Καλώς ήλθατε, μαθητές! Όνομα δασκάλου.
Διδάσκουσα Δρ. Γεωργία Κηπουροπούλου
ΜΕΤΡΗΣΗ ΘΕΡΜΟΚΡΑΣΙΑΣ Τ.Ε.Ι. ΑΝΑΤΟΛΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ & ΘΡΑΚΗΣ
Τμήμα Πληροφορικής Α.Π.Θ. Παρουσίαση της Κατεύθυνσης
Κεφάλαιο 12 Απλή Γραμμική Παλινδρόμηση.
Συμφωνία επί της ασφαλιστικής αξίας
Παράδειγμα στόχος Έμπνευση Ενέργειες/εργασίες Πόροι Σκέψεις
Μεταγράφημα παρουσίασης:

Ανακάλυψη Γνώσης (Knowledge Discovery) ΠΡΟ-ΕΠΕΞΕΡΓΑΣΙΑ Data Cleaning – Καθαρισμός Δεδομένων Data Integration – Ενοποίηση Δεδομένων Data Transformation – Μετασχηματισμοί Δεδομένων ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΑΝΑΠΑΡΑΣΤΑΣΗ Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΕΙΣΑΓΩΓΗ

Προ-επεξεργασία δεδομένων - Καθαρισμός Τα δεδομένα στο πραγματικό κόσμο είναι «βρώμικα» Ελλειπή - incomplete: μπορεί να λείπουν κάποιες τιμές γνωρισμάτων (να μην καταγράφηκαν, να καταγράφηκαν λανθασμένα λόγω μη συνεννόησης ή λανθασμένης λειτουργίας), να λείπουν κάποια ενδιαφέροντα γνωρίσματα (που να μην θεωρήθηκαν σημαντικά ή να μην ήταν διαθέσιμα), ή να περιέχουν μόνο συναθροιστικά (aggregate) δεδομένα Συμπλήρωση των γνωρισμάτων και τιμών που λείπουν Με θόρυβο - noisy: περιέχουν λάθη ή outliers (περιθωριακές τιμές - τιμές που διαφέρουν πολύ από την πλειοψηφία) Εύρεση των περιθωριακών τιμών και απομάκρυνση θορύβου Ασυνεπή - inconsistent: περιέχουν ασυνέπειες, διπλότιμα Διόρθωση ασυνεπών τιμών Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΕΙΣΑΓΩΓΗ

Προ-επεξεργασία δεδομένων Επιλογή Δεδομένων και Γνωρισμάτων και εφαρμογή κατάλληλων Μετασχηματισμών Συνάθροιση – Aggregation: συνδυασμούς δεδομένων από πολλές πηγές Sampling – δειγματοληψία: χρήση αντιπροσωπευτικού δείγματος των δεδομένων για βελτίωση της απόδοσης Dimensionality reduction – Κατάρα της διάστασης (curse of dimensionality) Πολλές τεχνικές για την ανάλυση δεδομένων γίνονται δυσκολότερες με την αύξηση της διάστασης των δεδομένων (αυξάνει εκθετικά η πολυπλοκότητα ή τα δεδομένα γίνονται πολύ αραιά) Τεχνικές της γραμμικής άλγεβρας (SVD, PCA) Απεικόνιση σε άλλο χώρο με μικρότερο αριθμό διαστάσεων Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΕΙΣΑΓΩΓΗ

Αποθήκες Δεδομένων Αποθήκη δεδομένων είναι μια συλλογή από ιστορικά δεδομένα που συλλέγονται τακτικά από διάφορες πηγές, ομογενοποιούνται και αποθηκεύονται με βάση ένα κοινό σχήμα (συνήθως) σε έναν κόμβο με στόχο την ανάλυσή τους για τη λήψη αποφάσεων. “A Data warehouse as being a subject-oriented, integrated, time-variant and nonvolatile collection of data that supports management's decision-making process” - William H. Inmon. ExtractTransformLoad (ETL) διαδικασίες – τα δεδομένα παίρνονται από τις βάσεις, μετασχηματίζονται και φορτώνονται στην αποθήκη Οι μετασχηματισμοί μπορεί να είναι επιλογές συγκεκριμένων πεδίων και τιμών, αλλαγή μονάδων μέτρησης, καθαρισμός, κλπ Περιοδική ενημέρωση της αποθήκης, δυνατότητες εκτέλεσης περίπλοκων και συνδυαστικών ερωτημάτων, δημιουργία εξειδικευμένων χώρων αποθήκευσης (Data Marts). Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΕΙΣΑΓΩΓΗ

Λήψη Αποφάσεων Data Exploration Increasing potential to support business decisions Τελικός Χρήστης Λήψη Αποφάσεων Παρουσίαση Δεδομένων Business Analyst Τεχνικές Οπτικοποίησης Εξόρυξη Δεδομένων Data Analyst Ανακάλυψη Πληροφορίας Data Exploration Στατιστικές περιλήψεις, Ερωτήσεις (OLAP) Προ-επεξεργασία&Ενοποίηση Δεδομένων, Αποθήκες DBA Διαχειριστής ΒΔ Πηγές Δεδομένων Χαρτιά, Αρχεία, Web έγγραφα, Επιστημονικά Πειράματα, Συστήματα Βάσεων Δεδομένων Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΕΙΣΑΓΩΓΗ

Είδη/Μέθοδοι για Ανάλυσης Δεδομένων Descriptive Analysis – Περιγραφική Ανάλυση Στόχος να βρεθούν κατανοητά πρότυπα που περιγράφουν τα δεδομένα και τις ιδιότητες τους χρησιμοποιώντας στατιστικές μεθόδους Explorative Analysis – Εξερευνητική Ανάλυση Στόχος η εύρεση κριμένων σχέσεων (patterns) και συσχετισμών (associations) ανάμεσα σε υποσύνολα δεδομένων και η μοντελοποίησης τους μέσω μηχανικής μάθησης (machine learning) Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΕΙΣΑΓΩΓΗ

Άλλες διακρίσεις μεταξύ συνόλων συστάδων Επικαλυπτόμενο ή όχι Ένα σημείο ανήκει σε περισσότερες από μια συστάδες(πχ οριακά σημεία) Ασαφή συσταδοποίηση Στην ασαφή συσταδοποίηση ένα σημείο ανήκει σε κάθε συστάδα με κάποιο βάρος μεταξύ του 0 και του 1 Συχνά τα βάρη για κάθε σημείο έχουν άθροισμα 1 Η πιθανοτική συσταδοποίηση έχει παρόμοια χαρακτηριστικά Μερική - Πλήρης Σε ορισμένες περιπτώσεις θέλουμε να ομαδοποιήσουμε μόνο κάποια από τα δεδομένα (άλλα θόρυβος, ή μη ενδιαφέρουσα πληροφορία) Ετερογενή - Ομογενή Συστάδες με πολύ διαφορετικά μεγέθη, σχήματα και πυκνότητες (densities) Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι

Είδη Γνωρισμάτων Ποιοτικά ή Κατηγορικά Ποσοτικά ή Αριθμητικά Τύπος Δεδομένου Περιγραφή Παραδείγματα Nominal Ονομαστικά Οι τιμές είναι απλώς διαφορετικά ονόματα (αναγνωριστικά) με αρκετή πληροφορία ώστε να γίνει διάκριση ανάμεσα τους (=, ) (και οι δυαδικές μεταβλητές 0 – 1 ) ταχυδρομικός κωδικός, αριθμός ταυτότητας, χρώμα ματιών, φύλο Διάταξη - Ordinal Οι τιμές περιέχουν πληροφορία διάταξης (<, >) Ποιότητα υλικού (καλή, πιο καλή, άριστη), βαθμοί: {καλών, λίαν καλώς, άριστα}, αριθμοί στις διευθύνσεις Διαστήματος - Interval Έχει σημασία η διαφορά μεταξύ δύο τιμών, υπάρχει μονάδα μέτρησης (+, - ) Θερμοκρασία σε Celsius ή Fahrenheit Ratio Έχει σημασία και ο λόγος μεταξύ δύο τιμών (*, /) Νομισματικές ποσότητες, ηλικία, θερμοκρασία σε Kelvin, ηλικία, μήκος Ποιοτικά ή Κατηγορικά Ποσοτικά ή Αριθμητικά Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι

Είδη Γνωρισμάτων Μετασχηματισμοί Παράδειγμα Nominal Ordinal Interval Οποιοσδήποτε ένα-προς-ένα απεικόνιση (πχ permutation) Πχ δεν έχει διαφορά αν ξαναδώσουμε από την αρχή αριθμούς ταυτότητας ή διαβατηρίου Ordinal Αλλαγή τιμών που να διατηρεί την διάταξη πχ νέα_τιμή = f(παλιά_τιμή) όπου f μονότονη συνάρτηση. Ένα γνώρισμα για διαβάθμιση μπορεί να είναι {C, B, A} ή {1, 2, 3} ή { 0.5, 1, 10}. Interval νέα_τιμή =a * παλιά_τιμή + b όπου a και b σταθερές Εξαρτάται από που είναι τι μηδέν και το μέγεθος της μονάδας (πχ μεταξύ Fahrenheit και Celsius) Ratio νέα_τιμή = a * παλιά_τιμή, όπου a σταθερά Μήκος σε μέτρα ή πόδια Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι

Ορισμός Απόστασης Πίνακας Δεδομένων Πίνακας Απόστασης Παράδειγμα Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι

Ορισμός Απόστασης Παράδειγμα Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι

Είδη συσταδοποίησης Μια συσταδοποίηση είναι ένα σύνολο από συστάδες Βασική διάκριση ανάμεσα στο ιεραρχικό (hierarchical) και διαχωριστικό (partitional) σύνολο από ομάδες Διαχωριστική Συσταδοποίηση (Partitional Clustering) Ένας διαμερισμός των αντικειμένων σε μη επικαλυπτόμενα - non-overlapping - υποσύνολα (συστάδες) τέτοιος ώστε κάθε αντικείμενο ανήκει σε ακριβώς ένα υποσύνολο Ιεραρχική Συσταδοποίηση (Hierarchical clustering Ένα σύνολο από εμφωλευμένες (nested) ομάδες Επιτρέπουμε σε μια συστάδα να έχει υποσυστάδες οργανωμένες σε ένα ιεραρχικό δέντρο Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι

Διαχωριστική και Ιεραρχική Συσταδοποίηση Αρχικά Σημεία Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι

Άλλες διακρίσεις μεταξύ συνόλων συστάδων Επικαλυπτόμενο ή όχι Ένα σημείο ανήκει σε περισσότερες από μια συστάδες (πχ οριακά σημεία) Ασαφή συσταδοποίηση Στην ασαφή συσταδοποίηση ένα σημείο ανήκει σε κάθε συστάδα με κάποιο βάρος μεταξύ του 0 και του 1 Συχνά τα βάρη για κάθε σημείο έχουν άθροισμα 1 Η πιθανοτική συσταδοποίηση έχει παρόμοια χαρακτηριστικά Μερική - Πλήρης Σε ορισμένες περιπτώσεις θέλουμε να ομαδοποιήσουμε μόνο κάποια από τα δεδομένα (άλλα θόρυβος, ή μη ενδιαφέρουσα πληροφορία) Ετερογενή - Ομογενή Συστάδες με πολύ διαφορετικά μεγέθη, σχήματα και πυκνότητες (densities) Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

K-means: Εκτίμηση ποιότητας Ουσιαστικά, ο αλγόριθμος προσπαθεί επαναληπτικά να «μειώσει» την απόσταση από ένα σημείο της συστάδας Η πιο συνηθισμένη μέτρηση είναι το άθροισμα των τετράγωνων του λάθους (Sum of Squared Error (SSE)) Για κάθε σημείο, το λάθος είναι η απόστασή του από την κοντινότερη συστάδα Για να πάρουμε το SSE, παίρνουμε το τετράγωνο αυτών των λαθών και τα προσθέτουμε Όπου dist Ευκλείδεια απόσταση, x είναι ένα σημείο στη συστάδα Ci και mi είναι ο αντιπρόσωπος (κεντρικό σημείο) της συστάδας Ci Μπορούμε να δείξουμε ότι το σημείο που ελαχιστοποιεί το SSE για τη συστάδα είναι ο μέσος όρος ci = 1/mi Σ x Ci x Δοθέντων δύο συστάδων, μπορούμε να επιλέξουμε αυτήν με το μικρότερο λάθος Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

K-means: Εκτίμηση ποιότητας Ουσιαστικά, ο αλγόριθμος προσπαθεί επαναληπτικά να «μειώσει» την απόσταση από ένα σημείο της συστάδας Η πιο συνηθισμένη μέτρηση είναι το άθροισμα των τετράγωνων του λάθους (Sum of Squared Error (SSE)) Για κάθε σημείο, το λάθος είναι η απόστασή του από την κοντινότερη συστάδα Για να πάρουμε το SSE, παίρνουμε το τετράγωνο αυτών των λαθών και τα προσθέτουμε Όπου dist Ευκλείδεια απόσταση, x είναι ένα σημείο στη συστάδα Ci και mi είναι ο αντιπρόσωπος (κεντρικό σημείο) της συστάδας Ci Μπορούμε να δείξουμε ότι το σημείο που ελαχιστοποιεί το SSE για τη συστάδα είναι ο μέσος όρος ci = 1/mi Σ x Ci x Δοθέντων δύο συστάδων, μπορούμε να επιλέξουμε αυτήν με το μικρότερο λάθος Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ

Άλλες διακρίσεις μεταξύ συνόλων συστάδων Επικαλυπτόμενο ή όχι Ένα σημείο ανήκει σε περισσότερες από μια συστάδες(πχ οριακά σημεία) Ασαφή συσταδοποίηση Στην ασαφή συσταδοποίηση ένα σημείο ανήκει σε κάθε συστάδα με κάποιο βάρος μεταξύ του 0 και του 1 Συχνά τα βάρη για κάθε σημείο έχουν άθροισμα 1 Η πιθανοτική συσταδοποίηση έχει παρόμοια χαρακτηριστικά Μερική - Πλήρης Σε ορισμένες περιπτώσεις θέλουμε να ομαδοποιήσουμε μόνο κάποια από τα δεδομένα (άλλα θόρυβος, ή μη ενδιαφέρουσα πληροφορία) Ετερογενή - Ομογενή Συστάδες με πολύ διαφορετικά μεγέθη, σχήματα και πυκνότητες (densities) Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι

Μετρήσεις Ποιότητας Συσταδοποίησης Οι μετρήσεις για την ποιότητα (το πόσο καλή) είναι μια συσταδοποίηση ανήκουν σε μία από τις παρακάτω τρεις κατηγορίες: Με επίβλεψη (supervised) - Εξωτερικό Ευρετήριο (External Index): Υπάρχει εξωτερική πληροφορία (πληροφορία εκτός των δεδομένων), πχ ετικέτες για τις συστάδες Μετράμε πόσο οι περιγραφές των συστάδων ταιριάζουν με τις ετικέτες των κλάσεων. – πχ Εντροπία Χωρίς επίβλεψη (unsupervised) Εσωτερικό Ευρετήριο (Internal Index): Εκτιμάμε το πόσο καλή είναι μια συσταδοποίηση χωρίς παροχή εξωτερικής πληροφορίας Συνεκτικότητα (cohesion) Διακριτότητα ή διαχωρισμός (separation) Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ