Ανακάλυψη Γνώσης (Knowledge Discovery) ΠΡΟ-ΕΠΕΞΕΡΓΑΣΙΑ Data Cleaning – Καθαρισμός Δεδομένων Data Integration – Ενοποίηση Δεδομένων Data Transformation – Μετασχηματισμοί Δεδομένων ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΑΝΑΠΑΡΑΣΤΑΣΗ Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΕΙΣΑΓΩΓΗ
Προ-επεξεργασία δεδομένων - Καθαρισμός Τα δεδομένα στο πραγματικό κόσμο είναι «βρώμικα» Ελλειπή - incomplete: μπορεί να λείπουν κάποιες τιμές γνωρισμάτων (να μην καταγράφηκαν, να καταγράφηκαν λανθασμένα λόγω μη συνεννόησης ή λανθασμένης λειτουργίας), να λείπουν κάποια ενδιαφέροντα γνωρίσματα (που να μην θεωρήθηκαν σημαντικά ή να μην ήταν διαθέσιμα), ή να περιέχουν μόνο συναθροιστικά (aggregate) δεδομένα Συμπλήρωση των γνωρισμάτων και τιμών που λείπουν Με θόρυβο - noisy: περιέχουν λάθη ή outliers (περιθωριακές τιμές - τιμές που διαφέρουν πολύ από την πλειοψηφία) Εύρεση των περιθωριακών τιμών και απομάκρυνση θορύβου Ασυνεπή - inconsistent: περιέχουν ασυνέπειες, διπλότιμα Διόρθωση ασυνεπών τιμών Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΕΙΣΑΓΩΓΗ
Προ-επεξεργασία δεδομένων Επιλογή Δεδομένων και Γνωρισμάτων και εφαρμογή κατάλληλων Μετασχηματισμών Συνάθροιση – Aggregation: συνδυασμούς δεδομένων από πολλές πηγές Sampling – δειγματοληψία: χρήση αντιπροσωπευτικού δείγματος των δεδομένων για βελτίωση της απόδοσης Dimensionality reduction – Κατάρα της διάστασης (curse of dimensionality) Πολλές τεχνικές για την ανάλυση δεδομένων γίνονται δυσκολότερες με την αύξηση της διάστασης των δεδομένων (αυξάνει εκθετικά η πολυπλοκότητα ή τα δεδομένα γίνονται πολύ αραιά) Τεχνικές της γραμμικής άλγεβρας (SVD, PCA) Απεικόνιση σε άλλο χώρο με μικρότερο αριθμό διαστάσεων Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΕΙΣΑΓΩΓΗ
Αποθήκες Δεδομένων Αποθήκη δεδομένων είναι μια συλλογή από ιστορικά δεδομένα που συλλέγονται τακτικά από διάφορες πηγές, ομογενοποιούνται και αποθηκεύονται με βάση ένα κοινό σχήμα (συνήθως) σε έναν κόμβο με στόχο την ανάλυσή τους για τη λήψη αποφάσεων. “A Data warehouse as being a subject-oriented, integrated, time-variant and nonvolatile collection of data that supports management's decision-making process” - William H. Inmon. ExtractTransformLoad (ETL) διαδικασίες – τα δεδομένα παίρνονται από τις βάσεις, μετασχηματίζονται και φορτώνονται στην αποθήκη Οι μετασχηματισμοί μπορεί να είναι επιλογές συγκεκριμένων πεδίων και τιμών, αλλαγή μονάδων μέτρησης, καθαρισμός, κλπ Περιοδική ενημέρωση της αποθήκης, δυνατότητες εκτέλεσης περίπλοκων και συνδυαστικών ερωτημάτων, δημιουργία εξειδικευμένων χώρων αποθήκευσης (Data Marts). Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΕΙΣΑΓΩΓΗ
Λήψη Αποφάσεων Data Exploration Increasing potential to support business decisions Τελικός Χρήστης Λήψη Αποφάσεων Παρουσίαση Δεδομένων Business Analyst Τεχνικές Οπτικοποίησης Εξόρυξη Δεδομένων Data Analyst Ανακάλυψη Πληροφορίας Data Exploration Στατιστικές περιλήψεις, Ερωτήσεις (OLAP) Προ-επεξεργασία&Ενοποίηση Δεδομένων, Αποθήκες DBA Διαχειριστής ΒΔ Πηγές Δεδομένων Χαρτιά, Αρχεία, Web έγγραφα, Επιστημονικά Πειράματα, Συστήματα Βάσεων Δεδομένων Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΕΙΣΑΓΩΓΗ
Είδη/Μέθοδοι για Ανάλυσης Δεδομένων Descriptive Analysis – Περιγραφική Ανάλυση Στόχος να βρεθούν κατανοητά πρότυπα που περιγράφουν τα δεδομένα και τις ιδιότητες τους χρησιμοποιώντας στατιστικές μεθόδους Explorative Analysis – Εξερευνητική Ανάλυση Στόχος η εύρεση κριμένων σχέσεων (patterns) και συσχετισμών (associations) ανάμεσα σε υποσύνολα δεδομένων και η μοντελοποίησης τους μέσω μηχανικής μάθησης (machine learning) Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΕΙΣΑΓΩΓΗ
Άλλες διακρίσεις μεταξύ συνόλων συστάδων Επικαλυπτόμενο ή όχι Ένα σημείο ανήκει σε περισσότερες από μια συστάδες(πχ οριακά σημεία) Ασαφή συσταδοποίηση Στην ασαφή συσταδοποίηση ένα σημείο ανήκει σε κάθε συστάδα με κάποιο βάρος μεταξύ του 0 και του 1 Συχνά τα βάρη για κάθε σημείο έχουν άθροισμα 1 Η πιθανοτική συσταδοποίηση έχει παρόμοια χαρακτηριστικά Μερική - Πλήρης Σε ορισμένες περιπτώσεις θέλουμε να ομαδοποιήσουμε μόνο κάποια από τα δεδομένα (άλλα θόρυβος, ή μη ενδιαφέρουσα πληροφορία) Ετερογενή - Ομογενή Συστάδες με πολύ διαφορετικά μεγέθη, σχήματα και πυκνότητες (densities) Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
Είδη Γνωρισμάτων Ποιοτικά ή Κατηγορικά Ποσοτικά ή Αριθμητικά Τύπος Δεδομένου Περιγραφή Παραδείγματα Nominal Ονομαστικά Οι τιμές είναι απλώς διαφορετικά ονόματα (αναγνωριστικά) με αρκετή πληροφορία ώστε να γίνει διάκριση ανάμεσα τους (=, ) (και οι δυαδικές μεταβλητές 0 – 1 ) ταχυδρομικός κωδικός, αριθμός ταυτότητας, χρώμα ματιών, φύλο Διάταξη - Ordinal Οι τιμές περιέχουν πληροφορία διάταξης (<, >) Ποιότητα υλικού (καλή, πιο καλή, άριστη), βαθμοί: {καλών, λίαν καλώς, άριστα}, αριθμοί στις διευθύνσεις Διαστήματος - Interval Έχει σημασία η διαφορά μεταξύ δύο τιμών, υπάρχει μονάδα μέτρησης (+, - ) Θερμοκρασία σε Celsius ή Fahrenheit Ratio Έχει σημασία και ο λόγος μεταξύ δύο τιμών (*, /) Νομισματικές ποσότητες, ηλικία, θερμοκρασία σε Kelvin, ηλικία, μήκος Ποιοτικά ή Κατηγορικά Ποσοτικά ή Αριθμητικά Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
Είδη Γνωρισμάτων Μετασχηματισμοί Παράδειγμα Nominal Ordinal Interval Οποιοσδήποτε ένα-προς-ένα απεικόνιση (πχ permutation) Πχ δεν έχει διαφορά αν ξαναδώσουμε από την αρχή αριθμούς ταυτότητας ή διαβατηρίου Ordinal Αλλαγή τιμών που να διατηρεί την διάταξη πχ νέα_τιμή = f(παλιά_τιμή) όπου f μονότονη συνάρτηση. Ένα γνώρισμα για διαβάθμιση μπορεί να είναι {C, B, A} ή {1, 2, 3} ή { 0.5, 1, 10}. Interval νέα_τιμή =a * παλιά_τιμή + b όπου a και b σταθερές Εξαρτάται από που είναι τι μηδέν και το μέγεθος της μονάδας (πχ μεταξύ Fahrenheit και Celsius) Ratio νέα_τιμή = a * παλιά_τιμή, όπου a σταθερά Μήκος σε μέτρα ή πόδια Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
Ορισμός Απόστασης Πίνακας Δεδομένων Πίνακας Απόστασης Παράδειγμα Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
Ορισμός Απόστασης Παράδειγμα Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
Είδη συσταδοποίησης Μια συσταδοποίηση είναι ένα σύνολο από συστάδες Βασική διάκριση ανάμεσα στο ιεραρχικό (hierarchical) και διαχωριστικό (partitional) σύνολο από ομάδες Διαχωριστική Συσταδοποίηση (Partitional Clustering) Ένας διαμερισμός των αντικειμένων σε μη επικαλυπτόμενα - non-overlapping - υποσύνολα (συστάδες) τέτοιος ώστε κάθε αντικείμενο ανήκει σε ακριβώς ένα υποσύνολο Ιεραρχική Συσταδοποίηση (Hierarchical clustering Ένα σύνολο από εμφωλευμένες (nested) ομάδες Επιτρέπουμε σε μια συστάδα να έχει υποσυστάδες οργανωμένες σε ένα ιεραρχικό δέντρο Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
Διαχωριστική και Ιεραρχική Συσταδοποίηση Αρχικά Σημεία Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
Άλλες διακρίσεις μεταξύ συνόλων συστάδων Επικαλυπτόμενο ή όχι Ένα σημείο ανήκει σε περισσότερες από μια συστάδες (πχ οριακά σημεία) Ασαφή συσταδοποίηση Στην ασαφή συσταδοποίηση ένα σημείο ανήκει σε κάθε συστάδα με κάποιο βάρος μεταξύ του 0 και του 1 Συχνά τα βάρη για κάθε σημείο έχουν άθροισμα 1 Η πιθανοτική συσταδοποίηση έχει παρόμοια χαρακτηριστικά Μερική - Πλήρης Σε ορισμένες περιπτώσεις θέλουμε να ομαδοποιήσουμε μόνο κάποια από τα δεδομένα (άλλα θόρυβος, ή μη ενδιαφέρουσα πληροφορία) Ετερογενή - Ομογενή Συστάδες με πολύ διαφορετικά μεγέθη, σχήματα και πυκνότητες (densities) Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ
K-means: Εκτίμηση ποιότητας Ουσιαστικά, ο αλγόριθμος προσπαθεί επαναληπτικά να «μειώσει» την απόσταση από ένα σημείο της συστάδας Η πιο συνηθισμένη μέτρηση είναι το άθροισμα των τετράγωνων του λάθους (Sum of Squared Error (SSE)) Για κάθε σημείο, το λάθος είναι η απόστασή του από την κοντινότερη συστάδα Για να πάρουμε το SSE, παίρνουμε το τετράγωνο αυτών των λαθών και τα προσθέτουμε Όπου dist Ευκλείδεια απόσταση, x είναι ένα σημείο στη συστάδα Ci και mi είναι ο αντιπρόσωπος (κεντρικό σημείο) της συστάδας Ci Μπορούμε να δείξουμε ότι το σημείο που ελαχιστοποιεί το SSE για τη συστάδα είναι ο μέσος όρος ci = 1/mi Σ x Ci x Δοθέντων δύο συστάδων, μπορούμε να επιλέξουμε αυτήν με το μικρότερο λάθος Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ
K-means: Εκτίμηση ποιότητας Ουσιαστικά, ο αλγόριθμος προσπαθεί επαναληπτικά να «μειώσει» την απόσταση από ένα σημείο της συστάδας Η πιο συνηθισμένη μέτρηση είναι το άθροισμα των τετράγωνων του λάθους (Sum of Squared Error (SSE)) Για κάθε σημείο, το λάθος είναι η απόστασή του από την κοντινότερη συστάδα Για να πάρουμε το SSE, παίρνουμε το τετράγωνο αυτών των λαθών και τα προσθέτουμε Όπου dist Ευκλείδεια απόσταση, x είναι ένα σημείο στη συστάδα Ci και mi είναι ο αντιπρόσωπος (κεντρικό σημείο) της συστάδας Ci Μπορούμε να δείξουμε ότι το σημείο που ελαχιστοποιεί το SSE για τη συστάδα είναι ο μέσος όρος ci = 1/mi Σ x Ci x Δοθέντων δύο συστάδων, μπορούμε να επιλέξουμε αυτήν με το μικρότερο λάθος Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ
Άλλες διακρίσεις μεταξύ συνόλων συστάδων Επικαλυπτόμενο ή όχι Ένα σημείο ανήκει σε περισσότερες από μια συστάδες(πχ οριακά σημεία) Ασαφή συσταδοποίηση Στην ασαφή συσταδοποίηση ένα σημείο ανήκει σε κάθε συστάδα με κάποιο βάρος μεταξύ του 0 και του 1 Συχνά τα βάρη για κάθε σημείο έχουν άθροισμα 1 Η πιθανοτική συσταδοποίηση έχει παρόμοια χαρακτηριστικά Μερική - Πλήρης Σε ορισμένες περιπτώσεις θέλουμε να ομαδοποιήσουμε μόνο κάποια από τα δεδομένα (άλλα θόρυβος, ή μη ενδιαφέρουσα πληροφορία) Ετερογενή - Ομογενή Συστάδες με πολύ διαφορετικά μεγέθη, σχήματα και πυκνότητες (densities) Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
Μετρήσεις Ποιότητας Συσταδοποίησης Οι μετρήσεις για την ποιότητα (το πόσο καλή) είναι μια συσταδοποίηση ανήκουν σε μία από τις παρακάτω τρεις κατηγορίες: Με επίβλεψη (supervised) - Εξωτερικό Ευρετήριο (External Index): Υπάρχει εξωτερική πληροφορία (πληροφορία εκτός των δεδομένων), πχ ετικέτες για τις συστάδες Μετράμε πόσο οι περιγραφές των συστάδων ταιριάζουν με τις ετικέτες των κλάσεων. – πχ Εντροπία Χωρίς επίβλεψη (unsupervised) Εσωτερικό Ευρετήριο (Internal Index): Εκτιμάμε το πόσο καλή είναι μια συσταδοποίηση χωρίς παροχή εξωτερικής πληροφορίας Συνεκτικότητα (cohesion) Διακριτότητα ή διαχωρισμός (separation) Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018 ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ