Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
1
Ανακάλυψη Γνώσης (Knowledge Discovery)
ΠΡΟ-ΕΠΕΞΕΡΓΑΣΙΑ Data Cleaning – Καθαρισμός Δεδομένων Data Integration – Ενοποίηση Δεδομένων Data Transformation – Μετασχηματισμοί Δεδομένων ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ ΑΝΑΠΑΡΑΣΤΑΣΗ Εξόρυξη Δεδομένων: Ακ. Έτος ΕΙΣΑΓΩΓΗ
2
Προ-επεξεργασία δεδομένων - Καθαρισμός
Τα δεδομένα στο πραγματικό κόσμο είναι «βρώμικα» Ελλειπή - incomplete: μπορεί να λείπουν κάποιες τιμές γνωρισμάτων (να μην καταγράφηκαν, να καταγράφηκαν λανθασμένα λόγω μη συνεννόησης ή λανθασμένης λειτουργίας), να λείπουν κάποια ενδιαφέροντα γνωρίσματα (που να μην θεωρήθηκαν σημαντικά ή να μην ήταν διαθέσιμα), ή να περιέχουν μόνο συναθροιστικά (aggregate) δεδομένα Συμπλήρωση των γνωρισμάτων και τιμών που λείπουν Με θόρυβο - noisy: περιέχουν λάθη ή outliers (περιθωριακές τιμές - τιμές που διαφέρουν πολύ από την πλειοψηφία) Εύρεση των περιθωριακών τιμών και απομάκρυνση θορύβου Ασυνεπή - inconsistent: περιέχουν ασυνέπειες, διπλότιμα Διόρθωση ασυνεπών τιμών Εξόρυξη Δεδομένων: Ακ. Έτος ΕΙΣΑΓΩΓΗ
3
Προ-επεξεργασία δεδομένων
Επιλογή Δεδομένων και Γνωρισμάτων και εφαρμογή κατάλληλων Μετασχηματισμών Συνάθροιση – Aggregation: συνδυασμούς δεδομένων από πολλές πηγές Sampling – δειγματοληψία: χρήση αντιπροσωπευτικού δείγματος των δεδομένων για βελτίωση της απόδοσης Dimensionality reduction – Κατάρα της διάστασης (curse of dimensionality) Πολλές τεχνικές για την ανάλυση δεδομένων γίνονται δυσκολότερες με την αύξηση της διάστασης των δεδομένων (αυξάνει εκθετικά η πολυπλοκότητα ή τα δεδομένα γίνονται πολύ αραιά) Τεχνικές της γραμμικής άλγεβρας (SVD, PCA) Απεικόνιση σε άλλο χώρο με μικρότερο αριθμό διαστάσεων Εξόρυξη Δεδομένων: Ακ. Έτος ΕΙΣΑΓΩΓΗ
4
Αποθήκες Δεδομένων Αποθήκη δεδομένων είναι μια συλλογή από ιστορικά δεδομένα που συλλέγονται τακτικά από διάφορες πηγές, ομογενοποιούνται και αποθηκεύονται με βάση ένα κοινό σχήμα (συνήθως) σε έναν κόμβο με στόχο την ανάλυσή τους για τη λήψη αποφάσεων. “A Data warehouse as being a subject-oriented, integrated, time-variant and nonvolatile collection of data that supports management's decision-making process” - William H. Inmon. ExtractTransformLoad (ETL) διαδικασίες – τα δεδομένα παίρνονται από τις βάσεις, μετασχηματίζονται και φορτώνονται στην αποθήκη Οι μετασχηματισμοί μπορεί να είναι επιλογές συγκεκριμένων πεδίων και τιμών, αλλαγή μονάδων μέτρησης, καθαρισμός, κλπ Περιοδική ενημέρωση της αποθήκης, δυνατότητες εκτέλεσης περίπλοκων και συνδυαστικών ερωτημάτων, δημιουργία εξειδικευμένων χώρων αποθήκευσης (Data Marts). Εξόρυξη Δεδομένων: Ακ. Έτος ΕΙΣΑΓΩΓΗ
5
Λήψη Αποφάσεων Data Exploration
Increasing potential to support business decisions Τελικός Χρήστης Λήψη Αποφάσεων Παρουσίαση Δεδομένων Business Analyst Τεχνικές Οπτικοποίησης Εξόρυξη Δεδομένων Data Analyst Ανακάλυψη Πληροφορίας Data Exploration Στατιστικές περιλήψεις, Ερωτήσεις (OLAP) Προ-επεξεργασία&Ενοποίηση Δεδομένων, Αποθήκες DBA Διαχειριστής ΒΔ Πηγές Δεδομένων Χαρτιά, Αρχεία, Web έγγραφα, Επιστημονικά Πειράματα, Συστήματα Βάσεων Δεδομένων Εξόρυξη Δεδομένων: Ακ. Έτος ΕΙΣΑΓΩΓΗ
6
Είδη/Μέθοδοι για Ανάλυσης Δεδομένων
Descriptive Analysis – Περιγραφική Ανάλυση Στόχος να βρεθούν κατανοητά πρότυπα που περιγράφουν τα δεδομένα και τις ιδιότητες τους χρησιμοποιώντας στατιστικές μεθόδους Explorative Analysis – Εξερευνητική Ανάλυση Στόχος η εύρεση κριμένων σχέσεων (patterns) και συσχετισμών (associations) ανάμεσα σε υποσύνολα δεδομένων και η μοντελοποίησης τους μέσω μηχανικής μάθησης (machine learning) Εξόρυξη Δεδομένων: Ακ. Έτος ΕΙΣΑΓΩΓΗ
7
Άλλες διακρίσεις μεταξύ συνόλων συστάδων
Επικαλυπτόμενο ή όχι Ένα σημείο ανήκει σε περισσότερες από μια συστάδες(πχ οριακά σημεία) Ασαφή συσταδοποίηση Στην ασαφή συσταδοποίηση ένα σημείο ανήκει σε κάθε συστάδα με κάποιο βάρος μεταξύ του 0 και του 1 Συχνά τα βάρη για κάθε σημείο έχουν άθροισμα 1 Η πιθανοτική συσταδοποίηση έχει παρόμοια χαρακτηριστικά Μερική - Πλήρης Σε ορισμένες περιπτώσεις θέλουμε να ομαδοποιήσουμε μόνο κάποια από τα δεδομένα (άλλα θόρυβος, ή μη ενδιαφέρουσα πληροφορία) Ετερογενή - Ομογενή Συστάδες με πολύ διαφορετικά μεγέθη, σχήματα και πυκνότητες (densities) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
8
Είδη Γνωρισμάτων Ποιοτικά ή Κατηγορικά Ποσοτικά ή Αριθμητικά
Τύπος Δεδομένου Περιγραφή Παραδείγματα Nominal Ονομαστικά Οι τιμές είναι απλώς διαφορετικά ονόματα (αναγνωριστικά) με αρκετή πληροφορία ώστε να γίνει διάκριση ανάμεσα τους (=, ) (και οι δυαδικές μεταβλητές 0 – 1 ) ταχυδρομικός κωδικός, αριθμός ταυτότητας, χρώμα ματιών, φύλο Διάταξη - Ordinal Οι τιμές περιέχουν πληροφορία διάταξης (<, >) Ποιότητα υλικού (καλή, πιο καλή, άριστη), βαθμοί: {καλών, λίαν καλώς, άριστα}, αριθμοί στις διευθύνσεις Διαστήματος - Interval Έχει σημασία η διαφορά μεταξύ δύο τιμών, υπάρχει μονάδα μέτρησης (+, - ) Θερμοκρασία σε Celsius ή Fahrenheit Ratio Έχει σημασία και ο λόγος μεταξύ δύο τιμών (*, /) Νομισματικές ποσότητες, ηλικία, θερμοκρασία σε Kelvin, ηλικία, μήκος Ποιοτικά ή Κατηγορικά Ποσοτικά ή Αριθμητικά Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
9
Είδη Γνωρισμάτων Μετασχηματισμοί Παράδειγμα Nominal Ordinal Interval
Οποιοσδήποτε ένα-προς-ένα απεικόνιση (πχ permutation) Πχ δεν έχει διαφορά αν ξαναδώσουμε από την αρχή αριθμούς ταυτότητας ή διαβατηρίου Ordinal Αλλαγή τιμών που να διατηρεί την διάταξη πχ νέα_τιμή = f(παλιά_τιμή) όπου f μονότονη συνάρτηση. Ένα γνώρισμα για διαβάθμιση μπορεί να είναι {C, B, A} ή {1, 2, 3} ή { 0.5, 1, 10}. Interval νέα_τιμή =a * παλιά_τιμή + b όπου a και b σταθερές Εξαρτάται από που είναι τι μηδέν και το μέγεθος της μονάδας (πχ μεταξύ Fahrenheit και Celsius) Ratio νέα_τιμή = a * παλιά_τιμή, όπου a σταθερά Μήκος σε μέτρα ή πόδια Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
10
Ορισμός Απόστασης Πίνακας Δεδομένων Πίνακας Απόστασης Παράδειγμα
Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
11
Ορισμός Απόστασης Παράδειγμα Εξόρυξη Δεδομένων: Ακ. Έτος 2017-2018
ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
12
Είδη συσταδοποίησης Μια συσταδοποίηση είναι ένα σύνολο από συστάδες
Βασική διάκριση ανάμεσα στο ιεραρχικό (hierarchical) και διαχωριστικό (partitional) σύνολο από ομάδες Διαχωριστική Συσταδοποίηση (Partitional Clustering) Ένας διαμερισμός των αντικειμένων σε μη επικαλυπτόμενα - non-overlapping - υποσύνολα (συστάδες) τέτοιος ώστε κάθε αντικείμενο ανήκει σε ακριβώς ένα υποσύνολο Ιεραρχική Συσταδοποίηση (Hierarchical clustering Ένα σύνολο από εμφωλευμένες (nested) ομάδες Επιτρέπουμε σε μια συστάδα να έχει υποσυστάδες οργανωμένες σε ένα ιεραρχικό δέντρο Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
13
Διαχωριστική και Ιεραρχική Συσταδοποίηση
Αρχικά Σημεία Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
14
Άλλες διακρίσεις μεταξύ συνόλων συστάδων
Επικαλυπτόμενο ή όχι Ένα σημείο ανήκει σε περισσότερες από μια συστάδες (πχ οριακά σημεία) Ασαφή συσταδοποίηση Στην ασαφή συσταδοποίηση ένα σημείο ανήκει σε κάθε συστάδα με κάποιο βάρος μεταξύ του 0 και του 1 Συχνά τα βάρη για κάθε σημείο έχουν άθροισμα 1 Η πιθανοτική συσταδοποίηση έχει παρόμοια χαρακτηριστικά Μερική - Πλήρης Σε ορισμένες περιπτώσεις θέλουμε να ομαδοποιήσουμε μόνο κάποια από τα δεδομένα (άλλα θόρυβος, ή μη ενδιαφέρουσα πληροφορία) Ετερογενή - Ομογενή Συστάδες με πολύ διαφορετικά μεγέθη, σχήματα και πυκνότητες (densities) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ
15
K-means: Εκτίμηση ποιότητας
Ουσιαστικά, ο αλγόριθμος προσπαθεί επαναληπτικά να «μειώσει» την απόσταση από ένα σημείο της συστάδας Η πιο συνηθισμένη μέτρηση είναι το άθροισμα των τετράγωνων του λάθους (Sum of Squared Error (SSE)) Για κάθε σημείο, το λάθος είναι η απόστασή του από την κοντινότερη συστάδα Για να πάρουμε το SSE, παίρνουμε το τετράγωνο αυτών των λαθών και τα προσθέτουμε Όπου dist Ευκλείδεια απόσταση, x είναι ένα σημείο στη συστάδα Ci και mi είναι ο αντιπρόσωπος (κεντρικό σημείο) της συστάδας Ci Μπορούμε να δείξουμε ότι το σημείο που ελαχιστοποιεί το SSE για τη συστάδα είναι ο μέσος όρος ci = 1/mi Σ x Ci x Δοθέντων δύο συστάδων, μπορούμε να επιλέξουμε αυτήν με το μικρότερο λάθος Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ
16
K-means: Εκτίμηση ποιότητας
Ουσιαστικά, ο αλγόριθμος προσπαθεί επαναληπτικά να «μειώσει» την απόσταση από ένα σημείο της συστάδας Η πιο συνηθισμένη μέτρηση είναι το άθροισμα των τετράγωνων του λάθους (Sum of Squared Error (SSE)) Για κάθε σημείο, το λάθος είναι η απόστασή του από την κοντινότερη συστάδα Για να πάρουμε το SSE, παίρνουμε το τετράγωνο αυτών των λαθών και τα προσθέτουμε Όπου dist Ευκλείδεια απόσταση, x είναι ένα σημείο στη συστάδα Ci και mi είναι ο αντιπρόσωπος (κεντρικό σημείο) της συστάδας Ci Μπορούμε να δείξουμε ότι το σημείο που ελαχιστοποιεί το SSE για τη συστάδα είναι ο μέσος όρος ci = 1/mi Σ x Ci x Δοθέντων δύο συστάδων, μπορούμε να επιλέξουμε αυτήν με το μικρότερο λάθος Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ ΙΙ
17
Άλλες διακρίσεις μεταξύ συνόλων συστάδων
Επικαλυπτόμενο ή όχι Ένα σημείο ανήκει σε περισσότερες από μια συστάδες(πχ οριακά σημεία) Ασαφή συσταδοποίηση Στην ασαφή συσταδοποίηση ένα σημείο ανήκει σε κάθε συστάδα με κάποιο βάρος μεταξύ του 0 και του 1 Συχνά τα βάρη για κάθε σημείο έχουν άθροισμα 1 Η πιθανοτική συσταδοποίηση έχει παρόμοια χαρακτηριστικά Μερική - Πλήρης Σε ορισμένες περιπτώσεις θέλουμε να ομαδοποιήσουμε μόνο κάποια από τα δεδομένα (άλλα θόρυβος, ή μη ενδιαφέρουσα πληροφορία) Ετερογενή - Ομογενή Συστάδες με πολύ διαφορετικά μεγέθη, σχήματα και πυκνότητες (densities) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ Ι
18
Μετρήσεις Ποιότητας Συσταδοποίησης
Οι μετρήσεις για την ποιότητα (το πόσο καλή) είναι μια συσταδοποίηση ανήκουν σε μία από τις παρακάτω τρεις κατηγορίες: Με επίβλεψη (supervised) - Εξωτερικό Ευρετήριο (External Index): Υπάρχει εξωτερική πληροφορία (πληροφορία εκτός των δεδομένων), πχ ετικέτες για τις συστάδες Μετράμε πόσο οι περιγραφές των συστάδων ταιριάζουν με τις ετικέτες των κλάσεων. – πχ Εντροπία Χωρίς επίβλεψη (unsupervised) Εσωτερικό Ευρετήριο (Internal Index): Εκτιμάμε το πόσο καλή είναι μια συσταδοποίηση χωρίς παροχή εξωτερικής πληροφορίας Συνεκτικότητα (cohesion) Διακριτότητα ή διαχωρισμός (separation) Εξόρυξη Δεδομένων: Ακ. Έτος ΣΥΣΤΑΔΟΠΟΙΗΣΗ IΙΙ
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.