Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Bάσικες Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ (Ιστοσελίδα:

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Bάσικες Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ (Ιστοσελίδα:"— Μεταγράφημα παρουσίασης:

1 Bάσικες Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ (Ιστοσελίδα:

2 Κίνητρο – Γιατί χρειάζεται η εξόρυξη δεδομένων;  Έχουμε πολλά δεδομένα αλλά μικρή πληροφορία!  Πρόβλημα έκρηξης δεδομένων –Τα εργαλεία αυτοματοποιημένης συλλογής δεδομένων και η τελευταία τεχνολογία βάσεων δεδομένων οδηγεί σε ένα μεγάλο πλήθος δεδομένων το οποίο αποθηκεύεται σε βάσεις δεδομένων, data warehouses και άλλες αποθήκες δεδομένων  Λύση: Εξόρυξη δεδομένων –Εξόρυξη ενδιαφέρουσας γνώσης (κανόνες, πρότυπα, περιορισμοί) από δεδομένα μεγάλων βάσεων δεδομένων

3 Εξέλιξη της τεχνολογίας βάσεων δεδομένων  1960: –Συλλογή δεδομένων, δημιουργία βάσης δεδομένων, συστήματα διαχείρισης πληροφορίας (IMS) και δικτυακές βάσεις δεδομένων (network DBMS)  1970: –Σχεσιακό μοντέλο δεδομένων, υλοποίηση σχεσιακού ΣΔΒΔ  1980: –RDBMS, προηγμένα μοντέλα δεδομένων (extended-relational, OO, deductive,κτλ.) και συστήματα προσανατολισμένα στην εφαρμογή (spatial, scientific, engineering, κτλ.)  1990—2010: –Εξόρυξη δεδομένων και αποθηκών δεδομένων (Data mining, data warehousing), βάσεις δεδομένων πολυμέσων, βάσεις δεδομένων στο Παγκόσμιο Ιστό (Web databases)

4 Ανακάλυψη Γνώσης- Εξόρυξη δεδομένων ή γνώσης Τι είναι ανακάλυψη γνώσης από βάσεις δεδομένων (knowledge discovery from databases-KDD): – Αποκάλυψη ή παραγωγή λειτουργικής γνώσης, μέσω της ανάλυσης δεδομένων από μεγάλες αποθήκες δεδομένων. – Εύρεση δομών γνώσης που αναδεικνύουν γνώση (π.χ. συσχετίσεις ή κανόνες) που είναι κρυμμένη μέσα στα δεδομένα και δεν μπορούν να εξαχθούν από τον άνθρωπο με ευκολία. – Αναφέρεται στην όλη διαδικασία. Τι είναι εξόρυξη δεδομένων (data mining) και εξόρυξη γνώσης (knowledge mining): – Τα ίδια με παραπάνω. – Αναφέρεται στις επί μέρους τεχνικές.

5 Ανακάλυψη γνώσης από δεδομένα(1) Ορισμός «KDD είναι η ντετερμινιστική διαδικασία αναγνώρισης έγκυρων, καινοτόμων, ενδεχομένως χρήσιμων και εν τέλει κατανοητών προτύπων στα δεδομένα.» (Frawley, Piatesky- Shaphiro and Matheus, 1991). Δεδομένα: Οντότητες ή συσχετίσεις του πραγματικού κόσμου (π.χ. εγγραφές συναλλαγών τραπέζης, supermarket κλπ). Πρότυπο: Μια έκφραση σε μια γλώσσα που χαρακτηρίζει ένα υποσύνολο των δεδομένων (π.χ. ένας κανόνας). Εγκυρότητα: Το πρότυπο είναι συνεπές σε νέα δεδομένα. Πιθανή χρησιμότητα: Να μπορεί να χρησιμοποιηθεί για κάποιο σκοπό (π.χ. λήψη αποφάσεων). Τελικά κατανοητό: Κοινώς κατανοητό, ώστε να είναι κοινώς χρήσιμο.

6 Τι είναι η εξόρυξη δεδομένων;  Εξόρυξη δεδομένων/Data mining (Ανακάλυψη γνώσης από βάσεις δεδομένων): –Εξαγωγή ενδιαφέρουσας (μη τετριμμένης, προηγούμενα άγνωστης και πιθανά χρήσιμης) πληροφορίας ή προτύπων από δεδομένα σε μεγάλες βάσεις δεδομένων  Εναλλακτικά ονόματα: –Εξόρυξη (Ανακάλυψη) γνώσης σε βάσεις δεδομένων (KDD), εξαγωγή γνώσης (knowledge extraction), ανάλυση δεδομένων/προτύπων(data/pattern analysis) κτλ.  Τι δεν είναι η εξόρυξη δεδομένων; –(Deductive) Επεξεργασία ερωτημάτων – Έμπειρα συστήματα ή μικρής κλίμακας στατιστικά προγράμματα

7 Τι είναι η εξόρυξη δεδομένων? Τώρα που έχουμε συλλέξει τόσα δεδομένα, τι κάνουμε με αυτά; Εξαγωγή χρήσιμων προτύπων (αυτόματα) Συσχετίσεις (π.χ., ψωμί + βούτυρο --> γάλα) Ακολουθίες (π.χ., χρονικά δεδομένα που σχετίζονται με το χρηματιστήριο) Κανόνες που διαμοιράζουν τα δεδομένα (π.χ. πρόβλημα τοποθεσίας αποθήκευσης) Ποια πρότυπα έχουν “ενδιαφέρον”; Περιεχόμενο πληροφορίας, εμπιστοσύνη και υποστήριξη, απρόσμενο (χρησιμότητα στην λήψη απόφασης))

8 Γιατί εξόρυξη δεδομένων; — Πιθανές εφαρμογές  Ανάλυση βάσης δεδομένων και υποστήριξη απόφασης –Ανάλυση και διαχείριση αγοράς Μάρκετινγκ στόχου, διαχείριση σε σχέση με τον πελάτη, ανάλυση καλαθιού αγορών, cross selling, τμηματοποίηση αγοράς –Ανάλυση και διαχείριση κινδύνου/ρίσκου Πρόβλεψη, έλεγχος ποιότητας, ανάλυση ανταγωνισμού –Εντοπισμός οικονομικού εγκλήματος  Άλλες εφαρμογές –Εξόρυξη κειμένου (newsgroup, , documents) και ανάλυση Ιστού. –Εξόρυξη χωρικών δεδομένων –Έξυπνη απάντηση ερωτήματος

9 Ανάλυση και διαχείριση αγοράς  Ποιές είναι οι πηγές των δεδομένων για την ανάλυση; (Δοσοληψίες με κάρτες, εκπτωτικά κουπόνια, κλήσεις παραπόνων από πελάτες, κλπ.)  Μάρκετινγκ στόχου (Εύρεση ομάδων “μοντέλων” πελατών που έχουν κοινά χαρακτηριστικά: εισόδημα, συνήθης αγορές, κλπ.)  Καθορισμός προτύπων συναλλαγών των πελατών με το χρόνο (Μετατροπή ενός λογαριασμού μονού ατόμου σε κοινό, γενικά αλλαγές στοιχείων λογαριασμού.)  «Cross-market» ανάλυση (Συσχετίσεις μεταξύ προϊόντων πωλήσεων και προβλέψεις με βάσει τις πωλήσεις)  Προφίλ πελάτη (Ποια προϊόντα αγοράζει ο πελάτης)  Προσδιορισμός απαιτήσεων πελάτη (Τα καλύτερα προϊόντα για διαφορετικούς πελάτες)  Παροχή συνοπτικής πληροφορίας (πολυδιάστατες αναφορές – multidimensional summary reports)

10 Ανάλυση και διαχείριση κινδύνου/ρίσκου  Οικονομικός προγραμματισμός –Ανάλυση και πρόβλεψη κίνησης μετρητών –Ανάλυση χρονοσειρών και cross-sectional (ανάλυση τάσης (trend analysis), κλπ.)  Προγραμματισμός πηγών: –Σύνοψη και σύγκριση των πηγών και των εξόδων  Ανταγωνισμός: –Έλεγχος ανταγωνιστών και τάσεων της αγοράς –Ομαδοποίηση πελατών και απόδοση τιμών με βάσει τις ομάδες αυτές –Ορισμός στρατηγικής απόδοσης τιμών σε μία ιδιαίτερα ανταγωνιστική αγορά

11 Εντοπισμός και διαχείριση οικονομικού εγκλήματος/aπάτης  Εφαρμογές –Yγεία, υπηρεσίες πιστωτικών καρτών, τηλεπικοινωνίες κτλ.  Προσέγγιση –Χρήση ιστορικών στοιχείων για την δόμηση μοντέλων κανονικής και λανθασμένης συμπεριφοράς και χρήση τεχνικών εξόρυξης δεδομένων για τον προσδιορισμό λανθασμένων στιγμιοτύπων  Παραδείγματα –Ασφάλεια αυτοκινήτων: εντοπισμός ομάδων που προκαλούν ατυχήματα για την είσπραξη της ασφάλειας –Ξέπλυμα χρήματος: εντοπισμός ύποπτων δοσοληψιών χρημάτων –Ιατρική ασφάλεια: εντοπισμός επαγγελματιών ασθενών, ακατάλληλων ιατρικών θεραπειών –Εντοπισμός τηλεφωνικού σφάλματος: Μοντέλο τηλεφωνικής κλήσης: προορισμός κλήσης, διάρκεια, χρονική στιγμή ημέρας/εβδομάδας. Ανάλυση προτύπων που αποκλίνουν από τα αναμενόμενα

12 Ανακάλυψη Ιατρικής/ Βιολογικής Γνώσης  Ανακάλυψη συσχετίσεων δομής-λειτουργίας –Χαρτογράφηση ανθρώπινου εγκεφάλου (lesion-deficit, task-activation associations) –Δομή κυττάρου (cytoskeleton) και λειτουργικότητα ή παθολογία –Δομή και λειτουργικότητα πρωτεϊνών  Ανακάλυψη αιτιακών σχέσεων (causal relationships) –Συμπτώματα και κλινικές καταστάσεις ασθενών  Ανάλυση ακολουθίας DNA –Βιοπληροφορική (microarrays, κτλ.)

13 Άλλες εφαρμογές  Αθλήματα –IBM Advanced Scout ανέλυσαν στατιστικά παιχνιδιών του NBA (shots blocked, assists, and fouls) για να κερδίσουν ανταγωνιστικό πλεονέκτημα για New York Knicks και Miami Heat  Αστρονομία –Τα JPL και Palomar Observatory ανακάλυψαν 22 quasars με την βοήθεια της εξόρυξης δεδομένων  Internet Web Surf-Aid –IBM Surf-Aid χρησιμοποίησε data mining αλγορίθμους σε Web access logs για ιστοσελίδες αγοράς προιόντων για να ανακαλύψουν προτιμήσεις και συμπεριφορές πελατών, αναλύοντας την αποτελεσματικότητα του Web marketing, βελτιώνοντας Web site organization, κλπ.

14 Ανακάλυψη γνώσης από δεδομένα –Εξόρυξη δεδομένων: η κεντρική διαδικασία στην ανακάλυψη γνώσης. Επεξεργασία & Μετασχηματισμός Βάσεις δεδομένων Αποθήκη δεδομένων Επεξεργασμένα δεδομένα Επιλογή Εξόρυξη δεδομένων Αξιολόγηση προτύπων Γνώση Πρότυπα Αρχεία Επιλεγμένα δεδομένα Ενοποίηση δεδομένων

15 Εξόρυξη γνώσης Δεδομένα εκπαίδευσης Δεδομένα λειτουργίας Σύστημα βασισμένο στη γνώση Γνώση Αποτελέσματα λειτουργίας

16

17 Βασικά Βήματα Διαδικασίας Ανακάλυψης Γνώσης  Επιλογή (Selection): Απόκτηση δεδομένων από διάφορες ετερογενείς πηγές.  Προεπεξεργασία (Preprocessing): Εσφαλμένα, προβληματικά ή ελλείποντα δεδομένα τακτοποιούνται (μπορεί να απαιτήσει το 60% της προσπάθειας!)  Μετασχηματισμός (Transformation): Μετατροπή ετερογενών δεδομένων σε κοινή τυποποίηση για επεξεργασία.  Εξόρυξη δεδομένων (Data mining): Εφαρμογή αλγορίθμων για παραγωγή μοντέλου.  Διερμηνεία/Αξιολόγηση (Interpretation/Evaluation): Παρουσίαση των αποτελεσμάτων της εξόρυξης δεδομένων στους χρήστες για αξιολόγηση (χρήση μεθόδων οπτικοποίησης και GUI).

18 Εξαγωγή Features Τα features διακρίνονται σε: –Quantitative features: continuous values (π.χ. βάρος), discrete values (π.χ. ο αριθμός των υπολογιστών), interval values (π.χ. η διάρκεια ενός γεγονότος). –Qualitative features: Ονομαστικά (nominal) or unordered (π.χ. χρώμα), Ordinal (π.χ. στρατιωτική διάκριση ή ποιοτική αξιολόγηση της θερμοκρασίας (“ζεστό” or “κρύο”) ή της έντασης του ήχου (“ήσυχα” or “δυνατά”)). –Structured features: (trees, symbolic objects)

19 Αλγόριθμοι Εξόρυξης Δεδομένων Συνθετικά μέρη: Περιγραφή μοντέλου –Τύπος ή στόχος μοντέλου (π.χ. ταξινόμηση, συσταδοποίηση) –Μορφή μοντέλου (π.χ. δέντρα, κανόνες, νευρωνικά δίκτυα) Κριτήρια αξιολόγησης μοντέλου (εγκυρότητα, ακρίβεια κλπ) Τεχνική αναζήτησης: –Παραμέτρων ή –Μοντέλου

20 Τύποι Μοντέλων Τύποι μοντέλου Προβλεπτικό (predictive) –Κάνει πρόβλεψη συμπεριφοράς κάποιων μεταβλητών που παρουσιάζουν ενδιαφέρον και οι οποίες βασίζονται στη συμπεριφορά άλλων μεταβλητών. Η πρόβλεψη μπορεί να στηρίζεται σε ιστορικά δεδομένα. Περιγραφικό (descriptive) –Βρίσκει πρότυπα (patterns) ή σχέσεις (relationships) που ενυπάρχουν στα δεδομένα. Ερευνά τις ιδιότητες των υπό εξέταση δεδομένων, εξηγεί τη συμπεριφορά τους.

21 Διεργασίες Εξόρυξης Δεδομένων Προβλεπτικού τύπου ή μοντέλου Κατηγοριοποίηση (Classification) Παλινδρόμηση ή Παρεμβολή (Regression) Ανάλυση χρονοσειρών (Time series analysis) Πρόβλεψη (Prediction) Περιγραφικού τύπου ή μοντέλου Συσταδοποίηση (Clustering) Σύνοψη (Summarization) ή Γενίκευση (Generalization) Εύρεση Κανόνων Συσχέτισης (Association Rules) Ανακάλυψη Συσχετίσεων σε Ακολουθίες (Pattern Discovery in Sequences)

22 Απαιτήσεις Εξόρυξης Χειρισμός διαφορετικών τύπων δεδομένων. Απόδοση και εξελιξιμότητα των αλγορίθμων εξόρυξης δεδομένων Χρησιμότητα, εγκυρότητα και εκφραστικότητα των αποτελεσμάτων εξόρυξης δεδομένων Διαφορετικού τύπου εκφράσεις των ερωτήσεων και αποτελεσμάτων της εξόρυξης δεδομένων. Διαλογική ανακάλυψη γνώσης σε πολλαπλά επίπεδα αφαίρεσης Εξόρυξη γνώσης από διαφορετικές πηγές δεδομένων

23 Κατηγοριοποίηση Μεθόδων Εξόρυξης Τι είδους βάση δεδομένων χρησιμοποιείται; ( σχεσιακή, αντικειμενοστραφής ) Τι είδους γνώση εξάγεται ( κανόνες συσχέτισης, συσταδοποίηση, κανόνες κατηγοριοποίησης, χαρακτηριστικοί κανόνες ); Ποιο είδος τεχνικών χρησιμοποιείται ( προσανατολισμένα στα δεδομένα, διαλογικά, γενικής εξόρυξης, βασισμένη στα πρότυπα );

24 Επισκόπηση Εργασιών Εξόρυξης

25 Κατηγοριοποίηση Δεδομένων Κατηγοριοποίηση δεδομένων (data classification): Βασίζεται στην εξέταση των χαρακτηριστικών ενός νέου αντικειμένου (μη κατηγοριοποιημένο) το οποίο με βάση τα χαρακτηριστικά αυτά αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων. Τα προς κατηγοριοποίηση αντικείμενα αναπαριστάνονται γενικά από τις εγγραφές της βάσης δεδομένων Η διαδικασία της κατηγοριοποίησης αποτελείται από την ανάθεση κάθε εγγραφής σε κάποιες από τις προκαθορισμένες κατηγορίες. Bασικές μέθοδοι: Μέθοδος Bayes, Δέντρα Αποφάσεων, Νευρωνικά Δίκτυα

26  Κατηγοριοποίηση: –Προβλέπει την κατηγορία (predicts categorical class labels) –Κατηγοριοποιεί δεδομένα (κατασκευάζοντας ένα μοντέλο) βασισμένο σε training set και τις τιμές (ετικέτες κατηγορίας class labels) του χαρακτηριστικού κατηγορίας και το χρησιμοποιεί για κατηγοριοποίηση νέων δεδομένων  Πρόβλεψη: –Μοντελοποίηση συνεχών συναρτήσεων, π.χ., πρόβλεψη άγνωστων ή απώντων τιμών  Τυπικές Εφαρμογές –credit approval –target marketing –medical diagnosis –treatment effectiveness analysis Κατηγοριοποίηση – Πρόβλεψη

27 Κατηγοριοποίηση — Μια διαδικασία δύο βημάτων  Κατασκευή μοντέλου: περιγράφοντας ένα σύνολο προκαθορισμένων κατηγοριών –Καθε μια από τις πλειάδες (tuples) υποτίθεται ότι ανήκει σε μια προκαθορισμένη κατηγορία, όπως καθορίζεται από το γνώρισμα κατηγορίας (κλάσης) (supervised learning) –Το σύνολο των πλειάδων που χρησιμοποιείται για κατασκευή μοντέλου: training set –Το μοντέλο αναπαρίσταται σαν classification rules, decision trees, ή μαθηματικές εξισώσεις  Χρήση μοντέλου: για κατηγοριοποίηση άγνωστων αντικειμένων –Υπολογισμός ακρίβειας του μοντέλου κάνοντας χρήση ενός test set Η γνωστή ετικέτα του test sample συγκίνεται με το αποτέλεσμα κατηγοριοποίησης του μοντέλου Η τιμή της ακρίβειας είναι το ποσοστό των test set samples που κατηγοριοποιήθηκαν σωστά απο το μοντέλο Το test set είναι ανεξάρτητο από το training set, αλλιώς μπορεί να συμβεί over-fitting

28 Διαδικασία Κατηγοριοποίησης: Κατασκευή Μοντέλου Training Data Classification Algorithms IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’ Classifier (Model)

29 Διαδικασία Κατηγοριοποίησης: Χρήση Μοντέλου για Πρόβλεψη Classifier Testing Data Unseen Data (Jeff, Professor, 4) Tenured?

30 Συσταδοποίηση Δεδομένων (1) Η συσταδοποίηση δεδομένων (data clustering) είναι η εργασία του καταμερισμού ενός ετερογενούς πληθυσμού σε ένα σύνολο συστάδων (clusters). Στην συσταδοποίηση δεν υπάρχουν προκαθορισμένες κατηγορίες. Οι εγγραφές ομαδοποιούνται σε σύνολα με βάση την ομοιότητα που παρουσιάζουν μεταξύ τους. Επαφίεται σε εμάς να καθορίσουμε την σημασία που θα έχει κάθε μία από τις ομάδες που προκύπτουν. Για παράδειγμα ομάδες που περιλαμβάνουν τα χαρακτηριστικά που σχετίζονται με τα φύλλα και τον καρπό φυτών μπορεί να υποδεικνύουν διαφορετικές ποικιλίες ενός φυτού. Αντιπροσωπευτικοί αλγόριθμοι: K-Means και παραλλαγές, PAM, BIRCH, ROCK.

31 Συσταδοποίηση Δεδομένων (2)  Διαιρετική συσταδοποίηση (Partitioning Clustering)  Ιεραρχική Συσταδοποίηση (Hierarchical Clustering)  Ασαφής συσταδοποίηση (Fuzzy Clustering)  Μη ασαφής συσταδοποίηση (Crisp Clustering)  Συσταδοποίηση βασισμένη στα δίκτυα Kohonen (Kohonen Net Clustering)  Συσταδοποίηση βασισμένη στην πυκνότητα (Density-based Clustering)  Συσταδοποίηση βασισμένη σε πλέγμα (Grid-based Clustering)  Συσταδοποίηση υποχώρων (Subspace Clustering).

32 Συσταδοποίηση Δεδομένων (3) Οι περισσότεροι αλγόριθμοι υποθέτουν μία μεγάλη δομή δεδομένων που είναι memory resident. Η ομαδοποίηση μπορεί να πραγματοποιηθεί πρώτα σε ένα δείγμα της Β.Δ. και στη συνέχεια να εφαρμοστεί σε όλη τη Β.Δ. Αλγόριθμοι –BIRCH –DBSCAN –CURE

33 Συσταδοποίηση Δεδομένων (4) Ένα αντικείμενο x είναι ένα ξεχωριστό-μοναδικό data item που χρησιμοποιείται από τον clustering αλγόριθμο. Αποτελείται από ένα διάνυσμα d μετρικών: x = (x 1,... x d ), όπου x i είναι τo i-οστό χαρακτηριστικό (feature) του αντικειμένου και d η διάσταση του αντικειμένου ή του χώρου που δημιουργείται από τα αντικείμενα.

34 Συσταδοποίηση Δεδομένων (5) Hard clustering τεχνικές: αναθέτουν μία ετικέτα κλάσης(class) li σε κάθε αντικείμενο xi, που είναι προσδιοριστική για την κλάση του. Fuzzy clustering διαδικασίες: αναθέτουν σε κάθε pattern xi που δίνεται ως είσοδος ένα «ποσοστό συμμετοχής» fij σε κάθε παραγόμενο cluster j.

35 Κανόνες Συσχέτισης (1) Η εξαγωγή κανόνων συσχέτισης (Mining Association Rules) θεωρείται μια από τις σημαντικότερες διεργασίες εξόρυξης δεδομένων. Έχει προσελκύσει ιδιαίτερο ενδιαφέρον καθώς οι κανόνες συσχέτισης παρέχουν έναν συνοπτικό τρόπο για να εκφραστούν οι ενδεχομένως χρήσιμες πληροφορίες που γίνονται εύκολα κατανοητές από τους τελικούς χρήστες. Οι κανόνες συσχέτισης ανακαλύπτουν κρυμμένες «συσχετίσεις» μεταξύ των γνωρισμάτων ενός συνόλου των δεδομένων. Αυτοί οι συσχετισμοί παρουσιάζονται στην ακόλουθη μορφή: Α  Β όπου το Α και το Β αναφέρονται στα σύνολα γνωρισμάτων που υπάρχουν στα υπό ανάλυση δεδομένα

36 Κανόνες Συσχέτισης (2) Σύνολo αντικειμένων: I={I 1,I 2,…,I m } Συναλλαγές: D={t 1,t 2, …, t n }, tj  I Συνολοστοιχεία: {I i1,I i2, …, I ik }  I Υποστήριξη συνολοστοιχείου: ποσοστό συναλλαγών που περιέχουν συνολοστοιχείο. Μεγάλα (Συχνά) συνολοστοιχεία: συνολοστοιχεία ο αριθμός εμφανίσεων των οποίων είναι πάνω από κάποιο όριο.

37 Κανόνες Συσχέτισης (3) Κανόνας Συσχέτισης: συνεπαγωγή X  Y όπου X,Y  I και X  Y =  Υποστήριξη Κ.Σ. X  Y: ποσοστό συναλλαγών που περιέχουν το σύνολο X  Y, δηλαδή ίσο με P(X  Y) Εμπιστοσύνη Κ.Σ. X  Y: πηλίκο του αριθμού των συναλλαγών που περιέχουν το X  Y προς αυτά που περιέχουν το X, δηλαδή ίσο με P(Υ/Χ)

38 Λειτουργικότητες εξόρυξης δεδομένων– Πρότυπα που μπορούν να εξαχθούν Ανάλυση Outlier –Outlier: ένα αντικείμενο δεδομένων το οποίο δεν ακολουθεί την γενική συμπεριφορά των δεδομένων (μπορεί να εντοπισθεί με την χρήση στατιστικών ελέγχων που υιοθετούν ένα πιθανοτικό μοντέλο) –Συχνά θεωρείται θόρυβος αλλά είναι χρήσιμο στον εντοπισμό σφάλματος, την ανάλυση σπάνιων γεγονότων Ανάλυση τάσης και εξέλιξης (trend and evolution analysis) –Μελετά την κανονικότητα των αντικειμένων των οποίων η συμπεριφορά μεταβάλλεται με τον χρόνο –Τάση και απόκλιση: ανάλυση regression –Εξόρυξη ακολουθιακού προτύπου, ανάλυση περιοδικότητας –Ανάλυση με βάση την ομοιότητα

39 Πότε είναι ενδιαφέρον ένα “Ανακαλυφθέν” πρότυπο; Ένα σύστημα εξόρυξης δεδομένων μπορεί να παράγει χιλιάδες πρότυπα, τα οποία δεν είναι όλα ενδιαφέροντα. –Προτεινόμενη προσέγγιση: Ανθρωποκεντρική, με βάση το ερώτημα, εστιασμένη εξόρυξη δεδομένων Μετρικές ενδιαφέροντος: Ένα πρότυπο είναι ενδιαφέρον εάν είναι εύκολα κατανοητό από τους ανθρώπους, έγκυρο σε νέα ή πειραματικά δεδομένα με κάποιο βαθμό βεβαιότητας, πιθανά χρήσιμο, καινούριο, ή επικυρώνει κάποια υπόθεση που ο χρήστης επιδιώκει να επαληθεύσει Αντικειμενικές vs. υποκειμενικές μετρικές ενδιαφέροντος: –Αντικειμενικές: βασίζονται σε στατιστικές και δομές προτύπων, π.χ., confidence and support –Υποκειμενικές: βασίζονται στην γνώμη του χρήστη για τα δεδομένα, π.χ., unexpectedness, novelty, κλπ

40 Μπορούμε να βρούμε όλα τα ενδιαφέροντα πρότυπα; Εύρεση όλων των ενδιαφερόντων προτύπων: Πληρότητα –Μπορεί ένα σύστημα εξόρυξης δεδομένων να βρει όλα τα ενδιαφέροντα πρότυπα; –Συσχέτιση (association) vs. Ταξινόμηση (classification) vs. Ομαδοποίηση (clustering) Αναζήτηση μόνο των ενδιαφερόντων προτύπων: Βελτιστοποίηση –Μπορεί ένα σύστημα εξόρυξης δεδομένων να βρει μόνο τα ενδιαφέροντα πρότυπα; –Προσεγγίσεις Πρώτα παρήγαγε όλα τα πρότυπα και στην συνέχεια φιλτράρισε αυτά που δεν μας ενδιαφέρουν Παρήγαγε μόνο τα ενδιαφέροντα πρότυπα - βελτιστοποίηση ερωτήματος

41 Χρονολογικές Σειρές (1) Xρονολογική σειρά: μια ακολουθία αριθμών κάθε ένας από τους οποίους έχει ένα timestamp (ετικέτα χρόνου). Χαρακτηριστικά υποθέτουμε ότι οι διαδοχικοί αριθμοί χωρίζονται από ένα σταθερό χρονικό διάστημα, και το πραγματικό timestamp παραλείπεται. Διάφορες φυσικές διαδικασίες παράγουν δεδομένα υπό μορφή χρονολογικών σειρών (λ.χ. εφαρμογές στον οικονομικό και περιβαλλοντικό τομέα).

42 Χρονολογικές Σειρές (2) Μοντελοποίηση χρονικών γεγονότων Ανάλυση χρονολογικών σειρών Ανάλυση τάσεων Μετασχηματισμός Ομοιότητα Πρόβλεψη Αλγόριθμοι παραγωγής κανόνων χρονικών συσχετίσεων

43 Ομοιότητα Χρονολογικών Σειρών  Μια ρεαλιστική συνάρτηση απόστασης που θα ταιριάζει με την αντίληψη του χρήστη για το τι αυτός θεωρεί παρόμοιο.  Ένα αποδοτικό σχέδιο indexing, το οποίο θα επιταχύνει τις ερωτήσεις των χρηστών. Η p-norm απόσταση μεταξύ δύο ν-διάστατων διανυσμάτων Χ και Υ ορίζεται ως εξής:

44 Δέντρα ΑποφάσεωνΚανόνες Νευρωνικά δίκτυαΣτατιστικοί ταξινομητές Παραδείγματα οικ. κατ. ΟΧΙ φύλοηλικία>30 ΝΟ Α ΕΤ ΑΓ ΟΧΙ ΝΑΙ Φύλο Ηλικία Α Γ ΝΑΙ ΟΧΙ ΦΑΧΑ νο ΗΕΧΟΤ ΑΠ (Ηλικία (Φύλο:Γ)...

45 Γειτονικές Περιοχές Ανάκτηση Πληροφορίας Βάσεις Δεδομένων Τεχνητή Νοημοσύνη Ευφυής Υπολογισμός Στατιστική Ανάλυση Δεδομένων

46 Data Mining Development Similarity Measures Hierarchical Clustering IR Systems Imprecise Queries Textual Data Web Search Engines Bayes Theorem Regression Analysis EM Algorithm K-Means Clustering Time Series Analysis Neural Networks Decision Tree Algorithms Algorithm Design Techniques Algorithm Analysis Data Structures Relational Data Model SQL Association Rule Algorithms Data Warehousing Scalability Techniques Databases Information Retrieval Statistics Machine Learning Algorithms Data Mining

47 Είδη Μηχανικής Μάθησης  Μάθηση υπό επίβλεψη ή από παραδείγματα: –Μάθηση εννοιών (Concept Learning) –Δέντρα Ταξινόμησης ή Απόφασης (Classification or Decision Trees) –Μάθηση Κανόνων (Rule Learning) –Μάθηση κατά Bayes –Γραμμική Παλινδρόμηση/Παρεμβολή (Linear Regression) –Νευρωνικά Δίκτυα (Neural Networks) –Μηχανές Διανυσμάτων Υποστήριξης (Support Vector Machines)  Μάθηση χωρίς επίβλεψη ή από παρατήρηση: –Εξαγωγή Ομάδων/Συστάδων (clustering) –Εξαγωγή συσχετίσεων (association rules)

48 Μηχανική Μάθηση και Εξόρυξη Γνώσης  Ο στόχος της Μηχανικής Μάθησης είναι η εύρεση τεχνικών μάθησης ως μίμηση της ανθρώπινης συμπεριφοράς (δηλ. η παραγωγή προγραμμάτων που μαθαίνουν), ενώ της Εξόρυξης Γνώσης η ανακάλυψη πληροφορίας που θα είναι χρήσιμη στον άνθρωπο. (Dunham, 2003)  Η Εξόρυξη Γνώσης χρησιμοποιεί μεγαλύτερες, ετερογενείς και «ακατέργαστες» βάσεις δεδομένων, ενώ η Μηχανική Μάθηση μικρότερες, ομογενείς και κατάλληλης μορφής.  Αρκετοί αλγόριθμοι Μηχανικής Μάθησης χρησιμοποιούνται στην Εξόρυξη Γνώσης

49 Βασικά ζητήματα στην εξόρυξη δεδομένων  Μεθοδολογία εξόρυξης και αλληλεπίδραση χρηστών –Εξόρυξη διαφορετικών ειδών γνώσεων από βάσεις δεδομένων –Διαδραστική εξόρυξη γνώσης σε πολλαπλά επίπεδα αφαίρεσης –Ενσωμάτωση της γνώσης που υπάρχει για την καθοδήγηση της διαδικασίας ανακάλυψης –Γλώσσες διατύπωσης ερωτημάτων εξόρυξης δεδομένων και ad-hoc εξόρυξη δεδομένων –Έκφραση και οπτικοποίηση των αποτελεσμάτων της εξόρυξης δεδομένων –Χειρισμός θορύβου και ελλιπών δεδομένων –Αξιολόγηση προτύπου: το πρόβλημα ενδιαφέροντος  Απόδοση και εξελιξιμότητα –Απόδοση και εξελιξιμότητα των αλγορίθμων –Παράλληλες, κατανεμημένες και επαυξητικές μέθοδοι εξόρυξης

50 Σηματικά θέματα στην εξόρυξη δεδομένων  Ζητήματα σχετικά με την ποικιλομορφία των τύπων δεδομένων –Χειρισμός σχεσιακών και σύνθετων τύπων δεδομένων –Εξόρυξη πληροφορίας από ετερογενείς βάσεις δεδομένων και πληροφοριακά συστήματα στον παγκόσμιο ιστό (WWW)  Ζητήματα σχετικά με τις εφαρμογές και τις κοινωνικές επιδράσεις –Εφαρμογή της ανακαλυφθείσας γνώσης Εργαλεία εξόρυξης δεδομένων με βάση το πεδίο Έξυπνη απάντηση ερωτήματος Έλεγχος διαδικασίας και λήψη απόφασης –Ένωση της ανακαλυφθείσας γνώσης με την ήδη υπάρχουσα : Ένα πρόβλημα συγχώνευσης της γνώσης –Προστασία της ασφάλειας των δεδομένων, της ακεραιότητας και της μυστικότητας

51 Ερευνητικά Θέματα σε Data Mining (1) Απόδοση και Εξελιξιμότητα –Αποτελεσματικότητα και εξελιξιμότητα των αλγορίθμων εξόρυξης δεδομένων. –Παράλληλοι, κατανεμημένοι και αυξητικοί αλγόριθμοι εξόρυξης. Μεθοδολογία Εξόρυξης –Ενσωμάτωση υποδομικής γνώσης (domain knowledge) –Διαδραστική (interactive) εξόρυξη γνώσης σε πολλαπλά επίπεδα αφαίρεσης (abstraction). –Υποστήριξη Βάσεων Δεδομένων και γλώσσες ερωτημάτων για αποτελέσματα εξόρυξης –Έκφραση και οπτικοποίηση αποτελεσμάτων εξόρυξης δεδομένων –Διαχείριση αβεβαιότητας θορύβου και μερικών αποτελεσμάτων. –Επιβεβαίωση ποιότητας για αποτελέσματα εξόρυξης δεδομένων. –Εκτίμηση Προτύπων

52 Ερευνητικά θέματα σε Data Mining (2) Θέματα Σχετιζόμενα με ποικιλία τύπων δεδομένων –Διαχείριση σχεσιακών και πολύπλοκων τύπων δεδομένων –Εξόρυξη πληροφορίας από ετερογενείς Β.Δ. και WWW Θέματα Σχετιζόμενα με Εφαρμογές και Κοινωνικές Επιπτώσεις –Εφαρμογή της ανακαλυφθείσας γνώσης Domain-specific data mining tools Intelligent query answering Process control and decision making –Ολοκλήρωση της ανακαλυφθείσας γνώσης με υπάρχουσα γνώση: πρόβλημα συγχώνευσης γνώσης. –Προστασία ασφάλειας δεδομένων, ακεραιότητας και ιδωτικότητας. –Εφαρμογές σε θέματα ασφάλειας.

53 Σύνοψη  Εξόρυξη δεδομένων: ανακάλυψη ενδιαφερόντων προτύπων από μεγάλους όγκους δεδομένων  Μία φυσική εξέλιξη της τεχνολογίας βάσεων δεδομένων, με μεγάλη ζήτηση, με μεγάλο εύρος εφαρμογών  Μία KDD διαδικασία περιλαμβάνει τον καθαρισμό, την συγχώνευση, και την επιλογή δεδομένων, μετασχηματισμό, εξόρυξη δεδομένων, αξιολόγηση προτύπου και παρουσίαση της γνώσης  Η εξόρυξη μπορεί να γίνει σε διάφορες αποθήκες πληροφοριών  Λειτουργικότητες της εξόρυξης δεδομένων: χαρακτηρισμός, επιλογή, συσχέτιση, ταξινόμηση, ομαδοποίηση, ανάλυση τάσης και outlier, κτλ.  Ταξινόμηση των συστημάτων εξορυξης δεδομένων  Βασικά ζητήματα στην εξόρυξη δεδομένων

54 Επιστημονικά Συνέδρια και Περιοδικά σε Εξόρυξη Δεδομένων  KDD Conferences –ACM SIGKDD Int. Conf. on Knowledge Discovery in Databases and Data Mining (KDD) –SIAM Data Mining Conf. (SDM) –(IEEE) Int. Conf. on Data Mining (ICDM) –Conf. on Principles and practices of Knowledge Discovery and Data Mining (PKDD) –Pacific-Asia Conf. on Knowledge Discovery and Data Mining (PAKDD)  Other related conferences –ACM SIGMOD –VLDB –(IEEE) ICDE –WWW, SIGIR –ICML, CVPR, NIPS  Journals –Data Mining and Knowledge Discovery (DAMI or DMKD) –IEEE Trans. On Knowledge and Data Eng. (TKDE) –KDE (Knowledge and Data Engineering) –KDD Explorations –ACM Trans. on KDD

55 Που μπορείτε να βρείτε Αναφορές; DBLP, CiteSeer, Google  Data mining and KDD (SIGKDD: CDROM) –Conferences: ACM-SIGKDD, IEEE-ICDM, SIAM-DM, PKDD, PAKDD, etc. –Journal: Data Mining and Knowledge Discovery, KDE, KDD Explorations, ACM TKDD  Database systems (SIGMOD: ACM SIGMOD Anthology — CD ROM) –Conferences: ACM-SIGMOD, ACM-PODS, VLDB, IEEE-ICDE, EDBT, ICDT, DASFAA –Journals: IEEE-TKDE, ACM-TODS/TOIS, JIIS, J. ACM, VLDB J., Info. Sys., etc.  AI & Machine Learning –Conferences: Machine learning (ML), AAAI, IJCAI, COLT (Learning Theory), CVPR, NIPS, etc. –Journals: Machine Learning, Artificial Intelligence, Knowledge and Information Systems, IEEE- PAMIetc  Web and IR –Conferences: SIGIR, WWW, CIKM, etc. –Journals: WWW: Internet and Web Information Systems,  Statistics –Conferences: Joint Stat. Meeting, etc. –Journals: Annals of statistics, etc.  Visualization –Conference proceedings: CHI, ACM-SIGGraph, etc. –Journals: IEEE Trans. visualization and computer graphics, etc.

56 Ενδεικτική Βιβλιογραφία Tan, Steinbach, Kumar, Introduction to Data Mining, Addison-Wesley, M. Βαζιργιάννης, Μ. Χαλκίδη, Εξόρυξη Γνώσης από Βάσεις Δεδομένων, Τυπωθήτω, Δαρδάνος, Margaret Dunham, Data Mining Introductory and Advanced Topics, 2003, Pearson Education. Αλέξανδρος Νανόπουλος, Ιωάννης Μανωλόπουλος, Εισαγωγή στην Εξόρυξη και στις Αποθήκες Δεδομένων T. M. Mitchell, Machine Learning, McGraw Hill, I.H. Witten, E. Frank, Data Mining, Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufmann, October, Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann, 2 nd Edition, ISBN , David J. Hand, Heikki Mannila and Padhraic Smyth, Principles of Data Mining, MIT Press, Fall S. Chakrabarti, Mining the Web: Discovering Knowledge from Hypertext Data, Morgan-Kaufmann Publishers 2003

57

58

59

60 Εξόρυξη Δεδομένων: Σε τι είδους δεδομένα;  Σχεσιακές βάσεις δεδομένων  Data warehouses  Βάσεις δεδομένων δοσοληψιών  Προηγμένες ΒΔ και αποθήκες πληροφορίας –Object-oriented (OO)και object-relational (OR) βάσεις δεδομένων –Χωρικές βάσεις δεδομένων (ιατρικές, ΒΔ εικόνων δορυφόρου, GIS) –Δεδομένα χρονοσειρών και δεδομένα χρόνου –Βάσεις δεδομένων κειμένου –Βάσεις δεδομένων πολυμέσων (Εικόνα, Βίντεο, κτλ.) –Ετερογενείς βάσεις δεδομένων –WWW

61 Λειτουργικότητες εξόρυξης δεδομένων – Πρότυπα που μπορούν να εξαχθούν  Περιγραφή ιδέας: Χαρακτηρισμός και διάκριση –Γενίκευση, σύνοψη, και αντιπαράθεση χαρακτηριστικών δεδομένων, π.χ., ξηρές vs. υγρές περιοχές  Συσχέτιση ( συσχετισμός και αιτιότητα) –Πολυδιάστατη vs. μονοδιάστατη συσχέτιση –ηλικία, “20..29”) ^ εισόδημα, “20..29K”)  αγορές, “PC”) [υποστήριξη = 2%, εμπιστοσύνη = 60%] –περιέχει, “υπολογιστή”)  περιέχει, “λογισμικό”) [1%, 75%] –Εμπιστοσύνη  y) = P(y|x): βαθμός βεβαιότητας της συσχέτισης –Υποστήριξη  y) = P(x  y): % των δοσοληψιών που ικανοποιεί ο κανόνας

62 Λειτουργικότητες εξόρυξης δεδομένων– Πρότυπα που μπορούν να εξαχθούν  Classification and Prediction –Εύρεση μοντέλων (if-then κανόνες, δένδρα απόφασης, μαθηματικοί τύποι, νευρωνικά δίκτυα, κανόνες ταξινόμησης) που περιγράφουν και διαχωρίζουν τις κλάσεις ή τις ιδέες για την μελλοντική πρόβλεψη –Π.χ., ταξινόμηση χωρών με βάση το κλίμα, ή ταξινόμηση των αυτοκινήτων με βάσει την κατανάλωση –Πρόβλεψη: Πρόβλεψη κάποιων αγνώστων τιμών ή τιμών που δεν υπάρχουν  Ανάλυση ομάδας –Η ετικέτα της κλάσης είναι άγνωστη: Ομαδοποίηση δεδομένων για την δημιουργία νέας κλάσης –Ομαδοποίηση βασισμένη στην αρχή: μεγιστοποίηση της «intra-class» ομοιότητας και ελαχιστοποίηση της «interclass» ομοιότητας

63 Εξόρυξη δεδομένων: Συμβολή πολλαπλών αρχών Εξόρυξη Δεδομένων Τεχνολογία ΒΔΣτατιστικές Άλλες αρχές Επιστήμη πληροφορίας Μηχανική μάθηση Οπτικοποίηση

64 Εξόρυξη δεδομένων: Σχήματα Ταξινόμησης  Γενική λειτουργικότητα –Περιγραφική εξόρυξη δεδομένων –Προβλεπτική εξόρυξη δεδομένων  Διαφορετικές όψεις, διαφορετικές ταξινομήσεις –Είδη βάσεων δεδομένων που εξάγονται –Είδη γνώσεων που θα ανακαλυφθούν –Είδη τεχνικών που θα χρησιμοποιηθούν –Είδη εφαρμογών που προσαρμόζονται

65 Μία πολυδιάστατη οπτική της ταξινόμησης εξόρυξης δεδομένων  Βάσεις δεδομένων που θα εξαχθούν –Σχεσιακές, δοσοληψιών, αντικειμενοστραφείς, χωρικές, χρονοσειρών, κειμένου, πολυμέσων, ετερογενείς, object-relational, legacy, active, WWW, κτλ.  Γνώση που θα εξαχθεί –Χαρακτηρισμός, διάκριση, συσχέτιση, ταξινόμηση, ομαδοποίηση, τάση, απόκλιση και ανάλυση outlier κτλ. –Multiple/integrated functions and mining at multiple levels  Τεχνικές που χρησιμοποιούνται –Στατιστικές, οπτικοποίηση, νευρωνικό δίκτυο, μηχανική μάθηση, Database-oriented, data warehouse (OLAP), κτλ.  Εφαρμογές που προσαρμόζονται –Τηλεπικοινωνίες, τραπεζικές εργασίες, ανάλυση σφάλματος, εξόρυξη DNA, εξόρυξη Ιστού κτλ.

66 Εξόρυξη δεδομένων: Σχήματα Ταξινόμησης  Γενική λειτουργικότητα –Περιγραφική εξόρυξη δεδομένων –Προβλεπτική εξόρυξη δεδομένων  Διαφορετικές όψεις, διαφορετικές ταξινομήσεις –Είδη βάσεων δεδομένων που εξάγονται –Είδη γνώσεων που θα ανακαλυφθούν –Είδη τεχνικών που θα χρησιμοποιηθούν –Είδη εφαρμογών που προσαρμόζονται

67 Μία πολυδιάστατη οπτική της ταξινόμησης εξόρυξης δεδομένων  Βάσεις δεδομένων που θα εξαχθούν –Σχεσιακές, δοσοληψιών, αντικειμενοστραφείς, χωρικές, χρονοσειρών, κειμένου, πολυμέσων, ετερογενείς, object-relational, legacy, active, WWW, κτλ.  Γνώση που θα εξαχθεί –Χαρακτηρισμός, διάκριση, συσχέτιση, ταξινόμηση, ομαδοποίηση, τάση, απόκλιση και ανάλυση outlier κτλ. –Multiple/integrated functions and mining at multiple levels  Τεχνικές που χρησιμοποιούνται –Στατιστικές, οπτικοποίηση, νευρωνικό δίκτυο, μηχανική μάθηση, Database-oriented, data warehouse (OLAP), κτλ.  Εφαρμογές που προσαρμόζονται –Τηλεπικοινωνίες, τραπεζικές εργασίες, ανάλυση σφάλματος, εξόρυξη DNA, εξόρυξη Ιστού κτλ.

68 OLAP Εξόρυξη: Συγχώνευση Εξόρυξης Δεδομένων και Data Warehousing  Συστήματα εξόρυξης δεδομένων, ΣΔΒΔ, Data warehouse συστήματα ένωσης –Χωρίς ένωση, χαλαρή-ένωση, ημι-σφιχτή-ένωση, σφιχτή-ένωση  On-line αναλυτική εξόρυξη δεδομένων –Συγχώνευση της εξόρυξης και των OLAP τεχνολογιών  Διαδραστική εξόρυξη γνώσης σε πολλά επίπεδα –Ανάγκη εξόρυξης γνώσης και προτύπων σε διαφορετικά επίπεδα γενίκευσης (drilling/rolling, pivoting, slicing/dicing, κτλ.)  Συγχώνευση πολλών λειτουργιών εξόρυξης – Χαρακτηρισμένη ταξινόμηση, πρώτα ομαδοποίηση και μετά συσχέτιση

69 Μία ΟLAM αρχιτεκτονική Data Warehouse Meta Data MDDB OLAM Engine OLAP Engine User GUI API Data Cube API Database API Data cleaning Data integration Layer3 OLAP/OLAM Layer2 MDDB Layer1 Data Repository Layer4 User Interface Filtering&IntegrationFiltering Databases Ερώτημα εξόρυξης Αποτέλεσμα εξόρυξης


Κατέβασμα ppt "Bάσικες Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ (Ιστοσελίδα:"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google