Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

1 Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 1: Εισαγωγή

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "1 Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 1: Εισαγωγή"— Μεταγράφημα παρουσίασης:

1 1 Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 1: Εισαγωγή Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

2 Χρησιμοποιήθηκαν και διαφάνειες από το βιβλίο των Tan, Steinbach, Kumar “Introduction to Data Mining” Επιμέλεια διαφανειών από τον Τάσο Γούναρη, Λέκτορα Τμήματος Πληροφορικής ΑΠΘ Ευχαριστίες Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων 2

3 Το πρόβλημα της εκρηκτικής αύξησης των δεδομένων Η ύπαρξη εργαλείων για την αυτόματη συλλογή πληροφοριών και η ωρίμανση των τεχνολογιών Βάσεων Δεδομένων έχουν ως αποτέλεσμα τεράστιες ποσότητες δεδομένων να είναι αποθηκευμένα σε βάσεις δεδομένων, αποθήκες δεδομένων και άλλα μέσα αποθήκευσης πληροφορίας. Πνιγόμαστε από δεδομένα.... αλλά πεινάμε για γνώση! Το μέγεθος της πληροφορίας ξεπερνά τις δυνατότητες της ανθρώπινης κατανόησης και αντίληψης. 3 Κίνητρο: «Ανάγκη είναι η μητέρα της εφεύρεσης» Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

4 Αυτόματη συλλογή πολύ μεγάλων συνόλων δεδομένων Πωλήσεις (bar-code scanners) Παγκόσμιος Ιστός (η-εμπόριο) Τράπεζες Ανάγκες Χρήστη 4 Κίνητρο (1): Υποστήριξη Αποφάσεων Σωστές Αποφάσεις Καλύτερες Υπηρεσίες Προσαρμογή στις ανάγκες(CRM) Η γνώση και η χρήσιμη πληροφορία είναι κρυμμένη μέσα στα δεδομένα. Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

5 Επιστημονικά δεδομένα συλλέγονται με υπερβολικά υψηλούς ρυθμούς (GB-ΤΒ/hour) Δεδομένα δορυφόρων (NASA, ESA) Τηλεσκόπια Βιολογικά Δεδομένων (γωνίδια - μικροσυστοιχίες) LHC Επιστημονικές Προσομοιώσεις Οι παραδοσιακές τεχνικές δεν είναι αποδοτικές Η εξόρυξη δεδομένων βοηθά στην απάντηση πιο θεμελιωδών ερωτημάτων, π.χ.: «ποια είναι η σχέση μεταξύ ακραίων καιρικών φαινομένων και υπερθέρμανσης του πλανήτη;» «ποια γονίδια συσχετίζονται με κάποια αρρώστια;» 5 Κίνητρο (2): Επιστήμες Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

6 1960s: Συλλογή δεδομένων, δημιουργία βάσεων, ιεραρχικό – δικτυακό μοντέλο δεδομένων. 1970s: Σχεσιακό μοντέλο, υλοποιήσεις σχεσιακών ΣΔΒΔ. 1980s: Σχεσιακά ΣΔΒΔ, προηγμένα μοντέλα (extended-relational, OO, deductive, etc.) και ΣΔΒΔ για συγκεκριμένες εφαρμογές (π.χ., χωρικές, χωροχρονικές, επιστημονικές ΒΔ, κ.ο.κ.) 1990s— σήμερα: Εξόρυξη Δεδομένων (Data Mining) και Αποθήκες Δεδομένων (Data Warehouses), Πολυμεσικές ΒΔ, ΒΔ και Παγκόσμιος Ιστός 6 Η ανάπτυξη των τεχνολογιών ΒΔ Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

7 Εξόρυξη Δεδομένων: Μέρος της διαδικασίας ανακάλυψης γνώσης σε ΒΔ. Εξαγωγή ενδιαφέρουσας (μη-τετριμμένης, υποκρυπτόμενης, άγνωστης προηγουμένως και ενδεχομένως χρήσιμης), πληροφορίας ή προτύπων από δεδομένα σε μεγάλες ΒΔ. Εναλλακτικές ονομασίες: Ανακάλυψη γνώσης σε ΒΔ (knowledge discovery in databases - KDD) Εξαγωγή γνώσης (information extraction) Ανάλυση δεδομένων – προτύπων (pattern-data analysis) Αρχαιολογία δεδομένων (data archaeology), Συγκομιδή πληροφορίας (information harvesting), Επιχειρηματική νοημοσύνη (business intelligence)... 7 Τί είναι εξόρυξη δεδομένων; Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

8 Πολλά από τα αυτοαποκαλούμενα συστήματα εξόρυξης δεδομένων της αγοράς Τεχνικές Συμπερασματική (deductive) επεξεργασία ερωτημάτων Έμπειρα συστήματα Μικρά προγράμματα μηχανικής-στατιστικής μάθησης (machine learning/ statistical programs) Συμπερασματική απάντηση ερωτήσεων Ένα πραγματικό σύστημα Εξόρυξης Δεδομένων πρέπει να είναι σε θέση να διαχειρίζεται τεράστιο όγκο δεδομένων Έμφαση σε αποδοτικότητα και κλιμάκωση - επεκτασιμότητα Running time = O(db size) 8 Τί ΔΕΝ είναι εξόρυξη δεδομένων; Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

9 9 Συμβολή πολλών περιοχών Εξόρυξη Δεδομένων Βάσεις Δεδομένων Στατιστική Άλλες περιοχές Επιστήμη της Πληροφόρησης Μηχανική Μάθηση Απεικόνιση Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

10 1989 IJCAI Workshop on Knowledge Discovery in Databases (Piatetsky-Shapiro) Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) Workshops on Knowledge Discovery in Databases Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky- Shapiro, P. Smyth, and R. Uthurusamy, 1996) International Conferences on Knowledge Discovery in Databases and Data Mining (KDD’95-98) Journal of Data Mining and Knowledge Discovery (1997) 1998 ACM SIGKDD, SIGKDD’ conferences, and SIGKDD Explorations More conferences on data mining PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, etc. 10 Σύντομη Ιστορία της Κοινότητας Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

11 11 Εξόρυξη Δεδομένων και Επιχειρηματική Νοημοσύνη Αυξανόμενη δυνατότητα υποστήριξης διαδικασιών απόφασης Τελικός χρήστης Επιχειρησιακός αναλυτής Αναλυτής δεδομένων DBA Making Decisions Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration OLAP, MDA Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts Data Sources Paper, Files, Information Providers, Database Systems, OLTP Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

12 12 Εξόρυξη Δεδομένων: το κέντρο της διαδικασίας ανακάλυψης γνώσης Καθαρισμός Δεδομένων Ολοκλήρωση Δεδομένων ΒΔ Αποθήκη Δεδομένων Σχετικά Δεδομένα Επιλογή Εξόρυξη Δεδομένων Αποτίμηση και Αναπαράσταση Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

13 Χωρίζονται σε 2 βασικές κατηγορίες Περιγραφικές: χαρακτηρισμός των βασικών ιδιοτήτων των δεδομένων στη βάση. Προγνωστικές: εφαρμογή συμπερασματισμού (inference) στα υπάρχοντα δεδομένα για την παραγωγή προβλέψεων. Βασικές Λειτουργίες που θα ασχοληθούμε: Κατηγοριοποίηση (classification) Ομαδοποίηση (clustering) Εύρεση Κανόνων Συσχέτισης (association rules) Γιατί χρειαζόμαστε πολλές διαφορετικές λειτουργίες; Οι χρήστες συχνά δεν έχουν εκ των προτέρων ποια πληροφορία είναι ενδιαφέρουσα. Ή ενδιαφέρονται για διαφορετικά τύπου πρότυπα (patterns) παράλληλα. 13 Λειτουργίες Εξόρυξης Δεδομένων Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

14 Παράδειγμα Κατηγοριοποίησης 14 Επιστρ ΟικΚατ Εισοδ ΝΑΙ ΟΧΙ ΝαιΟχι Έγγαμος Άγαμος Διαζευγ < 80K>= 80K Σύνολο εκμάθησης Model Learn Ιδιότητες Class Σύνολο ελέγχου Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

15 Marketing Στόχευση πελατών Δεδομένα από πελάτες 2 κατηγορίες {buyer, non-buyer} Δεδομένα: δημογραφικά, ερωτηματολόγια Δημιουργία Μοντέλου Ταξινόμηση πελατών 15 Παράδειγμα Εφαρμογής Κατηγοριοποίησης (1) Targeting No targeting Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

16 Αστρονομία (Sky Survey Cataloging) Ταξινόμηση ουρανίων σωμάτων (αστέρας ή γαλαξίας σε κάποια φάση) Εξαγωγή δεδομένων από εικόνα (π.χ., χροιά χρώματος hue, ιστογράμματα, κ.ο.κ.) επιτυχία: με αυτή τη μέθοδο έχουν ανακαλυφθεί πολλά quasars! 16 Παράδειγμα Εφαρμογής Κατηγοριοποίησης(2) Πρώιμος Ενδιάμεσος Ύστερος Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

17 Ομαδοποίηση 17 x Ομαδοποίηση στον 3-Δ Ευκλίδειο χώρο Ελαχιστοποίηση των αποστάσεων μέσα στην ομάδα Μεγιστοποίηση των αποστάσεων μεταξύ των ομάδων Δεν υπάρχει το χαρακτηριστικό κλάσης – κατηγορίας. Διαχωρισμός σε ομάδες με τον καλύτερο τρόπο. Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

18 Κατάτμηση Αγοράς: Διαχωρισμός πελατών σε ομάδες με διαφορετική αντιμετώπιση Δεδομένα: γεωγραφικά, δημογραφικά, κλπ. Αξιολόγηση κάθε ομάδας με σύγκριση με τις υπόλοιπες 18 Εφαρμογή Ομαδοποίησης (1) Ποιότητα Τιμή Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

19 Οικολογία: Εντοπισμός φωλιών πουλιών Δεδομένα: χωρικά Κάθε ομάδα (συστάδα) αξιολογείται αναφορικά με χαρακτηριστικά όπως απόσταση από νερό, κ.ο.κ. 19 Εφαρμογή Ομαδοποίησης (2) Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

20 Είσοδος: δεδομένα συναλλαγών – αγορασμένα αντικείμενα Εύρεση κανόνων που εκφράζουν τις συσχετίσεις μεταξύ της ύπαρξης αντικειμένων κατά τις συναλλαγές 20 Κανόνες συσχέτισης - Παράδειγμα Κανόνες: {Αλεύρι} --> {Γάλα} p( Γάλα|Αλεύρι)=1 {Γάλα} --> {Αλεύρι} p( Αλεύρι |Γάλα)=0.5 {Μπύρα, Ψωμί} --> {Πάνες} p(Πάνες|Μπύρα, Ψωμί)=0.66 Κανόνες: {Αλεύρι} --> {Γάλα} p( Γάλα|Αλεύρι)=1 {Γάλα} --> {Αλεύρι} p( Αλεύρι |Γάλα)=0.5 {Μπύρα, Ψωμί} --> {Πάνες} p(Πάνες|Μπύρα, Ψωμί)=0.66 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

21 Βιολογία: δεδομένα μικροσυστοιχιών 21 Άλλη εφαρμογή κανόνων συσχέτισης {disease} => { gene A gene B gene C } Αλληλουχίες πειραμάτων με πολλαπλά γονίδια κάθε φορά. Μετρήσεις: 0 σε σχέση με 2 βασικές μορφές λευχαιμίας (ALL, AML) Γονίδια που εμφανίζονται ταυτόχρονα => αλληλεπίδραση Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

22 Ανάλυση ακραίων δεδομένων (Outlier analysis) Ακραία δεδομένα - Outlier: δεδομένα που δεν ακολουθούν τη γενική κατανομή και δεν συμφωνούν με τη γενική συμπεριφορά των υπολοίπων δεδομένων. Μπορούν να θεωρηθούν ως θόρυβος ή εξαιρέσεις. ΑΛΛΑ είναι πολύ χρήσιμα στον εντοπισμό απατών και στην ανάλυση σπανίων φαινομένων. Ανάλυση τάσεων και εξέλιξης Τάσεις και αποκλίσεις: ανάλυση παλινδρόμησης (regression) Ανάλυση βάσει ομοιότητας Ανάλυση περιοδικότητας, Εξόρυξη Ακολουθιακών Προτύπων Άλλες λειτουργίες βασίζονται σε πρότυπα ή στατιστικές αναλύσεις 22 Επιπλέον Λειτουργίες Εξόρυξης Δεδομένων Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

23 Οι αποθήκες δεδομένων είναι εξειδικευμένες ΒΔ που μπορούν να αποθηκεύουν δεδομένα από πολλαπλές, ετερογενείς βάσεις, οργανωμένες με κοινό σχήμα και διευκολύνουν τη λήψη αποφάσεων. OLAP (On-Line Analytical Processing) είναι μία τεχνική ανάλυσης που εκτελείται στις ΑΔ. Είναι διερευνητικής φύσης. Πολύ χρήσιμη, αλλά περισσότερο κατάλληλο για επαλήθευση υποθέσεων. ΣΥΜΠΛΗΡΩΜΑΤΙΚΗ διαδικασία της εξόρυξης. Αντίθετα, η εξόρυξη δεδομένων δουλεύει με ένα ημι-αυτόματο τρόπο Και στοχεύει στην εύρεση «κρυφής» γνώσης Οι αποθήκες δεδομένων αποτελούν ένα κατάλληλο πλαίσιο για την εφαρμογή τεχνικών εξόρυξης Εκτελούν τη συλλογή, ολοκλήρωση, καθαρισμό και μετασχηματισμό των δεδομένων 23 Αποθήκες Δεδομένων - OLAP Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

24 Ανάλυση ΒΔ και υποστήριξη αποφάσεων Ανάλυση και management αγορών  Στοχευμένο marketing, customer relation management, ανάλυση καλαθιού αγορών, συνδυασμός πωλήσεων, κατάτμηση αγοράς Ανάλυση και management ρίσκου/κινδύνου  Πρόβλεψη, διατήρηση πελατών, ανάλυση ανταγωνισμού Εντοπισμός Απατών Άλλες εφαρμογές Επιστήμες, εξόρυξη κειμένου (news group, , έγγραφα), ανάλυση πληροφορίας Παγκοσμίου Ιστού. 24 Εξόρυξη Δεδομένων – Δυνατές Εφαρμογές Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

25 Πηγές Δεδομένων: Συναλλαγές πιστωτικών καρτών, καρτών αγορών, εκπτωτικών κουπονιών, παράπονα πελατών, μελέτες συμπεριφοράς, ερωτηματολόγια, κλπ. Στοχευμένο marketing Εύρεση ομάδων από πελάτες που μοιράζονται ίδια χαρακτηριστικά όπως ενδιαφέροντα, εισόδημα, συνήθειες αγορών, κλπ. Καθορισμός προτύπων αγορών στη διάρκεια του χρόνου Διαφορετικές προτιμήσεις σε διαφορετικό χρόνο. Συνδυασμός αγορών Συνάφεια/συσχετισμοί μεταξύ πωλήσεων Προβλέψεις βάσει των πληροφοριών συσχέτισης 25 Ανάλυση και management αγορών (1) Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

26 Προφίλ πελατών Η εξόρυξη δεδομένων μπορεί να απαντήσει στο ερώτημα ποιοι πελάτες αγοράζουν ποια προϊόντα (ομαδοποίηση ή κατηγοριοποίηση). Προσδιορισμός απαιτήσεων πελατών Προσδιορισμός ποια είναι τα καλύτερα προϊόντα για διαφορετικούς πελάτες. Χρήση προβλέψεων για εύρεση παραγόντων προσέλκυσης νέων πελατών. Συνοπτική Πληροφορία Περιληπτικές πολυδιάστατες αναφορές Στατιστική συνοπτική πληροφορία 26 Ανάλυση και management αγορών (2) Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

27 Οικονομικός σχεδιασμός και αξιολόγηση περιουσιακών στοιχείων Ανάλυση και πρόβλεψη εσόδων-εξόδων Ανάλυση διατομής και χρονοσειρών Διαχείριση πόρων: Σύνοψη και σύγκριση πόρων και δαπανών Ανταγωνισμός: Παρακολούθηση ανταγωνιστών και τάσεων αγοράς Ομαδοποίηση πελατών σε κατηγορίες και ειδική τιμολογιακή πολιτική ανά κατηγορία Τιμολογιακή πολιτική σε υψηλά ανταγωνιστική αγορά 27 Επιχειρησιακή ανάλυση και διαχείριση κινδύνου Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

28 Εφαρμογές Χρησιμοποιείται ευρέως σε υγειονομική περίθαλψη, κοινωνικά επιδόματα, λιανικό εμπόριο, τηλεπικοινωνίες, πιστωτικές κάρτες, κλπ. Προσέγγιση Δημιουργία μοντέλου βάσει προηγούμενων στοιχείων απατών και χρήση τεχνολογιών εξόρυξης για εντοπισμό παρόμοιων περιστατικών Παραδείγματα Ασφάλειες αυτοκινήτων: εντοπισμός ομάδων που σκηνοθετούν ατυχήματα ώστε να καρπωθούν τις αποζημιώσεις Ξέπλυμα χρήματος: εντοπισμός ύποπτων χρηματικών συναλλαγών Νοσοκομεία: εντοπισμός επαγγελματιών ασθενών και κυκλωματα γιατρών-υπαλλήλων 28 Εντοπισμός και Διαχείριση Απατών (1) Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

29 Εντοπισμός τηλεφωνικών απατών Μοντέλο τηλεφωνημάτων: προορισμός κλήσης, διάρκεια, ώρα και μέρα, κλπ. Εντοπισμός προτύπων που αποκλίνουν κατά πολύ από το αναμενόμενο. Εμπόριο Ανάλυση συμπεριφοράς προσωπικού Υπάρχουν αναλύσεις που δείχνουν ότι μέχρι και το 38% της μείωσης των πωλήσεων οφείλεται σε μη έντιμους εργαζόμενους. 29 Εντοπισμός και Διαχείριση Απατών (2) Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

30 Σπορ Ανάλυση παιχνιδιού αντιπάλου Αστρονομία JPL - Palomar Observatory: ανακάλυψη 22 νέων quasars Συμπεριφορά στπ διαδίκτυο Η IBM Surf-Aid εφαρμόζει αλγορίθμους εξόρυξης δεδομένων σε logs του διαδικτύου για εντοπισμό επισκέψεων σε σελίδες εμπορικού περιεχομένου με σκοπό να ανακαλύψει προτιμήσεις πελατών, να αναλύσει την αποτελεσματικότητα του Web marketing, της βελτίωσης των ιστοσελίδων, κλπ. 30 Άλλες εφαρμογές Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

31 Μία πρόσφατη δημοσκόπηση 31 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

32 32 Από το Μία πρόσφατη δημοσκόπηση Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

33 Μία πρόσφατη δημοσκόπηση 33 Από το Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

34 Σχεσιακές ΒΔ - ΒΔ συναλλαγών Αποθήκες δεδομένων Προηγμένες ΒΔ Αντικειμενοστραφείς – αντικειμενοσχεσιακές ΒΔ Χωρικές ΒΔ Χρονοσειρές και χρονικά δεδομένα Πολυμεσικές ΒΔ και ΒΔ κειμένου Ετερογενείς και κληρονομημένες ΒΔ Παγκόσμιος Ιστός 34 Σε τι δεδομένα εφαρμόζεται η εξόρυξη δεδομένων Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

35 Τα σχεσιακά ΣΔΒΔ παρέχουν τη δυνατότητα για SQL ερωτήματα Επιλογή χαρακτηριστικών, καθορισμός περιορισμών, κλπ. Δυνατά ερωτήματα: Ποια αντικείμενα πωλήθηκαν τον τελευταίο μήνα; 1 βήμα πιο μακρυά: εφαρμογή συναθροιστικών συναρτήσεων max, avg, κλπ. (π.χ., συνολικές πωλήσεις του έτους ανά κατάστημα) Η 1 η περίπτωση είναι απλή ανάκτηση δεδομένων ενώ η 2 η είναι διερευνητική ερώτηση. Η εξόρυξη δεδομένων σε σχεσιακά ΣΔΒΔ προχωρά ακόμη περισσότερο και εντοπίζει τάσεις, πρότυπα, κλπ. Ανάλυση δεδομένων πελατών για πρόβλεψη ποιοι δεν μπορούν να ανταποκριθούν στις οικον. υποχρεώσεις Εντοπισμός ισχυρών αποκλίσεων στα δεδομένα από τον ένα μήνα στον άλλο 35 …από σχεσιακά ΣΔΒΔ Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

36 Έστω ότι σε μία επιχείρηση θέλουμε ανάλυση οικονομικών μεγεθών ανά κομμάτι – υποκατάστημα -μήνα Δύσκολο εγχείρημα Κάθε υποκατάστημα έχει τη δική του ΒΔ πιθανώς και με διαφορετικό σχήμα Η ΑΔ ξεπερνά αυτά τα προβλήματα Η εξόρυξη χρησιμοποιείται συμπληρωματικά με τις τεχνικές OLAP OLAP: εργαλεία για συνοπτική πληροφορία (summarization), roll-up, drill-down Η εξόρυξη πραγματοποιεί πιο αυτοματοποιημένες αναλύσεις Αλλά και οι 2 είναι χρήσιμες 36 …από Αποθήκες Δεδομένων Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

37 Κάθε εγγραφή αντιστοιχεί σε μία συναλλαγή TID: CID: item1, item2, … όχι 1NF Τυπικά ερωτήματα: «Βρες ό,τι αγόρασε ο Χ» « Σε πόσες συναλλαγές αγοράστηκε το προϊόν Υ» Απλή ανάκτηση Με την εξόρυξη δεδομένων μπορούμε να βρούμε Ποια προϊόντα πωλούνται μαζί 37 …από ΒΔ συναλλαγών Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

38 Object oriented/Object relational ΒΔ: Η εξόρυξη παρέχει εργαλεία για την ανάλυση περίπλοκων δομών και ιεραρχιών Χωρικές ΒΔ: Πρότυπα για χαρακτηριστικά σπιτιών κοντά σε συγκεκριμένες περιοχές Εισοδήματα ως συνάρτηση της απόστασης της κατοικίας από ΕΟΔ Χρονοσειρές: Πρότυπα εξέλιξης και αλλαγή τάσεων 38 …από προχωρημένα ΣΔΒΔ Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

39 Πολυμεσικές ΒΔ και ΒΔ κειμένου: Συσχετισμός των λέξεων κλειδιών, ομαδοποίηση κειμένου (συνδυασμός με IR) Εξαγωγή στοιχείων από πολυμεσικά δεδομένα, συνδυασμοί βάσει ομοιότητας Ετερογενείς και κληρονομημένες ΒΔ: Τα κληρονομημένα συστήματα έχουν ετερογενή δεδομένα σε πολλές ΒΔ. Οι τεχνικές αποθήκευσης και εξόρυξης παρέχουν λύσεις στην ανταλλαγή πληροφορίας παράγοντας υψηλότερου επιπέδου, πιο γενικευμένη πληροφορία 39 …από προχωρημένα ΣΔΒΔ Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

40 WWW: Προσέλκυσε πολύ ενδιαφέρον =>  Ξεχωριστό πεδίο: Web Mining Εξόρυξη περιεχομένου (συναφές με την εξόρυξη από κείμενο) Εξόρυξη συνδέσεων (εντοπισμός δομών) Εξόρυξη χρήσης (εύρεση προτύπων επισκέψεων) 40 …από προχωρημένα ΣΔΒΔ Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

41 H εξόρυξη δεδομένων είναι η εξαγωγή ενδιαφέρουσας (μη-τετριμμένης, υποκρυπτόμενης, άγνωστης προηγουμένως και ενδεχομένως χρήσιμης), πληροφορίας ή προτύπων από δεδομένα σε μεγάλες ΒΔ. Οι αποθήκες δεδομένων είναι εξειδικευμένες ΒΔ που μπορούν να αποθηκεύουν δεδομένα από πολλαπλές, ετερογενείς βάσεις, οργανωμένες με κοινό σχήμα και διευκολύνουν τη λήψη αποφάσεων. Η αποθήκευση και η εξόρυξη είναι συμπληρωματικές. Είναι και οι 2 μέρος της διαδικασίας ανακάλυψης γνώσης μέσα από ΒΔ. Περίληψη 41 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων


Κατέβασμα ppt "1 Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 1: Εισαγωγή"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google