Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 1: Εισαγωγή http://delab.csd.auth.gr/books/grBooks/grBooks.html Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Ευχαριστίες Χρησιμοποιήθηκαν και διαφάνειες από το βιβλίο των Tan, Steinbach, Kumar “Introduction to Data Mining” Επιμέλεια διαφανειών από τον Τάσο Γούναρη, Λέκτορα Τμήματος Πληροφορικής ΑΠΘ Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Κίνητρο: «Ανάγκη είναι η μητέρα της εφεύρεσης» Το πρόβλημα της εκρηκτικής αύξησης των δεδομένων Η ύπαρξη εργαλείων για την αυτόματη συλλογή πληροφοριών και η ωρίμανση των τεχνολογιών Βάσεων Δεδομένων έχουν ως αποτέλεσμα τεράστιες ποσότητες δεδομένων να είναι αποθηκευμένα σε βάσεις δεδομένων, αποθήκες δεδομένων και άλλα μέσα αποθήκευσης πληροφορίας. Πνιγόμαστε από δεδομένα .... αλλά πεινάμε για γνώση! Το μέγεθος της πληροφορίας ξεπερνά τις δυνατότητες της ανθρώπινης κατανόησης και αντίληψης. Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Κίνητρο (1): Υποστήριξη Αποφάσεων Αυτόματη συλλογή πολύ μεγάλων συνόλων δεδομένων Πωλήσεις (bar-code scanners) Παγκόσμιος Ιστός (η-εμπόριο) Τράπεζες Ανάγκες Χρήστη Σωστές Αποφάσεις Καλύτερες Υπηρεσίες Προσαρμογή στις ανάγκες(CRM) Η γνώση και η χρήσιμη πληροφορία είναι κρυμμένη μέσα στα δεδομένα. Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Κίνητρο (2): Επιστήμες Επιστημονικά δεδομένα συλλέγονται με υπερβολικά υψηλούς ρυθμούς (GB-ΤΒ/hour) Δεδομένα δορυφόρων (NASA, ESA) Τηλεσκόπια Βιολογικά Δεδομένων (γωνίδια - μικροσυστοιχίες) LHC Επιστημονικές Προσομοιώσεις Οι παραδοσιακές τεχνικές δεν είναι αποδοτικές Η εξόρυξη δεδομένων βοηθά στην απάντηση πιο θεμελιωδών ερωτημάτων, π.χ.: «ποια είναι η σχέση μεταξύ ακραίων καιρικών φαινομένων και υπερθέρμανσης του πλανήτη;» «ποια γονίδια συσχετίζονται με κάποια αρρώστια;» Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Η ανάπτυξη των τεχνολογιών ΒΔ 1960s: Συλλογή δεδομένων, δημιουργία βάσεων, ιεραρχικό – δικτυακό μοντέλο δεδομένων. 1970s: Σχεσιακό μοντέλο, υλοποιήσεις σχεσιακών ΣΔΒΔ. 1980s: Σχεσιακά ΣΔΒΔ, προηγμένα μοντέλα (extended-relational, OO, deductive, etc.) και ΣΔΒΔ για συγκεκριμένες εφαρμογές (π.χ., χωρικές, χωροχρονικές, επιστημονικές ΒΔ, κ.ο.κ.) 1990s— σήμερα: Εξόρυξη Δεδομένων (Data Mining) και Αποθήκες Δεδομένων (Data Warehouses), Πολυμεσικές ΒΔ, ΒΔ και Παγκόσμιος Ιστός Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Τί είναι εξόρυξη δεδομένων; Εξόρυξη Δεδομένων: Μέρος της διαδικασίας ανακάλυψης γνώσης σε ΒΔ. Εξαγωγή ενδιαφέρουσας (μη-τετριμμένης, υποκρυπτόμενης, άγνωστης προηγουμένως και ενδεχομένως χρήσιμης), πληροφορίας ή προτύπων από δεδομένα σε μεγάλες ΒΔ. Εναλλακτικές ονομασίες: Ανακάλυψη γνώσης σε ΒΔ (knowledge discovery in databases - KDD) Εξαγωγή γνώσης (information extraction) Ανάλυση δεδομένων – προτύπων (pattern-data analysis) Αρχαιολογία δεδομένων (data archaeology), Συγκομιδή πληροφορίας (information harvesting), Επιχειρηματική νοημοσύνη (business intelligence) ... Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Τί ΔΕΝ είναι εξόρυξη δεδομένων; Πολλά από τα αυτοαποκαλούμενα συστήματα εξόρυξης δεδομένων της αγοράς Τεχνικές Συμπερασματική (deductive) επεξεργασία ερωτημάτων Έμπειρα συστήματα Μικρά προγράμματα μηχανικής-στατιστικής μάθησης (machine learning/ statistical programs) Συμπερασματική απάντηση ερωτήσεων Ένα πραγματικό σύστημα Εξόρυξης Δεδομένων πρέπει να είναι σε θέση να διαχειρίζεται τεράστιο όγκο δεδομένων Έμφαση σε αποδοτικότητα και κλιμάκωση - επεκτασιμότητα Running time = O(db size) Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Συμβολή πολλών περιοχών Βάσεις Δεδομένων Στατιστική Εξόρυξη Δεδομένων Μηχανική Μάθηση Απεικόνιση Επιστήμη της Πληροφόρησης Άλλες περιοχές Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Σύντομη Ιστορία της Κοινότητας 1989 IJCAI Workshop on Knowledge Discovery in Databases (Piatetsky-Shapiro) Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991) 1991-1994 Workshops on Knowledge Discovery in Databases Advances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996) 1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD’95-98) Journal of Data Mining and Knowledge Discovery (1997) 1998 ACM SIGKDD, SIGKDD’1999-2001 conferences, and SIGKDD Explorations More conferences on data mining PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, etc. Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Εξόρυξη Δεδομένων και Επιχειρηματική Νοημοσύνη Τελικός χρήστης Αυξανόμενη δυνατότητα υποστήριξης διαδικασιών απόφασης Making Decisions Data Presentation Επιχειρησιακός αναλυτής Visualization Techniques Data Mining Αναλυτής δεδομένων Information Discovery Data Exploration Statistical Analysis, Querying and Reporting Data Warehouses / Data Marts OLAP, MDA DBA Data Sources Paper, Files, Information Providers, Database Systems, OLTP Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Εξόρυξη Δεδομένων: το κέντρο της διαδικασίας ανακάλυψης γνώσης Γνώση Αποτίμηση και Αναπαράσταση Εξόρυξη Δεδομένων Σχετικά Δεδομένα Αποθήκη Δεδομένων Επιλογή Καθαρισμός Δεδομένων Ολοκλήρωση Δεδομένων ΒΔ Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Λειτουργίες Εξόρυξης Δεδομένων Χωρίζονται σε 2 βασικές κατηγορίες Περιγραφικές: χαρακτηρισμός των βασικών ιδιοτήτων των δεδομένων στη βάση. Προγνωστικές: εφαρμογή συμπερασματισμού (inference) στα υπάρχοντα δεδομένα για την παραγωγή προβλέψεων. Βασικές Λειτουργίες που θα ασχοληθούμε: Κατηγοριοποίηση (classification) Ομαδοποίηση (clustering) Εύρεση Κανόνων Συσχέτισης (association rules) Γιατί χρειαζόμαστε πολλές διαφορετικές λειτουργίες; Οι χρήστες συχνά δεν έχουν εκ των προτέρων ποια πληροφορία είναι ενδιαφέρουσα. Ή ενδιαφέρονται για διαφορετικά τύπου πρότυπα (patterns) παράλληλα. Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Παράδειγμα Κατηγοριοποίησης Σύνολο ελέγχου Παράδειγμα Κατηγοριοποίησης Ιδιότητες Class Model Learn Επιστρ ΟικΚατ Εισοδ ΝΑΙ ΟΧΙ Ναι Οχι Έγγαμος Άγαμος Διαζευγ < 80K >= 80K Σύνολο εκμάθησης Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Παράδειγμα Εφαρμογής Κατηγοριοποίησης (1) Targeting No targeting Marketing Στόχευση πελατών Δεδομένα από πελάτες 2 κατηγορίες {buyer, non-buyer} Δεδομένα: δημογραφικά, ερωτηματολόγια Δημιουργία Μοντέλου Ταξινόμηση πελατών Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Παράδειγμα Εφαρμογής Κατηγοριοποίησης(2) Πρώιμος Αστρονομία (Sky Survey Cataloging) Ταξινόμηση ουρανίων σωμάτων (αστέρας ή γαλαξίας σε κάποια φάση) Εξαγωγή δεδομένων από εικόνα (π.χ., χροιά χρώματος hue, ιστογράμματα, κ.ο.κ.) επιτυχία: με αυτή τη μέθοδο έχουν ανακαλυφθεί πολλά quasars! Ενδιάμεσος Ύστερος Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Ομαδοποίηση Δεν υπάρχει το χαρακτηριστικό κλάσης – κατηγορίας. Διαχωρισμός σε ομάδες με τον καλύτερο τρόπο. Ελαχιστοποίηση των αποστάσεων μέσα στην ομάδα Μεγιστοποίηση των αποστάσεων μεταξύ των ομάδων Ομαδοποίηση στον 3-Δ Ευκλίδειο χώρο Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Εφαρμογή Ομαδοποίησης (1) Κατάτμηση Αγοράς: Διαχωρισμός πελατών σε ομάδες με διαφορετική αντιμετώπιση Δεδομένα: γεωγραφικά, δημογραφικά, κλπ. Αξιολόγηση κάθε ομάδας με σύγκριση με τις υπόλοιπες Ποιότητα Τιμή Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Εφαρμογή Ομαδοποίησης (2) Οικολογία: Εντοπισμός φωλιών πουλιών Δεδομένα: χωρικά Κάθε ομάδα (συστάδα) αξιολογείται αναφορικά με χαρακτηριστικά όπως απόσταση από νερό, κ.ο.κ. Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Κανόνες συσχέτισης - Παράδειγμα Είσοδος: δεδομένα συναλλαγών – αγορασμένα αντικείμενα Εύρεση κανόνων που εκφράζουν τις συσχετίσεις μεταξύ της ύπαρξης αντικειμένων κατά τις συναλλαγές Κανόνες: {Αλεύρι} --> {Γάλα} p(Γάλα|Αλεύρι)=1 {Γάλα} --> {Αλεύρι} p(Αλεύρι |Γάλα)=0.5 {Μπύρα, Ψωμί} --> {Πάνες} p(Πάνες|Μπύρα, Ψωμί)=0.66 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Άλλη εφαρμογή κανόνων συσχέτισης Άλλη εφαρμογή κανόνων συσχέτισης Βιολογία: δεδομένα μικροσυστοιχιών Αλληλουχίες πειραμάτων με πολλαπλά γονίδια κάθε φορά. Μετρήσεις:< 0 ή > 0 σε σχέση με 2 βασικές μορφές λευχαιμίας (ALL, AML) Γονίδια που εμφανίζονται ταυτόχρονα => αλληλεπίδραση {disease} => { gene A gene B gene C } Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Επιπλέον Λειτουργίες Εξόρυξης Δεδομένων Ανάλυση ακραίων δεδομένων (Outlier analysis) Ακραία δεδομένα - Outlier: δεδομένα που δεν ακολουθούν τη γενική κατανομή και δεν συμφωνούν με τη γενική συμπεριφορά των υπολοίπων δεδομένων. Μπορούν να θεωρηθούν ως θόρυβος ή εξαιρέσεις. ΑΛΛΑ είναι πολύ χρήσιμα στον εντοπισμό απατών και στην ανάλυση σπανίων φαινομένων. Ανάλυση τάσεων και εξέλιξης Τάσεις και αποκλίσεις: ανάλυση παλινδρόμησης (regression) Ανάλυση βάσει ομοιότητας Ανάλυση περιοδικότητας, Εξόρυξη Ακολουθιακών Προτύπων Άλλες λειτουργίες βασίζονται σε πρότυπα ή στατιστικές αναλύσεις Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Αποθήκες Δεδομένων - OLAP Οι αποθήκες δεδομένων είναι εξειδικευμένες ΒΔ που μπορούν να αποθηκεύουν δεδομένα από πολλαπλές, ετερογενείς βάσεις, οργανωμένες με κοινό σχήμα και διευκολύνουν τη λήψη αποφάσεων. OLAP (On-Line Analytical Processing) είναι μία τεχνική ανάλυσης που εκτελείται στις ΑΔ. Είναι διερευνητικής φύσης. Πολύ χρήσιμη, αλλά περισσότερο κατάλληλο για επαλήθευση υποθέσεων. ΣΥΜΠΛΗΡΩΜΑΤΙΚΗ διαδικασία της εξόρυξης. Αντίθετα, η εξόρυξη δεδομένων δουλεύει με ένα ημι-αυτόματο τρόπο Και στοχεύει στην εύρεση «κρυφής» γνώσης Οι αποθήκες δεδομένων αποτελούν ένα κατάλληλο πλαίσιο για την εφαρμογή τεχνικών εξόρυξης Εκτελούν τη συλλογή, ολοκλήρωση, καθαρισμό και μετασχηματισμό των δεδομένων Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Εξόρυξη Δεδομένων – Δυνατές Εφαρμογές Ανάλυση ΒΔ και υποστήριξη αποφάσεων Ανάλυση και management αγορών Στοχευμένο marketing, customer relation management, ανάλυση καλαθιού αγορών, συνδυασμός πωλήσεων, κατάτμηση αγοράς Ανάλυση και management ρίσκου/κινδύνου Πρόβλεψη, διατήρηση πελατών, ανάλυση ανταγωνισμού Εντοπισμός Απατών Άλλες εφαρμογές Επιστήμες, εξόρυξη κειμένου (news group, email, έγγραφα), ανάλυση πληροφορίας Παγκοσμίου Ιστού. Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Ανάλυση και management αγορών (1) Πηγές Δεδομένων: Συναλλαγές πιστωτικών καρτών, καρτών αγορών, εκπτωτικών κουπονιών, παράπονα πελατών, μελέτες συμπεριφοράς, ερωτηματολόγια, κλπ. Στοχευμένο marketing Εύρεση ομάδων από πελάτες που μοιράζονται ίδια χαρακτηριστικά όπως ενδιαφέροντα, εισόδημα, συνήθειες αγορών, κλπ. Καθορισμός προτύπων αγορών στη διάρκεια του χρόνου Διαφορετικές προτιμήσεις σε διαφορετικό χρόνο. Συνδυασμός αγορών Συνάφεια/συσχετισμοί μεταξύ πωλήσεων Προβλέψεις βάσει των πληροφοριών συσχέτισης Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Ανάλυση και management αγορών (2) Προφίλ πελατών Η εξόρυξη δεδομένων μπορεί να απαντήσει στο ερώτημα ποιοι πελάτες αγοράζουν ποια προϊόντα (ομαδοποίηση ή κατηγοριοποίηση). Προσδιορισμός απαιτήσεων πελατών Προσδιορισμός ποια είναι τα καλύτερα προϊόντα για διαφορετικούς πελάτες. Χρήση προβλέψεων για εύρεση παραγόντων προσέλκυσης νέων πελατών. Συνοπτική Πληροφορία Περιληπτικές πολυδιάστατες αναφορές Στατιστική συνοπτική πληροφορία Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Επιχειρησιακή ανάλυση και διαχείριση κινδύνου Οικονομικός σχεδιασμός και αξιολόγηση περιουσιακών στοιχείων Ανάλυση και πρόβλεψη εσόδων-εξόδων Ανάλυση διατομής και χρονοσειρών Διαχείριση πόρων: Σύνοψη και σύγκριση πόρων και δαπανών Ανταγωνισμός: Παρακολούθηση ανταγωνιστών και τάσεων αγοράς Ομαδοποίηση πελατών σε κατηγορίες και ειδική τιμολογιακή πολιτική ανά κατηγορία Τιμολογιακή πολιτική σε υψηλά ανταγωνιστική αγορά Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Εντοπισμός και Διαχείριση Απατών (1) Εφαρμογές Χρησιμοποιείται ευρέως σε υγειονομική περίθαλψη, κοινωνικά επιδόματα, λιανικό εμπόριο, τηλεπικοινωνίες, πιστωτικές κάρτες, κλπ. Προσέγγιση Δημιουργία μοντέλου βάσει προηγούμενων στοιχείων απατών και χρήση τεχνολογιών εξόρυξης για εντοπισμό παρόμοιων περιστατικών Παραδείγματα Ασφάλειες αυτοκινήτων: εντοπισμός ομάδων που σκηνοθετούν ατυχήματα ώστε να καρπωθούν τις αποζημιώσεις Ξέπλυμα χρήματος: εντοπισμός ύποπτων χρηματικών συναλλαγών Νοσοκομεία: εντοπισμός επαγγελματιών ασθενών και κυκλωματα γιατρών-υπαλλήλων Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Εντοπισμός και Διαχείριση Απατών (2) Εντοπισμός τηλεφωνικών απατών Μοντέλο τηλεφωνημάτων: προορισμός κλήσης, διάρκεια, ώρα και μέρα, κλπ. Εντοπισμός προτύπων που αποκλίνουν κατά πολύ από το αναμενόμενο. Εμπόριο Ανάλυση συμπεριφοράς προσωπικού Υπάρχουν αναλύσεις που δείχνουν ότι μέχρι και το 38% της μείωσης των πωλήσεων οφείλεται σε μη έντιμους εργαζόμενους. Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Άλλες εφαρμογές Σπορ Αστρονομία Συμπεριφορά στπ διαδίκτυο Ανάλυση παιχνιδιού αντιπάλου Αστρονομία JPL - Palomar Observatory: ανακάλυψη 22 νέων quasars Συμπεριφορά στπ διαδίκτυο Η IBM Surf-Aid εφαρμόζει αλγορίθμους εξόρυξης δεδομένων σε logs του διαδικτύου για εντοπισμό επισκέψεων σε σελίδες εμπορικού περιεχομένου με σκοπό να ανακαλύψει προτιμήσεις πελατών, να αναλύσει την αποτελεσματικότητα του Web marketing, της βελτίωσης των ιστοσελίδων, κλπ. Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Μία πρόσφατη δημοσκόπηση http://www.kdnuggets.com/ Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Μία πρόσφατη δημοσκόπηση Από το http://www.kdnuggets.com/ Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Μία πρόσφατη δημοσκόπηση Από το http://www.kdnuggets.com/ Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Σε τι δεδομένα εφαρμόζεται η εξόρυξη δεδομένων Σχεσιακές ΒΔ - ΒΔ συναλλαγών Αποθήκες δεδομένων Προηγμένες ΒΔ Αντικειμενοστραφείς – αντικειμενοσχεσιακές ΒΔ Χωρικές ΒΔ Χρονοσειρές και χρονικά δεδομένα Πολυμεσικές ΒΔ και ΒΔ κειμένου Ετερογενείς και κληρονομημένες ΒΔ Παγκόσμιος Ιστός Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
…από σχεσιακά ΣΔΒΔ Τα σχεσιακά ΣΔΒΔ παρέχουν τη δυνατότητα για SQL ερωτήματα Επιλογή χαρακτηριστικών, καθορισμός περιορισμών, κλπ. Δυνατά ερωτήματα: Ποια αντικείμενα πωλήθηκαν τον τελευταίο μήνα; 1 βήμα πιο μακρυά: εφαρμογή συναθροιστικών συναρτήσεων max, avg, κλπ. (π.χ., συνολικές πωλήσεις του έτους ανά κατάστημα) Η 1η περίπτωση είναι απλή ανάκτηση δεδομένων ενώ η 2η είναι διερευνητική ερώτηση. Η εξόρυξη δεδομένων σε σχεσιακά ΣΔΒΔ προχωρά ακόμη περισσότερο και εντοπίζει τάσεις, πρότυπα, κλπ. Ανάλυση δεδομένων πελατών για πρόβλεψη ποιοι δεν μπορούν να ανταποκριθούν στις οικον. υποχρεώσεις Εντοπισμός ισχυρών αποκλίσεων στα δεδομένα από τον ένα μήνα στον άλλο Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
…από Αποθήκες Δεδομένων Έστω ότι σε μία επιχείρηση θέλουμε ανάλυση οικονομικών μεγεθών ανά κομμάτι – υποκατάστημα -μήνα Δύσκολο εγχείρημα Κάθε υποκατάστημα έχει τη δική του ΒΔ πιθανώς και με διαφορετικό σχήμα Η ΑΔ ξεπερνά αυτά τα προβλήματα Η εξόρυξη χρησιμοποιείται συμπληρωματικά με τις τεχνικές OLAP OLAP: εργαλεία για συνοπτική πληροφορία (summarization), roll-up, drill-down Η εξόρυξη πραγματοποιεί πιο αυτοματοποιημένες αναλύσεις Αλλά και οι 2 είναι χρήσιμες Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
…από ΒΔ συναλλαγών Κάθε εγγραφή αντιστοιχεί σε μία συναλλαγή TID: CID: item1, item2, … όχι 1NF Τυπικά ερωτήματα: «Βρες ό,τι αγόρασε ο Χ» « Σε πόσες συναλλαγές αγοράστηκε το προϊόν Υ» Απλή ανάκτηση Με την εξόρυξη δεδομένων μπορούμε να βρούμε Ποια προϊόντα πωλούνται μαζί Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
…από προχωρημένα ΣΔΒΔ Object oriented/Object relational ΒΔ: Η εξόρυξη παρέχει εργαλεία για την ανάλυση περίπλοκων δομών και ιεραρχιών Χωρικές ΒΔ: Πρότυπα για χαρακτηριστικά σπιτιών κοντά σε συγκεκριμένες περιοχές Εισοδήματα ως συνάρτηση της απόστασης της κατοικίας από ΕΟΔ Χρονοσειρές: Πρότυπα εξέλιξης και αλλαγή τάσεων Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
…από προχωρημένα ΣΔΒΔ Πολυμεσικές ΒΔ και ΒΔ κειμένου: Συσχετισμός των λέξεων κλειδιών, ομαδοποίηση κειμένου (συνδυασμός με IR) Εξαγωγή στοιχείων από πολυμεσικά δεδομένα, συνδυασμοί βάσει ομοιότητας Ετερογενείς και κληρονομημένες ΒΔ: Τα κληρονομημένα συστήματα έχουν ετερογενή δεδομένα σε πολλές ΒΔ. Οι τεχνικές αποθήκευσης και εξόρυξης παρέχουν λύσεις στην ανταλλαγή πληροφορίας παράγοντας υψηλότερου επιπέδου, πιο γενικευμένη πληροφορία Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
…από προχωρημένα ΣΔΒΔ WWW: Προσέλκυσε πολύ ενδιαφέρον => Ξεχωριστό πεδίο: Web Mining Εξόρυξη περιεχομένου (συναφές με την εξόρυξη από κείμενο) Εξόρυξη συνδέσεων (εντοπισμός δομών) Εξόρυξη χρήσης (εύρεση προτύπων επισκέψεων) Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων
Περίληψη H εξόρυξη δεδομένων είναι η εξαγωγή ενδιαφέρουσας (μη-τετριμμένης, υποκρυπτόμενης, άγνωστης προηγουμένως και ενδεχομένως χρήσιμης), πληροφορίας ή προτύπων από δεδομένα σε μεγάλες ΒΔ. Οι αποθήκες δεδομένων είναι εξειδικευμένες ΒΔ που μπορούν να αποθηκεύουν δεδομένα από πολλαπλές, ετερογενείς βάσεις, οργανωμένες με κοινό σχήμα και διευκολύνουν τη λήψη αποφάσεων. Η αποθήκευση και η εξόρυξη είναι συμπληρωματικές. Είναι και οι 2 μέρος της διαδικασίας ανακάλυψης γνώσης μέσα από ΒΔ. Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων