Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Δρ. Αλέξανδρος Βακαλούδης.  Εξόρυξη δεδομένων (Data Mining)  Association Rules  Clustering  Classification  Στάδια για εξόρυξη δεδομένων  Επανάληψη.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Δρ. Αλέξανδρος Βακαλούδης.  Εξόρυξη δεδομένων (Data Mining)  Association Rules  Clustering  Classification  Στάδια για εξόρυξη δεδομένων  Επανάληψη."— Μεταγράφημα παρουσίασης:

1 Δρ. Αλέξανδρος Βακαλούδης

2  Εξόρυξη δεδομένων (Data Mining)  Association Rules  Clustering  Classification  Στάδια για εξόρυξη δεδομένων  Επανάληψη

3  Όπως έχουμε τονίσει, ο όγκος δεδομένων στις βάσεις είναι πλέον τεράστιος  Άρα, τεράστια και η κρυμμένη πληροφορία  Ποια η διαφορά μεταξυ δεδομένων και πληροφορίας  Δεδομένο Θερμοκρασία 18 C  Πληροφορία Θερμοκρασία 18 C στις Σέρρες 20/12/2011

4  Ένα μέρος της πληροφορίας μπορεί να εξαχθεί με ερωτήματα SQL  Δώσε μου την μέση αύξηση μισθού μέσα στο 2011  Ποια μετοχή είχε τη μεγαλύτερη διακύμανση μέσα στο τελευταίο μήνα  Δεν είναι όμως αρκετό  Γιατί πρέπει να ξέρουμε τι να ρωτήσουμε  Παίρνουμε δηλαδή απαντησεις για ερωτήματα τα οποία κάνουμε  Αν δε ρωτήσουμε, δε μαθαίνουμε !

5  Υπάρχει μία τεχνολογία γνωστή ως data mining ( εξόρυξη δεδομένων ή εξόρυξη πληροφορίας )  Σκοπός της είναι να εξαχθεί πληροφορία αυτόματα  Χωρίς δηλαδή να ζητήσουμε εμείς συγκεκριμένα

6  Classification ( κατηγοριοποίηση )  Association Rules ( Κανόνες συσχέτισης )  Clustering( ομαδοποίηση )

7  Συλλογή δεδομένων με ρυθμούς (GB/ ώρα )  Αισθητήρες σε δορυφόρους  τηλεσκόπια  Επιστημονικές προσομοιώσεις

8 l Τε έιναι Data Mining? – Ορισμένα ονόματα είναι πιο συχνά σε συγκεκριμένες περιοχές – Ομαδοποίησε τα δεδομένα τα οποία επσιτρέφονται από μία μηχανή αναζήτησης l Τι δεν είναι Data Mining? – Βρες νούμερο τηλεφώνου – Ψαξε στο google για τη λεξη “Amazon”

9  Με δεδομένο ένα σύνολο δεδομένων ( training set )  Το καθενα έχει ιδιότητες ( attributes ) μία εκ των οποίων είναι η κλάση ( class.)  Να βρεθεί μία συνάρτηση η οποία να παράγει την κλάση παίρνοντας ως παραμέτρους τις υπόλοιπες ιδιότητες

10  Πρόβλεψη καλοηθών ή κακοηθών όγκων  Αναλογα με διάφορες μετρήσεις  Κατηγοροποίηση συναλλαγών με πιστωτική κάρτα  Ως νόμιμες  ύποπτες  Κατηγοριοποίηση ειδήσεων ως οικονομικές, αθλητικά κτλ

11  Decision Tree based Methods  Rule-based Methods  Memory based reasoning  Neural Networks  Naïve Bayes and Bayesian Belief Networks  Support Vector Machines

12

13  Association Rules  Ευρεση συσχέστισης μεταξύ παραμέτρων  Οσοι αγοράζουν κασέρι, αγοράζουν και σαλάμι  Η ακόμη καλύτερα  Το 80% όσων αγοράζουν κασέρι, αγοράζουν και σαλάμι Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Beer} Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Beer}

14  Supermarkets.  Σκοπός : Ποια προιοντα αγοράζονται μαζί  Το κλασσικό παράδειγμα  Ένα ο πελάτης αγοράζει πάνες και γάλα, μάλλον θα αγοράσει και μπύρα :  Ένας κανόνας οοποίος ισχύει αλλά δεν μπορεί να το προβλέψει ( λογικός ) ανθρωπος

15

16 ιδιότητες οι οποίες μεταβάλλονται στο χρόνο Ποιες συσχετισεις υπάρχουν με άλλες ιδιότητεςανάλογα με τη μεταβολή Παράδειγμα Αν σήμερα αγορασθούν ρακετα και παπούτσια τεννις, σε μία εβδομαδα θα αγορασθόύν μπάλλες τεννις

17  Προετοιμασία δεδομένων  Κοινοί τύποι δεδομένων  Διαχείριση κοινών τιμών  Φιλτράρισμα ακραίων τιμών  Πληθος κανόνων  Τα εργαλεία παράγουν πολλούς κανόνες  Στη μεγάλη πλειοψηφία οφθαλμοφανείς  Άρα απαιτείται εξόρυξη στην εξόρυξη  Ή φιλτραρισμα

18  Δύο πολύ χρησιμες παράμετροι  Confidence ( Βεβαιότητα )  Ποσοστό ίσχυος του κανόνα π. χ. 80%  Support ( Υποστήριξη )  Από πόσες τιμές επί του συνόλου δεδομένων βγήκε ο κανόνας  Άλλο ½ και άλλο 500/1000  Συνήθως στα εργαλεία φιλτράρουμε τους κανόνες  Ζητούμε δηλαδή κανόνες με υψήλη βεβαιότητα και υποστήριξη

19  Με δεδομένα τα οποία έχουν ιδιότητες, να βρεθούν ομοιότητες ανάμεσα στις τιμές των δεδομένων

20 xClustering Με βάση ευκλείδια γεωμετρία και απόσταση

21  Αναγνώριση προφίλ πελατών :  Σκοπός : Να αναγνωρισθούν διάφορα προφίλ πλεατών ώστε να δημιουργηθεί κάταλληλη διαφημιστιή καμπάνια  Π. χ.  Προφίλ 1 νέος ο οποίος ψωνίζει κάθε Σάββατο, συνήθως μπύρες και κάνει λογαριασμό 60-80 ευρώ  Προφίλ 2 Γιαγια η οποία ψωνίζει ψωμί και γιαούρτια κάθε πρωί πριν τις 10

22  Ανίχνευση αντιγραφών σε κείμενα :  Σκοπός Να βρεθούν ομοιότητες μεταξύ πολλών κειμένων  Ή ενός κειμένου και μίας συλλογής κειμένων

23 23  Διαφήμιση  Βιοτεχνολογία  Σχέσεις πελατών  Ανιχνευση απάτης  Ηλεκτρονικό εμπόριο  Υγεία  Επενδύσεις, Τράπεζες  Ελεγχος παραγωγικής διαδικασίας  Τηλεπικοινωνίες  Web

24 24  Οι αρχικές μηχανές αναζήτησεις, έψαχναν για λέξεισ κλειδιά στο κείμενο της σελίδας  Το Google έχει επιτυχεί λόγω της χρήσης τεχνικών εξόρυξης πληροφορίας  Οι ιδρυτές Sergey Brin, Larry Page σπόυδαζαν στο Stanford databases και data mining

25  Σχεσιακές Βάσεις  Αντικειμενοστραφείς βάσεις  XML αρχεία  Αρχεία ημερολογίου (log files)


Κατέβασμα ppt "Δρ. Αλέξανδρος Βακαλούδης.  Εξόρυξη δεδομένων (Data Mining)  Association Rules  Clustering  Classification  Στάδια για εξόρυξη δεδομένων  Επανάληψη."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google