Δρ. Αλέξανδρος Βακαλούδης.  Εξόρυξη δεδομένων (Data Mining)  Association Rules  Clustering  Classification  Στάδια για εξόρυξη δεδομένων  Επανάληψη.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
“Recommendation systems” Σπύρος Συρμακέσης, Επίκουρος Καθηγητής
Advertisements

Antonopoulos.com.gr Google Adwords Campaign. Η μηχανή αναζήτησης Google είναι η No1 σε επισκέψεις ιστοσελίδα παγκοσμίως και το πλέον δημοφιλές εργαλείο.
Ένα εργαλείο σε Java για την ανάκτηση πληροφοριών και τον εντοπισμό ομοιοτήτων σε ακαδημαϊκές εκδόσεις με τη χρήση τεχνικών εξόρυξης δεδομένων Δημήτρης.
Indexing.
Βάσεις Δεδομένων ΕΙΣΑΓΩΓΗ.
Κεφάλαιο 7: Ηλεκτρονικό Εμπόριο (Η.Ε) 7.1 Η έννοια και το περιεχόμενο του Η.Ε 7.2 Τα επίπεδα διάκρισης του Η.Ε 7.3 Οι επιπτώσεις του Η.Ε στον χώρο των.
ΣΥΝΕΝΤΕΥΞΗ.
ΚΑΙΝΟΤΟΜΙΑ & ΕΠΙΧΕΙΡΗΜΑΤΙΚΗ ΙΔΕΑ
JToNic H φυσική λύση για το πρόβλημα της ψηφιοποίησης και της τεκμηρίωσης στην εταιρεία σας... (εισάγεται από την Ιταλία)
Τ.Ε.Ι. ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ Επιβλέπων καθηγητής: Βακαλούδης Αλέξανδρος Σπουδαστής: Τσιαουσίδης Δημήτριος.
Copyright ©: SAMSUNG & Samsung Hope for Youth. Με επιφύλαξη κάθε νόμιμου δικαιώματος Εκπαιδευτικό υλικό Λογισμικό: Εύρεση βοήθειας Επίπεδο γνώσεων:
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Ανάκτηση Πληροφορίας Το Boolean μοντέλο.
1 Συλλογικοί Κατάλογοι & Διαδίκτυο Μιχάλης Σφακάκης.
Μηχανική Μάθηση και Εξόρυξη Γνώσης
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Αναγνώριση Προτύπων.
Εφαρμογές Πληροφορικής
Copyright ©: SAMSUNG & Samsung Hope for Youth. Με επιφύλαξη κάθε νόμιμου δικαιώματος Εκπαιδευτικό υλικό Το Internet: Εύρεση πληροφοριών Επίπεδο.
Δεδομένα, Πληροφορίες και Ηλεκτρονικοί Υπολογιστές
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
ΕΝΟΤΗΤΑ 4 – Κεφάλαιο 12: Ο Παγκόσμιος Ιστός – Εισαγωγή στην έννοια του Υπερκειμένου Το 1989 ο Τιμ Μπέρνερς μέλος του κέντρου cern επινόησε τον παγκόσμιο.
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
Οργάνωση πληροφοριών Ευρετηρίαση Μέρος Β Σχεδιασμός ευρετηρίων.
ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
Ποιοτικοί Δείκτες Υπηρεσιών Βιβλιοθηκών και Διαχείριση Πόρων: Μεθοδολογίες Ανάλυσης και στρατηγικός σχεδιασμός. Αριστείδης Μελετίου Πολυτεχνείο Κρήτης,
Project Β’ Λυκείου Καταναλώνω Έξυπνα στο σπίτι.
Πανόπουλος Κώστας Διευθυντής Ανάπτυξης Εφαρμογών.
Ηλεκτρονικές συναλλαγές. Το θέμα που μας ανατέθηκε στο μάθημα του Project είναι οι ηλεκτρονικές συναλλαγές. Μάθαμε τι είναι και ότι μας προσφέρει ποικίλες.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
ΕΝΟΤΗΤΑ 1 – Κεφάλαιο 1: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ
Λύνοντας σταυρόλεξο μαθαίνουμε για την ασφάλεια στο Διαδίκτυο
Ανάκτηση Πληροφορίας 1 Multimedia IR Multimedia IR Δεικτοδότηση και Αναζήτηση.
ΑΠΟΘΗΚΕΣ ΚΑΙ ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Δρ. Παναγιώτης Συμεωνίδης
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ. Εισαγωγή Εξόρυξη Δεδομένων: Ακ. Έτος ΕΙΣΑΓΩΓΗ3 Εισαγωγή Τι είναι η Εξόρυξη Δεδομένων (με δυο λόγια) Αποδοτικές τεχνικές για.
ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ
ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΣΩΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ.
ΑΝΩΤΑΤΟ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ Τμήμα Μηχανικών Πληροφορικής ΤΕ ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Κατασκευή Ιστοσελίδας Χρηματοοικονομικού.
ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ: ΤΑΞΙΝΟΜΗΣΗ ΨΗΦΙΑΚΩΝ ΕΙΚΟΝΩΝ ΜΕ ΧΩΡΙΚΗ-ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΑΝΤΙΣΤΟΙΧΗΣΗ ΣΠΟΥΔΑΣΤΗΣ : ΦΩΤΙΑΔΗΣ ΚΥΡΙΑΚΟΣ Α.Μ ΕΠΙΒΛΕΠΩΝ : Δρ. ΝΙΚΟΛΑΙΔΗΣ.
1 Διάλεξη 11 η (2015 – 16) Τεχνικές άμεσης επικοινωνίας και Ψηφιακό Μάρκετινγκ.
Ασκήσεις WEKA Δέντρα αποφάσεων.
Ηλεκτρονικό Επιχειρείν
ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ Ανδρέου Βασίλης.
ΕΝΟΤΗΤΑ 1 – Κεφάλαιο 1: Ο Υπολογιστής και η Επεξεργασία των Δεδομένων
ΠΑΡΑΛΛΗΛΑ ΚΑΙ ΣΥΓΚΡΙΣΙΜΑ ΣΩΜΑΤΑ ΚΕΙΜΕΝΩΝ
Διαδικασίες Markov.
Ασκήσεις WEKA Κανόνες συσχέτισης.
MOODLE- assessment tools
ΕΝΟΤΗΤΑ 1 – Κεφάλαιο 1: Ο Υπολογιστής και η Επεξεργασία των Δεδομένων
ΕΝΟΤΗΤΑ 1 – Κεφάλαιο 1: ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΚΗΣ
ΕΝΟΤΗΤΑ 1 – Κεφάλαιο 1: Ο Υπολογιστής και η Επεξεργασία των Δεδομένων
ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ''ΤΑ ΠΛΗΡΟΦΟΡΙΑΚΑ ΣΥΣΤΗΜΑΤΑ ΣΤΙΣ ΜΙΚΡΟΜΕΣΑΙΕΣ ΕΠΙΧΕΙΡΗΣΕΙΣ – Η ΠΕΡΙΠΤΩΣΗ.
ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Μηχανικών Πληροφορικής ΤΕ
ΔΕΔΟΜΕΝΑ – ΠΛΗΡΟΦΟΡΙΕΣ ΠΛΗΡΟΦΟΡΙΚΗ
1ο ΓΕΛ ΑΜΑΛΙΑΔΑΣ Τμήμα: Α4 Σχ. Έτος: Β΄τετράμηνο
Κάποιες βασικές έννοιες στη μεθοδολογία της ψυχολογίας
Ψηφιακη διαφημιση Παρουσιαση μαθηματοσ
ΕΝΟΤΗΤΑ 1 – Κεφάλαιο 1: Ο Υπολογιστής και η Επεξεργασία των Δεδομένων
Σχεσιακεσ βασεισ δεδομενων
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ
DATA MINING ΕΞΑΜΗΝΙΑΙΟ ΘΕΜΑ ΣΤΟ ΜΑΘΗΜΑ ‘ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ ΧΩΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΘΕΩΡΙΑ ΣΥΣΤΗΜΑΤΩΝ’
Ερωτήματα Επιλογής σε ACCESS
Αναζήτηση στο Διαδίκτυο
Στα διάφορα επαγγέλματα
ΕΝΟΤΗΤΑ 1 – Κεφάλαιο 1: Ο Υπολογιστής και η Επεξεργασία των Δεδομένων
ΕΝΟΤΗΤΑ 1 – Κεφάλαιο 1: Ο Υπολογιστής και η Επεξεργασία των Δεδομένων
Μεταγράφημα παρουσίασης:

Δρ. Αλέξανδρος Βακαλούδης

 Εξόρυξη δεδομένων (Data Mining)  Association Rules  Clustering  Classification  Στάδια για εξόρυξη δεδομένων  Επανάληψη

 Όπως έχουμε τονίσει, ο όγκος δεδομένων στις βάσεις είναι πλέον τεράστιος  Άρα, τεράστια και η κρυμμένη πληροφορία  Ποια η διαφορά μεταξυ δεδομένων και πληροφορίας  Δεδομένο Θερμοκρασία 18 C  Πληροφορία Θερμοκρασία 18 C στις Σέρρες 20/12/2011

 Ένα μέρος της πληροφορίας μπορεί να εξαχθεί με ερωτήματα SQL  Δώσε μου την μέση αύξηση μισθού μέσα στο 2011  Ποια μετοχή είχε τη μεγαλύτερη διακύμανση μέσα στο τελευταίο μήνα  Δεν είναι όμως αρκετό  Γιατί πρέπει να ξέρουμε τι να ρωτήσουμε  Παίρνουμε δηλαδή απαντησεις για ερωτήματα τα οποία κάνουμε  Αν δε ρωτήσουμε, δε μαθαίνουμε !

 Υπάρχει μία τεχνολογία γνωστή ως data mining ( εξόρυξη δεδομένων ή εξόρυξη πληροφορίας )  Σκοπός της είναι να εξαχθεί πληροφορία αυτόματα  Χωρίς δηλαδή να ζητήσουμε εμείς συγκεκριμένα

 Classification ( κατηγοριοποίηση )  Association Rules ( Κανόνες συσχέτισης )  Clustering( ομαδοποίηση )

 Συλλογή δεδομένων με ρυθμούς (GB/ ώρα )  Αισθητήρες σε δορυφόρους  τηλεσκόπια  Επιστημονικές προσομοιώσεις

l Τε έιναι Data Mining? – Ορισμένα ονόματα είναι πιο συχνά σε συγκεκριμένες περιοχές – Ομαδοποίησε τα δεδομένα τα οποία επσιτρέφονται από μία μηχανή αναζήτησης l Τι δεν είναι Data Mining? – Βρες νούμερο τηλεφώνου – Ψαξε στο google για τη λεξη “Amazon”

 Με δεδομένο ένα σύνολο δεδομένων ( training set )  Το καθενα έχει ιδιότητες ( attributes ) μία εκ των οποίων είναι η κλάση ( class.)  Να βρεθεί μία συνάρτηση η οποία να παράγει την κλάση παίρνοντας ως παραμέτρους τις υπόλοιπες ιδιότητες

 Πρόβλεψη καλοηθών ή κακοηθών όγκων  Αναλογα με διάφορες μετρήσεις  Κατηγοροποίηση συναλλαγών με πιστωτική κάρτα  Ως νόμιμες  ύποπτες  Κατηγοριοποίηση ειδήσεων ως οικονομικές, αθλητικά κτλ

 Decision Tree based Methods  Rule-based Methods  Memory based reasoning  Neural Networks  Naïve Bayes and Bayesian Belief Networks  Support Vector Machines

 Association Rules  Ευρεση συσχέστισης μεταξύ παραμέτρων  Οσοι αγοράζουν κασέρι, αγοράζουν και σαλάμι  Η ακόμη καλύτερα  Το 80% όσων αγοράζουν κασέρι, αγοράζουν και σαλάμι Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Beer} Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Beer}

 Supermarkets.  Σκοπός : Ποια προιοντα αγοράζονται μαζί  Το κλασσικό παράδειγμα  Ένα ο πελάτης αγοράζει πάνες και γάλα, μάλλον θα αγοράσει και μπύρα :  Ένας κανόνας οοποίος ισχύει αλλά δεν μπορεί να το προβλέψει ( λογικός ) ανθρωπος

ιδιότητες οι οποίες μεταβάλλονται στο χρόνο Ποιες συσχετισεις υπάρχουν με άλλες ιδιότητεςανάλογα με τη μεταβολή Παράδειγμα Αν σήμερα αγορασθούν ρακετα και παπούτσια τεννις, σε μία εβδομαδα θα αγορασθόύν μπάλλες τεννις

 Προετοιμασία δεδομένων  Κοινοί τύποι δεδομένων  Διαχείριση κοινών τιμών  Φιλτράρισμα ακραίων τιμών  Πληθος κανόνων  Τα εργαλεία παράγουν πολλούς κανόνες  Στη μεγάλη πλειοψηφία οφθαλμοφανείς  Άρα απαιτείται εξόρυξη στην εξόρυξη  Ή φιλτραρισμα

 Δύο πολύ χρησιμες παράμετροι  Confidence ( Βεβαιότητα )  Ποσοστό ίσχυος του κανόνα π. χ. 80%  Support ( Υποστήριξη )  Από πόσες τιμές επί του συνόλου δεδομένων βγήκε ο κανόνας  Άλλο ½ και άλλο 500/1000  Συνήθως στα εργαλεία φιλτράρουμε τους κανόνες  Ζητούμε δηλαδή κανόνες με υψήλη βεβαιότητα και υποστήριξη

 Με δεδομένα τα οποία έχουν ιδιότητες, να βρεθούν ομοιότητες ανάμεσα στις τιμές των δεδομένων

xClustering Με βάση ευκλείδια γεωμετρία και απόσταση

 Αναγνώριση προφίλ πελατών :  Σκοπός : Να αναγνωρισθούν διάφορα προφίλ πλεατών ώστε να δημιουργηθεί κάταλληλη διαφημιστιή καμπάνια  Π. χ.  Προφίλ 1 νέος ο οποίος ψωνίζει κάθε Σάββατο, συνήθως μπύρες και κάνει λογαριασμό ευρώ  Προφίλ 2 Γιαγια η οποία ψωνίζει ψωμί και γιαούρτια κάθε πρωί πριν τις 10

 Ανίχνευση αντιγραφών σε κείμενα :  Σκοπός Να βρεθούν ομοιότητες μεταξύ πολλών κειμένων  Ή ενός κειμένου και μίας συλλογής κειμένων

23  Διαφήμιση  Βιοτεχνολογία  Σχέσεις πελατών  Ανιχνευση απάτης  Ηλεκτρονικό εμπόριο  Υγεία  Επενδύσεις, Τράπεζες  Ελεγχος παραγωγικής διαδικασίας  Τηλεπικοινωνίες  Web

24  Οι αρχικές μηχανές αναζήτησεις, έψαχναν για λέξεισ κλειδιά στο κείμενο της σελίδας  Το Google έχει επιτυχεί λόγω της χρήσης τεχνικών εξόρυξης πληροφορίας  Οι ιδρυτές Sergey Brin, Larry Page σπόυδαζαν στο Stanford databases και data mining

 Σχεσιακές Βάσεις  Αντικειμενοστραφείς βάσεις  XML αρχεία  Αρχεία ημερολογίου (log files)