Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ενότητα 7: Θέματα εξόρυξης δεδομένων και επιχειρηματικής ευφυΐας Case Study Χ. Σκουρλάς Τμήμα.
Advertisements

Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ενότητα 5: Θέματα εξόρυξης δεδομένων με χρήση Rapid Miner – Correlation Χ. Σκουρλάς Ανοικτά.
Ιστορία και Θεολογία των Εκκλησιαστικών Ύμνων
Όνομα Καθηγητή: Χρήστος Τερέζης
Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν το μοντέλο k-means cluster (data mining) model. Η διεκπεραίωση.
Ανάγκες των ασθενών Φυσικές ανάγκες
Σύνοψη Ενότητας 2 Περιεχόμενα της ενότητας Στόχοι της ενότητας
Συνείδηση Επίπεδα Προϋποθέσεις καλής λειτουργίας Διαταραχές.
Ανατρίψεις Εν τω βάθει θωπείες
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Πρακτική Άσκηση σε σχολεία της δευτεροβάθμιας εκπαίδευσης
Data Warehouse – Data Mining
JSIS E 111: Elementary Modern Greek
Εορτολογία Ενότητα 3: Η Εορτή των Χριστουγέννων και Θεοφανείων
Εορτολογία Ενότητα 8: Οι Εορτές των Αγίων Γεώργιος Φίλιας
Ενότητα 9: Ο Χειμώνας Διδάσκουσα: Βασιλική Φωτοπούλου
ΚΟΙΝΟΤΙΚΗ ΝΟΣΗΛΕΥΤΙΚΗ Ι
Περιεχόμενα Καρτεσιανό Σύστημα Συντεταμένων,
Εορτολογία Ενότητα 4: Οι Εορτές της Αναλήψεως και της Πεντηκοστής
Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν την εξαγωγή Correlations μεταξύ attributes ενός data set.
Δραστηριότητες Πρωτοβάθμιας Φροντίδας Υγείας 1/2
Νεοελληνικό εκπαιδευτικό σύστημα
Ανάπτυξη ηλεκτρονικών μαθημάτων στην πλατφόρμα Open eClass
Συνέντευξη Συζήτηση με σκόπιμο στόχο τον οποίο οι συμμετέχοντες αποδέχονται. Η συνέντευξη μοιάζει με τη συζήτηση: Περιλαμβάνουν λεκτική και μη λεκτική.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Άσκηση στο νερό και τρίτη ηλικία
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν την προετοιμασία δεδομένων (Data Preparation). Η διεκπεραίωση.
Αριστοτέλης: Γνωσιοθεωρία Μεταφυσική
Διδάσκων: Μιχαήλ Παρούσης, Αναπλ. Καθηγητής
Πρακτική Άσκηση σε σχολεία της δευτεροβάθμιας εκπαίδευσης
ΣΥΣΤΗΜΑ ΥΓΕΙΑΣ Σύστημα Παραγωγής Διανομής Σύστημα Διεύθυνσης
Αρχή του αρχειακού δεσμού
Ο Πλάτων και ο Αριστοτέλης για την ψυχή
Φροντίδα μετά την αιμοληψία 1/3
Αριστοτέλης: Γνωσιοθεωρία Μεταφυσική
Τμήμα Κοινωνικής Θεολογίας
Διδακτική των εικαστικών τεχνών Ενότητα 2
Ενότητα 5: Συναισθήματα θετικά και δυσάρεστα
ΦΙΛΟΣΟΦΙΑ ΤΟΥ ΔΙΚΑΙΟΥ Ενότητα 8: Το Σύνταγμα του 1975: τα μέρη του και το περιεχόμενό του Διδάσκων: Μιχαήλ Παρούσης, Αναπλ. Καθηγητής Σχολή Ανθρωπιστικών.
Αριστοτέλης: Γνωσιοθεωρία Μεταφυσική
Εισαγωγή στις Επιστήμες της Αγωγής
Μελάνια και επικαλυπτικά (Ε)
Υπηρεσίες Πληροφόρησης
Τεχνολογικό Εκπαιδευτικό
Μουσενίκας Δημήτριος Βλάχος Χριστόδουλος
Σχολή Ανθρωπιστικών και Κοινωνικών Σπουδών Τμήμα Φιλοσοφίας
Το Εικονογραφημένο Βιβλίο στην Προσχολική Εκπαίδευση
Ο Πλάτων και ο Αριστοτέλης για την ψυχή
Όνομα Καθηγητή: Χρήστος Τερέζης
Το Εικονογραφημένο Βιβλίο στην Προσχολική Εκπαίδευση
Αριστοτέλης: Γνωσιοθεωρία Μεταφυσική
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Ιστορία και Θεολογία των Εκκλησιαστικών Ύμνων
Ο Πλάτων και ο Αριστοτέλης για την ψυχή
Ψυχιατρική Ενότητα 6: Οριακή σύγκρουση Ευάγγελος Γ. Παπαγεωργίου
Ο Πλάτων και ο Αριστοτέλης για την ψυχή
Εικαστικές συνθέσεις - Χρώμα στο χώρο
Ιστορία και Θεολογία των Εκκλησιαστικών Ύμνων
ΕΦΑΡΜΟΣΜΕΝΗ ΗΘΙΚΗ Ενότητα 3: Το παράδειγμα της Τρέισι Λάτιμερ (συνέχεια) Διδάσκων: Μιχαήλ Παρούσης, Αναπλ. Καθηγητής Σχολή Ανθρωπιστικών και Κοινωνικών.
Συνεργασία και ομαδική εργασία
Εισαγωγικό Εργαστήριο Προωθώντας τη δημιουργικότητα στις Φυσικές Επιστήμες στην προσχολική και πρώτη σχολική ηλικία.
Ψυχιατρική Ενότητα 4: Συνέχεια ψυχικών λειτουργιών
Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική
Το Εικονογραφημένο Βιβλίο στην Προσχολική Εκπαίδευση
Το Εικονογραφημένο Βιβλίο στην Προσχολική Εκπαίδευση
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
CPSC-608 Database Systems
Το Εικονογραφημένο Βιβλίο στην Προσχολική Εκπαίδευση
Μεταγράφημα παρουσίασης:

Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ενότητα 4: Θέματα εξόρυξης δεδομένων με χρήση Rapid Miner – Association Rules Χ. Σκουρλάς Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και αν αναφέρεται διαφορετικά Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.

Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν την εξαγωγή Association Rules . Η διεκπεραίωση των θεμάτων γίνεται κυρίως με χρήση παραδειγμάτων. Επιπλέον, γίνεται αναφορά στο εργαλείο Rapid Miner

Ενδεικτική Βιβλιογραφία M. North, Data Mining for the Masses, 2012, ISBN: 978-0615684376 This book is licensed under a Creative Commons Attribution 3.0 License

CRISP-DM Conceptual Model Data Mining for the Masses

παράδειγμα: association rules data mining model (χρήση RapidMiner) Θα μελετήσουμε μια μεσαία αλλά γρήγορα αναπτυσσόμενη αμερικάνικη πόλη. Ένας αντιδήμαρχος διαπιστώνει ότι υπάρχουν πολλοί σύλλογοι / πολλές ενεργές ομάδες πολιτών κ.λπ. και θέλει να μελετήσει αν είναι εφικτό να ενεργοποιήσει την εθελοντική συνεργασία τέτοιων συλλόγων - ομάδων πολιτών σε δραστηριότητες του Δήμου. Πριν ζητήσει συνεργασία κάποιων ομάδων σε συγκεκριμένα έργα θέλει να ανιχνεύσει την ύπαρξη σχέσεων (associations) μεταξύ τους. Ζητά τη βοήθειά μας και πιο συγκεκριμένα τη δημιουργία ενός association rules data mining model που θα «περιγράφει» συνδέσεις μεταξύ συλλόγων - ομάδων. (M. North, Data Mining for the Masses, 2012 Διασκευή παραδείγματος κεφαλαίου 5)

Survey & RapidMiner Από κάθε σύλλογο κ.λπ. ζητάται να συμμετέχει σε μία έρευνα και μάλιστα ο επικεφαλής λαμβάνει μοναδικό συνθηματικό (unique password) που μοιράζει στα μέλη του συλλόγου του. Τα μέλη ενθαρρύνονται να συμπληρώσουν στοιχεία - απαντήσεις σε ειδική ιστοσελίδα που δημιουργήθηκε. Όταν ένα φυσικό πρόσωπο συμπληρώνει τις απαντήσεις του καταχωρείται και το συνθηματικό του συλλόγου του για να γνωρίζουμε πόσα άτομα συμμετέχουν στην έρευνα από κάθε σύλλογο. Η έρευνα κρατά ένα μήνα και να τα attributes του data set της έρευνας.

Attributes Elapsed_Time: Χρόνος συμπλήρωσης πχ 4.5 δηλαδή 4 λεπτά και 30 δευτερόλεπτα Time_in_Community: Πόσα χρόνια ζει το άτομο στο Δήμο (Short: 0-2 years, Medium: 3-9 years, Long: 10+ years) Gender: Working: yes/no Age: Family: yes/no, σημειώνει αν το άτομο συμμετέχει σε σύλλογους όπως σύλλογος κηδεμόνων, σύλλογος παιδικής αναψυχής, σύλλογος διοργάνωσης παιδικών πρωταθλημάτων. Hobbies: yes/no, σημειώνει αν συμμετέχει σε σύλλογους όπως σύλλογος ραδιοερασιτεχνών, σύλλογος ποδηλατών Social_Club: yes/no, σημειώνει αν συμμετέχει σε σύλλογους με κάποια κοινωνική δραστηριότητα όπως φιλανθρωπικός σύλλογος κυριών Political: yes/no, σημειώνει αν συμμετέχει σε πολιτικό κόμμα Professional: yes/no, σημειώνει αν συμμετέχει σε επαγγελματικούς σύλλογους Religious: yes/no, σημειώνει αν συμμετέχει σε κάποια εκκλησία πχ βουδιστές Support_Group: yes/no, σημειώνει αν συμμετέχει σε σύλλογους στήριξης όπως σύλλογος στήριξης ανώνυμων αλκοολικών

https://sites.google.com/site/dataminingforthemasses/ Elapsed_Time,Time_in_Community,Gender,Working,Age,Family,Hobbies,Social_Club,Political, Professional,Religious,Support_Group 8.71,Short,M,No,53,1,0,0,0,0,0,0 5.24,Medium,F,No,31,0,0,0,0,0,1,1 4.22,Medium,M,No,42,1,1,0,0,1,0,0 4.81,Long,F,No,30,0,0,0,0,0,0,0 3.95,Long,M,Yes,29,0,0,0,1,1,0,1 9.35,Long,F,No,40,0,0,0,0,1,0,0 2.91,Medium,F,Yes,33,0,0,0,0,0,0,1 4.54,Medium,M,Yes,27,1,1,1,0,0,1,0

Ορολογία εργαλείου Rapid Miner

A new data mining project in RapidMiner The RapidMiner start screen

Import Data Set

Import Data Set – Steps 5

How columns are separated

Names of the attributes

Data types, role

Where to store

Data View

Meta Data View

Toggle between Design Perspective and Results Perspective

Design Perspective

Drag and Drop

Data preparation: Select Attribute

Add select attribute operator to your data mining stream

Parameters pane and Select Attributes

Selected attributes for inclusion

Data preparation: Numerical to Binominal

Drag the Numerical to Binominal operator into your stream.

Play

Meta Data View: data type transformation

(Design Perspective) Frequency Pattern Analysis: FP-Growth

FP-Growth

FP-Growth - your DM stream Both your exa port and your fre port are connected to res ports

Parameters pane

Play

Further investigation Religious organizations might have some natural connections with Family and Hobby organizations Further investigation

Create Association Rules operator

Play

Parameters

Changing the confidence percent threshold

Four rules found with the 50% confidence threshold

M. North, Data Mining for the Masses, 2012 Do existing linkages between types of community groups exist? Yes, they do. We have found that the community’s churches, family, and hobby organizations have some common members. It may be a bit surprising that the political and professional groups do not appear to be interconnected, but these groups may also be more specialized (e.g. a local chapter of the bar association) and thus may not have tremendous cross-organizational appeal or need. M. North, Data Mining for the Masses, 2012

Σημείωμα Αναφοράς Copyright Τεχνολογικό Εκπαιδευτικό Ίδρυμα Αθήνας, Χ. Σκουρλάς 2014. Χ. Σκουρλάς. «Βάσεις Δεδομένων Ι. Ενότητα 1: «Προσανατολισμού» (orientation) - Εισαγωγή ». Έκδοση: 1.0. Αθήνα 2014. Διαθέσιμο από τη δικτυακή διεύθυνση: ocp.teiath.gr.

Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] http://creativecommons.org/licenses/by-nc-sa/4.0/ Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί.

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στo πλαίσιo του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Αθηνών» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.