Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ενότητα 4: Θέματα εξόρυξης δεδομένων με χρήση Rapid Miner – Association Rules Χ. Σκουρλάς Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και αν αναφέρεται διαφορετικά Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.
Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν την εξαγωγή Association Rules . Η διεκπεραίωση των θεμάτων γίνεται κυρίως με χρήση παραδειγμάτων. Επιπλέον, γίνεται αναφορά στο εργαλείο Rapid Miner
Ενδεικτική Βιβλιογραφία M. North, Data Mining for the Masses, 2012, ISBN: 978-0615684376 This book is licensed under a Creative Commons Attribution 3.0 License
CRISP-DM Conceptual Model Data Mining for the Masses
παράδειγμα: association rules data mining model (χρήση RapidMiner) Θα μελετήσουμε μια μεσαία αλλά γρήγορα αναπτυσσόμενη αμερικάνικη πόλη. Ένας αντιδήμαρχος διαπιστώνει ότι υπάρχουν πολλοί σύλλογοι / πολλές ενεργές ομάδες πολιτών κ.λπ. και θέλει να μελετήσει αν είναι εφικτό να ενεργοποιήσει την εθελοντική συνεργασία τέτοιων συλλόγων - ομάδων πολιτών σε δραστηριότητες του Δήμου. Πριν ζητήσει συνεργασία κάποιων ομάδων σε συγκεκριμένα έργα θέλει να ανιχνεύσει την ύπαρξη σχέσεων (associations) μεταξύ τους. Ζητά τη βοήθειά μας και πιο συγκεκριμένα τη δημιουργία ενός association rules data mining model που θα «περιγράφει» συνδέσεις μεταξύ συλλόγων - ομάδων. (M. North, Data Mining for the Masses, 2012 Διασκευή παραδείγματος κεφαλαίου 5)
Survey & RapidMiner Από κάθε σύλλογο κ.λπ. ζητάται να συμμετέχει σε μία έρευνα και μάλιστα ο επικεφαλής λαμβάνει μοναδικό συνθηματικό (unique password) που μοιράζει στα μέλη του συλλόγου του. Τα μέλη ενθαρρύνονται να συμπληρώσουν στοιχεία - απαντήσεις σε ειδική ιστοσελίδα που δημιουργήθηκε. Όταν ένα φυσικό πρόσωπο συμπληρώνει τις απαντήσεις του καταχωρείται και το συνθηματικό του συλλόγου του για να γνωρίζουμε πόσα άτομα συμμετέχουν στην έρευνα από κάθε σύλλογο. Η έρευνα κρατά ένα μήνα και να τα attributes του data set της έρευνας.
Attributes Elapsed_Time: Χρόνος συμπλήρωσης πχ 4.5 δηλαδή 4 λεπτά και 30 δευτερόλεπτα Time_in_Community: Πόσα χρόνια ζει το άτομο στο Δήμο (Short: 0-2 years, Medium: 3-9 years, Long: 10+ years) Gender: Working: yes/no Age: Family: yes/no, σημειώνει αν το άτομο συμμετέχει σε σύλλογους όπως σύλλογος κηδεμόνων, σύλλογος παιδικής αναψυχής, σύλλογος διοργάνωσης παιδικών πρωταθλημάτων. Hobbies: yes/no, σημειώνει αν συμμετέχει σε σύλλογους όπως σύλλογος ραδιοερασιτεχνών, σύλλογος ποδηλατών Social_Club: yes/no, σημειώνει αν συμμετέχει σε σύλλογους με κάποια κοινωνική δραστηριότητα όπως φιλανθρωπικός σύλλογος κυριών Political: yes/no, σημειώνει αν συμμετέχει σε πολιτικό κόμμα Professional: yes/no, σημειώνει αν συμμετέχει σε επαγγελματικούς σύλλογους Religious: yes/no, σημειώνει αν συμμετέχει σε κάποια εκκλησία πχ βουδιστές Support_Group: yes/no, σημειώνει αν συμμετέχει σε σύλλογους στήριξης όπως σύλλογος στήριξης ανώνυμων αλκοολικών
https://sites.google.com/site/dataminingforthemasses/ Elapsed_Time,Time_in_Community,Gender,Working,Age,Family,Hobbies,Social_Club,Political, Professional,Religious,Support_Group 8.71,Short,M,No,53,1,0,0,0,0,0,0 5.24,Medium,F,No,31,0,0,0,0,0,1,1 4.22,Medium,M,No,42,1,1,0,0,1,0,0 4.81,Long,F,No,30,0,0,0,0,0,0,0 3.95,Long,M,Yes,29,0,0,0,1,1,0,1 9.35,Long,F,No,40,0,0,0,0,1,0,0 2.91,Medium,F,Yes,33,0,0,0,0,0,0,1 4.54,Medium,M,Yes,27,1,1,1,0,0,1,0
Ορολογία εργαλείου Rapid Miner
A new data mining project in RapidMiner The RapidMiner start screen
Import Data Set
Import Data Set – Steps 5
How columns are separated
Names of the attributes
Data types, role
Where to store
Data View
Meta Data View
Toggle between Design Perspective and Results Perspective
Design Perspective
Drag and Drop
Data preparation: Select Attribute
Add select attribute operator to your data mining stream
Parameters pane and Select Attributes
Selected attributes for inclusion
Data preparation: Numerical to Binominal
Drag the Numerical to Binominal operator into your stream.
Play
Meta Data View: data type transformation
(Design Perspective) Frequency Pattern Analysis: FP-Growth
FP-Growth
FP-Growth - your DM stream Both your exa port and your fre port are connected to res ports
Parameters pane
Play
Further investigation Religious organizations might have some natural connections with Family and Hobby organizations Further investigation
Create Association Rules operator
Play
Parameters
Changing the confidence percent threshold
Four rules found with the 50% confidence threshold
M. North, Data Mining for the Masses, 2012 Do existing linkages between types of community groups exist? Yes, they do. We have found that the community’s churches, family, and hobby organizations have some common members. It may be a bit surprising that the political and professional groups do not appear to be interconnected, but these groups may also be more specialized (e.g. a local chapter of the bar association) and thus may not have tremendous cross-organizational appeal or need. M. North, Data Mining for the Masses, 2012
Σημείωμα Αναφοράς Copyright Τεχνολογικό Εκπαιδευτικό Ίδρυμα Αθήνας, Χ. Σκουρλάς 2014. Χ. Σκουρλάς. «Βάσεις Δεδομένων Ι. Ενότητα 1: «Προσανατολισμού» (orientation) - Εισαγωγή ». Έκδοση: 1.0. Αθήνα 2014. Διαθέσιμο από τη δικτυακή διεύθυνση: ocp.teiath.gr.
Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] http://creativecommons.org/licenses/by-nc-sa/4.0/ Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί.
Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στo πλαίσιo του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Αθηνών» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.