Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
ΔημοσίευσεΚάλλιστος Δαμασκηνός Τροποποιήθηκε πριν 6 χρόνια
1
Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας
Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ενότητα 4: Θέματα εξόρυξης δεδομένων με χρήση Rapid Miner – Association Rules Χ. Σκουρλάς Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και αν αναφέρεται διαφορετικά Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.
2
Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν την εξαγωγή Association Rules . Η διεκπεραίωση των θεμάτων γίνεται κυρίως με χρήση παραδειγμάτων. Επιπλέον, γίνεται αναφορά στο εργαλείο Rapid Miner
3
Ενδεικτική Βιβλιογραφία
M. North, Data Mining for the Masses, 2012, ISBN: This book is licensed under a Creative Commons Attribution 3.0 License
4
CRISP-DM Conceptual Model
Data Mining for the Masses
5
παράδειγμα: association rules data mining model (χρήση RapidMiner)
Θα μελετήσουμε μια μεσαία αλλά γρήγορα αναπτυσσόμενη αμερικάνικη πόλη. Ένας αντιδήμαρχος διαπιστώνει ότι υπάρχουν πολλοί σύλλογοι / πολλές ενεργές ομάδες πολιτών κ.λπ. και θέλει να μελετήσει αν είναι εφικτό να ενεργοποιήσει την εθελοντική συνεργασία τέτοιων συλλόγων - ομάδων πολιτών σε δραστηριότητες του Δήμου. Πριν ζητήσει συνεργασία κάποιων ομάδων σε συγκεκριμένα έργα θέλει να ανιχνεύσει την ύπαρξη σχέσεων (associations) μεταξύ τους. Ζητά τη βοήθειά μας και πιο συγκεκριμένα τη δημιουργία ενός association rules data mining model που θα «περιγράφει» συνδέσεις μεταξύ συλλόγων - ομάδων. (M. North, Data Mining for the Masses, 2012 Διασκευή παραδείγματος κεφαλαίου 5)
6
Survey & RapidMiner Από κάθε σύλλογο κ.λπ. ζητάται να συμμετέχει σε μία έρευνα και μάλιστα ο επικεφαλής λαμβάνει μοναδικό συνθηματικό (unique password) που μοιράζει στα μέλη του συλλόγου του. Τα μέλη ενθαρρύνονται να συμπληρώσουν στοιχεία - απαντήσεις σε ειδική ιστοσελίδα που δημιουργήθηκε. Όταν ένα φυσικό πρόσωπο συμπληρώνει τις απαντήσεις του καταχωρείται και το συνθηματικό του συλλόγου του για να γνωρίζουμε πόσα άτομα συμμετέχουν στην έρευνα από κάθε σύλλογο. Η έρευνα κρατά ένα μήνα και να τα attributes του data set της έρευνας.
7
Attributes Elapsed_Time: Χρόνος συμπλήρωσης πχ 4.5 δηλαδή 4 λεπτά και 30 δευτερόλεπτα Time_in_Community: Πόσα χρόνια ζει το άτομο στο Δήμο (Short: 0-2 years, Medium: 3-9 years, Long: 10+ years) Gender: Working: yes/no Age: Family: yes/no, σημειώνει αν το άτομο συμμετέχει σε σύλλογους όπως σύλλογος κηδεμόνων, σύλλογος παιδικής αναψυχής, σύλλογος διοργάνωσης παιδικών πρωταθλημάτων. Hobbies: yes/no, σημειώνει αν συμμετέχει σε σύλλογους όπως σύλλογος ραδιοερασιτεχνών, σύλλογος ποδηλατών Social_Club: yes/no, σημειώνει αν συμμετέχει σε σύλλογους με κάποια κοινωνική δραστηριότητα όπως φιλανθρωπικός σύλλογος κυριών Political: yes/no, σημειώνει αν συμμετέχει σε πολιτικό κόμμα Professional: yes/no, σημειώνει αν συμμετέχει σε επαγγελματικούς σύλλογους Religious: yes/no, σημειώνει αν συμμετέχει σε κάποια εκκλησία πχ βουδιστές Support_Group: yes/no, σημειώνει αν συμμετέχει σε σύλλογους στήριξης όπως σύλλογος στήριξης ανώνυμων αλκοολικών
8
https://sites.google.com/site/dataminingforthemasses/
Elapsed_Time,Time_in_Community,Gender,Working,Age,Family,Hobbies,Social_Club,Political, Professional,Religious,Support_Group 8.71,Short,M,No,53,1,0,0,0,0,0,0 5.24,Medium,F,No,31,0,0,0,0,0,1,1 4.22,Medium,M,No,42,1,1,0,0,1,0,0 4.81,Long,F,No,30,0,0,0,0,0,0,0 3.95,Long,M,Yes,29,0,0,0,1,1,0,1 9.35,Long,F,No,40,0,0,0,0,1,0,0 2.91,Medium,F,Yes,33,0,0,0,0,0,0,1 4.54,Medium,M,Yes,27,1,1,1,0,0,1,0
9
Ορολογία εργαλείου Rapid Miner
10
A new data mining project in RapidMiner
The RapidMiner start screen
11
Import Data Set
12
Import Data Set – Steps 5
13
How columns are separated
14
Names of the attributes
15
Data types, role
16
Where to store
17
Data View
18
Meta Data View
19
Toggle between Design Perspective and Results Perspective
20
Design Perspective
21
Drag and Drop
22
Data preparation: Select Attribute
23
Add select attribute operator to your data mining stream
24
Parameters pane and Select Attributes
26
Selected attributes for inclusion
27
Data preparation: Numerical to Binominal
28
Drag the Numerical to Binominal operator into your stream.
29
Play
30
Meta Data View: data type transformation
31
(Design Perspective) Frequency Pattern Analysis: FP-Growth
32
FP-Growth
33
FP-Growth - your DM stream Both your exa port and your fre port are connected to res ports
34
Parameters pane
35
Play
36
Further investigation
Religious organizations might have some natural connections with Family and Hobby organizations Further investigation
37
Create Association Rules operator
39
Play
40
Parameters
41
Changing the confidence percent threshold
42
Four rules found with the 50% confidence threshold
43
M. North, Data Mining for the Masses, 2012
Do existing linkages between types of community groups exist? Yes, they do. We have found that the community’s churches, family, and hobby organizations have some common members. It may be a bit surprising that the political and professional groups do not appear to be interconnected, but these groups may also be more specialized (e.g. a local chapter of the bar association) and thus may not have tremendous cross-organizational appeal or need. M. North, Data Mining for the Masses, 2012
44
Σημείωμα Αναφοράς Copyright Τεχνολογικό Εκπαιδευτικό Ίδρυμα Αθήνας, Χ. Σκουρλάς 2014. Χ. Σκουρλάς. «Βάσεις Δεδομένων Ι. Ενότητα 1: «Προσανατολισμού» (orientation) - Εισαγωγή ». Έκδοση: 1.0. Αθήνα Διαθέσιμο από τη δικτυακή διεύθυνση: ocp.teiath.gr.
45
Σημείωμα Αδειοδότησης
Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί.
46
Διατήρηση Σημειωμάτων
Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.
47
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στo πλαίσιo του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Αθηνών» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.