Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας"— Μεταγράφημα παρουσίασης:

1 Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας
Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ενότητα 4: Θέματα εξόρυξης δεδομένων με χρήση Rapid Miner – Association Rules Χ. Σκουρλάς Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και αν αναφέρεται διαφορετικά Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.

2 Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν την εξαγωγή Association Rules . Η διεκπεραίωση των θεμάτων γίνεται κυρίως με χρήση παραδειγμάτων. Επιπλέον, γίνεται αναφορά στο εργαλείο Rapid Miner

3 Ενδεικτική Βιβλιογραφία
M. North, Data Mining for the Masses, 2012, ISBN: This book is licensed under a Creative Commons Attribution 3.0 License

4 CRISP-DM Conceptual Model
Data Mining for the Masses

5 παράδειγμα: association rules data mining model (χρήση RapidMiner)
Θα μελετήσουμε μια μεσαία αλλά γρήγορα αναπτυσσόμενη αμερικάνικη πόλη. Ένας αντιδήμαρχος διαπιστώνει ότι υπάρχουν πολλοί σύλλογοι / πολλές ενεργές ομάδες πολιτών κ.λπ. και θέλει να μελετήσει αν είναι εφικτό να ενεργοποιήσει την εθελοντική συνεργασία τέτοιων συλλόγων - ομάδων πολιτών σε δραστηριότητες του Δήμου. Πριν ζητήσει συνεργασία κάποιων ομάδων σε συγκεκριμένα έργα θέλει να ανιχνεύσει την ύπαρξη σχέσεων (associations) μεταξύ τους. Ζητά τη βοήθειά μας και πιο συγκεκριμένα τη δημιουργία ενός association rules data mining model που θα «περιγράφει» συνδέσεις μεταξύ συλλόγων - ομάδων. (M. North, Data Mining for the Masses, 2012 Διασκευή παραδείγματος κεφαλαίου 5)

6 Survey & RapidMiner Από κάθε σύλλογο κ.λπ. ζητάται να συμμετέχει σε μία έρευνα και μάλιστα ο επικεφαλής λαμβάνει μοναδικό συνθηματικό (unique password) που μοιράζει στα μέλη του συλλόγου του. Τα μέλη ενθαρρύνονται να συμπληρώσουν στοιχεία - απαντήσεις σε ειδική ιστοσελίδα που δημιουργήθηκε. Όταν ένα φυσικό πρόσωπο συμπληρώνει τις απαντήσεις του καταχωρείται και το συνθηματικό του συλλόγου του για να γνωρίζουμε πόσα άτομα συμμετέχουν στην έρευνα από κάθε σύλλογο. Η έρευνα κρατά ένα μήνα και να τα attributes του data set της έρευνας.

7 Attributes Elapsed_Time: Χρόνος συμπλήρωσης πχ 4.5 δηλαδή 4 λεπτά και 30 δευτερόλεπτα Time_in_Community: Πόσα χρόνια ζει το άτομο στο Δήμο (Short: 0-2 years, Medium: 3-9 years, Long: 10+ years) Gender: Working: yes/no Age: Family: yes/no, σημειώνει αν το άτομο συμμετέχει σε σύλλογους όπως σύλλογος κηδεμόνων, σύλλογος παιδικής αναψυχής, σύλλογος διοργάνωσης παιδικών πρωταθλημάτων. Hobbies: yes/no, σημειώνει αν συμμετέχει σε σύλλογους όπως σύλλογος ραδιοερασιτεχνών, σύλλογος ποδηλατών Social_Club: yes/no, σημειώνει αν συμμετέχει σε σύλλογους με κάποια κοινωνική δραστηριότητα όπως φιλανθρωπικός σύλλογος κυριών Political: yes/no, σημειώνει αν συμμετέχει σε πολιτικό κόμμα Professional: yes/no, σημειώνει αν συμμετέχει σε επαγγελματικούς σύλλογους Religious: yes/no, σημειώνει αν συμμετέχει σε κάποια εκκλησία πχ βουδιστές Support_Group: yes/no, σημειώνει αν συμμετέχει σε σύλλογους στήριξης όπως σύλλογος στήριξης ανώνυμων αλκοολικών

8 https://sites.google.com/site/dataminingforthemasses/
Elapsed_Time,Time_in_Community,Gender,Working,Age,Family,Hobbies,Social_Club,Political, Professional,Religious,Support_Group 8.71,Short,M,No,53,1,0,0,0,0,0,0 5.24,Medium,F,No,31,0,0,0,0,0,1,1 4.22,Medium,M,No,42,1,1,0,0,1,0,0 4.81,Long,F,No,30,0,0,0,0,0,0,0 3.95,Long,M,Yes,29,0,0,0,1,1,0,1 9.35,Long,F,No,40,0,0,0,0,1,0,0 2.91,Medium,F,Yes,33,0,0,0,0,0,0,1 4.54,Medium,M,Yes,27,1,1,1,0,0,1,0

9 Ορολογία εργαλείου Rapid Miner

10 A new data mining project in RapidMiner
The RapidMiner start screen

11 Import Data Set

12 Import Data Set – Steps 5

13 How columns are separated

14 Names of the attributes

15 Data types, role

16 Where to store

17 Data View

18 Meta Data View

19 Toggle between Design Perspective and Results Perspective

20 Design Perspective

21 Drag and Drop

22 Data preparation: Select Attribute

23 Add select attribute operator to your data mining stream

24 Parameters pane and Select Attributes

25

26 Selected attributes for inclusion

27 Data preparation: Numerical to Binominal

28 Drag the Numerical to Binominal operator into your stream.

29 Play

30 Meta Data View: data type transformation

31 (Design Perspective) Frequency Pattern Analysis: FP-Growth

32 FP-Growth

33 FP-Growth - your DM stream Both your exa port and your fre port are connected to res ports

34 Parameters pane

35 Play

36 Further investigation
Religious organizations might have some natural connections with Family and Hobby organizations Further investigation

37 Create Association Rules operator

38

39 Play

40 Parameters

41 Changing the confidence percent threshold

42 Four rules found with the 50% confidence threshold

43 M. North, Data Mining for the Masses, 2012
Do existing linkages between types of community groups exist? Yes, they do. We have found that the community’s churches, family, and hobby organizations have some common members. It may be a bit surprising that the political and professional groups do not appear to be interconnected, but these groups may also be more specialized (e.g. a local chapter of the bar association) and thus may not have tremendous cross-organizational appeal or need. M. North, Data Mining for the Masses, 2012

44 Σημείωμα Αναφοράς Copyright Τεχνολογικό Εκπαιδευτικό Ίδρυμα Αθήνας, Χ. Σκουρλάς 2014. Χ. Σκουρλάς. «Βάσεις Δεδομένων Ι. Ενότητα 1: «Προσανατολισμού» (orientation) - Εισαγωγή ». Έκδοση: 1.0. Αθήνα Διαθέσιμο από τη δικτυακή διεύθυνση: ocp.teiath.gr.

45 Σημείωμα Αδειοδότησης
Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί.

46 Διατήρηση Σημειωμάτων
Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.

47 Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στo πλαίσιo του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Αθηνών» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.


Κατέβασμα ppt "Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google