Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
Δημοσίευσεebrew Βουγιουκλάκης Τροποποιήθηκε πριν 7 χρόνια
0
Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας
Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ενότητα 6: Θέματα εξόρυξης δεδομένων με χρήση Rapid Miner – k-means clustering Χ. Σκουρλάς Τμήμα Μηχανικών Πληροφορικής Τ.Ε. Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και αν αναφέρεται διαφορετικά Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.
1
Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν το μοντέλο k-means cluster (data mining) model. Η διεκπεραίωση των θεμάτων γίνεται κυρίως με χρήση παραδειγμάτων. Επιπλέον, γίνεται αναφορά στο εργαλείο Rapid Miner
2
Ενδεικτική Βιβλιογραφία
M. North, Data Mining for the Masses, 2012, ISBN: This book is licensed under a Creative Commons Attribution 3.0 License
3
CRISP-DM Conceptual Model
Data Mining for the Masses
4
παράδειγμα: k-means cluster data mining model (χρήση RapidMiner)
Sonia’s goal is to identify and then try to reach out to individuals insured by her employer who are at high risk for coronary heart disease because of their weight and/or high cholesterol. She understands that those at low risk, that is, those with low weight and cholesterol, are unlikely to participate in the programs she will offer. She also understands that there are probably policy holders with high weight and low cholesterol, those with high weight and high cholesterol, and those with low weight and high cholesterol. She further recognizes there are likely to be a lot of people somewhere in between. In order to accomplish her goal, she needs to search among the thousands of policy holders to find groups of people with similar characteristics and craft programs and communications that will be relevant and appealing to people in these different groups. (M. North, Data Mining for the Masses, 2012 Διασκευή παραδείγματος κεφαλαίου 6)
5
https://sites.google.com/site/dataminingforthemasses/
Weight,Cholesterol,Gender 102,111,1 115,135,1 115,136,1 140,167,0 130,158,1 198,227,1 114,131,1 145,176,0 191,223,0
6
Ορολογία εργαλείου Rapid Miner
7
A new data mining project in RapidMiner
The RapidMiner start screen
8
Import Data Set
9
Import Data Set
10
Names of the attributes
11
Where to store
12
Data View
13
Meta Data View
14
Toggle between Design Perspective and Results Perspective
15
Design Perspective
16
Play
17
Modeling (M. North, Data Mining for the Masses, 2012)
The ‘k’ in k-means clustering stands for some number of groups, or clusters. The aim of this data mining methodology is to look at each observation’s individual attribute values and compare them to the means, or in other words averages, of potential groups of other observations in order to find natural groups that are similar to one another. The k-means algorithm accomplishes this by sampling some set of observations in the data set, calculating the averages, or means, for each attribute for the observations in that sample, and then comparing the other attributes in the data set to that sample’s means. The system does this repetitively in order to ‘circle-in’ on the best matches and then to formulate groups of observations which become the clusters. As the means calculated become more and more similar, clusters are formed, and each observation whose attributes values are most like the means of a cluster become members of that cluster.
18
K-means operators
19
model
20
Parameter pane: 2 clusters, max runs 10
21
Initial report
22
Parameter pane: 4 clusters, max runs 10
23
4 clusters
24
Centroid table (“cluster 0 is where Sonia will likely focus her early efforts”)
25
Folder view
26
cluster_0
27
details
28
Filter
29
Filter Examples
30
Parameters
31
Data view: Filtered results for cluster 0 observations
32
Σημείωμα Αναφοράς Copyright Τεχνολογικό Εκπαιδευτικό Ίδρυμα Αθήνας, Χ. Σκουρλάς 2014. Χ. Σκουρλάς. «Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας. Ενότητα 6: «Θέματα εξόρυξης δεδομένων με χρήση Rapid Miner – k-means clusterin». Έκδοση: 1.0. Αθήνα Διαθέσιμο από τη δικτυακή διεύθυνση: ocp.teiath.gr.
33
Σημείωμα Αδειοδότησης
Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί.
34
Διατήρηση Σημειωμάτων
Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.
35
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στo πλαίσιo του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Αθηνών» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.