Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν το μοντέλο k-means cluster (data mining) model. Η διεκπεραίωση.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Τέλος Ενότητας.
Advertisements

Βασικές αρχές ευρετηρίασης
Η ανοσοαποτύπωση ως επιβεβαιωτική μέθοδος
Τριφασικά συμμετρικά δίκτυα σε συνδεσμολογία Υ (1/2)
Οργάνωση πληροφοριών Ταξινόμηση (Θ) Ενότητα 4: Αρχιτεκτονική της Ευρετηρίασης (β μέρος) Δάφνη Κυριάκη-Μάνεση Τμήμα Βιβλιοθηκονομίας και Συστημάτων Πληροφόρησης.
Περιλήψεις Γιατί; Πως; Τι είναι; Ποιος τις κάνει;
Αυτοματοποιημένη ευρετηρίαση
Διαμόρφωση πεδίων Περιγραφικά πεδία Διαχειριστικά πεδία Δομικά πεδία.
Διάνοιξη πόρων Με ακτινοβολούμενη θερμότητα. Θερμαινόμενα σίδερα.
Καμπυλότητα Φακού P c
Σχεδίαση Ολοκληρωμένων Κυκλωμάτων
Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ενότητα 5: Θέματα εξόρυξης δεδομένων με χρήση Rapid Miner – Correlation Χ. Σκουρλάς Ανοικτά.
Τεχνολογία οφθαλμικών φακών Ι (Ε) Ενότητα 5: Έγχρωμοι φακοί Θεμιστοκλής Γιαλελής, Οπτικός, MSc, PhD candidate ΕΔΙΠ του τμήματος Οπτικής και Οπτομετρίας.
Eιδικά θέματα βάσεων χωρικών δεδομένων και θεωρία συστημάτων
Κανόνες Ασφαλείας Εργοταξίων
ΟΙΚΟΝΟΜΙΚΑ ΤΟΥ ΕΛΕΓΧΟΥ ΤΗΣ ΡΥΠΑΝΣΗΣ
Άλλες μορφές νευρώσεων
Διαχείριση παραγωγής εντύπων 1/2
Επικοινωνιακός Προγραμματισμός Ι
Άσκηση 8 (1 από 3) Προβολές 1. Να επιλέξετε ένα θέμα βασισμένο σε κάποια παράγραφο / υποπαράγραφο του κεφαλαίου 6 των σημειώσεων και να κάνετε μια εργασία.
Υπολογιστική Γεωμετρία και Εφαρμογές στις ΒΧΔ
Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν την εξαγωγή Correlations μεταξύ attributes ενός data set.
Φιλοσοφία της Ιστορίας και του Πολιτισμού
Άρθρο Συγγραφείς: Marcus Plescia, MD, MPH, Martha Groblewski, PhD, RD, LDN. Τίτλος: A Community Oriented Primary care Demonstration Project Refining.
Ταυτότητα και περίγραμμα μαθήματος
Άσκηση 7 (1 από 5) Υπολογισμοί μηκών τόξων σφαίρας. Το έτος 2035 μ.Χ., μετά από πυρηνική καταστροφή και λόγω του φαινομένου του θερμοκηπίου, που πήρε εκρηκτικές.
ΠΡΟΤΥΠΟ ΕΛΟΤ EN ISO 3251 Ζύγιση μάζας υγρού μελανιού (m1 g)
Φυσικοθεραπεία σε ειδικές πληθυσμιακές μονάδες (Ε)
Ενότητα 13 Αξιολόγηση μαθήματος και διδάσκοντος από την εφαρμογή της Μονάδας Ολικής Ποιότητας (ΜΟΔΙΠ) του ΤΕΙ Αθήνας Αξιολόγηση του μαθήματος Αξιολόγηση.
Περιγραφή Ενότητας Σκοπός του μαθήματος είναι η παρουσίαση δηλώσεων SQL που περιλαμβάνουν EXIST, ANY, ALL. Χ. Σκουρλάς.
Άσκηση 9 (1 από 2) Ανακαλύψτε στο χάρτη σας μερικά χαρτογραφικά αντικείμενα που να ανήκουν στις παρακάτω κατηγορίες : φυσικά, τεχνητές κατασκευές, αφηρημένα.
Φιλοσοφία της Ιστορίας και του Πολιτισμού
Ο Πλάτων και ο Αριστοτέλης για την ψυχή
Σύγχρονη Πρακτική Φιλοσοφία
ΕΦΑΡΜΟΣΜΕΝΗ ΗΘΙΚΗ Ενότητα 9 (PART A): Σχέση Ηθικής και Δικαιοσύνης
Τοπολογικές σχέσεις 1/3 Βρείτε και περιγράψτε τις τοπολογικές σχέσεις σύμφωνα με τους (Pantazis, Donnay 1996) για τα παρακάτω γεω-γραφικά αντικείμενα:
Σύγχρονη Πρακτική Φιλοσοφία
Επιλογή φλέβας για λήψη φλεβικού αίματος 1/7
Επικοινωνιακός Προγραμματισμός Ι
Εικαστικές συνθέσεις - Χρώμα στο χώρο
Γενική και Μαθηματική Χαρτογραφία (Ε)
Οργάνωση και Διοίκηση Πρωτοβάθμιας (Θ)
Εισαγωγή στις εικαστικές τέχνες
Λιθογραφία – Όφσετ (Θ) Ενότητα 8.2: Εκτυπωτική Διαδικασία Μηχανής
Επικοινωνιακός Προγραμματισμός Ι
Ενότητα 9: Συστήματα Υγείας στην Ευρώπη: Σουηδία
Διδακτική της Πληροφορικής
Τηλεοπτική και Ραδιοφωνική Παραγωγή
Αισθητική Σώματος Ι (Ε)
Αισθητική Σώματος Ι (Ε)
Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας
Ειδικά θέματα βάσεων χωρικών δεδομένων και θεωρία συστημάτων -E
Το Εικονογραφημένο Βιβλίο στην Προσχολική Εκπαίδευση
Γενική και Μαθηματική Χαρτογραφία (Ε)
Αισθητική Σώματος Ι (Ε)
Το Εικονογραφημένο Βιβλίο στην Προσχολική Εκπαίδευση
Μυθος και Τελετουργία στην Αρχαία Ελλάδα
Ενότητα 8: Συστήματα Υγείας στην Ευρώπη: Γαλλία
Eιδικά θέματα βάσεων χωρικών δεδομένων και θεωρία συστημάτων -Θ
Συστήματα Θεματικής Πρόσβασης (Θ)
Ψυχιατρική Ενότητα 7: Συνέχεια σταδίων
Γενικὴ Ἐκκλησιαστικὴ Ἱστορία Α´
Κοσμητολογία ΙΙ (Θ) Ενότητα 3: Kρέμες (γ’ μέρος)
Ανοσολογία (Ε) Ενότητα 3: Αιμοσυγκόλληση Πέτρος Καρκαλούσος
Γενική και Μαθηματική Χαρτογραφία (Ε)
Οργανική Χημεία (Ε) Ενότητα 2: Προσδιορισμός σημείου τήξης
Ενότητα 1: ……………….. Όνομα Επώνυμο Τμήμα __
Αισθητική ηλεκτροθεραπεία σώματος
Αισθητική ηλεκτροθεραπεία σώματος
Επικοινωνιακός Προγραμματισμός Ι
Μεταγράφημα παρουσίασης:

Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ενότητα 6: Θέματα εξόρυξης δεδομένων με χρήση Rapid Miner – k-means clustering Χ. Σκουρλάς Τμήμα Μηχανικών Πληροφορικής Τ.Ε. Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και αν αναφέρεται διαφορετικά Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.

Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν το μοντέλο k-means cluster (data mining) model. Η διεκπεραίωση των θεμάτων γίνεται κυρίως με χρήση παραδειγμάτων. Επιπλέον, γίνεται αναφορά στο εργαλείο Rapid Miner

Ενδεικτική Βιβλιογραφία M. North, Data Mining for the Masses, 2012, ISBN: 978-0615684376 This book is licensed under a Creative Commons Attribution 3.0 License

CRISP-DM Conceptual Model Data Mining for the Masses

παράδειγμα: k-means cluster data mining model (χρήση RapidMiner) Sonia’s goal is to identify and then try to reach out to individuals insured by her employer who are at high risk for coronary heart disease because of their weight and/or high cholesterol. She understands that those at low risk, that is, those with low weight and cholesterol, are unlikely to participate in the programs she will offer. She also understands that there are probably policy holders with high weight and low cholesterol, those with high weight and high cholesterol, and those with low weight and high cholesterol. She further recognizes there are likely to be a lot of people somewhere in between. In order to accomplish her goal, she needs to search among the thousands of policy holders to find groups of people with similar characteristics and craft programs and communications that will be relevant and appealing to people in these different groups. (M. North, Data Mining for the Masses, 2012 Διασκευή παραδείγματος κεφαλαίου 6)

https://sites.google.com/site/dataminingforthemasses/ Weight,Cholesterol,Gender 102,111,1 115,135,1 115,136,1 140,167,0 130,158,1 198,227,1 114,131,1 145,176,0 191,223,0

Ορολογία εργαλείου Rapid Miner

A new data mining project in RapidMiner The RapidMiner start screen

Import Data Set

Import Data Set

Names of the attributes

Where to store

Data View

Meta Data View

Toggle between Design Perspective and Results Perspective

Design Perspective

Play

Modeling (M. North, Data Mining for the Masses, 2012) The ‘k’ in k-means clustering stands for some number of groups, or clusters. The aim of this data mining methodology is to look at each observation’s individual attribute values and compare them to the means, or in other words averages, of potential groups of other observations in order to find natural groups that are similar to one another. The k-means algorithm accomplishes this by sampling some set of observations in the data set, calculating the averages, or means, for each attribute for the observations in that sample, and then comparing the other attributes in the data set to that sample’s means. The system does this repetitively in order to ‘circle-in’ on the best matches and then to formulate groups of observations which become the clusters. As the means calculated become more and more similar, clusters are formed, and each observation whose attributes values are most like the means of a cluster become members of that cluster.

K-means operators

model

Parameter pane: 2 clusters, max runs 10

Initial report

Parameter pane: 4 clusters, max runs 10

4 clusters

Centroid table (“cluster 0 is where Sonia will likely focus her early efforts”)

Folder view

cluster_0

details

Filter

Filter Examples

Parameters

Data view: Filtered results for cluster 0 observations

Σημείωμα Αναφοράς Copyright Τεχνολογικό Εκπαιδευτικό Ίδρυμα Αθήνας, Χ. Σκουρλάς 2014. Χ. Σκουρλάς. «Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας. Ενότητα 6: «Θέματα εξόρυξης δεδομένων με χρήση Rapid Miner – k-means clusterin». Έκδοση: 1.0. Αθήνα 2014. Διαθέσιμο από τη δικτυακή διεύθυνση: ocp.teiath.gr.

Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] http://creativecommons.org/licenses/by-nc-sa/4.0/ Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί.

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στo πλαίσιo του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Αθηνών» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.