Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ενότητα 5: Θέματα εξόρυξης δεδομένων με χρήση Rapid Miner – Correlation Χ. Σκουρλάς Ανοικτά.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Τέλος Ενότητας.
Advertisements

Βασικές αρχές ευρετηρίασης
Η ανοσοαποτύπωση ως επιβεβαιωτική μέθοδος
Τριφασικά συμμετρικά δίκτυα σε συνδεσμολογία Υ (1/2)
Οργάνωση πληροφοριών Ταξινόμηση (Θ) Ενότητα 4: Αρχιτεκτονική της Ευρετηρίασης (β μέρος) Δάφνη Κυριάκη-Μάνεση Τμήμα Βιβλιοθηκονομίας και Συστημάτων Πληροφόρησης.
Περιλήψεις Γιατί; Πως; Τι είναι; Ποιος τις κάνει;
Αυτοματοποιημένη ευρετηρίαση
Διαμόρφωση πεδίων Περιγραφικά πεδία Διαχειριστικά πεδία Δομικά πεδία.
Διάνοιξη πόρων Με ακτινοβολούμενη θερμότητα. Θερμαινόμενα σίδερα.
Έλεγχος Ροής με την Εντολή Επανάληψης FOR 1/9
Καμπυλότητα Φακού P c
Παράγοντες που επηρεάζουν τη δύναμη ενός μυός 1/2
Αλκίνια Χαρακτηριστική ομάδα: τριπλός δεσμός.
Σχεδίαση Ολοκληρωμένων Κυκλωμάτων
Σύσταση και Ανάλυση Γλευκών και Οίνων (Θ)
Συστήματα Θεματικής Πρόσβασης (Θ) Ενότητα 5: Θεματική επεξεργασία απεικονιστικών τεκμηρίων Δάφνη Κυριάκη-Μάνεση Τμήμα Βιβλιοθηκονομίας και Συστημάτων Πληροφόρησης.
Αρχιτεκτονική εσωτερικών χώρων Χώροι αναψυχής Ενότητα 8: Ο ρόλος του σχεδιασμού εσωτερικών χώρων στην ποιοτική αναβάθμιση του τουρισμού Διονυσία Φράγκου.
Zωολογία Ι Ενότητα 19: Εχινόδερμα Εργαστηριακή Άσκηση: Συστηματική Εχινοδέρμων Κυρίτση – Κρικώνη Βασιλική, ΕΔΙΠ Σχολή Θετικών Επιστημών Τμήμα Βιολογίας.
Τεχνολογικό Εκπαιδευτικό Ίδρυμα Θεσσαλίας Αρδευτική Μηχανική Εργαστήριο 3: Τεχνολογία Διανεμητών Μικροάρδευσης Καθηγητής Παναγιώτης Βύρλας Σχολή Τεχνολόγων.
Τεχνολογία οφθαλμικών φακών Ι (Ε) Ενότητα 2: Διόρθωση αμετρωπιών με οφθαλμικούς φακούς Θεμιστοκλής Γιαλελής, Οπτικός, MSc, PhD candidate ΕΔΙΠ του τμήματος.
Τεχνολογία οφθαλμικών φακών Ι (Ε) Ενότητα 5: Έγχρωμοι φακοί Θεμιστοκλής Γιαλελής, Οπτικός, MSc, PhD candidate ΕΔΙΠ του τμήματος Οπτικής και Οπτομετρίας.
Eιδικά θέματα βάσεων χωρικών δεδομένων και θεωρία συστημάτων
Κανόνες Ασφαλείας Εργοταξίων
ΟΙΚΟΝΟΜΙΚΑ ΤΟΥ ΕΛΕΓΧΟΥ ΤΗΣ ΡΥΠΑΝΣΗΣ
Άλλες μορφές νευρώσεων
Διαχείριση παραγωγής εντύπων 1/2
Επικοινωνιακός Προγραμματισμός Ι
Άσκηση 8 (1 από 3) Προβολές 1. Να επιλέξετε ένα θέμα βασισμένο σε κάποια παράγραφο / υποπαράγραφο του κεφαλαίου 6 των σημειώσεων και να κάνετε μια εργασία.
Υπολογιστική Γεωμετρία και Εφαρμογές στις ΒΧΔ
Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν την εξαγωγή Correlations μεταξύ attributes ενός data set.
Φιλοσοφία της Ιστορίας και του Πολιτισμού
Ελληνική ξενοδοχειακή αγορά
Ταυτότητα και περίγραμμα μαθήματος
ΠΡΟΤΥΠΟ ΕΛΟΤ EN ISO 3251 Ζύγιση μάζας υγρού μελανιού (m1 g)
Φυσικοθεραπεία σε ειδικές πληθυσμιακές μονάδες (Ε)
Ενότητα 13 Αξιολόγηση μαθήματος και διδάσκοντος από την εφαρμογή της Μονάδας Ολικής Ποιότητας (ΜΟΔΙΠ) του ΤΕΙ Αθήνας Αξιολόγηση του μαθήματος Αξιολόγηση.
Περιγραφή Ενότητας Σκοπός του μαθήματος είναι η παρουσίαση δηλώσεων SQL που περιλαμβάνουν EXIST, ANY, ALL. Χ. Σκουρλάς.
Άσκηση 9 (1 από 2) Ανακαλύψτε στο χάρτη σας μερικά χαρτογραφικά αντικείμενα που να ανήκουν στις παρακάτω κατηγορίες : φυσικά, τεχνητές κατασκευές, αφηρημένα.
Φιλοσοφία της Ιστορίας και του Πολιτισμού
Ο Πλάτων και ο Αριστοτέλης για την ψυχή
Σύγχρονη Πρακτική Φιλοσοφία
ΕΦΑΡΜΟΣΜΕΝΗ ΗΘΙΚΗ Ενότητα 9 (PART A): Σχέση Ηθικής και Δικαιοσύνης
Τοπολογικές σχέσεις 1/3 Βρείτε και περιγράψτε τις τοπολογικές σχέσεις σύμφωνα με τους (Pantazis, Donnay 1996) για τα παρακάτω γεω-γραφικά αντικείμενα:
Επικοινωνιακός Προγραμματισμός Ι
Εικαστικές συνθέσεις - Χρώμα στο χώρο
Γενική και Μαθηματική Χαρτογραφία (Ε)
Οργάνωση και Διοίκηση Πρωτοβάθμιας (Θ)
Εισαγωγή στις εικαστικές τέχνες
Λιθογραφία – Όφσετ (Θ) Ενότητα 8.2: Εκτυπωτική Διαδικασία Μηχανής
Επικοινωνιακός Προγραμματισμός Ι
Ενότητα 9: Συστήματα Υγείας στην Ευρώπη: Σουηδία
Διδακτική της Πληροφορικής
Τηλεοπτική και Ραδιοφωνική Παραγωγή
Αισθητική Σώματος Ι (Ε)
Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας
Ειδικά θέματα βάσεων χωρικών δεδομένων και θεωρία συστημάτων -E
Το Εικονογραφημένο Βιβλίο στην Προσχολική Εκπαίδευση
Γενική και Μαθηματική Χαρτογραφία (Ε)
Αισθητική Σώματος Ι (Ε)
Το Εικονογραφημένο Βιβλίο στην Προσχολική Εκπαίδευση
Μυθος και Τελετουργία στην Αρχαία Ελλάδα
Ενότητα 8: Συστήματα Υγείας στην Ευρώπη: Γαλλία
Eιδικά θέματα βάσεων χωρικών δεδομένων και θεωρία συστημάτων -Θ
Ψυχιατρική Ενότητα 7: Συνέχεια σταδίων
Γενικὴ Ἐκκλησιαστικὴ Ἱστορία Α´
Ανοσολογία (Ε) Ενότητα 3: Αιμοσυγκόλληση Πέτρος Καρκαλούσος
Οργανική Χημεία (Ε) Ενότητα 2: Προσδιορισμός σημείου τήξης
Ενότητα 1: ……………….. Όνομα Επώνυμο Τμήμα __
Αισθητική ηλεκτροθεραπεία σώματος
Επικοινωνιακός Προγραμματισμός Ι
Μεταγράφημα παρουσίασης:

Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ενότητα 5: Θέματα εξόρυξης δεδομένων με χρήση Rapid Miner – Correlation Χ. Σκουρλάς Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και αν αναφέρεται διαφορετικά Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.

Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν την εξαγωγή Correlations μεταξύ attributes ενός data set. Η διεκπεραίωση των θεμάτων γίνεται κυρίως με χρήση παραδειγμάτων. Επιπλέον, γίνεται αναφορά στο εργαλείο Rapid Miner Περιγραφή

Ενδεικτική Βιβλιογραφία M. North, Data Mining for the Masses, 2012, ISBN: This book is licensed under a Creative Commons Attribution 3.0 License

3 Data Mining for the Masses CRISP-DM Conceptual Model

4 BI, DM and RapidMiner Θα μελετήσουμε μια εταιρεία που προμηθεύει πετρέλαιο θέρμανσης για το σπίτι σε πανεθνική κλίμακα. Ένας περιφερειακός διευθυντής πωλήσεων αισθάνεται την ανάγκη να κατανοήσει τα είδη των συμπεριφορών και άλλους παράγοντες που μπορεί να επηρεάσουν τη ζήτηση για πετρέλαιο θέρμανσης στην εγχώρια αγορά. Προβληματίζεται κυρίως λόγω της μεταβλητότητας των τιμών της αγοράς πετρελαίου θέρμανσης, σε συνδυασμό με τη μεγάλη μεταβλητότητα στο μέγεθος των παραγγελιών για το σπίτι του πετρελαίου θέρμανσης. (M. North, Data Mining for the Masses, 2012)

5 BI and RapidMiner Το κύριο ερώτημα μπορεί να διατυπωθεί ως εξής: Ποιοι παράγοντες σχετίζονται με τη χρήση του πετρελαίου θέρμανσης, και πώς η εταιρεία θα μπορούσε να χρησιμοποιήσει τη γνώση αυτών των παραγόντων για την καλύτερη διαχείριση των αποθεμάτων της, καθώς και την πρόβλεψη της ζήτησης;

6 BI and RapidMiner Υπάρχουν πολλοί παράγοντες που επηρεάζουν την κατανάλωση πετρελαίου θέρμανσης. Πιστεύουμε ότι η διερεύνηση της σχέσης μεταξύ ορισμένων από τους παράγοντες αυτούς, θα βοηθήσει την εταιρεία να παρακολουθεί καλύτερα και να ανταποκριθεί στη ζήτηση του πετρελαίου θέρμανσης. Στην έρευνά μας έχει επιλεγεί η συσχέτιση (correlation) ως ένας απλός τρόπος μοντελοποίησης της σχέσης μεταξύ των παραγόντων που η εταιρεία επιθυμεί να διερευνήσει.

7 BI and RapidMiner Η συσχέτιση - correlation είναι ένα στατιστικό μέτρο που περιγράφει πόσο ισχυρές είναι οι σχέσεις μεταξύ των ιδιοτήτων σε ένα σύνολο δεδομένων (“Correlation is a statistical measure of how strong the relationships are between attributes in a data set”). Ακολουθεί η δημιουργία ενός πίνακα συσχέτισης έξι χαρακτηριστικών. Τα δεδομένα που χρησιμοποιούνται αντλούνται κυρίως από το σύστημα τιμολόγησης πελατών (billing) της εταιρείας.

8 BI and RapidMiner 1)Insulation: Είναι μια εκτίμηση που κυμαίνονται από ένα έως δέκα και αναφέρεται στη μόνωση κάθε σπιτιού. Ένα σπίτι με βαθμολογία ένα δεν είναι καλά μονωμένο, ενώ ένα σπίτι με μια βαθμολογία των δέκα βαθμών έχει εξαιρετική μόνωση. 2)Temperature: Μέση εξωτερική θερμοκρασία περιβάλλοντος σε κάθε σπίτι για το προηγούμενο έτος. Μετράται σε βαθμούς Κελσίου. 3)Heating_Oil: Συνολικός αριθμός λίτρων πετρελαίου θέρμανσης που αγοράστηκαν από τον ιδιοκτήτη του σπιτιού το προηγούμενο έτος. 4)Num_Occupants: Συνολικός αριθμός των ενοίκων σε κάθε σπίτι. 5)Avg_Age: Μέση ηλικία ενοίκων. 6)Home_Size: Βαθμολογία, σε μια κλίμακα από ένα έως οκτώ του που αναφέρεται στο συνολικό μέγεθος του σπιτιού. Όσο μεγαλύτερος ο αριθμός τόσο μεγαλύτερο το σπίτι.

9 Insulation,Temperature,Heating_Oil,Num_Occupants,Avg_Age,Home_Size 6,74,132,4,23.8,4 10,43,263,4,56.7,4 3,81,145,2,28.0,6 9,50,196,4,45.1,3 2,80,131,5,20.8,2 5,76,129,3,21.5,3 5,72,131,4,23.5,3 6,88,161,2,38.2,6 5,77,184,3,42.5,3 10,42,225,3,51.1,1 6,90,178,2,42.1,2 3,83,121,1,19.8,2 10,43,186,5,45.1,6 8,59,206,2,50.1,8

Ορολογία εργαλείου Rapid Miner 10

A new data mining project in RapidMiner 11 The RapidMiner start screen

12

13

14

15

16

17

18

19

20

21

22

23

24

25 Τα αποτελέσματα σε Correlation Matrix

Οι συντελεστές συσχέτισης (correlation coefficients) μεταξύ 0 και 1 αντιπροσωπεύουν θετικές συσχετίσεις (positive correlations) και οι συντελεστές μεταξύ 0 και -1 αρνητικές (negative correlations). Εξετάζουμε τη σχέση (relationship) μεταξύ των ιδιοτήτων (attributes) Heating_Oil και Insulation. 26

positive correlations: Όσον η τιμή ενός χαρακτηριστικού (attribute) αυξάνεται, η τιμή του άλλου χαρακτηριστικού αυξάνεται επίσης Όσον η τιμή ενός χαρακτηριστικού μειώνεται, η τιμή του άλλου χαρακτηριστικού μειώνεται επίσης 27

The relationship between the Temperature attribute and the Insulation rating attribute. 28

the correlation strength along the continuum from -1 to 1 29

30

31

32

33

34

35

Σημείωμα Αναφοράς Copyright Τεχνολογικό Εκπαιδευτικό Ίδρυμα Αθήνας, Χ. Σκουρλάς Χ. Σκουρλάς. «Βάσεις Δεδομένων Ι. Ενότητα 1: «Προσανατολισμού» (orientation) - Εισαγωγή ». Έκδοση: 1.0. Αθήνα Διαθέσιμο από τη δικτυακή διεύθυνση: ocp.teiath.gr.ocp.teiath.gr

Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί.

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει:  το Σημείωμα Αναφοράς  το Σημείωμα Αδειοδότησης  τη δήλωση Διατήρησης Σημειωμάτων  το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στo πλαίσιo του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Αθηνών» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.