Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
ΔημοσίευσεΒλάσιος Ζέρβας Τροποποιήθηκε πριν 6 χρόνια
0
Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας
Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ενότητα 3: Θέματα εξόρυξης δεδομένων με χρήση Rapid Miner – Data Presentations Χ. Σκουρλάς Τμήμα Μηχανικών Πληροφορικής Τ.Ε. Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και αν αναφέρεται διαφορετικά Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.
1
Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν την προετοιμασία δεδομένων (Data Preparation). Η διεκπεραίωση των θεμάτων γίνεται κυρίως με χρήση παραδειγμάτων. Επιπλέον, γίνεται αναφορά στο εργαλείο Rapid Miner
2
Ενδεικτική Βιβλιογραφία
M. North, Data Mining for the Masses, 2012, ISBN: This book is licensed under a Creative Commons Attribution 3.0 License
3
CRISP-DM, the CRoss-Industry Standard Process for Data Mining.
4
CRISP-DM Step 1: Business (Organizational) Understanding
Πώς μπορούμε να αυξήσουμε το περιθώριο κέρδους ανά μονάδα προϊόντος; Πώς μπορούμε να προβλέψουμε και να διορθώσουμε ατέλειες κατασκευής έτσι ώστε να αποφύγουμε την αποστολή ενός ελαττωματικού προϊόντος; Από εκεί, μπορείτε να αρχίσετε και να αναπτύξετε πιο συγκεκριμένες ερωτήσεις που θέλετε να απαντήσετε, και αυτό θα σας δώσει τη δυνατότητα να προχωρήσετε σε ...
5
CRISP-DM Step 2: Data Understanding
Από πού προέρχονται τα δεδομένα; Από ποιόν συλλέγονται; Χρησιμοποιήθηκε μια τυποποιημένη μέθοδος συλλογής (a standard method of collection); Τι σημαίνουν οι διάφορες στήλες και οι γραμμές των δεδομένων; Υπάρχουν ακρωνύμια ή συντομογραφίες που είναι άγνωστα ή ασαφή;
6
CRISP-DM Step 3: Data Preparation (Data Mining for the Masses)
Μπορεί να ενώνει δύο ή περισσότερα σύνολα δεδομένων, να περιορίζει σύνολα δεδομένων μόνον σε εκείνες τις μεταβλητές που έχουν ενδιαφέρον σε μια συγκεκριμένη περίπτωση εξόρυξης δεδομένων, να καθαρίζει δεδομένα από «ακραίες» παρατηρήσεις, να συμπληρώνει – διαχειρίζεται ελλείποντα δεδομένα, να μορφοποιεί εκ νέου δεδομένα για λόγους συνέπειας κ.λπ.
7
CRISP-DM Step 4: Modeling (Data Mining for the Masses)
Απλουστεύοντας, ένα μοντέλο, στην εξόρυξη δεδομένων, είναι μια ηλεκτρονική αναπαράσταση παρατηρήσεων – μετρήσεων (observations) του πραγματικού κόσμου. Τα μοντέλα προκύπτουν από την εφαρμογή αλγορίθμων που «αναλαμβάνουν» την αναζήτηση, τον εντοπισμό, και την εμφάνιση προτύπων ή μηνυμάτων στα δεδομένα. Υπάρχουν δύο βασικά είδη μοντέλων εξόρυξης: εκείνα που ταξινομούν (classify) και εκείνα που προβλέπουν (predict).
8
CRISP-DM Conceptual Model
Data Mining for the Masses
9
παράδειγμα: Data Preparation (με χρήση RapidMiner)
Ο διευθυντής μάρκετινγκ μιας μικρής εταιρείας σχεδιασμού εφαρμογών Διαδικτύου και διαφήμισης θέλει να αναπτύξει ένα σύνολο δεδομένων που θα περιέχει πληροφορίες σχετικά με τους χρήστες του Διαδικτύου. Η εταιρεία θα χρησιμοποιήσει αυτά τα στοιχεία για να καθορίσει τι είδους άνθρωποι χρησιμοποιούν το Διαδίκτυο και πώς η επιχείρηση θα είναι σε θέση να εμπορευτεί υπηρεσίες σε αυτή την ομάδα χρηστών. Δημιουργεί μια online έρευνα και τοποθετεί συνδέσεις (links) σχετικές με διάφορες δημοφιλείς ιστοσελίδες. Μέσα σε δύο εβδομάδες, ο διευθυντής έχει συλλέξει αρκετά δεδομένα για να ξεκινήσει την ανάλυση, αλλά ο ίδιος θεωρεί ότι τα στοιχεία του πρέπει να κανονικοποιηθούν. Συνειδητοποιεί ότι κάποιες πρόσθετες εργασίες σχετικά με τα δεδομένα πρέπει να λάβουν χώρα πριν από την έναρξη της ανάλυσης. (M. North, Data Mining for the Masses, 2012 Διασκευή παραδείγματος κεφαλαίου 3)
10
Survey & RapidMiner
11
Attributes Gender Race Birth_Year Marital_Status Years_on_Internet
Hours_Per_Day Preferred_Browser Preferred_Search_Engine Preferred_ ,Read_News Online_Shopping Online_Gaming Facebook Twitter Other_Social_Network
12
https://sites.google.com/site/dataminingforthemasses/
13
The process of data scrubbing (πως θα διαχειριστούμε ανωμαλίες στα δεδομένα σύμφωνα με τις ανάγκες μας) 4εις περιπτώσεις διαχείρισης data scrubbing: handling missing data reducing data (observations) handling inconsistent data reducing attributes.
14
Ορολογία εργαλείου Rapid Miner
15
A new data mining project in RapidMiner
The RapidMiner start screen
16
Import
17
Import Data Set
18
Import Data Set – Steps 5
19
How columns are separated - λάθος
20
How columns are separated
21
How columns are separated - σωστό
22
Names of the attributes
23
Data types, role
24
Where to store
25
Data View
26
Toggle between Design Perspective and Results Perspective
27
Design Perspective
28
Design Perspective – Drag and Drop
30
Drag and Drop
31
Drag and Drop
32
Results Perspective
33
Meta Data View (basic descriptive statistics)
34
Data Type In a data set, each attribute is assigned a data type based on the kind of data stored in the attribute. There are many data types which can be generalized into one of three areas: Character (Text) based; Numeric; and Date/Time. Within these categories, RapidMiner has several data types. For example, in the Character area, RapidMiner has Polynominal, Binominal, etc.; and in the Numeric area it has Real, Integer, etc. Binomial means one of two numbers (usually 0 and 1), so the basic underlying data type is still numeric. Binominal on the other hand, means one of two values which may be numeric or character based. (M. North, Data Mining for the Masses, 2012
35
Online_Gaming attribute (3 missing values)
36
Είτε ψάχνουμε με πλοήγηση
37
Ή ψάχνουμε με αναζήτηση
38
Drag and Drop – Replace Missing Values operator
39
Drag and Drop
40
Spline
41
Ports Exa port = example set (‘examples’ is the word RapidMiner uses for observations in a data set). result set (res) (when you run your process, you will have output).
42
Αλλαγή των missing values σε τιμή Ν - χρήση μεταβλητών σε parameter pane (παράθυρο παραμέτρων )
43
Επιλογή attribute
44
Play
45
Data View
46
Data Reduction
47
(Use the) Filter Examples (operator)
48
(Use the) Filter Examples (operator)
49
(Condition class) attribute_value_filter
(Parameter string) Online_Shopping=. (Click on the process to see the parameter pane) (Condition class) attribute_value_filter
50
Play
51
Online_Shopping
52
Sample
54
Parameter pane
55
Play
56
Handling Inconsistent Data: twitter (99)
58
Αλλαγή σε:
61
Attribute Reduction
63
Button
65
Μελέτη Περίπτωσης (by Myrto Pirli)
66
Hostal Fernando, Barcelona
69
Plaza de San Jaime http://es.wikipedia.org/wiki/Plaza_de_San_Jaime
70
La Rambla, Barcelona http://en.wikipedia.org/wiki/La_Rambla,_Barcelona
71
Text Mining Procedure
72
Step 1: Establishing the corpus (2014)
- booking.com (949 total reviews) - TripAdvisor (333 total reviews) - Twitter (1 review). The booking.com list was pruned to contain only reviews that contained text (i.e. reviews that just had a numeric grade and a headline were excluded). We also decided to use reviews from the past four years ( ), as older reviews may not be relevant to the state of the hotel in the present day. This left 90 reviews from booking.com, 89 from TripAdvisor and 1 from Twitter. From these a sample of 45 reviews was obtained as follows: 1) 22 reviews from booking.com, by starting from the first review and selecting every fifth review 2) 22 reviews from TripAdvisor. TripAdvisor divides reviews into the categories Excellent, Very good, Average, Poor, and Terrible, so a stratified sample was obtained containing 5 Excellent reviews (out of 21), 13 Very good (out of 51), 3 Average (out of 11), 1 Poor (out of 4), and 0 Terrible (out of 2). Within each stratum the reviews were selected as in the booking.com sample (every n-th review) 3) 1 review from Twitter
73
Step 2: Creating the Term-Document Matrix
An Excel spreadsheet was created, with columns representing terms and rows representing each document (review). In places where a phrase was more important than a plain word, the phrase was used as a term (for example "good value for money" instead of "good", "value", and "money"). Synonymous phrases were stored as one term (for example "good location", "great location" and "liked location" became "liked location, good location"). 91 terms-phrases were recorded. Afterwards we did a further reduction of the data, by further replacing synonyms
74
Replacement of synonymous terms
Initial terms Final (replacement) term "excellent Wi-fi", "free Wi-fi", "Wi-fi" "Wi-fi" "no Wi-fi", "disconnecting Wi-fi" "bad Wi-fi" "shower pressure low", "shower needs replacing" "shower problems" "substandard breakfast", "bad breakfast" "bad breakfast" "church bells", "noisy street", "noisy common area", "water pipe noise" "noise"
75
Replacement of synonymous terms
This was done in order to not only reduce the number of terms, but also to increase the frequency of some rare terms in the total amount of documents so that they would be more meaningful (for example "shower pressure low" and "shower needs replacing" appeared in only 1 document each, but when replaced with the same synonym it appears in 2 documents). This left a final 83 terms.
76
Step 3: Extracting the knowledge
The terms were sorted by frequency, i.e. how many documents they appeared in. A histogram was created with the 35 most common terms. Afterwards, the terms were divided into positive and negative terms and again sorted by frequency. Histograms were created for the top 30 positive and all (21) negative terms. RapidMiner can be used to find potential associations among the data. Various algorithms could be used for this. Examples of data sets for experimentation: one containing all the data (documents and terms) one containing all the documents but only the negative terms one containing all the terms but only the documents that contained negative terms.
77
Sample - Example
81
Example of Business model
82
Σημείωμα Αναφοράς Copyright Τεχνολογικό Εκπαιδευτικό Ίδρυμα Αθήνας, Χ. Σκουρλάς 2014. Χ. Σκουρλάς. «Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας. Ενότητα 3: «Θέματα εξόρυξης δεδομένων με χρήση Rapid Miner – Data Presentations». Έκδοση: 1.0. Αθήνα Διαθέσιμο από τη δικτυακή διεύθυνση: ocp.teiath.gr.
83
Σημείωμα Αδειοδότησης
Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί.
84
Διατήρηση Σημειωμάτων
Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.
85
Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στo πλαίσιo του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Αθηνών» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.