Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν την προετοιμασία δεδομένων (Data Preparation). Η διεκπεραίωση.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν την προετοιμασία δεδομένων (Data Preparation). Η διεκπεραίωση."— Μεταγράφημα παρουσίασης:

0 Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας
Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Αθήνας Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας Ενότητα 3: Θέματα εξόρυξης δεδομένων με χρήση Rapid Miner – Data Presentations Χ. Σκουρλάς Τμήμα Μηχανικών Πληροφορικής Τ.Ε. Το περιεχόμενο του μαθήματος διατίθεται με άδεια Creative Commons εκτός και αν αναφέρεται διαφορετικά Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.

1 Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν την προετοιμασία δεδομένων (Data Preparation). Η διεκπεραίωση των θεμάτων γίνεται κυρίως με χρήση παραδειγμάτων. Επιπλέον, γίνεται αναφορά στο εργαλείο Rapid Miner

2 Ενδεικτική Βιβλιογραφία
M. North, Data Mining for the Masses, 2012, ISBN: This book is licensed under a Creative Commons Attribution 3.0 License

3 CRISP-DM, the CRoss-Industry Standard Process for Data Mining.

4 CRISP-DM Step 1: Business (Organizational) Understanding
Πώς μπορούμε να αυξήσουμε το περιθώριο κέρδους ανά μονάδα προϊόντος; Πώς μπορούμε να προβλέψουμε και να διορθώσουμε ατέλειες κατασκευής έτσι ώστε να αποφύγουμε την αποστολή ενός ελαττωματικού προϊόντος; Από εκεί, μπορείτε να αρχίσετε και να αναπτύξετε πιο συγκεκριμένες ερωτήσεις που θέλετε να απαντήσετε, και αυτό θα σας δώσει τη δυνατότητα να προχωρήσετε σε ...

5 CRISP-DM Step 2: Data Understanding
Από πού προέρχονται τα δεδομένα; Από ποιόν συλλέγονται; Χρησιμοποιήθηκε μια τυποποιημένη μέθοδος συλλογής (a standard method of collection); Τι σημαίνουν οι διάφορες στήλες και οι γραμμές των δεδομένων; Υπάρχουν ακρωνύμια ή συντομογραφίες που είναι άγνωστα ή ασαφή;

6 CRISP-DM Step 3: Data Preparation (Data Mining for the Masses)
Μπορεί να ενώνει δύο ή περισσότερα σύνολα δεδομένων, να περιορίζει σύνολα δεδομένων μόνον σε εκείνες τις μεταβλητές που έχουν ενδιαφέρον σε μια συγκεκριμένη περίπτωση εξόρυξης δεδομένων, να καθαρίζει δεδομένα από «ακραίες» παρατηρήσεις, να συμπληρώνει – διαχειρίζεται ελλείποντα δεδομένα, να μορφοποιεί εκ νέου δεδομένα για λόγους συνέπειας κ.λπ.

7 CRISP-DM Step 4: Modeling (Data Mining for the Masses)
Απλουστεύοντας, ένα μοντέλο, στην εξόρυξη δεδομένων, είναι μια ηλεκτρονική αναπαράσταση παρατηρήσεων – μετρήσεων (observations) του πραγματικού κόσμου. Τα μοντέλα προκύπτουν από την εφαρμογή αλγορίθμων που «αναλαμβάνουν» την αναζήτηση, τον εντοπισμό, και την εμφάνιση προτύπων ή μηνυμάτων στα δεδομένα. Υπάρχουν δύο βασικά είδη μοντέλων εξόρυξης: εκείνα που ταξινομούν (classify) και εκείνα που προβλέπουν (predict).

8 CRISP-DM Conceptual Model
Data Mining for the Masses

9 παράδειγμα: Data Preparation (με χρήση RapidMiner)
Ο διευθυντής μάρκετινγκ μιας μικρής εταιρείας σχεδιασμού εφαρμογών Διαδικτύου και διαφήμισης θέλει να αναπτύξει ένα σύνολο δεδομένων που θα περιέχει πληροφορίες σχετικά με τους χρήστες του Διαδικτύου. Η εταιρεία θα χρησιμοποιήσει αυτά τα στοιχεία για να καθορίσει τι είδους άνθρωποι χρησιμοποιούν το Διαδίκτυο και πώς η επιχείρηση θα είναι σε θέση να εμπορευτεί υπηρεσίες σε αυτή την ομάδα χρηστών. Δημιουργεί μια online έρευνα και τοποθετεί συνδέσεις (links) σχετικές με διάφορες δημοφιλείς ιστοσελίδες. Μέσα σε δύο εβδομάδες, ο διευθυντής έχει συλλέξει αρκετά δεδομένα για να ξεκινήσει την ανάλυση, αλλά ο ίδιος θεωρεί ότι τα στοιχεία του πρέπει να κανονικοποιηθούν. Συνειδητοποιεί ότι κάποιες πρόσθετες εργασίες σχετικά με τα δεδομένα πρέπει να λάβουν χώρα πριν από την έναρξη της ανάλυσης. (M. North, Data Mining for the Masses, 2012 Διασκευή παραδείγματος κεφαλαίου 3)

10 Survey & RapidMiner

11 Attributes Gender Race Birth_Year Marital_Status Years_on_Internet
Hours_Per_Day Preferred_Browser Preferred_Search_Engine Preferred_ ,Read_News Online_Shopping Online_Gaming Facebook Twitter Other_Social_Network

12 https://sites.google.com/site/dataminingforthemasses/

13 The process of data scrubbing (πως θα διαχειριστούμε ανωμαλίες στα δεδομένα σύμφωνα με τις ανάγκες μας) 4εις περιπτώσεις διαχείρισης data scrubbing: handling missing data reducing data (observations) handling inconsistent data reducing attributes.

14 Ορολογία εργαλείου Rapid Miner

15 A new data mining project in RapidMiner
The RapidMiner start screen

16 Import

17 Import Data Set

18 Import Data Set – Steps 5

19 How columns are separated - λάθος

20 How columns are separated

21 How columns are separated - σωστό

22 Names of the attributes

23 Data types, role

24 Where to store

25 Data View

26 Toggle between Design Perspective and Results Perspective

27 Design Perspective

28 Design Perspective – Drag and Drop

29

30 Drag and Drop

31 Drag and Drop

32 Results Perspective

33 Meta Data View (basic descriptive statistics)

34 Data Type In a data set, each attribute is assigned a data type based on the kind of data stored in the attribute. There are many data types which can be generalized into one of three areas: Character (Text) based; Numeric; and Date/Time. Within these categories, RapidMiner has several data types. For example, in the Character area, RapidMiner has Polynominal, Binominal, etc.; and in the Numeric area it has Real, Integer, etc. Binomial means one of two numbers (usually 0 and 1), so the basic underlying data type is still numeric. Binominal on the other hand, means one of two values which may be numeric or character based. (M. North, Data Mining for the Masses, 2012

35 Online_Gaming attribute (3 missing values)

36 Είτε ψάχνουμε με πλοήγηση

37 Ή ψάχνουμε με αναζήτηση

38 Drag and Drop – Replace Missing Values operator

39 Drag and Drop

40 Spline

41 Ports Exa port = example set (‘examples’ is the word RapidMiner uses for observations in a data set). result set (res) (when you run your process, you will have output).

42 Αλλαγή των missing values σε τιμή Ν - χρήση μεταβλητών σε parameter pane (παράθυρο παραμέτρων )

43 Επιλογή attribute

44 Play

45 Data View

46 Data Reduction

47 (Use the) Filter Examples (operator)

48 (Use the) Filter Examples (operator)

49 (Condition class) attribute_value_filter
(Parameter string) Online_Shopping=. (Click on the process to see the parameter pane) (Condition class) attribute_value_filter

50 Play

51 Online_Shopping

52 Sample

53

54 Parameter pane

55 Play

56 Handling Inconsistent Data: twitter (99)

57

58 Αλλαγή σε:

59

60

61 Attribute Reduction

62

63 Button

64

65 Μελέτη Περίπτωσης (by Myrto Pirli)

66 Hostal Fernando, Barcelona

67

68

69 Plaza de San Jaime http://es.wikipedia.org/wiki/Plaza_de_San_Jaime

70 La Rambla, Barcelona http://en.wikipedia.org/wiki/La_Rambla,_Barcelona

71 Text Mining Procedure

72 Step 1: Establishing the corpus (2014)
- booking.com (949 total reviews) - TripAdvisor (333 total reviews) - Twitter (1 review). The booking.com list was pruned to contain only reviews that contained text (i.e. reviews that just had a numeric grade and a headline were excluded). We also decided to use reviews from the past four years ( ), as older reviews may not be relevant to the state of the hotel in the present day. This left 90 reviews from booking.com, 89 from TripAdvisor and 1 from Twitter. From these a sample of 45 reviews was obtained as follows: 1) 22 reviews from booking.com, by starting from the first review and selecting every fifth review 2) 22 reviews from TripAdvisor. TripAdvisor divides reviews into the categories Excellent, Very good, Average, Poor, and Terrible, so a stratified sample was obtained containing 5 Excellent reviews (out of 21), 13 Very good (out of 51), 3 Average (out of 11), 1 Poor (out of 4), and 0 Terrible (out of 2). Within each stratum the reviews were selected as in the booking.com sample (every n-th review) 3) 1 review from Twitter

73 Step 2: Creating the Term-Document Matrix
An Excel spreadsheet was created, with columns representing terms and rows representing each document (review). In places where a phrase was more important than a plain word, the phrase was used as a term (for example "good value for money" instead of "good", "value", and "money"). Synonymous phrases were stored as one term (for example "good location", "great location" and "liked location" became "liked location, good location"). 91 terms-phrases were recorded. Afterwards we did a further reduction of the data, by further replacing synonyms

74 Replacement of synonymous terms
Initial terms Final (replacement) term "excellent Wi-fi", "free Wi-fi", "Wi-fi" "Wi-fi" "no Wi-fi", "disconnecting Wi-fi" "bad Wi-fi" "shower pressure low", "shower needs replacing" "shower problems" "substandard breakfast", "bad breakfast" "bad breakfast" "church bells", "noisy street", "noisy common area", "water pipe noise" "noise"

75 Replacement of synonymous terms
This was done in order to not only reduce the number of terms, but also to increase the frequency of some rare terms in the total amount of documents so that they would be more meaningful (for example "shower pressure low" and "shower needs replacing" appeared in only 1 document each, but when replaced with the same synonym it appears in 2 documents). This left a final 83 terms.

76 Step 3: Extracting the knowledge
The terms were sorted by frequency, i.e. how many documents they appeared in. A histogram was created with the 35 most common terms. Afterwards, the terms were divided into positive and negative terms and again sorted by frequency. Histograms were created for the top 30 positive and all (21) negative terms. RapidMiner can be used to find potential associations among the data. Various algorithms could be used for this. Examples of data sets for experimentation: one containing all the data (documents and terms) one containing all the documents but only the negative terms one containing all the terms but only the documents that contained negative terms.

77 Sample - Example

78

79

80

81 Example of Business model

82 Σημείωμα Αναφοράς Copyright Τεχνολογικό Εκπαιδευτικό Ίδρυμα Αθήνας, Χ. Σκουρλάς 2014. Χ. Σκουρλάς. «Εξόρυξη δεδομένων και διαχείριση δεδομένων μεγάλης κλίμακας. Ενότητα 3: «Θέματα εξόρυξης δεδομένων με χρήση Rapid Miner – Data Presentations». Έκδοση: 1.0. Αθήνα Διαθέσιμο από τη δικτυακή διεύθυνση: ocp.teiath.gr.

83 Σημείωμα Αδειοδότησης
Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί.

84 Διατήρηση Σημειωμάτων
Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.

85 Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στo πλαίσιo του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Αθηνών» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.


Κατέβασμα ppt "Περιγραφή Γίνεται αναφορά σε σημαντικές έννοιες εξόρυξης δεδομένων (data mining) που αφορούν την προετοιμασία δεδομένων (Data Preparation). Η διεκπεραίωση."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google