Προεπεξεργασία Δεδομένων

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Κοινωνικός Αποκλεισμός στην Εκπαίδευση! Το φροντιστήριο απαραίτητο εργαλείο προόδου των νέων.
Advertisements

«Έρευνα Πεδίου σε αντιπροσωπευτικό δείγμα Μικρομεσαίων Εμπορικών Επιχειρήσεων» Χρονοσειρά δεδομένων 1 ο κύμα (Έρευνα Βάσης σε δείγμα: εμπορικών επιχειρήσεων)
Μάρτιος 2011 Βαρόμετρο ΕΒΕΘ - Καταναλωτές. “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι.
Πρωτογενής έρευνα Hi5, μία μόδα για νέους;. Μεθοδολογία - εργαλεία Η έρευνα διενεργήθηκε με την μέθοδο της συλλογής ερωτηματολογίων, τα οποία και συμπληρώνονταν.
Αριθμητική με σφηνοειδείς αριθμούς Ν. Καστάνη
Εξόρυξη Γνώσης Από Χρονικά Δεδομένα
1 ΠΡΟΤΑΣΕΙΣ ΓΙΑ ΤΗΝ ΟΡΓΑΝΩΤΙΚΗ ΔΟΜΗ ΤΗΣ ΕΡΓΑΣΤΗΡΙΑΚΗΣ ΔΙΕΡΕΥΝΗΣΗΣ ΤΗΣ ΦΥΜΑΤΙΩΣΗΣ ΣΕ ΕΘΝΙΚΟ ΕΠΙΠΕΔΟ Ευάγγελος Μαρίνης Επίτιμος Διευθυντής Μικροβιολογικού.
Μετρήσεις Κεντρικής Τάσης
Προεπεξεργασία Δεδομένων
ΠΕΤΡΟΓΕΦΥΡΑ Δημου ΚΑΡΠΕΝΗΣΙΟΥ
Προεπεξεργασία Δεδομένων
Προεπεξεργασία Δεδομένων
1 SOFAS. 2 Storm Διαστάσεις: (ΠxΥxB) Καναπές τριθέσιος: 215x65x95 cm. Καναπές διθέσιος: 169x65x95 cm. Πουφ: 92x46x92 cm.
Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας.
«ΠΡΟΩΘΩΝΤΑΣ ΤΗΝ ΠΟΙΟΤΗΤΑ ΣΤΗΝ ΕΚΠΑΙΔΕΥΣΗ: ΜΙΑ ΔΥΝΑΜΙΚΗ ΠΡΟΣΕΓΓΙΣΗ
Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)
-17 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Σεπτέμβριος 2013 Δείκτης > +20 Δείκτης 0 a +20 Δείκτης 0 a -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
Βαρόμετρο ΕΒΕΘ - Καταναλωτές Σεπτέμβριος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι.
Εξάσκηση στην προπαίδεια
Αποτελέσματα μετρήσεων σύστασης σώματος
Βαρόμετρο ΕΒΕΘ Μάρτιος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού Θεσσαλονίκης”
1/5/ ΧΡΗΣΕΙΣ ΤΗΣ ΗΛΙΑΚΗΣ ΑΝΤΙΝΟΒΟΛΙΑΣ 1/5/ (πηγή: HELIOAKMI).
2006 GfK Praha CORRUPTION CLIMATE IN EUROPE % % % %0 - 10% % % % % % ΚΛΙΜΑ ΔΙΑΦΘΟΡΑΣ Η.
ΠΑΝΕΛΛΑΔΙΚΗ ΠΟΛΙΤΙΚΗ ΕΡΕΥΝΑ ΓΙΑ ΤΟ TVXS.GR Η Palmos Analysis είναι μέλος της ESOMAR και της WAPOR και έχει Αριθμό Μητρώου 11 στο Μητρώο Επιχειρήσεων και.
Βαρόμετρο ΕΒΕΘ Μάρτιος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού Θεσσαλονίκης”
ΚΕΦΑΛΑΙΟ 3 Περιγραφική Στατιστική
Βαρόμετρο ΕΒΕΘ Σεπτέμβριος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού.
Εκτίμηση με Απλά Δείγματα
Ελληνική Βιομηχανία: προς την οικονομία της γνώσης, ΤΕΕ, Αθήνα, 3-5 Ιουλίου 2006 Ανιχνεύοντας τη γνώση στην ελληνική επιχειρηματικότητα Σταύρος Ιωαννίδης.
Βαρόμετρο ΕΒΕΘ Μάρτιος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού Θεσσαλονίκης”
ΕΡΕΥΝΑ ΕΚΘΕΤΩΝ-ΕΠΙΣΚΕΠΤΩΝ KAVALAEXPO 2014
Εκκίνηση: 1η Δεκεμβρίου 2014 Πανευρωπαϊκά Πλεονεκτήματα Προσφέρει ένα δυναμικό ξεκίνημα και … στιγμιαίο εισόδημα.
Σοφία Τζελέπη, App Inventor ΜΕΡΟΣ B’ Σοφία Τζελέπη,
ΒΕΛΤΙΩΣΗ ΜΙΚΡΟΛΕΥΚΩΜΑΤΟΥΡΙΑΣ ΜΕΤΑ ΕΦΑΡΜΟΓΗ ΘΕΡΑΠΕΙΑΣ ΤΟΥ ΣΥΝΔΡΟΜΟΥ ΤΗΣ ΑΠΝΟΙΑΣ ΣΕ ΔΙΑΒΗΤΙΚΟΥΣ Ε. Δασκαλοπούλου, Β. Ορδουλίδου*, Ν. Καρτάλη, Χ. Λιάββας*,
Δομές Δεδομένων 1 Στοίβα. Δομές Δεδομένων 2 Στοίβα (stack)  Δομή τύπου LIFO: Last In - First Out (τελευταία εισαγωγή – πρώτη εξαγωγή)  Περιορισμένος.
Επιστημονικά Περιοδικά Ανοικτής Πρόσβασης 1 ΕΠΙΣΤΗΜΟΝΙΚΑ ΠΕΡΙΟΔΙΚΑ ΑΝΟΙΚΤΗΣ ΠΡΟΣΒΑΣΗΣ: Αποτίμηση της πορεί ας κατά το 2010 και το
ΑΝΕΡΓΙΑ.
Προγραμματισμός ΙΙ Διάλεξη #5: Εντολές Ανάθεσης Εντολές Συνθήκης Δρ. Νικ. Λιόλιος.
1 Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Πανεπιστήμιο Πατρών ΟΝΤΟΚΕΝΤΡΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΙΙ (C++) Κληρονομικότητα.
“ Ἡ ἀ γάπη ἀ νυπόκριτος. ἀ ποστυγο ῦ ντες τ ὸ πονηρόν, κολλώμενοι τ ῷ ἀ γαθ ῷ, τ ῇ φιλαδελφί ᾳ ε ἰ ς ἀ λλήλους φιλόστοργοι, τ ῇ τιμ ῇ ἀ λλήλους προηγούμενοι.
Βαρόμετρο ΕΒΕΘ - Καταναλωτές Μάρτιος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι.
ΠΑΝΕΛΛΑΔΙΚΗ ΠΟΛΙΤΙΚΗ ΕΡΕΥΝΑ Για το SBC TV Η Palmos Analysis είναι μέλος της ESOMAR και της WAPOR και έχει Αριθμό Μητρώου 11 στο Μητρώο Επιχειρήσεων και.
+19 Δεκέμβριος 2014 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20 Δείκτης < -20 Συνολικά της ΕΕ: +5 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20.
ΤΑ ΔΟΝΤΙΑ ΜΑΣ.
Βαρόμετρο ΕΒΕΘ Σεπτέμβριος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι του Νομού.
ΕΚΤΙΜΗΣΗ ΠΡΟΣΠΑΘΕΙΑΣ ΠΕΡΙΠΤΩΣΕΩΝ ΧΡΗΣΗΣ Use case estimation effort 1.
ΗΥ Παπαευσταθίου Γιάννης1 Clock generation.
Αριθμητική Επίλυση Διαφορικών Εξισώσεων 1. Συνήθης Δ.Ε. 1 ανεξάρτητη μεταβλητή x 1 εξαρτημένη μεταβλητή y Καθώς και παράγωγοι της y μέχρι n τάξης, στη.
Guide to Business Planning The Value Chain © Guide to Business Planning A principal use of value chain analysis is to identify a strategy mismatch between.
Μαθαίνω με “υπότιτλους”
Μέτρα Διασποράς Η μεταβλητότητα, ή αλλιώς η ποικιλομορφία, στις τιμές μιας μεταβλητής θα πρέπει πάντοτε να λαμβάνεται υπόψη σε οποιαδήποτε στατιστική ανάλυση!
Εκτιμητική: σημειακές εκτιμήσεις παραμέτρων
φίλτρα IIR (Infinite Impulse Response)
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
International Hospitality Management MC Employability Scheme
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
Χαρακτηριστικά μιας Κατανομής
Πανεπιστήμιο Θεσσαλίας
Find: φ σ3 = 400 [lb/ft2] CD test Δσ = 1,000 [lb/ft2] Sand 34˚ 36˚ 38˚
aka Mathematical Models and Applications
GLY 326 Structural Geology
Find: angle of failure, α
Find: ρc [in] from load γT=110 [lb/ft3] γT=100 [lb/ft3]
Find: σ1 [kPa] for CD test at failure
τ [lb/ft2] σ [lb/ft2] Find: c in [lb/ft2] σ1 = 2,000 [lb/ft2]
Financial Market Theory
Find: Force on culvert in [lb/ft]
Find: ρc [in] from load (4 layers)
Προοπτικό σχέδιο με 3 σημεία φυγής
Μεταγράφημα παρουσίασης:

Προεπεξεργασία Δεδομένων 5/4/2017 Προεπεξεργασία Δεδομένων Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 2o Φροντιστήριο Σκούρα Αγγελική skoura@ceid.upatras.gr

Η Διαδικασία Εξόρυξης Γνώσης Ορισμός προβλήματος Συλλογή δεδομένων Προεπεξεργασία δεδομένων Εφαρμογή αλγορίθμου εξόρυξης γνώσης Ερμηνεία αποτελεσμάτων

Βασικά βήματα προεπεξεργασίας A. Καθαρισμός δεδομένων (Data cleaning) Συμπλήρωση των χαμένων τιμών, απαλοιφή θορύβου, απομάκρυνση των outliers, διόρθωση ασυνεπειών, απαλοιφή πλεονασμού B. Ενοποίηση δεδομένων (Data integration) Ενοποίηση πολλαπλών βάσεων δεδομένων, κύβων δεδομένων ή αρχείων, απαλοιφή πλεονασμού Γ. Μετασχηματισμός δεδομένων (Data transformation) και Διακριτοποίηση δεδομένων (Data discretization) Κανονικοποίηση, Μετατροπή των numerical τιμών σε nominal Δ. Μείωση δεδομένων (Data reduction) Μείωση διαστατικότητας, μείωση πληθυκότητας, συμπίεση δεδομένων

Εντοπισμός ακραίων τιμών (outlier detection) An outlier is an observation that lies an abnormal distance from other values in a random sample from a population. Τεχνικές για εντοπισμό outlier Στατιστικές μέθοδοι: Grubbs' Test ή Studentized Deviate (GESD) Test (is the recommended test when testing for a single outlier) Tietjen-Moore Test (is a generalization of the Grubbs' test to the case of more than one outlier. It has the limitation that the number of outliers must be specified exactly) Generalized Extreme Studentized Deviate (GESD) Test (this test requires only an upper bound on the suspected number of outliers and is the recommended test when the exact number of outliers is not known) Γραφικές μέθοδοι: scatter plots box plots

Παράδειγμα ανίχνευσης outliers με Grubbs' Test Έστω τα δεδομένα =[10, 15, 30, 22, 16, 74] Στόχος είναι να ποσοτικοποιήσουμε πόσο μακριά είναι ο outlier από τα υπόλοιπα στοιχεία. Υπολογισμός Z, που είναι το πηλίκο της διαφοράς μεταξύ του outlier από τη μεσαία τιμή (mean) προς την τυπική απόκλιση. Αν η τιμή του Z είναι μεγάλη, τότε θεωρείται ως outlier. Σημείωση: για τον υπολογισμό της μεσαίας τιμής και της τυπικής απόκλισης χρησιμοποιείται και το φερόμενο στοιχείο ως outlier. Για τη μέθοδο Grubb's υπάρχει πίνακας με κρίσιμες τιμές του Z, Ν= το πλήθος των τιμών

Critical values for Z N Critical Z 3 1.15 27 2.86 4 1.48 28 2.88 5 1.71 29 2.89 6 1.89 30 2.91 7 2.02 31 2.92 8 2.13 32 2.94 9 2.21 33 2.95 10 2.29 34 2.97 11 2.34 35 2.98 12 2.41 36 2.99 13 2.46 37 3.00 14 2.51 38 3.01 15 2.55 39 3.03 16 2.59 40 3.04 17 2.62 50 3.13 18 2.65 60 3.20 19 2.68 70 3.26 20 2.71 80 3.31 21 2.73 90 3.35 22 2.76 100 3.38 23 2.78 110 3.42 24 2.80 120 3.44 25 2.82 130 3.47 26 2.84 140 3.49 Look up the critical value of Z in the table below, where N is the number of values in the group. If your value of Z is higher than the tabulated value, the P value is less than 0.05

Significant outlier. P < 0.05 Υπολογισμός outliers Descriptive Statistics Mean: 27.83 SD: 23.63 # of values: 6 Outlier detected? Yes Significance level: 0.05 (two- sided) Critical value of Z: 1.89 Row Value Z Significant Outlier? 1 10. 0.75 2 15. 0.54 3 30. 0.09 4 22. 0.25 5 16. 0.50 6 74. 1.95 Significant outlier. P < 0.05 Ιστοσελίδα με on line Grubb's test: http://graphpad.com/quickcalcs/Grubbs1.cfm

Ανίχνευση outliers με Box plots Definition The box plot is a useful graphical display for describing the behavior of the data in the middle as well as at the ends of the distributions. The box plot uses the median and the lower and upper quartiles (defined as the 25th and 75th percentiles). If the lower quartile is Q1 and the upper quartile is Q3, then the difference (Q3 - Q1) is called the interquartile range or IQ. Construction A box plot is constructed by drawing a box between the upper and lower quartiles with a solid line drawn across the box to locate the median.

Box plots with fences The following quantities (called fences) are needed for identifying extreme values in the tails of the distribution lower inner fence: Q1 - 1.5*IQ upper inner fence: Q3 + 1.5*IQ lower outer fence: Q1 - 3*IQ upper outer fence: Q3 + 3*IQ

Outlier detection criteria A point beyond an inner fence on either side is considered a mild outlier. A point beyond an outer fence is considered an extreme outlier.

Example of an outlier box plot The data set of N = 90 ordered observations as shown below is examined for outliers: 30, 171, 184, 201, 212, 250, 265, 270, 272, 289, 305, 306, 322, 322, 336, 346, 351, 370, 390, 404, 409, 411, 436, 437, 439, 441, 444, 448, 451, 453, 470, 480, 482, 487, 494, 495, 499, 503, 514, 521, 522, 527, 548, 550, 559, 560, 570, 572, 574, 578, 585, 592, 592, 607, 616, 618, 621, 629, 637, 638, 640, 656, 668, 707, 709, 719, 737, 739, 752, 758, 766, 792, 792, 794, 802, 818, 830, 832, 843, 858, 860, 869, 918, 925, 953, 991, 1000, 1005, 1068, 1441

Example of an outlier box plot The computations are as follows: Median = (n+1)/2 largest data point = the average of the 45th and 46th ordered points = (559 + 560)/2 = 559.5 Lower quartile = .25(N+1)= .25*91= 22.75th ordered point = 411 + .75(436-411) = 429.75 Upper quartile = .75(N+1)=0.75*91= = 68.25th ordered point = 739 +.25(752-739) = 742.25 Interquartile range = 742.25 - 429.75 = 312.5 Lower inner fence = 429.75 - 1.5 (312.5) = -39.0 Upper inner fence = 742.25 + 1.5 (312.5) = 1211.0 Lower outer fence = 429.75 - 3.0 (312.5) = -507.75 Upper outer fence = 742.25 + 3.0 (312.5) = 1679.75 From an examination of the fence points and the data, one point (1441) exceeds the upper inner fence and stands out as a mild outlier; there are no extreme outliers.