Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Προεπεξεργασία Δεδομένων Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 2 o Φροντιστήριο Σκούρα Αγγελική

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Προεπεξεργασία Δεδομένων Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 2 o Φροντιστήριο Σκούρα Αγγελική"— Μεταγράφημα παρουσίασης:

1 Προεπεξεργασία Δεδομένων Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 2 o Φροντιστήριο Σκούρα Αγγελική

2 Η Διαδικασία Εξόρυξης Γνώσης Ερμηνεία αποτελεσμάτων Εφαρμογή αλγορίθμου εξόρυξης γνώσης Προεπεξεργασία δεδομένων Συλλογή δεδομένων Ορισμός προβλήματος 2

3 Βασικά βήματα προεπεξεργασίας A. Καθαρισμός δεδομένων (Data cleaning) Συμπλήρωση των χαμένων τιμών, απαλοιφή θορύβου, απομάκρυνση των outliers, διόρθωση ασυνεπειών, απαλοιφή πλεονασμού B. Ενοποίηση δεδομένων (Data integration) Ενοποίηση πολλαπλών βάσεων δεδομένων, κύβων δεδομένων ή αρχείων, απαλοιφή πλεονασμού Γ. Μετασχηματισμός δεδομένων (Data transformation) και Διακριτοποίηση δεδομένων (Data discretization) Κανονικοποίηση, Μετατροπή των numerical τιμών σε nominal Δ. Μείωση δεδομένων (Data reduction) Μείωση διαστατικότητας, μείωση πληθυκότητας, συμπίεση δεδομένων 3

4 Εντοπισμός ακραίων τιμών (outlier detection) 4 Ορισμός outlier ▫An outlier is an observation that lies an abnormal distance from other values in a random sample from a population. Τεχνικές για εντοπισμό outlier ▫Στατιστικές μέθοδοι:  Grubbs' Test ή Studentized Deviate (GESD) Test (is the recommended test when testing for a single outlier) Grubbs' Test  Tietjen-Moore Test (is a generalization of the Grubbs' test to the case of more than one outlier. It has the limitation that the number of outliers must be specified exactly) Tietjen-Moore Test  Generalized Extreme Studentized Deviate (GESD) Test (this test requires only an upper bound on the suspected number of outliers and is the recommended test when the exact number of outliers is not known) Generalized Extreme Studentized Deviate (GESD) Test ▫Γραφικές μέθοδοι:  scatter plots scatter plots  box plots box plots

5 Παράδειγμα ανίχνευσης outliers με Grubbs' TestGrubbs' Test Έστω τα δεδομένα =[10, 15, 30, 22, 16, 74] Στόχος είναι να ποσοτικοποιήσουμε πόσο μακριά είναι ο outlier από τα υπόλοιπα στοιχεία. Υπολογισμός Z, που είναι το πηλίκο της διαφοράς μεταξύ του outlier από τη μεσαία τιμή (mean) προς την τυπική απόκλιση. Αν η τιμή του Z είναι μεγάλη, τότε θεωρείται ως outlier. ▫Σημείωση: για τον υπολογισμό της μεσαίας τιμής και της τυπικής απόκλισης χρησιμοποιείται και το φερόμενο στοιχείο ως outlier. Για τη μέθοδο Grubb's υπάρχει πίνακας με κρίσιμες τιμές του Z, Ν= το πλήθος των τιμών 5

6 Critical values for Z Look up the critical value of Z in the table below, where N is the number of values in the group. If your value of Z is higher than the tabulated value, the P value is less than NCritical ZN

7 Υπολογισμός outliers Descriptive Statistics Mean: SD: # of values: 6 Outlier detected? Yes Significance level: 0.05 (two- sided) Critical value of Z: 1.89 RowValueZ Significant Outlier? Significant outlier. P < Ιστοσελίδα με on line Grubb's test:

8 Ανίχνευση outliers με Box plots Definition ▫The box plot is a useful graphical display for describing the behavior of the data in the middle as well as at the ends of the distributions. ▫ The box plot uses the median and the lower and upper quartiles (defined as the 25th and 75th percentiles).medianpercentiles ▫If the lower quartile is Q1 and the upper quartile is Q3, then the difference (Q3 - Q1) is called the interquartile range or IQ. Construction ▫A box plot is constructed by drawing a box between the upper and lower quartiles with a solid line drawn across the box to locate the median. 8

9 Box plots with fences The following quantities (called fences) are needed for identifying extreme values in the tails of the distribution ▫lower inner fence: Q *IQ ▫upper inner fence: Q *IQ ▫lower outer fence: Q1 - 3*IQ ▫upper outer fence: Q3 + 3*IQ 9

10 Outlier detection criteria A point beyond an inner fence on either side is considered a mild outlier. A point beyond an outer fence is considered an extreme outlier. 10

11 Example of an outlier box plot The data set of N = 90 ordered observations as shown below is examined for outliers: 30, 171, 184, 201, 212, 250, 265, 270, 272, 289, 305, 306, 322, 322, 336, 346, 351, 370, 390, 404, 409, 411, 436, 437, 439, 441, 444, 448, 451, 453, 470, 480, 482, 487, 494, 495, 499, 503, 514, 521, 522, 527, 548, 550, 559, 560, 570, 572, 574, 578, 585, 592, 592, 607, 616, 618, 621, 629, 637, 638, 640, 656, 668, 707, 709, 719, 737, 739, 752, 758, 766, 792, 792, 794, 802, 818, 830, 832, 843, 858, 860, 869, 918, 925, 953, 991, 1000, 1005, 1068,

12 Example of an outlier box plot The computations are as follows: ▫Median = (n+1)/2 largest data point = the average of the 45th and 46th ordered points = ( )/2 = ▫Lower quartile =.25(N+1)=.25*91= 22.75th ordered point = ( ) = Lower quartile ▫Upper quartile =.75(N+1)=0.75*91= = 68.25th ordered point = ( ) = Upper quartile ▫Interquartile range = = ▫Lower inner fence = (312.5) = ▫Upper inner fence = (312.5) = ▫Lower outer fence = (312.5) = ▫Upper outer fence = (312.5) = From an examination of the fence points and the data, one point (1441) exceeds the upper inner fence and stands out as a mild outlier; there are no extreme outliers. 12


Κατέβασμα ppt "Προεπεξεργασία Δεδομένων Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 2 o Φροντιστήριο Σκούρα Αγγελική"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google