Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

1 Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 2: Επεξεργασία Δεδομένων

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "1 Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 2: Επεξεργασία Δεδομένων"— Μεταγράφημα παρουσίασης:

1 1 Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 2: Επεξεργασία Δεδομένων Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

2 Μορφή και ιδιότητες δεδομένων Περίληψη δεδομένων Καθαρισμός και Μετασχηματισμός Δεδομένων Κβαντοποίηση Δειγματοληψία Μείωση Αριθμού Διαστάσεων Ομοιότητα – Απόσταση Δεδομένων Τί θα εξετάσουμε 2 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

3 Σύνολο δεδομένων Ιδιότητες/Χαρακτηριστικά Διακριτή Συνεχής Αριθμητική Συμβολική Δυαδική Διαστασιμότητα (Dimensionality): #Ιδιότητες = 6 ΚωδικόςΤίτλοςΣελίδεςΕπίπεδοΤιμήΔιαθεσιμό- τητα Εισαγωγή στη Java256Χαμηλό57.20ΝΑΙ Προχωρημένη C++427Υψηλό64.50ΟΧΙ Εφαρμογές στην SQL357Μεσαίο45.30ΝΑΙ 3 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

4 Μια συμπληρωματική θεώρηση: Ονομαστικές (nominal) = ≠ Διατεταγμένες (ordinal) = ≠ Διαστήματος (interval) = ≠ + - Αναλογίας (ratio) = ≠ + - * / 4 Ιδιότητες δεδομένων Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

5 Τύποι Δεδομένων 5 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

6 Μέση τιμή (mean) Ενδιάμεση (median) Mode η πιο συχνή τιμή Διασπορά 6 Περίληψη δεδομένων Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

7 boxplot min, max, 1 st /3rd quartile, median Π.χ., Διαγράμματα 7 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

8 Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: Δειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών Μέτρα απόστασης Ζητήματα με τα δεδομένα 8 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

9 Αίτια: Κακός σχεδιασμός:  Διαδικασίες συλλογής-δημιουργίας δεδομένων που δεν είχαν σχεδιασθεί για να διευκολύνουν το έργο της εξόρυξής τους Λάθη  ανθρώπινα, προβλήματα με συσκευές μέτρησης Παράγοντες: Θόρυβος (από ανθρώπινα λάθη ή προβλήματα συσκευών) «Ανώμαλες» (outliers) και ασυνεπείς τιμές (από λάθη κατά την εισαγωγή και κακό σχεδιασμό) Ελλιπείς τιμές (από κακό σχεδιασμό ή από λάθη κατά την εισαγωγή) garbage in, garbage out Προβλήματα ποιότητας δεδομένων 9 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

10 Καθαρισμός Μετασχηματισμός Δεν υπάρχει πανάκεια Δεν υπάρχουν γενικές λύσεις 70-80% του χρόνου της διαδικασίας ανακάλυψης γνώσης - εξόρυξης Λύσεις 10 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

11 Θόρυβος: η τυχαία αλλοίωση τιμών ή η παρείσφρηση τυχαίων αντικειμένων Καθαρισμός θορύβου 11 Η αλλοίωση μετράται με τη ρίζα του μέσου τετραγωνικού λάθους Αλλά... Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

12 Παράθυρο με μήκος w Κάθε τιμή στη θορυβώδη σειρά τη θέτουμε ίση με το μέσο όρο των w/2 τιμών αριστερά και των w/2 τιμών δεξιά της Αντίκτυπο της τιμής του w? Δηλ. το μέτρο RMSE δεν είναι ενδεικτικό του πόσο τα αποθορυβοποιημένα δεδομένα ταιριάζουν με τα αρχικά Καθαρισμός κυλιόμενου μέσου 12 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

13 Ανώμαλες τιμές: δεν ακολουθούν την κατανομή των τιμών των υπολοίπων αντικειμένων. Τα αντικείμενα με ανώμαλες τιμές καλούνται outliers. Πιο συνηθισμένη αιτία: λάθη κατά την εισαγωγή τιμών Σε κάποιες περιπτώσεις, όμως, μπορεί να μην υπάρχει λάθος, αλλά η διαφοροποίηση να δηλώνει κάτι ενδιαφέρον (π.χ., ανίχνευση οικονομικής απάτης) Οι ασυνεπείς (inconsistent) τιμές είναι οι τιμές που δεν έχουν νόημα, π.χ. μελλοντική ημερομηνία γέννησης Ανώμαλες και Ασυνεπείς τιμές 13 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

14 Εντοπισμός ανώμαλων τιμών 100 σημεία με 2d κανονική κατανομή + 1 outlier 14 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

15 Μετράμε το άθροισμα της απόσταση κάθε σημείου από όλα τα υπόλοιπα. Ως μέτρο απόστασης παίρνουμε την απόσταση Mahalanobis Εντοπισμός βάσει αποστάσεων 15 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

16 Αντικείμενα με χαρακτηριστικά που η τιμή τους δεν είναι γνωστή Αιτίες: κάποια δεδομένα θεωρούνται προσωπικά, οπότε δεν μπορούμε να τα έχουμε στη διάθεσή μας προαιρετικά πεδία φόρμας, κ.λπ. Ελλιπείς τιμές 16 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

17 Διαγραφή αντικειμένων με ελλιπείς τιμές. Αν ο αριθμός των αντικειμένων με ελλιπείς τιμές είναι μεγάλος, τότε το σύνολο δεδομένων που προκύπτει μπορεί να μην είναι αντιπροσωπευτικό Συμπλήρωση ελλιπών τιμών μέσω εκτίμησης συμπλήρωση με το μέσο όρο της τιμής, μέσω παλινδρόμησης, κ.α. Λαμβάνοντας υπόψη την κλάση του αντικειμένου ή όχι Διατήρηση ελλιπών τιμών Δεν κάνουμε κάποια ενέργεια αντιμετώπισης των ελλιπών τιμών Η ποιότητα του αποτελέσματος ενός αλγορίθμου επηρεάζεται αρνητικά από την ύπαρξη ελλιπών τιμών Λύσεις 17 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

18 Μετασχηματισμό δεδομένων ονομάζουμε την εφαρμογή κάποιας συνάρτησης επί των τιμών μίας ιδιότητας (μετασχηματίζουμε ξεχωριστά κάθε ιδιότητα). Συνήθως μετασχηματίζουμε τις τιμές μίας αριθμητικής ιδιότητας που έχει πολύ μεγαλύτερες ή μικρότερες τιμές Τυποποίηση (standardization, z-score) Μετασχηματισμός Min-max Μετασχηματισμός δεδομένων 18 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

19 Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: Δειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών Μέτρα απόστασης Ζητήματα με τα δεδομένα 19 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

20 Κβ α ντ οποίηση : ο μετασχηματισμός μίας συνεχούς ιδιότητας σε διακριτή Διακριτοποίηση (discretization) Δυαδική μετατροπή: Η ειδική περίπτωση του μετασχηματισμού συνεχούς ιδιότητας σε δυαδική (binarization). Χρήσεις? Κβ α ντ οποίηση 20 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

21 Υπολόγισε το μέγεθος, n, του διακριτού πεδίου Τύπος Sturges: n = log 2 (M+1), Μ: πλήθος Ταξινόμησε τις τιμές της συνεχούς μεταβλητής. Διαχώρισε τις τιμές αυτές σε n διακριτά διαστήματα, με καθορισμό n-1 σημείων διαχωρισμού. Αντιστοίχησε ένα-προς-ένα κάθε διάστημα με μία εκ των n τιμών του διακριτού πεδίου. Αλγόριθμοι Κβαντοποίησης 21 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

22 Διαστήματα ίσου εύρους Κάθε διάστημα δεν αντιπροσωπεύεται από ισοδύναμο αριθμό σημείων Πρόβλημα στις ανομοιόμορφες (skewed) κατανομές Ισο-ευρής διαχωρισμός 22 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

23 Έχοντας ορίσει το n, το εύρος W είναι: Ή σύμφωνα με τον τύπο Scott όπου Εύρος Διαστημάτων 23 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

24 Μεταβλητό εύρος των διαστημάτων Σταθερός αριθμός σημείων σε κάθε διάστημα Κάθε διάστημα αντιπροσωπεύεται από ισοδύναμο αριθμό σημείων Ισο-υψής διαχωρισμός 24 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

25 Επιβλεπ ό μενη κβ αντοποίηση 25 Λαμβάνεται υπόψη η πληροφορία της κλάσης όπου ανήκει κάθε αντικείμενο Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

26 Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: Δειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών Μέτρα απόστασης Ζητήματα με τα δεδομένα 26 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

27 Μείωση μεγέθους Σ1Σ2Σ3Σ4Σ5 Σ1Σ2Σ3Σ4Σ5 Σ΄1Σ΄2Σ1Σ4 δειγματοληψία ιδιοδιανύσματα επιλογή χαρακτηριστικών 27 Αρχικά δεδομένα Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

28 Χρησιμοποιείται στην προεπεξεργασία, στην επιλογή δεδομένων και στην τελική ανάλυση. Στη στατιστική, προτιμάται όταν το κόστος απόκτησης ολόκληρου του συνόλου δεδομένων είναι πολύ υψηλό ή χρονοβόρο. Στην ΕΔ, προτιμάται όταν το κόστος επεξεργασίας ολόκληρου του συνόλου δεδομένων είναι πολύ υψηλό ή χρονοβόρο. Κλιμακούμενοι αλγόριθμοι έχουν μικρότερη ανάγκη από δειγματοληψία Η χρησιμοποίηση δείγματος δεν οδηγεί σε διαφορετικά αποτελέσματα σε σχέση με τη χρησιμοποίηση όλων των δεδομένων ΑΡΚΕΙ το δείγμα να είναι αντιπροσωπευτικό, δηλ. να έχει τις ίδιες ιδιότητες (από αυτές που μας ενδιαφέρουν) με το σύνολο Δειγματοληψία 28 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

29 Απλή τυχαία δειγματοληψία Με επανατοποθέτηση Χωρίς επανατοποθέτηση Στρωματοποιημένη δειγματοληψία Τύποι Δειγματοληψίας 29 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

30 Μέγεθος δείγματος? Διατήρηση μέσης τιμής, κλπ. Ακρίβεια κατηγοριοποίησης Παράπλευρο όφελος: απαλοιφή outliers Διάστημα εμπιστοσύνης Απλή τυχαία δειγματοληψία 30 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

31 Παράδειγμα με το IRIS σύνολο δεδομένων Τα μεγάλα δείγματα δεν σημαίνουν καλύτερα αποτελέσματα …λόγω του overfitting Μέγεθος Δείγματος με Βάση την Ακρίβεια 31 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

32 Διαφορετικά μεγέθη μεταξύ των ομάδων η τυχαία δειγματοληψία παράγει δείγμα όπου δεν αντιπροσωπεύονται ικανοποιητικά όλες οι ομάδες Στρωματοποιημένη δειγματοληψία εφαρμόζουμε τυχαία δειγματοληψία σε κάθε ομάδα ξεχωριστά [ Στρωματοποιημένη δειγματοληψία 32 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

33 Ποιότητα Απαλοιφή θορύβου Εντοπισμός ανωμαλιών Ελλιπείς τιμές Μετασχηματισμός Κβάντωση Μείωση μεγέθους Γραμμών: Δειγματοληψία Στηλών: Ιδιοδιανύσματα, Επιλογή χαρακτηριστικών Μέτρα απόστασης Ζητήματα με τα δεδομένα 33 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

34 Η «κατάρα της διαστασιμότητας» Με μείωση αριθμού διαστάσεων: απαλοιφή εξαρτήσεων – άσχετων χαρακτηριστικών δυνατότητα προβολής (για <= 3 διαστάσεις) Καλύτερα, πιο κατανοητά και γρηγορότερα αποτελέσματα 2 βασικές μέθοδοι a) Δημιουργία νέων χαρακτηριστικών  Ανάλυση Πρωταρχικών Συνιστωσών – Principal Component Analysis (PCA) b) Επιλογή χαρακτηριστικών  Φιλτράρισμα  Μαύρο κουτί Μείωση στηλών 34 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

35 Μείωση διαστάσεων Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

36 Το ζητούμενο είναι να πάμε από 2 σε 1 διάσταση Ακολουθούμε μία διαδικασία 5 βημάτων Παράδειγμα PCA 36 Χ1Χ Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

37 Βήμα 1: αφαίρεση μέσης τιμής 37 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

38 Βήμα 2: πίνακας συνδιασποράς 38 διασπορά Πόσο μεταβάλλονται μαζί τα Χ1,Χ2 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

39 Βήμα 3: ιδιοδιανύσματα - ιδιοτιμές 2 λύσεις στην εξίσωση u1= [ ,0.6779] T λ1= u2= [0.6779, ] T λ2= Κατεύθυνση με τη μεγαλύτερη διασπορά μεγαλύτερη εναπομένουσα διασπορά Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

40 Βήμα 4: επιλογή νέων ιδιοτήτων Οι νέες διαστάσεις είναι ασυσχέτιστες 40 1.Διάταξη ιδιοδιανυσμάτων βάσει ιδιοτιμών. 2.Τα αντικείμενα περιγράφονται ως γραμμικός συνδυασμός των ιδιοδιανυσμάτων, που ονομάζονται κύριες συνιστώσες. Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

41 Βήμα 5: μείωση διαστάσεων Επιλέγουμε τα πρώτα k ιδιοδιανύσματα k = 1 (+) k = 2 (o) 41 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

42 150 λουλούδια 4 διαστάσεις (μήκος/πλάτος σέπαλου/πετάλου) 3 κλάσεις (Setosa, Versicolor, Virginica) Πως επιλέγουμε σε πόσες διαστάσεις θα γίνει η προβολή; Παράδειγμα: Iris 42 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

43 Τα ιδιοδιανύσματα δεν αντιστοιχούν στις αρχικές διαστάσεις Αν πρέπει να επιλέξουμε μεταξύ των αρχικών διαστάσεων; Φιλτράρισμα: Επιλέγουμε ανεξάρτητα του αλγορίθμου που θα εφαρμοσθεί στη συνέχεια Μαύρο κουτί: Χρησιμοποιούμε τον αλγόριθμο σαν μαύρο κουτί, για την εύρεση του καταλληλότερου υποσυνόλου διαστάσεων Επιλογή χαρακτηριστικών 43 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

44 3 πρώτα βήματα όπως και στο PCA Στο παράδειγμα IRIS: Επιλέγουμε τα δύο πρώτα ιδιοδιανύσματα  u1 = (0.3614, , , ) T  u2 = ( , , , ) T Παίρνουμε το άθροισμα u1 + u2  = ( , , , ) T Η τρίτη και η τέταρτη θέση έχουν τη μεγαλύτερη τιμή Ένδειξη ότι η τρίτη και η τέταρτη ιδιότητα (μήκος -πλάτος πετάλου PL, PW) είναι οι καταλληλότερες για επιλογή Φιλτράρισμα 44 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

45 Παράδειγμα 45 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

46 Μαύρο κουτί 46 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

47 Ιδιότητες μέτρων ομοιότητας Ανακλαστική Συμμετρική ΑΠΟΣΤΑΣΗ=ΜΟΝΟΤΟΝΑ_ΦΘΙΝΟΥΣΑ(ΟΜΟΙΟΤΗΤΑ) Ιδιότητες μετρικού απόστασης Θετικότητα Ανακλαστική Συμμετρική Τριγωνική ανισότητα Μέτρα ομοιότητας/απόστασης 47 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

48 Μέτρα και Μετρικά: τριγωνική ανισότητα d(Α, Γ) > d(Α, Β) + d(Β, Γ) d(Α, Γ) = 1, d(Α, Β) = d(Β, Γ) = 0 48 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

49 Απόσταση Minkowski 49 r=1: Manhattan/block απόσταση r=2: Ευκλείδεια απόσταση r=άπειρο: υπέρτατη απόσταση Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

50 Παράδειγμα 50 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

51 Ομοιότητα cos 51 Προτιμάται όταν το μέγεθος δεν παίζει ρόλο. Ανοχή-ανθεκτικότητα σε αραιά διανύσματα. Παραβιάζει όμως την ανακλαστική ιδιότητα! Αντίστοιχη είναι και η συσχέτιση Pearson Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

52 Συσχέτιση Pearson Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

53 Απόσταση Mahalanobis (με Ευκλείδεια το p1 είναι πιο κοντά στο p3 από ότι το p2) 53 Τα σημεία είναι κατανεμημένα σε σχήμα έλλειψης αντί για κύκλου! Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων

54 Απόσταση για δυαδικά δεδομένα (Jaccard) 54 Α. Νανόπουλος, Γ. Μανωλόπουλος: Εισαγωγή στην Εξόρυξη και τις Αποθήκες Δεδομένων


Κατέβασμα ppt "1 Α. Νανόπουλος & Γ. Μανωλόπουλος Εισαγωγή στην Εξόρυξη & τις Αποθήκες Δεδομένων Κεφάλαιο 2: Επεξεργασία Δεδομένων"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google