Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Εμμανουήλ-Μάνος Γεροθανάσης Ευάγγελος Μπέκος ΕΠΙΒΛΕΠΩΝ: ΚΟΚΚΙΝΟΣ ΙΩΑΝΝΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Εμμανουήλ-Μάνος Γεροθανάσης Ευάγγελος Μπέκος ΕΠΙΒΛΕΠΩΝ: ΚΟΚΚΙΝΟΣ ΙΩΑΝΝΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ."— Μεταγράφημα παρουσίασης:

1 Εμμανουήλ-Μάνος Γεροθανάσης Ευάγγελος Μπέκος ΕΠΙΒΛΕΠΩΝ: ΚΟΚΚΙΝΟΣ ΙΩΑΝΝΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΣΕΡΡΕΣ 2011 Κατασκευή ταξινομητών weighted kNN με metric ball trees για εφαρμογές ανακάλυψης γνώσης από βάσεις δεδομένων Oracle

2 Μία αποθήκη δεδομένων περιλαμβάνει πληροφορίες και δεδομένα και μπορεί να χρησιμοποιηθεί για την ανάλυση επιμέρους δεδομένων και την εξόρυξη πληροφοριών και τάσεων Συστήματα βάσεων δεδομένων (OLTP)Συστήματα αποθηκών δεδομένων (OLAP)

3 DATA MINING Η διαδικασία Data Mining, η ελληνική απόδοση της οποίας είναι «Εξόρυξη από Δεδομένα ή Ανεύρεση Γνώσης από Δεδομένα», είναι η αναλυτική διαδικασία η οποία έχει σχεδιαστεί για να αναλύει και να εξερευνεί δεδομένα σε μεγάλες ποσότητες και έπειτα να δημιουργεί κανόνες και σχέσεις μεταξύ των μεταβλητών που ενδιαφέρουν να ερευνηθούν. Η εξόρυξη γνώσης από δεδομένα συνίσταται στην ανακάλυψη ενδιαφερόντων τάσεων ή προτύπων σχημάτων μέσα σε μεγάλα σύνολα δεδομένων.

4 Η κατηγοριοποίηση είναι η πιο γνωστή και δημοφιλής τεχνική εξόρυξης γνώσης (data mining) Η κατηγοριοποίηση είναι η πιο γνωστή και δημοφιλής τεχνική εξόρυξης γνώσης (data mining) Χρησιμοποιείται από πολλές εταιρίες του ιδιωτικού και δημόσιου τομέα σε καθημερινή βάση (ιατρικές διαγνώσεις, συστήματα έγκρισης δανείων κτλ) Χρησιμοποιείται από πολλές εταιρίες του ιδιωτικού και δημόσιου τομέα σε καθημερινή βάση (ιατρικές διαγνώσεις, συστήματα έγκρισης δανείων κτλ) Η κατηγοριοποίηση(classification) είναι η διαδικασία η οποία απεικονίζει ένα σύνολο δεδομένων σε προκαθορισμένες ομάδες-κλάσεις. Η κατηγοριοποίηση(classification) είναι η διαδικασία η οποία απεικονίζει ένα σύνολο δεδομένων σε προκαθορισμένες ομάδες-κλάσεις.

5 Σχηματικά η κατηγοριοποίηση μπορεί να δοθεί με αυτό το απλό σχήμα: Σχηματικά η κατηγοριοποίηση μπορεί να δοθεί με αυτό το απλό σχήμα:

6 Αλγόριθμοι κατηγοριοποίησης βασισμένοι στην απόσταση (KNN) Αλγόριθμοι κατηγοριοποίησης βασισμένοι στην απόσταση (KNN) Αλγόριθμοι κατηγοριοποίησης βασισμένοι στα δέντρα απόφασης (CART, ID3) Αλγόριθμοι κατηγοριοποίησης βασισμένοι στα δέντρα απόφασης (CART, ID3) Αλγόριθμοι κατηγοριοποίησης βασισμένοι στα Νευρωνικά Δίκτυα Αλγόριθμοι κατηγοριοποίησης βασισμένοι στα Νευρωνικά Δίκτυα Αλγόριθμοι κατηγοριοποίησης βασισμένοι σε κανόνες Αλγόριθμοι κατηγοριοποίησης βασισμένοι σε κανόνες Στατιστικοί αλγόριθμοι κατηγοριοποίησης (Bayes) Στατιστικοί αλγόριθμοι κατηγοριοποίησης (Bayes)

7 Ο Αλγόριθμος Κ κοντινότεροι γείτονες (K Nearest Neighbors - KNN) είναι μία τεχνική κατηγοριοποίησης που στηρίζεται στη χρήση μέτρων βασισμένων στην απόσταση. Ο Αλγόριθμος Κ κοντινότεροι γείτονες (K Nearest Neighbors - KNN) είναι μία τεχνική κατηγοριοποίησης που στηρίζεται στη χρήση μέτρων βασισμένων στην απόσταση. Η τιμή της συνάρτησης-στόχου για ένα νέο στιγμιότυπο βασίζεται αποκλειστικά και μόνο στις αντίστοιχες τιμές των k πιο «κοντινών» στιγμιότυπων εκπαίδευσης, τα οποία αποτελούν τους «γείτονες» του. Η τιμή της συνάρτησης-στόχου για ένα νέο στιγμιότυπο βασίζεται αποκλειστικά και μόνο στις αντίστοιχες τιμές των k πιο «κοντινών» στιγμιότυπων εκπαίδευσης, τα οποία αποτελούν τους «γείτονες» του.

8 ΑΝΑΣΚΟΠΗΣΗ ΤΕΧΝΙΚΩΝ KNN Ο κανόνας του κοντινότερου γείτονα(ΝΝ) καθορίζει την κατηγορία ενός άγνωστου σημείου δεδομένων σε σχέση με τον κοντινότερο του γείτονα του οποίου η κλάση είναι ήδη γνωστή. Έτσι το άγνωστο δεδομένο ταξινομείται ανάλογα με την κατηγορία στην οποία ανήκει ο γείτονας του. Ο κανόνας του κοντινότερου γείτονα(ΝΝ) καθορίζει την κατηγορία ενός άγνωστου σημείου δεδομένων σε σχέση με τον κοντινότερο του γείτονα του οποίου η κλάση είναι ήδη γνωστή. Έτσι το άγνωστο δεδομένο ταξινομείται ανάλογα με την κατηγορία στην οποία ανήκει ο γείτονας του. Η απαίτηση σε μνήμη και η υπολογιστική πολυπλοκότητα αποτελούν περιοριστικούς παράγοντες για τον knn. Πολλές τεχνικές έχουν αναπτυχθεί για να ξεπεράσουν αυτούς τους περιορισμούς. Αυτές οι ΝΝ τεχνικές κατηγοριοποιούνται σε δομημένες και μη, τεχνικές. Η απαίτηση σε μνήμη και η υπολογιστική πολυπλοκότητα αποτελούν περιοριστικούς παράγοντες για τον knn. Πολλές τεχνικές έχουν αναπτυχθεί για να ξεπεράσουν αυτούς τους περιορισμούς. Αυτές οι ΝΝ τεχνικές κατηγοριοποιούνται σε δομημένες και μη, τεχνικές.

9 ΜΗ ΔΟΜΗΜΕΝΕΣ ΤΕΧΝΙΚΕΣ ΚΝΝ Οι Weighted kNN Model based kNN Condensed NN Reduced NN Generalized NN Ο WkNN αναθέτει σε κάθε γείτονα ένα βάρος της τάξης του e^(-d), όπου d η απόσταση του σημείου από τον γείτονα, και με βάση αυτό επιλέγεται ο κοντινότερος γείτονας καθώς και η κλάση του δείγματος.

10 ΔΟΜΗΜΕΝΕΣ ΤΕΧΝΙΚΕΣ ΚΝΝ Ball Tree Ball Tree k-d Tree k-d Tree principal axis Tree (PAT) principal axis Tree (PAT) orthogonal structure Tree (OST) orthogonal structure Tree (OST) Nearest feature line (NFL) Nearest feature line (NFL) Center Line (CL) Center Line (CL) Το ball tree είναι ένα δυαδικό δέντρο και κατασκευάζεται χρησιμοποιώντας την από πάνω προς τα κάτω προσέγγιση. Αυτή η τεχνική είναι βέλτιστη του kNN όσον αφορά την ταχύτητα. Τα φύλλα του δέντρου περιέχουν σχετική πληροφορία και οι εσωτερικοί κόμβοι χρησιμοποιούνται για την αποτελεσματική αναζήτηση ανάμεσα στα φύλλα. Τα δέντρα k-διαστάσεων χωρίζουν τα δεδομένα εκπαίδευσης σε δύο μέρη, τον δεξιό και τον αριστερό κόμβο. Η αριστερή ή η δεξιά μεριά του δέντρου θα εξεταστεί ανάλογα με αρχεία με ερωτήματα. Αφού φτάσουμε στον αρχικό κόμβο, τα αρχεία του τελικού κόμβου εξετάζονται για να βρεθεί ο κοντινότερος κόμβος ως προς το αρχικό ερώτημα

11

12 1-NN: Θα ανήκει στην κλάση 1 3-ΝΝ: Θα ανήκει στην κλάση 2

13 Το σύνολο των δεδομένων εκπαίδευσης επηρεάζει την απόδοση του συστήματος. Για αυτό χρησιμοποιούμε τις παρακάτω μεθόδους. 1. k-fold validation 2. Holdout with random split 3.stratified random split

14 Stratified Random Split Στην εργασία χρησιμοποιούμε stratification,δηλαδή μέθοδο stratified random split που γίνεται για κάθε κλάση.Αν δηλαδή επιλέξουμε να χωρίσουμε το σύνολο δεδομένων εκπαίδευσης με ποσοστό 50 % σε train set κ test set θα το κάνει ξεχωριστά για κάθε κλάση. Αν η πρώτη κλάση έχει 1000 σημεία, τα 500 θα πάνε για train set και τα υπόλοιπα 500 για test set. Αν η δεύτερη κλάση έχει 80 σημεία τα 40 θα πάνε για train set και τα υπόλοιπα για test set.Δηλαδή επιλέγουμε ίσο ποσοστό από κάθε κλάση. Στην εργασία χρησιμοποιούμε stratification,δηλαδή μέθοδο stratified random split που γίνεται για κάθε κλάση.Αν δηλαδή επιλέξουμε να χωρίσουμε το σύνολο δεδομένων εκπαίδευσης με ποσοστό 50 % σε train set κ test set θα το κάνει ξεχωριστά για κάθε κλάση. Αν η πρώτη κλάση έχει 1000 σημεία, τα 500 θα πάνε για train set και τα υπόλοιπα 500 για test set. Αν η δεύτερη κλάση έχει 80 σημεία τα 40 θα πάνε για train set και τα υπόλοιπα για test set.Δηλαδή επιλέγουμε ίσο ποσοστό από κάθε κλάση.

15 Ένα metric Ball tree διαχωρίζει το χώρο των δεδομένων οργανώνοντας με αποτελεσματικό τρόπο τα σημεία, ώστε να είναι γρήγορες οι αναζητήσεις που περιλαμβάνουν ένα πολυδιάστατο κλειδί αναζήτησης όπως αναζήτηση περιοχής ή αναζήτηση κοντινότερων γειτόνων. Κάθε κόμβος του δέντρου συνδέεται με μια μόνο περιοχή υπερ-σφαίρας του χώρου, και αποθηκεύει το κέντρο σφαίρας και την ακτίνα και αποθηκεύει επίσης τα δύο παιδιά κόμβους. Τα σημεία αποθηκεύονται σε κόμβους φύλλα. Ένα metric Ball tree διαχωρίζει το χώρο των δεδομένων οργανώνοντας με αποτελεσματικό τρόπο τα σημεία, ώστε να είναι γρήγορες οι αναζητήσεις που περιλαμβάνουν ένα πολυδιάστατο κλειδί αναζήτησης όπως αναζήτηση περιοχής ή αναζήτηση κοντινότερων γειτόνων. Κάθε κόμβος του δέντρου συνδέεται με μια μόνο περιοχή υπερ-σφαίρας του χώρου, και αποθηκεύει το κέντρο σφαίρας και την ακτίνα και αποθηκεύει επίσης τα δύο παιδιά κόμβους. Τα σημεία αποθηκεύονται σε κόμβους φύλλα. Τα Metric Ball trees κτίζονται με πολλούς τρόπους. Μία πολύ αποτελεσματική μέθοδος κατασκευής top down, η fυrthest pairs, χρησιμοποιεί τα σημεία κοντινότερα στο πιο απομακρυσμένο ζεύγος. Διασπά την σφαίρα σύμφωνα με το ζεύγος σημείων μέσα στην σφαίρα που έχουν την μεγαλύτερη απόσταση μεταξύ τους. Τα Metric Ball trees κτίζονται με πολλούς τρόπους. Μία πολύ αποτελεσματική μέθοδος κατασκευής top down, η fυrthest pairs, χρησιμοποιεί τα σημεία κοντινότερα στο πιο απομακρυσμένο ζεύγος. Διασπά την σφαίρα σύμφωνα με το ζεύγος σημείων μέσα στην σφαίρα που έχουν την μεγαλύτερη απόσταση μεταξύ τους. Metric Ball Trees

16 Παράδειγμα κατασκευής ball tree

17 ΑΝΑΖΗΤΗΣΗ ΚΟΝΤΙΝΩΝ ΓΕΙΤΟΝΩΝ ΣΤΟ BALL TREE ΑΝΑΖΗΤΗΣΗ ΚΟΝΤΙΝΩΝ ΓΕΙΤΟΝΩΝ ΣΤΟ BALL TREE

18 Heart Disease ClevelandBreast Cancer WisconsinDiabetes Pima IndiansBlood TransfusionDermatologyHabermanWineYeastIris

19 Simple KNNWeighted KNN knnSizetrainError testErrorw-knnSizetrainError testError 10,2995 0,302110,30730,2891 20,2943 0,291720,30730,2891 30,2734 0,296930,26040,2630 40,2891 0,291740,27340,2630 50,2656 0,309950,25000,2682 60,2891 60,25000,2630 70,2708 0,283970,2734 80,276 0,286580,26560,2630 90,2839 90,29430,2682 100,2839 0,2812100,28130,2708 110,2812 0,2865110,27340,2760 120,2995 0,2943120,26040,2708 130,2865 0,2760130,26300,2656 140,2995 0,2734140,25260,2630 150,2995 0,2760150,25780,2604 160,3021 0,2656160,23960,2604 170,2865 0,2708170,25520,2656 180,2891 0,2630180,25000,2630 190,2943 0,2930190,25780,2656 200,2917 0,2552200,25000,2604 Diabetes Pima Indians

20 Simple KNNWeighted KNN knnSizetrainError testError w-knnSizetrainError testError 10,01330,0667 10,02670,0533 20,01330,0667 20,02670,0533 30,02670,0667 30,02670,0533 40,01330,0667 40,02670,0533 50,02670,0800 50,01330,0400 60,01330,0667 60,01330,0400 70,01330,0800 70,01330,0400 80,01330,0800 80,01330,0400 90,01330,0667 90,01330,0400 100,01330,0667 100,01330,0400 110,01330,0667 110,02670,0400 120,01330,0667 120,01330,0400 130,01330,0667 130,00000,0533 140,01330,0667 140,01330,0400 150,01330,0667 150,01330,0533 160,01330,0800 160,01330,0533 170,01330,0533 170,00000,0533 180,01330,0667 180,00000,0400 190,01330,0667 190,00000,0400 200,02670,0533 200,01330,0533 Iris data set

21 Iris data set w-knn

22 Simple KNNWeighted KNN knnSizetrainErrortestErrorw-knnSize trainError testError 10,02270,066710,02270,0778 20,03410,088920,02270,0778 300,066730,04550,0889 40,01140,088940,02270,0889 500,066750,03410,1000 60,03410,066760,02270,1000 70,01140,044470,05680,1111 80,01140,055680,03410,1000 90,01140,044490,05680,0889 100,01140,0444100,05680,0778 110,01140,0556110,05680,0889 120,01140,0444120,05680,0667 130,01140,0444130,04550,0667 140,01140,0444140,05680,0667 150,01140,0444150,05680,0778 160,01140,0556160,05680,0667 170,01140,0444170,04550,0667 180,02270,0556180,04550,0667 190,01140,0444190,04550,0667 200,02270,0556200,04550,0667 Wine data set

23 Yeast data set Simple KNNWeighted KNN knnSizetrainErrortestErrorw-knnSize trainError testError 10,48440,485910,48440,4859 20,51420,469820,48440,4859 30,46680,433630,47090,4416 40,4750,448340,46140,4362 50,46010,422850,45200,4094 60,46820,424260,44930,4228 70,45470,416170,43840,4107 80,44790,417480,43440,4121 90,44110,416190,43030,4148 100,44250,4255100,42220,4134 110,43570,4242110,42080,4188 120,45060,4242120,43980,4174 130,44520,4242130,43300,4148 140,43440,4268140,41950,4188 150,43170,4255150,42630,4174 160,43710,4215160,42080,4242 170,43710,4282170,41950,4148 180,43030,4188180,42490,4094 190,43570,4188190,42760,4081 200,43440,4121200,42490,4067

24 Spam Emails data set Simple KNNWeighted KNN knnSize trainErrorTestErrorw-knnSize trainError testError 10,11220,125610,11220,1256 20,14220,143920,11220,1256 30,10040,115630,09960,1156 40,11130,116940,09520,1121 50,10480,111350,10480,1113 60,1070,111760,10040,1091 70,1070,11370,10740,1130 80,10480,114380,09870,1100 90,11170,116990,11130,1169 100,10870,1143100,10430,1126 110,11390,1221110,11390,1221 120,11260,1199120,10650,1178 130,11740,1282130,11480,1273 140,11350,1256140,10960,1226 150,11650,1312150,11390,1291 160,11040,1265160,10520,1252 170,11520,1334170,11260,1312 180,11260,1321180,10830,1304 190,1230,1352190,12260,1330 200,13420,1373200,11700,1260

25 Glass data set Simple KNNWeighted KNN knnSizetrainErrortestErrorw-knnSize trainError testError 10,32380,321110,32380,3211 20,36190,385320,32380,3211 30,37140,431230,31430,3945 40,35240,427940,34290,4220 50,36190,440450,33330,4220 60,37140,467960,36190,3945 70,37140,431270,33330,4312 80,35240,458780,37140,4312 90,33330,458790,32380,4404 100,31430,4587100,32380,4404 110,31430,4495110,33330,4220 120,34290,4587120,34290,4220 130,34290,4404130,33330,4404 140,33330,4771140,35240,4404 150,36190,4771150,35240,4495 160,36190,4679160,38100,4495 170,36140,4879170,36190,4495 180,35240,4862180,36190,4404 190,36190,4679190,35240,4404 200,36190,4862200,36190,4587

26 Page blocks data set Simple KNNWeighted KNN knnSizetrainErrortestErrorw-knnSize trainError testError 10,05160,045310,05160,0453 20,04860,060320,05160,0453 30,04500,048930,04420,0493 40,04680,050040,04280,0453 50,04570,044650,04640,0449 60,04940,049760,04390,0442 70,04790,049770,04600,0482 80,05120,052280,04570,0475 90,04970,050090,04830,0497 100,05450,0541100,04860,0489 110,05340,0537110,05080,0522 120,05520,0551120,05270,0526 130,05340,0559130,05230,0537 140,05480,0570140,05190,0551 150,0570 150,05560,0559 160,05780,0570160,05590,0562 170,05850,0581170,05700,0581 180,06000,0592180,05700,0577 190,06300,0610190,05810,0592 200,06180,0610200,05920,0610

27 Breast Cancer Wisconsin data set Simple KNNWeighted KNN knnSizetrainErrortestErrorw-knnSize trainError testError 10,0440,049710,04990,0263 20,04990,052620,04990,0263 30,03230,035130,03230,0234 40,03230,043940,03230,0234 50,02680,040950,02930,0263 60,03230,046860,02930,0234 70,02050,043970,02930,0234 80,02640,040980,03230,0234 90,02350,040990,03810,0234 100,02640,0439100,03810,0205 110,02640,0409110,03520,0292 120,02640,0439120,03520,0292 130,02350,0439130,03810,0263 140,02640,0439140,03520,0263 150,02640,0439150,03810,0292 160,03230,0439160,04110,0292 170,02930,0439170,04110,0322 180,03230,0439180,04110,0322 190,02930,0439190,03810,0322 200,03520,0439200,03810,0292

28 Dermatology data set Simple KNNWeighted KNN knnSizetrainErrortestErrorw-knnSize trainError testError 10,02750,054310,06180,0611 20,0110,059820,06180,0611 30,0220,059830,05620,0444 40,01650,070740,05620,0444 50,0220,054350,05060,0333 60,01650,059860,05620,0333 70,01650,070770,05060,0389 80,01650,059780,04490,0556 90,01650,076190,04490,0444 100,01650,0761100,06180,0444 110,03850,0815110,06180,0389 120,0330,0761120,06180,0389 130,02750,0815130,06180,0444 140,02750,087140,06180,0444 150,0330,0815150,06740,0444 160,0330,0815160,06740,0389 170,0330,087170,06740,0444 180,0330,0761180,06740,0333 190,0440,0924190,06180,0444 200,0440,087200,06740,0444

29 ΕΥΧΑΡΙΣΤΟΥΜΕ ΠΟΛΥ ΓΙΑ ΤΗΝ ΠΡΟΣΟΧΗ ΣΑΣ


Κατέβασμα ppt "Εμμανουήλ-Μάνος Γεροθανάσης Ευάγγελος Μπέκος ΕΠΙΒΛΕΠΩΝ: ΚΟΚΚΙΝΟΣ ΙΩΑΝΝΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google