Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Εμμανουήλ-Μάνος Γεροθανάσης Ευάγγελος Μπέκος ΕΠΙΒΛΕΠΩΝ: ΚΟΚΚΙΝΟΣ ΙΩΑΝΝΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Εμμανουήλ-Μάνος Γεροθανάσης Ευάγγελος Μπέκος ΕΠΙΒΛΕΠΩΝ: ΚΟΚΚΙΝΟΣ ΙΩΑΝΝΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ."— Μεταγράφημα παρουσίασης:

1 Εμμανουήλ-Μάνος Γεροθανάσης Ευάγγελος Μπέκος ΕΠΙΒΛΕΠΩΝ: ΚΟΚΚΙΝΟΣ ΙΩΑΝΝΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ ΣΕΡΡΕΣ 2011 Κατασκευή ταξινομητών weighted kNN με metric ball trees για εφαρμογές ανακάλυψης γνώσης από βάσεις δεδομένων Oracle

2 Μία αποθήκη δεδομένων περιλαμβάνει πληροφορίες και δεδομένα και μπορεί να χρησιμοποιηθεί για την ανάλυση επιμέρους δεδομένων και την εξόρυξη πληροφοριών και τάσεων Συστήματα βάσεων δεδομένων (OLTP)Συστήματα αποθηκών δεδομένων (OLAP)

3 DATA MINING Η διαδικασία Data Mining, η ελληνική απόδοση της οποίας είναι «Εξόρυξη από Δεδομένα ή Ανεύρεση Γνώσης από Δεδομένα», είναι η αναλυτική διαδικασία η οποία έχει σχεδιαστεί για να αναλύει και να εξερευνεί δεδομένα σε μεγάλες ποσότητες και έπειτα να δημιουργεί κανόνες και σχέσεις μεταξύ των μεταβλητών που ενδιαφέρουν να ερευνηθούν. Η εξόρυξη γνώσης από δεδομένα συνίσταται στην ανακάλυψη ενδιαφερόντων τάσεων ή προτύπων σχημάτων μέσα σε μεγάλα σύνολα δεδομένων.

4 Η κατηγοριοποίηση είναι η πιο γνωστή και δημοφιλής τεχνική εξόρυξης γνώσης (data mining) Η κατηγοριοποίηση είναι η πιο γνωστή και δημοφιλής τεχνική εξόρυξης γνώσης (data mining) Χρησιμοποιείται από πολλές εταιρίες του ιδιωτικού και δημόσιου τομέα σε καθημερινή βάση (ιατρικές διαγνώσεις, συστήματα έγκρισης δανείων κτλ) Χρησιμοποιείται από πολλές εταιρίες του ιδιωτικού και δημόσιου τομέα σε καθημερινή βάση (ιατρικές διαγνώσεις, συστήματα έγκρισης δανείων κτλ) Η κατηγοριοποίηση(classification) είναι η διαδικασία η οποία απεικονίζει ένα σύνολο δεδομένων σε προκαθορισμένες ομάδες-κλάσεις. Η κατηγοριοποίηση(classification) είναι η διαδικασία η οποία απεικονίζει ένα σύνολο δεδομένων σε προκαθορισμένες ομάδες-κλάσεις.

5 Σχηματικά η κατηγοριοποίηση μπορεί να δοθεί με αυτό το απλό σχήμα: Σχηματικά η κατηγοριοποίηση μπορεί να δοθεί με αυτό το απλό σχήμα:

6 Αλγόριθμοι κατηγοριοποίησης βασισμένοι στην απόσταση (KNN) Αλγόριθμοι κατηγοριοποίησης βασισμένοι στην απόσταση (KNN) Αλγόριθμοι κατηγοριοποίησης βασισμένοι στα δέντρα απόφασης (CART, ID3) Αλγόριθμοι κατηγοριοποίησης βασισμένοι στα δέντρα απόφασης (CART, ID3) Αλγόριθμοι κατηγοριοποίησης βασισμένοι στα Νευρωνικά Δίκτυα Αλγόριθμοι κατηγοριοποίησης βασισμένοι στα Νευρωνικά Δίκτυα Αλγόριθμοι κατηγοριοποίησης βασισμένοι σε κανόνες Αλγόριθμοι κατηγοριοποίησης βασισμένοι σε κανόνες Στατιστικοί αλγόριθμοι κατηγοριοποίησης (Bayes) Στατιστικοί αλγόριθμοι κατηγοριοποίησης (Bayes)

7 Ο Αλγόριθμος Κ κοντινότεροι γείτονες (K Nearest Neighbors - KNN) είναι μία τεχνική κατηγοριοποίησης που στηρίζεται στη χρήση μέτρων βασισμένων στην απόσταση. Ο Αλγόριθμος Κ κοντινότεροι γείτονες (K Nearest Neighbors - KNN) είναι μία τεχνική κατηγοριοποίησης που στηρίζεται στη χρήση μέτρων βασισμένων στην απόσταση. Η τιμή της συνάρτησης-στόχου για ένα νέο στιγμιότυπο βασίζεται αποκλειστικά και μόνο στις αντίστοιχες τιμές των k πιο «κοντινών» στιγμιότυπων εκπαίδευσης, τα οποία αποτελούν τους «γείτονες» του. Η τιμή της συνάρτησης-στόχου για ένα νέο στιγμιότυπο βασίζεται αποκλειστικά και μόνο στις αντίστοιχες τιμές των k πιο «κοντινών» στιγμιότυπων εκπαίδευσης, τα οποία αποτελούν τους «γείτονες» του.

8 ΑΝΑΣΚΟΠΗΣΗ ΤΕΧΝΙΚΩΝ KNN Ο κανόνας του κοντινότερου γείτονα(ΝΝ) καθορίζει την κατηγορία ενός άγνωστου σημείου δεδομένων σε σχέση με τον κοντινότερο του γείτονα του οποίου η κλάση είναι ήδη γνωστή. Έτσι το άγνωστο δεδομένο ταξινομείται ανάλογα με την κατηγορία στην οποία ανήκει ο γείτονας του. Ο κανόνας του κοντινότερου γείτονα(ΝΝ) καθορίζει την κατηγορία ενός άγνωστου σημείου δεδομένων σε σχέση με τον κοντινότερο του γείτονα του οποίου η κλάση είναι ήδη γνωστή. Έτσι το άγνωστο δεδομένο ταξινομείται ανάλογα με την κατηγορία στην οποία ανήκει ο γείτονας του. Η απαίτηση σε μνήμη και η υπολογιστική πολυπλοκότητα αποτελούν περιοριστικούς παράγοντες για τον knn. Πολλές τεχνικές έχουν αναπτυχθεί για να ξεπεράσουν αυτούς τους περιορισμούς. Αυτές οι ΝΝ τεχνικές κατηγοριοποιούνται σε δομημένες και μη, τεχνικές. Η απαίτηση σε μνήμη και η υπολογιστική πολυπλοκότητα αποτελούν περιοριστικούς παράγοντες για τον knn. Πολλές τεχνικές έχουν αναπτυχθεί για να ξεπεράσουν αυτούς τους περιορισμούς. Αυτές οι ΝΝ τεχνικές κατηγοριοποιούνται σε δομημένες και μη, τεχνικές.

9 ΜΗ ΔΟΜΗΜΕΝΕΣ ΤΕΧΝΙΚΕΣ ΚΝΝ Οι Weighted kNN Model based kNN Condensed NN Reduced NN Generalized NN Ο WkNN αναθέτει σε κάθε γείτονα ένα βάρος της τάξης του e^(-d), όπου d η απόσταση του σημείου από τον γείτονα, και με βάση αυτό επιλέγεται ο κοντινότερος γείτονας καθώς και η κλάση του δείγματος.

10 ΔΟΜΗΜΕΝΕΣ ΤΕΧΝΙΚΕΣ ΚΝΝ Ball Tree Ball Tree k-d Tree k-d Tree principal axis Tree (PAT) principal axis Tree (PAT) orthogonal structure Tree (OST) orthogonal structure Tree (OST) Nearest feature line (NFL) Nearest feature line (NFL) Center Line (CL) Center Line (CL) Το ball tree είναι ένα δυαδικό δέντρο και κατασκευάζεται χρησιμοποιώντας την από πάνω προς τα κάτω προσέγγιση. Αυτή η τεχνική είναι βέλτιστη του kNN όσον αφορά την ταχύτητα. Τα φύλλα του δέντρου περιέχουν σχετική πληροφορία και οι εσωτερικοί κόμβοι χρησιμοποιούνται για την αποτελεσματική αναζήτηση ανάμεσα στα φύλλα. Τα δέντρα k-διαστάσεων χωρίζουν τα δεδομένα εκπαίδευσης σε δύο μέρη, τον δεξιό και τον αριστερό κόμβο. Η αριστερή ή η δεξιά μεριά του δέντρου θα εξεταστεί ανάλογα με αρχεία με ερωτήματα. Αφού φτάσουμε στον αρχικό κόμβο, τα αρχεία του τελικού κόμβου εξετάζονται για να βρεθεί ο κοντινότερος κόμβος ως προς το αρχικό ερώτημα

11

12 1-NN: Θα ανήκει στην κλάση 1 3-ΝΝ: Θα ανήκει στην κλάση 2

13 Το σύνολο των δεδομένων εκπαίδευσης επηρεάζει την απόδοση του συστήματος. Για αυτό χρησιμοποιούμε τις παρακάτω μεθόδους. 1. k-fold validation 2. Holdout with random split 3.stratified random split

14 Stratified Random Split Στην εργασία χρησιμοποιούμε stratification,δηλαδή μέθοδο stratified random split που γίνεται για κάθε κλάση.Αν δηλαδή επιλέξουμε να χωρίσουμε το σύνολο δεδομένων εκπαίδευσης με ποσοστό 50 % σε train set κ test set θα το κάνει ξεχωριστά για κάθε κλάση. Αν η πρώτη κλάση έχει 1000 σημεία, τα 500 θα πάνε για train set και τα υπόλοιπα 500 για test set. Αν η δεύτερη κλάση έχει 80 σημεία τα 40 θα πάνε για train set και τα υπόλοιπα για test set.Δηλαδή επιλέγουμε ίσο ποσοστό από κάθε κλάση. Στην εργασία χρησιμοποιούμε stratification,δηλαδή μέθοδο stratified random split που γίνεται για κάθε κλάση.Αν δηλαδή επιλέξουμε να χωρίσουμε το σύνολο δεδομένων εκπαίδευσης με ποσοστό 50 % σε train set κ test set θα το κάνει ξεχωριστά για κάθε κλάση. Αν η πρώτη κλάση έχει 1000 σημεία, τα 500 θα πάνε για train set και τα υπόλοιπα 500 για test set. Αν η δεύτερη κλάση έχει 80 σημεία τα 40 θα πάνε για train set και τα υπόλοιπα για test set.Δηλαδή επιλέγουμε ίσο ποσοστό από κάθε κλάση.

15 Ένα metric Ball tree διαχωρίζει το χώρο των δεδομένων οργανώνοντας με αποτελεσματικό τρόπο τα σημεία, ώστε να είναι γρήγορες οι αναζητήσεις που περιλαμβάνουν ένα πολυδιάστατο κλειδί αναζήτησης όπως αναζήτηση περιοχής ή αναζήτηση κοντινότερων γειτόνων. Κάθε κόμβος του δέντρου συνδέεται με μια μόνο περιοχή υπερ-σφαίρας του χώρου, και αποθηκεύει το κέντρο σφαίρας και την ακτίνα και αποθηκεύει επίσης τα δύο παιδιά κόμβους. Τα σημεία αποθηκεύονται σε κόμβους φύλλα. Ένα metric Ball tree διαχωρίζει το χώρο των δεδομένων οργανώνοντας με αποτελεσματικό τρόπο τα σημεία, ώστε να είναι γρήγορες οι αναζητήσεις που περιλαμβάνουν ένα πολυδιάστατο κλειδί αναζήτησης όπως αναζήτηση περιοχής ή αναζήτηση κοντινότερων γειτόνων. Κάθε κόμβος του δέντρου συνδέεται με μια μόνο περιοχή υπερ-σφαίρας του χώρου, και αποθηκεύει το κέντρο σφαίρας και την ακτίνα και αποθηκεύει επίσης τα δύο παιδιά κόμβους. Τα σημεία αποθηκεύονται σε κόμβους φύλλα. Τα Metric Ball trees κτίζονται με πολλούς τρόπους. Μία πολύ αποτελεσματική μέθοδος κατασκευής top down, η fυrthest pairs, χρησιμοποιεί τα σημεία κοντινότερα στο πιο απομακρυσμένο ζεύγος. Διασπά την σφαίρα σύμφωνα με το ζεύγος σημείων μέσα στην σφαίρα που έχουν την μεγαλύτερη απόσταση μεταξύ τους. Τα Metric Ball trees κτίζονται με πολλούς τρόπους. Μία πολύ αποτελεσματική μέθοδος κατασκευής top down, η fυrthest pairs, χρησιμοποιεί τα σημεία κοντινότερα στο πιο απομακρυσμένο ζεύγος. Διασπά την σφαίρα σύμφωνα με το ζεύγος σημείων μέσα στην σφαίρα που έχουν την μεγαλύτερη απόσταση μεταξύ τους. Metric Ball Trees

16 Παράδειγμα κατασκευής ball tree

17 ΑΝΑΖΗΤΗΣΗ ΚΟΝΤΙΝΩΝ ΓΕΙΤΟΝΩΝ ΣΤΟ BALL TREE ΑΝΑΖΗΤΗΣΗ ΚΟΝΤΙΝΩΝ ΓΕΙΤΟΝΩΝ ΣΤΟ BALL TREE

18 Heart Disease ClevelandBreast Cancer WisconsinDiabetes Pima IndiansBlood TransfusionDermatologyHabermanWineYeastIris

19 Simple KNNWeighted KNN knnSizetrainError testErrorw-knnSizetrainError testError 10,2995 0,302110,30730, ,2943 0,291720,30730, ,2734 0,296930,26040, ,2891 0,291740,27340, ,2656 0,309950,25000, , ,25000, ,2708 0,283970, ,276 0,286580,26560, , ,29430, ,2839 0, ,28130, ,2812 0, ,27340, ,2995 0, ,26040, ,2865 0, ,26300, ,2995 0, ,25260, ,2995 0, ,25780, ,3021 0, ,23960, ,2865 0, ,25520, ,2891 0, ,25000, ,2943 0, ,25780, ,2917 0, ,25000,2604 Diabetes Pima Indians

20 Simple KNNWeighted KNN knnSizetrainError testError w-knnSizetrainError testError 10,01330, ,02670, ,01330, ,02670, ,02670, ,02670, ,01330, ,02670, ,02670, ,01330, ,01330, ,01330, ,01330, ,01330, ,01330, ,01330, ,01330, ,01330, ,01330, ,01330, ,01330, ,02670, ,01330, ,01330, ,01330, ,00000, ,01330, ,01330, ,01330, ,01330, ,01330, ,01330, ,01330, ,00000, ,01330, ,00000, ,01330, ,00000, ,02670, ,01330,0533 Iris data set

21 Iris data set w-knn

22 Simple KNNWeighted KNN knnSizetrainErrortestErrorw-knnSize trainError testError 10,02270,066710,02270, ,03410,088920,02270, ,066730,04550, ,01140,088940,02270, ,066750,03410, ,03410,066760,02270, ,01140,044470,05680, ,01140,055680,03410, ,01140,044490,05680, ,01140, ,05680, ,01140, ,05680, ,01140, ,05680, ,01140, ,04550, ,01140, ,05680, ,01140, ,05680, ,01140, ,05680, ,01140, ,04550, ,02270, ,04550, ,01140, ,04550, ,02270, ,04550,0667 Wine data set

23 Yeast data set Simple KNNWeighted KNN knnSizetrainErrortestErrorw-knnSize trainError testError 10,48440,485910,48440, ,51420,469820,48440, ,46680,433630,47090, ,4750,448340,46140, ,46010,422850,45200, ,46820,424260,44930, ,45470,416170,43840, ,44790,417480,43440, ,44110,416190,43030, ,44250, ,42220, ,43570, ,42080, ,45060, ,43980, ,44520, ,43300, ,43440, ,41950, ,43170, ,42630, ,43710, ,42080, ,43710, ,41950, ,43030, ,42490, ,43570, ,42760, ,43440, ,42490,4067

24 Spam s data set Simple KNNWeighted KNN knnSize trainErrorTestErrorw-knnSize trainError testError 10,11220,125610,11220, ,14220,143920,11220, ,10040,115630,09960, ,11130,116940,09520, ,10480,111350,10480, ,1070,111760,10040, ,1070,11370,10740, ,10480,114380,09870, ,11170,116990,11130, ,10870, ,10430, ,11390, ,11390, ,11260, ,10650, ,11740, ,11480, ,11350, ,10960, ,11650, ,11390, ,11040, ,10520, ,11520, ,11260, ,11260, ,10830, ,1230, ,12260, ,13420, ,11700,1260

25 Glass data set Simple KNNWeighted KNN knnSizetrainErrortestErrorw-knnSize trainError testError 10,32380,321110,32380, ,36190,385320,32380, ,37140,431230,31430, ,35240,427940,34290, ,36190,440450,33330, ,37140,467960,36190, ,37140,431270,33330, ,35240,458780,37140, ,33330,458790,32380, ,31430, ,32380, ,31430, ,33330, ,34290, ,34290, ,34290, ,33330, ,33330, ,35240, ,36190, ,35240, ,36190, ,38100, ,36140, ,36190, ,35240, ,36190, ,36190, ,35240, ,36190, ,36190,4587

26 Page blocks data set Simple KNNWeighted KNN knnSizetrainErrortestErrorw-knnSize trainError testError 10,05160,045310,05160, ,04860,060320,05160, ,04500,048930,04420, ,04680,050040,04280, ,04570,044650,04640, ,04940,049760,04390, ,04790,049770,04600, ,05120,052280,04570, ,04970,050090,04830, ,05450, ,04860, ,05340, ,05080, ,05520, ,05270, ,05340, ,05230, ,05480, ,05190, , ,05560, ,05780, ,05590, ,05850, ,05700, ,06000, ,05700, ,06300, ,05810, ,06180, ,05920,0610

27 Breast Cancer Wisconsin data set Simple KNNWeighted KNN knnSizetrainErrortestErrorw-knnSize trainError testError 10,0440,049710,04990, ,04990,052620,04990, ,03230,035130,03230, ,03230,043940,03230, ,02680,040950,02930, ,03230,046860,02930, ,02050,043970,02930, ,02640,040980,03230, ,02350,040990,03810, ,02640, ,03810, ,02640, ,03520, ,02640, ,03520, ,02350, ,03810, ,02640, ,03520, ,02640, ,03810, ,03230, ,04110, ,02930, ,04110, ,03230, ,04110, ,02930, ,03810, ,03520, ,03810,0292

28 Dermatology data set Simple KNNWeighted KNN knnSizetrainErrortestErrorw-knnSize trainError testError 10,02750,054310,06180, ,0110,059820,06180, ,0220,059830,05620, ,01650,070740,05620, ,0220,054350,05060, ,01650,059860,05620, ,01650,070770,05060, ,01650,059780,04490, ,01650,076190,04490, ,01650, ,06180, ,03850, ,06180, ,0330, ,06180, ,02750, ,06180, ,02750,087140,06180, ,0330, ,06740, ,0330, ,06740, ,0330,087170,06740, ,0330, ,06740, ,0440, ,06180, ,0440,087200,06740,0444

29 ΕΥΧΑΡΙΣΤΟΥΜΕ ΠΟΛΥ ΓΙΑ ΤΗΝ ΠΡΟΣΟΧΗ ΣΑΣ


Κατέβασμα ppt "Εμμανουήλ-Μάνος Γεροθανάσης Ευάγγελος Μπέκος ΕΠΙΒΛΕΠΩΝ: ΚΟΚΚΙΝΟΣ ΙΩΑΝΝΗΣ ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google