Εμμανουήλ-Μάνος Γεροθανάσης Ευάγγελος Μπέκος

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Ταξινόμηση Κειμένων με Νευρωνικά Δίκτυα. Γ. Ταμπουρατζής Ινστιτούτο Επεξεργασίας του Λόγου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ10/12/2002 INSTITUTE FOR LANGUAGE.
Advertisements

Βασικές έννοιες αλγορίθμων
Το Μοντέλο κατανόησης κειμένου
Μεταπτυχιακή Διατριβή
ΚΑΘΟΡΙΣΜΟΣ ΚΑΙ ΚΑΤΑΝΟΗΣΗ ΤΟΥ ΠΡΟΒΛΗΜΑΤΟΣ
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης
A Peer-to-peer Framework for Caching Range Queries O. D. Sahin A. Gupta D. Agrawal A. El Abbadi Παρουσίαση: Καραγιάννης Τάσος, Κρεμμυδάς Νίκος, Μαργαρίτη.
Τ.Ε.Ι. ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΕΠΙΚΟΙΝΩΝΙΩΝ Επιβλέπων καθηγητής: Βακαλούδης Αλέξανδρος Σπουδαστής: Τσιαουσίδης Δημήτριος.
Οδηγίες Σχεδίασης Διαδραστικών Συστημάτων
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων
12 Δενδρικές Μέθοδοι Προσπέλασης  Β-δένδρα  Β*-δένδρα  Β + -δένδρα  Άλλες παραλλαγές των Β-δένδρων.
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Φροντιστήριο Αγγελική Σκούρα
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Αναγνώριση Προτύπων.
1 Εισαγωγή στις Βάσεις Δεδομένων  Ανάγκη Αποθήκευσης και Διαχείρισης Δεδομένων  Συστήματα Αρχείων  Συστήματα Βάσεων Δεδομένων  Παραδοσιακές και Σύγχρονες.
Αναγνώριση Προτύπων.
ΔΤΨΣ 150: Ψηφιακή Επεξεργασία Εικόνας © 2005 Nicolas Tsapatsoulis Κατάτμηση Εικόνων: Κατάτμηση με βάση τις περιοχές Τμήμα Διδακτικής της Τεχνολογίας και.
ΕΞΌΡΥΞΗ ΔΕΔΟΜΈΝΩΝ ΚΑΙ ΑΛΓΌΡΙΘΜΟΙ ΜΆΘΗΣΗΣ Κατηγοριοποίηση 4 ο Φροντιστήριο Σκούρα Αγγελική
A Balanced Tree Structure for Peer-to-Peer Networks
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης
ΑΝΑΠΤΥΞΗ ΤΑΞΙΝΟΜΗΤΗ ΗΛΕΚΤΡΟΝΙΚΗΣ ΑΛΛΗΛΟΓΡΑΦΙΑΣ ΜΑΛΕΖΑ ΣΟΦΙΑ ΑΕΜ:765.
Ενότητα Α.4. Δομημένος Προγραμματισμός
Αναζήτηση – Δέντρα (2 ο Μέρος) Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων)
1 Multimedia Database Systems Indexing Part B Metric-based Indexing Techniques Department of Informatics Aristotle University of Thessaloniki Fall 2008.
ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΥΛΟΠΟΙΗΣΗ ΚΑΙ ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ
1 One Torus to Rule them All: Multi-dimensional Queries in P2P Systems Authors: Prasanna Ganesan, Beverly Yang, Hector Garcia-Molina Ευθυμία Ρόβα.
ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ(ΣΕΡΡΕΣ) ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΚΑΙ ΟΙΚΟΝΟΜΙΑΣ ΣΧΟΛΗ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΙΡΗΣΕΩΝ Παρουσίαση Πτυχιακής Εργασίας Η.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι 8-1 Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: 2-3 Δένδρα, Υλοποίηση και πράξεις Β-δένδρα B-Δένδρα.
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι13-1 Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ο αλγόριθμος Dijkstra για εύρεση βραχυτέρων μονοπατιών.
Παράδειγμα B + -Tree Υποθέτουμε B + -Tree τάξης 3 (α=2, b=3)  Κάθε φύλλο θα έχει 2 ως 3 το πολύ στοιχεία  Κάθε εσωτερικός κόμβος θα έχει 2 ως 3 το πολύ.
Template-Independent News Extraction Based on Visual Consistency  Shuyi Zheng  Ruihua Song  Ji-Rong Wen Παπαντωνίου.
1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Αλεξανδρίδου Αναστασία.
Data Mining software Weka. Εισαγωγή Weka: Wekato Environment for knowledge Analysis Η weka είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το.
Πρόβλεψη Θέσης Χρήστη σε Κινητά Δίκτυα - Ταξινομητής Βέλτιστης Παύσης Σπύρος Γεωργάκης Διπλωματική Εργασία.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Γλώσσες Προγραμματισμού Μεταγλωττιστές Πίνακας Συμβόλων Πανεπιστήμιο Μακεδονίας Τμήμα Εφαρμοσμένης Πληροφορικής Ηλίας Σακελλαρίου.
Δομές δεδομένων και Αλγόριθμοι Κεφάλαιο 3. Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον Δεδομένα Δεδομένα (data) Δεδομένα (data) –αφαιρετική αναπαράσταση.
Εργαστήριο με θέμα: Η χαρτογράφηση εννοιών ως εκπαιδευτικό εργαλείο στο πλαίσιο της Π.Ε/ Ε.Α.Α.
Ένα εννοιολογικό πλαίσιο για τη Διδακτική της Πληροφορικής.
Ιατρικά Συστήματα Τεχνητής Νοημοσύνης με την συνεργασία τεχνικών Ασαφούς Λογικής, Νευρωνικών Δικτύων και Γενετικών Αλγορίθμων. A.Τζαβάρας P.R.Weller B.
Ασκήσεις WEKA Δέντρα αποφάσεων.
ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ΜΕ ΧΡΗΣΗ JAVA: ΤΟ ΛΟΓΙΣΜΙΚΟ WEKA
Ασκήσεις WEKA.
ΕΠΙΧΕΙΡΗΜΑΤΙΚΟ ΣΧΕΔΙΟ ΙΔΡΥΣΗΣ ΚΑΙ ΛΕΙΤΟΥΡΓΙΑΣ ΠΡΑΤΗΡΙΟΥ ΥΓΡΩΝ ΚΑΥΣΙΜΩΝ
Προσαρμοστικοί Αλγόριθμοι Υλοποίησης Βέλτιστων Ψηφιακών Φίλτρων:
Δυναμικός Κατακερματισμός
ΟΜΑΔΕΣ Δημιουργία Ομάδων
Ασκήσεις WEKA Νευρωνικά δίκτυα.
MEDICEXPO 2008 Επίδραση συνθηκών εξομοιωμένου θορύβου στην απόδοση συστήματος αναγνώρισης μορφών ηλεκτροεγκεφαλογραφικού σήματος Ι. Καλατζής, Δ. Γκλώτσος,
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
Διάλεξη 15: O αλγόριθμος SIMPLE
Αλγόριθμοι για ανάθεση συχνοτήτων και έλεγχο αποδοχής κλήσεων σε κυψελικά ασύρματα δίκτυα (μέρος ΙIΙ)
Θέματα Θεωρητικής επιστήμης των Υπολογιστών
Συμμετοχική παρατήρηση Συστηματική παρατήρηση
Η παρουσίαση του στατιστικού υλικού γίνεται με δύο τρόπους. 1 Η παρουσίαση του στατιστικού υλικού γίνεται με δύο τρόπους! 1. Ο πρώτος συνίσταται.
ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Μηχανικών Πληροφορικής ΤΕ
Πτυχιακή εργασία της Νικολαῒδου Μαρίας (ΑΜ: 3573)
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΑΕΠΠ
ONLINE ΕΙΣΑΓΩΓΗ ΠΑΚΕΤΩΝ ΚΑΙ OBLIVOUS ΔΡΟΜΟΛΟΓΗΣΗ ΣΕ ΔΙΚΤΥΑ ΑΙΣΘΗΤΗΡΩΝ ONLINE ΕΙΣΑΓΩΓΗ ΠΑΚΕΤΩΝ ΚΑΙ OBLIVOUS ΔΡΟΜΟΛΟΓΗΣΗ ΣΕ ΔΙΚΤΥΑ ΑΙΣΘΗΤΗΡΩΝ Ζώντου Αικατερίνη.
Φοιτητής: Γκούλης Ευάγγελος ΑΕΜ: 3342
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ
DATA MINING ΕΞΑΜΗΝΙΑΙΟ ΘΕΜΑ ΣΤΟ ΜΑΘΗΜΑ ‘ΕΙΔΙΚΑ ΘΕΜΑΤΑ ΒΑΣΕΩΝ ΧΩΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΘΕΩΡΙΑ ΣΥΣΤΗΜΑΤΩΝ’
Εννοιολογική Χαρτογράφηση
(2,4) Trees 11/15/2018 8:56 PM (2,4) Δέντρα (2,4) Δέντρα.
Προσαρμοστικοί Αλγόριθμοι Υλοποίησης Βέλτιστων Ψηφιακών Φίλτρων:
Σκοπός Η συνοπτική παρουσίαση
Δυναμικός Κατακερματισμός
Μεταγράφημα παρουσίασης:

Εμμανουήλ-Μάνος Γεροθανάσης Ευάγγελος Μπέκος ΤΕΧΝΟΛΟΓΙΚΟ ΕΚΠΑΙΔΕΥΤΙΚΟ ΙΔΡΥΜΑ ΣΕΡΡΩΝ ΣΧΟΛΗ ΤΕΧΝΟΛΟΓΙΚΩΝ ΕΦΑΡΜΟΓΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΕΠΙΚΟΙΝΩΝΙΩΝ Κατασκευή ταξινομητών weighted kNN με metric ball trees για εφαρμογές ανακάλυψης γνώσης από βάσεις δεδομένων Oracle Εμμανουήλ-Μάνος Γεροθανάσης Ευάγγελος Μπέκος ΕΠΙΒΛΕΠΩΝ: ΚΟΚΚΙΝΟΣ ΙΩΑΝΝΗΣ ΣΕΡΡΕΣ 2011

Αποθήκες Δεδομένων Μία αποθήκη δεδομένων περιλαμβάνει πληροφορίες και δεδομένα και μπορεί να χρησιμοποιηθεί για την ανάλυση επιμέρους δεδομένων και την εξόρυξη πληροφοριών και τάσεων Συστήματα βάσεων δεδομένων (OLTP) Συστήματα αποθηκών δεδομένων (OLAP)

DATA MINING Η διαδικασία Data Mining, η ελληνική απόδοση της οποίας είναι «Εξόρυξη από Δεδομένα ή Ανεύρεση Γνώσης από Δεδομένα», είναι η αναλυτική διαδικασία η οποία έχει σχεδιαστεί για να αναλύει και να εξερευνεί δεδομένα σε μεγάλες ποσότητες και έπειτα να δημιουργεί κανόνες και σχέσεις μεταξύ των μεταβλητών που ενδιαφέρουν να ερευνηθούν. Η εξόρυξη γνώσης από δεδομένα συνίσταται στην ανακάλυψη ενδιαφερόντων τάσεων ή προτύπων σχημάτων μέσα σε μεγάλα σύνολα δεδομένων.

ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ Η κατηγοριοποίηση είναι η πιο γνωστή και δημοφιλής τεχνική εξόρυξης γνώσης (data mining) Χρησιμοποιείται από πολλές εταιρίες του ιδιωτικού και δημόσιου τομέα σε καθημερινή βάση (ιατρικές διαγνώσεις, συστήματα έγκρισης δανείων κτλ) Η κατηγοριοποίηση(classification) είναι η διαδικασία η οποία απεικονίζει ένα σύνολο δεδομένων σε προκαθορισμένες ομάδες-κλάσεις. 4

ΒΗΜΑΤΑ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ ΒΗΜΑΤΑ ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗΣ Σχηματικά η κατηγοριοποίηση μπορεί να δοθεί με αυτό το απλό σχήμα: 5

Είδη Αλγορίθμων Κατηγοριοποίησης Αλγόριθμοι κατηγοριοποίησης βασισμένοι στην απόσταση (KNN) Αλγόριθμοι κατηγοριοποίησης βασισμένοι στα δέντρα απόφασης (CART, ID3) Αλγόριθμοι κατηγοριοποίησης βασισμένοι στα Νευρωνικά Δίκτυα Αλγόριθμοι κατηγοριοποίησης βασισμένοι σε κανόνες Στατιστικοί αλγόριθμοι κατηγοριοποίησης (Bayes)

KNN CLASSIFIER Ο Αλγόριθμος Κ κοντινότεροι γείτονες (K Nearest Neighbors - KNN) είναι μία τεχνική κατηγοριοποίησης  που στηρίζεται στη χρήση μέτρων βασισμένων στην απόσταση.   Η τιμή της συνάρτησης-στόχου για ένα νέο στιγμιότυπο βασίζεται αποκλειστικά και μόνο στις αντίστοιχες τιμές των k πιο «κοντινών» στιγμιότυπων εκπαίδευσης, τα οποία αποτελούν τους «γείτονες» του.

ΑΝΑΣΚΟΠΗΣΗ ΤΕΧΝΙΚΩΝ KNN

ΜΗ ΔΟΜΗΜΕΝΕΣ ΤΕΧΝΙΚΕΣ ΚΝΝ Οι Weighted kNN Model based kNN Condensed NN Reduced NN Generalized NN Ο WkNN αναθέτει σε κάθε γείτονα ένα βάρος της τάξης του e^(-d), όπου d η απόσταση του σημείου από τον γείτονα , και με βάση αυτό επιλέγεται ο κοντινότερος γείτονας καθώς και η κλάση του δείγματος.

ΔΟΜΗΜΕΝΕΣ ΤΕΧΝΙΚΕΣ ΚΝΝ Ball Tree k-d Tree principal axis Tree (PAT) orthogonal structure Tree (OST) Nearest feature line (NFL) Center Line (CL) Το ball tree είναι ένα δυαδικό δέντρο και κατασκευάζεται χρησιμοποιώντας την από πάνω προς τα κάτω προσέγγιση . Αυτή η τεχνική είναι βέλτιστη του kNN όσον αφορά την ταχύτητα. Τα φύλλα του δέντρου περιέχουν σχετική πληροφορία και οι εσωτερικοί κόμβοι χρησιμοποιούνται για την αποτελεσματική αναζήτηση ανάμεσα στα φύλλα. Τα δέντρα k-διαστάσεων χωρίζουν τα δεδομένα εκπαίδευσης σε δύο μέρη, τον δεξιό και τον αριστερό κόμβο. Η αριστερή ή η δεξιά μεριά του δέντρου θα εξεταστεί ανάλογα με αρχεία με ερωτήματα . Αφού φτάσουμε στον αρχικό κόμβο, τα αρχεία του τελικού κόμβου εξετάζονται για να βρεθεί ο κοντινότερος κόμβος ως προς το αρχικό ερώτημα

Μέτρα απόστασης – ανομοιότητας

Παράδειγμα K-NN 1-NN: Θα ανήκει στην κλάση 1 3-ΝΝ: Θα ανήκει στην κλάση 2

ΑΞΙΟΛΟΓΗΣΗ ΔΕΔΟΜΕΝΩΝ ΕΚΠΑΙΔΕΥΣΗΣ Το σύνολο των δεδομένων εκπαίδευσης επηρεάζει την απόδοση του συστήματος. Για αυτό χρησιμοποιούμε τις παρακάτω μεθόδους. 1. k-fold validation 2. Holdout with random split 3.stratified random split

Stratified Random Split Στην εργασία χρησιμοποιούμε stratification,δηλαδή μέθοδο stratified random split που γίνεται για κάθε κλάση .Αν δηλαδή επιλέξουμε να χωρίσουμε το σύνολο δεδομένων εκπαίδευσης με ποσοστό 50 % σε train set κ test set θα το κάνει ξεχωριστά για κάθε κλάση. Αν η πρώτη κλάση έχει 1000 σημεία, τα 500 θα πάνε για train set και τα υπόλοιπα 500 για test set. Αν η δεύτερη κλάση έχει 80 σημεία τα 40 θα πάνε για train set και τα υπόλοιπα για test set.Δηλαδή επιλέγουμε ίσο ποσοστό από κάθε κλάση.

Metric Ball Trees Ένα metric Ball tree διαχωρίζει το χώρο των δεδομένων οργανώνοντας με αποτελεσματικό τρόπο τα σημεία, ώστε να είναι γρήγορες οι αναζητήσεις που περιλαμβάνουν ένα πολυδιάστατο κλειδί αναζήτησης όπως αναζήτηση περιοχής ή αναζήτηση κοντινότερων γειτόνων. Κάθε κόμβος του δέντρου συνδέεται με μια μόνο περιοχή υπερ-σφαίρας του χώρου, και αποθηκεύει το κέντρο σφαίρας και την ακτίνα και αποθηκεύει επίσης τα δύο παιδιά κόμβους. Τα σημεία αποθηκεύονται σε κόμβους φύλλα. Τα Metric Ball trees κτίζονται με πολλούς τρόπους. Μία πολύ αποτελεσματική μέθοδος κατασκευής top down, η fυrthest pairs, χρησιμοποιεί τα σημεία κοντινότερα στο πιο απομακρυσμένο ζεύγος. Διασπά την σφαίρα σύμφωνα με το ζεύγος σημείων μέσα στην σφαίρα που έχουν την μεγαλύτερη απόσταση μεταξύ τους.

Παράδειγμα κατασκευής ball tree

ΑΝΑΖΗΤΗΣΗ ΚΟΝΤΙΝΩΝ ΓΕΙΤΟΝΩΝ ΣΤΟ BALL TREE

ΣΥΝΟΛΑ ΔΕΔΟΜΕΝΩΝ – DATA SET Heart Disease Cleveland Breast Cancer Wisconsin Diabetes Pima Indians Blood Transfusion Dermatology Haberman Wine Yeast Iris

Diabetes Pima Indians Simple KNN Weighted KNN knnSize trainError testError w-knnSize 1 0,2995 0,3021 0,3073 0,2891 2 0,2943 0,2917 3 0,2734 0,2969 0,2604 0,2630 4 5 0,2656 0,3099 0,2500 0,2682 6 7 0,2708 0,2839 8 0,276 0,2865 9 10 0,2812 0,2813 11 0,2760 12 13 14 0,2526 15 0,2578 16 0,2396 17 0,2552 18 19 0,2930 20

Iris data set Simple KNN Weighted KNN knnSize trainError testError w-knnSize 1 0,0133 0,0667 0,0267 0,0533 2 3 4 5 0,0800 0,0400 6 7 8 9 10 11 12 13 0,0000 14 15 16 17 18 19 20

ΓΡΑΦΙΚΗ ΠΑΡΑΣΤΑΣΗ Iris data set w-knn

Wine data set Simple KNN Weighted KNN knnSize trainError testError w-knnSize 1 0,0227 0,0667 0,0778 2 0,0341 0,0889 3 0,0455 4 0,0114 5 0,1000 6 7 0,0444 0,0568 0,1111 8 0,0556 9 10 11 12 13 14 15 16 17 18 19 20

Yeast data set Simple KNN Weighted KNN knnSize trainError testError w-knnSize 1 0,4844 0,4859 2 0,5142 0,4698 3 0,4668 0,4336 0,4709 0,4416 4 0,475 0,4483 0,4614 0,4362 5 0,4601 0,4228 0,4520 0,4094 6 0,4682 0,4242 0,4493 7 0,4547 0,4161 0,4384 0,4107 8 0,4479 0,4174 0,4344 0,4121 9 0,4411 0,4303 0,4148 10 0,4425 0,4255 0,4222 0,4134 11 0,4357 0,4208 0,4188 12 0,4506 0,4398 13 0,4452 0,4330 14 0,4268 0,4195 15 0,4317 0,4263 16 0,4371 0,4215 17 0,4282 18 0,4249 19 0,4276 0,4081 20 0,4067

Spam Emails data set Simple KNN Weighted KNN knnSize trainError TestError w-knnSize testError 1 0,1122 0,1256 2 0,1422 0,1439 3 0,1004 0,1156 0,0996 4 0,1113 0,1169 0,0952 0,1121 5 0,1048 6 0,107 0,1117 0,1091 7 0,113 0,1074 0,1130 8 0,1143 0,0987 0,1100 9 10 0,1087 0,1043 0,1126 11 0,1139 0,1221 12 0,1199 0,1065 0,1178 13 0,1174 0,1282 0,1148 0,1273 14 0,1135 0,1096 0,1226 15 0,1165 0,1312 0,1291 16 0,1104 0,1265 0,1052 0,1252 17 0,1152 0,1334 18 0,1321 0,1083 0,1304 19 0,123 0,1352 0,1330 20 0,1342 0,1373 0,1170 0,1260

Glass data set Simple KNN Weighted KNN knnSize trainError testError w-knnSize 1 0,3238 0,3211 2 0,3619 0,3853 3 0,3714 0,4312 0,3143 0,3945 4 0,3524 0,4279 0,3429 0,4220 5 0,4404 0,3333 6 0,4679 7 8 0,4587 9 10 11 0,4495 12 13 14 0,4771 15 16 0,3810 17 0,3614 0,4879 18 0,4862 19 20

Page blocks data set Simple KNN Weighted KNN knnSize trainError testError w-knnSize 1 0,0516 0,0453 2 0,0486 0,0603 3 0,0450 0,0489 0,0442 0,0493 4 0,0468 0,0500 0,0428 5 0,0457 0,0446 0,0464 0,0449 6 0,0494 0,0497 0,0439 7 0,0479 0,0460 0,0482 8 0,0512 0,0522 0,0475 9 0,0483 10 0,0545 0,0541 11 0,0534 0,0537 0,0508 12 0,0552 0,0551 0,0527 0,0526 13 0,0559 0,0523 14 0,0548 0,0570 0,0519 15 0,0556 16 0,0578 0,0562 17 0,0585 0,0581 18 0,0600 0,0592 0,0577 19 0,0630 0,0610 20 0,0618

Breast Cancer Wisconsin data set Simple KNN Weighted KNN knnSize trainError testError w-knnSize 1 0,044 0,0497 0,0499 0,0263 2 0,0526 3 0,0323 0,0351 0,0234 4 0,0439 5 0,0268 0,0409 0,0293 6 0,0468 7 0,0205 8 0,0264 9 0,0235 0,0381 10 11 0,0352 0,0292 12 13 14 15 16 0,0411 17 0,0322 18 19 20

Dermatology data set Simple KNN Weighted KNN knnSize trainError testError w-knnSize 1 0,0275 0,0543 0,0618 0,0611 2 0,011 0,0598 3 0,022 0,0562 0,0444 4 0,0165 0,0707 5 0,0506 0,0333 6 7 0,0389 8 0,0597 0,0449 0,0556 9 0,0761 10 11 0,0385 0,0815 12 0,033 13 14 0,087 15 0,0674 16 17 18 19 0,044 0,0924 20

ΕΥΧΑΡΙΣΤΟΥΜΕ ΠΟΛΥ ΓΙΑ ΤΗΝ ΠΡΟΣΟΧΗ ΣΑΣ