ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Μηχανικών Πληροφορικής ΤΕ ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Μηχανικών Πληροφορικής ΤΕ Τίτλος Πτυχιακής Εργασίας Το λογισμικό Waikato Environment for Knowledge Analysis (WEKA) σε εφαρμογές Υπολογιστικής Νοημοσύνης Σπουδαστής: Ιωάννου Σταυρούλα (Α.Ε.Μ: 2162) Επιβλέπων καθηγητής : Δρ. Βαρσάμης Δημήτριος, Επίκουρος καθηγητής
Περιεχόμενα παρουσίασης Μελέτη αντικειμένου εξόρυξης γνώσης Το εργαλείο WEKA Explorer Experimenter Knowledge flow
Μελέτη αντικειμένου εξόρυξης γνώσης Ορισμός εξόρυξης γνώσης(Data Mining) : Ανακάλυψη και αξιοποίηση της γνώσης από μεγάλο όγκο δεδομένων με την χρήση διαφόρων μεθόδων. Εφαρμογές: Στον επιχειρηματικό και επιστημονικό τομέα με στόχο την πρόβλεψη. Διαδικασία εξόρυξης γνώσης
Μελέτη αντικειμένου εξόρυξης γνώσης Ταξινόμηση Υπό επίβλεψη Εξάγει μοντέλα δεδομένων που χρησιμοποιούνται για την επεξεργασία μελλοντικών δεδομένων Χρησιμοποιεί δέντρα απόφασης και διασταυρωμένη επικύρωση με κύριο στόχο την πρόβλεψη Training set, test set Ακρίβεια = Αποτίμηση =
Μελέτη αντικειμένου εξόρυξης γνώσης Cross- Validation Προβλήματα πρόβλεψης Ένα σύνολο δεδομένων το οποίο χωρίζεται σε ισότιμα κομμάτια που θα χρησιμοποιηθούν για την εκπαίδευση και τον έλεγχο του ταξινομητή.
Μελέτη αντικειμένου εξόρυξης γνώσης Ομαδοποίηση Χωρίς επίβλεψη Διαχωρισμός των δεδομένων σε ομάδες έτσι ώστε για κάθε εγγραφή που περιλαμβάνει μία ομάδα η ομοιότητα της με οποιαδήποτε εγγραφή από την ίδια συστάδα να είναι μεγαλύτερη από άλλες συστάδες Δεν είναι γνωστή η κλάση στην οποία ανήκουν τα αντκείμενα Αλγόριθμοι ομαδοποίησης Μονοθετικοί Πολυθετικοί Απόλυτη ομαδοποίηση Σχετική ομαδοποίηση Επίπεδη ομαδοποίηση Ιεραρχική ομαδοποίηση
Μελέτη αντικειμένου εξόρυξης γνώσης Ιεραρχικοί αλγόριθμοι Είδη ιεραρχικών αλγόριθμων Συσσωρευτικοί Διαχωριστικοί Υπολογισμός απόστασης μεταξύ των συστάδων Ολικής Σύνδεσης (Complete link) Απλού Συνδέσμου (Single link) Μέσης Σύνδεσης (Average link) Απόσταση Κεντρικών σημείων (Centroids) Μέθοδος Ward
Μελέτη αντικειμένου εξόρυξης γνώσης K-means Παράγει πολυθετικές, επίπεδες και απόλυτες ομάδες. Ο αριθμός των ομάδων K καθορίζεται από τον χρήστη, άγνωστος αριθμός κλάσεων. Τοποθετεί Cj κέντρα στο σύνολο των δεδομένων Xi, όπου κάθε Xi ανατίθεται στο κέντρο Cj με την μικρότερη απόσταση.
Το εργαλείο WEKA Το WEKA δημιουργήθηκε στο πανεπιστήμιο Waikato της Νέας Ζηλανδίας και πήρε το όνομά του από τα αρχικά της φράσης Waikato Environment for Knowledge Analysis. Περιέχει αλγόριθμους εκμάθησης μηχανής και εργαλεία προεπεξεργασίας δεδομένων. Είναι γραμμένο σε γλώσσα Java και είναι συμβατό σχεδόν με κάθε λειτουργικό σύστημα. Αποτελείται από τέσσερεις διεπαφές Explorer Experimenter Knowledge flow Simple CLI
Το εργαλείο WEKA Explorer Preprocess Classify Cluster Associate Select Attributes Visualize
Το εργαλείο WEKA Αρχεία ARFF @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data sunny,85,85,FALSE,no sunny,80,90,TRUE,no overcast,83,86,FALSE,yes rainy,70,96,FALSE,yes rainy,68,80,FALSE,yes ……………………… Δήλωση αντικειμένων Εισαγωγή δεδομένων
Φόρτωση συνόλου δεδομένων
1. Παράμετροι των φίλτρων 3. Εφαρμογή 2. Επιλογή πρώτου αντικειμένου προς αφαίρεση
Αναίρεση
Το εργαλείο WEKA Explorer Preprocess Classify Cluster Associate Select Attributes Visualize
Έναρξη ταξινόμησης
Κατάταξη Στοιχείων στις κλάσεις
Σωστά ταξινομημένα Λάθος ταξινομημένα
Κατάταξη Στοιχείων στις κλάσεις
Παράμετροι του J48
Αποτελέσματα J48 με training set Το σύνολο δεδομένων χρησιμοποιείται και για εκπαίδευση και έλεγχο του ταξινομητή. Παραπλανητικά αποτελέσματα. Correctly Classified Instances 1485 99% Incorrectly Classified Instances 15 1% === Confusion Matrix === a b c d e f g <-- classified as 205 0 0 0 0 0 0 | a = brickface 0 220 0 0 0 0 0 | b = sky 1 0 205 0 2 0 0 | c = foliage 1 0 0 217 2 0 0 | d = cement 2 0 6 1 195 0 0 | e = window 0 0 0 0 0 236 0 | f = path 0 0 0 0 0 0 207 | g = grass
Αποτελέσματα J48 με Supplied test Δυνατότητα ορισμού test set διαφορετικό από το training set. Μεγαλύτερη ακρίβεια από την διασταυρωμένη επικύρωση (95,7333%) Correctly Classified Instances 779 96.1728% Incorrectly Classified Instances 31 3.8272 % === Confusion Matrix === a b c d e f g <-- classified as 124 0 0 0 1 0 0 | a = brickface 0 110 0 0 0 0 0 | b = sky 1 0 119 0 2 0 0 | c = foliage 1 0 0 107 2 0 0 | d = cement 1 0 12 7 105 0 1 | e = window 0 0 0 0 0 94 0 | f = path 0 0 1 0 0 2 120 | g = grass
Αποτελέσματα J48 με Percentage split Εκπαιδεύει τον αλγόριθμο με ένα ποσοστό του συνόλου δεδομένων και χρησιμοποιεί το υπόλοιπο για έλεγχο. Correctly Classified Instances 485 95.098% Incorrectly Classified Instances 25 4.902 % === Confusion Matrix === a b c d e f g <-- classified as 62 0 0 1 1 0 0 | a = brickface 0 81 0 0 0 0 0 | b = sky 1 0 66 0 6 0 0 | c = foliage 2 0 4 68 4 1 0 | d = cement 1 0 3 0 56 0 0 | e = window 0 0 0 0 0 80 0 | f = path 0 0 0 0 1 0 72 | g = grass
Το εργαλείο WEKA Explorer Preprocess Classify Cluster Associate Select Attributes Visualize
Το εργαλείο WEKA Explorer Preprocess Classify Cluster Associate Select Attributes Visualize
Επιλογή αλγόριθμου
Παράμετροι K-means
Αριθμός ομάδων. Θέτουμε ίσο με το 3
Ορισμός δημιουργίας ομάδων. Θέτουμε ίσο με το 2
Το εργαλείο WEKA Explorer Preprocess Classify Cluster Associate Select Attributes Visualize
Αλγόριθμος κανόνων συσχέτισης
Association 1. outlook=overcast 4 ==> play=yes 4 2. temperature=cool 4 ==> humidity=normal 4 3. humidity=normal windy=FALSE 4 ==> play=yes 4 4. outlook=sunny play=no 3 ==> humidity=high 3 5. outlook=sunny humidity=high 3 ==> play=no 3 6. outlook=rainy play=yes 3 ==> windy=FALSE 3 7. outlook=rainy windy=FALSE 3 ==> play=yes 3 8. temperature=cool play=yes 3 ==> humidity=normal 3 9. outlook=sunny temperature=hot 2 ==> humidity=high 2 10. temperature=hot play=no 2 ==> outlook=sunny 2
Το εργαλείο WEKA Explorer Preprocess Classify Cluster Associate Select Attributes Visualize
Αξιολόγηση αντικειμένων Αναζήτηση στον χώρο των αντικειμένων
Το εργαλείο WEKA Το εργαλείο WEKA Explorer Experimenter Knowledge flow
1. 3. 2.
Επιλογή συνόλου δεδομένων
Επιλογή αλγόριθμου
Έναρξη πειράματος
Το εργαλείο WEKA Το εργαλείο WEKA Explorer Experimenter Knowledge flow
Σας ευχαριστώ για τον χρόνο σας