Ασκήσεις WEKA Δέντρα αποφάσεων
Εφαρμογή αλγόριθμου μηχανικής μάθησης (ονομάζεται ταξινομητής) στα δεδομένα. Ο ταξινομητής χτίζει (μαθαίνει!) από τα δεδομένα και βοηθούν στο να γίνει αυτόματα μια ταξινόμηση. Τα δέντρα απόφασης είναι ένας ειδικός τύπος μοντέλου ταξινόμησης. Αυτό το μοντέλο είναι σε θέση να προβλέψει με μεγάλη ακρίβεια την κλάση που πρέπει να ταξινομηθεί ένα νέο δεδομένο Ακρίβεια (Accuracy) είναι το ποσοστό των σωστά ταξινομημένων περιπτώσεων. Μετά την διαδικασία εκμάθησης ενός μοντέλου, θα πρέπει να το δοκιμάσετε για να δείτε πόσο ακριβή είναι σε νέα δεδομένα χρησσιμοποιώντας διάφορα σύνολα δεδομένων (Use training set κτλ).
Μέθοδος μηχανικής μάθησης- δέντρα αποφάσεων Ανοίξτε το αρχείο weather.nominal.arff Μια πολύ δημοφιλής μέθοδος εξόρυξης δεδομένων (μηχανική μάθηση) βασίζεται στα δέντρα αποφάσεων και είναι ο αλγόριθμος «J48». Επιλέξτε το «ταξινομητή J48», κάνοντας κλικ στο κουμπί Choose στην κορυφή του παραθύρου. Ένα παράθυρο διαλόγου θα εμφανιστεί με διάφορα είδη ταξινομητών για να διαλέξετε. Ανοίξτε τη κατηγορία (φάκελο) trees. Θα εμφανιστεί η λίστα και η υπο-εγγραφές. Κάντε κλικ στις J48 για να το επιλέξετε Το όνομα του ταξινομητή που αναφέρονται στο πλαίσιο κειμένου δίπλα στην "Επιλογή« θα πρέπει τώρα να διαβάζεται «J48 0:25 -C -Μ 2». Το κείμενο μετά το «J48» δείχνει τις ρυθμίσεις παραμέτρων του ταξινομητή J48.
Μέθοδος μηχανικής μάθησης- δέντρα αποφάσεων Επιλέξτε τον τρόπο ‘Use training set’ Τρέξτε τον κατηγοριοποιητή και παρατηρήστε τα αποτελέσματα στο παράθυρο “Classifier output” Τι αποτελέσματα βλέπετε στο παράθυρο των αποτελεσμάτων; Τι συμπεράσματα μπορείτε να βγάλετε από τον πίνακα σύγχησης; Οπτικοποιήστε τα αποτελέσματα σας σε μορφή δέντρου και σχολιαστε τα.
Ρύθμιση των μεθόδων δοκιμής Use training set: Χρησιμοποιεί το ίδιο σύνολο δεδομένων που χρησιμοποιούνται στην κατασκευή του test data set (με άλλα λόγια του αρχείου .arff) Supplied test set: σας επιτρέπει να εισάγεται ένα σύνολο δεδομένων και να το χρησιμοποιήσετε σαν σύνολο για το test Cross-validation: Χωρίζει το σύνολο εκπαίδευσης σε πτυχές (ανεξάρτητα υποσύνολα). Ο αριθμός των πτυχώσεων μπορούν να εισαχθούν στο πεδίο Fold. Οι δοκιμές γίνονται σε μια μια τις πτυχώσεις. Προσοχή: η κατηγοριοποίηση γίνεται ΄περισσότερες από μια φορές Percentage split: Χωρίζει και χρησιμοποιεί το σύνολο εκπαίδευσης στο ποσοστό που εισάγετε στο ανάλογο πεδίο τιμής
Επιπλέον εξάσκηση No. Outlook Nominal Temperature nominal Αλλάξτε το σύνολο ελέγχου: Στο πλαίσιο Test επιλέξτε την επιλογή Supplied test set, και κάντε κλικ στο κουμπί Set .... Ένα μικρό παράθυρο θα εμφανιστεί για την επιλογή της συνόλου δοκιμής Κάντε κλικ στο κουμπί Open file και περιηγηθείτε για να ανοίξετε το αρχείο με το όνομα «weather.test1.arff». Το αρχείο δεν υπάρχει…… πρέπει να το δημιουργήσετε μόνοι σας Αυτό το αρχείο πρέπει να περιέχει τις 3 περιπτώσεις που βλέπετε παρακάτω. Κάντε κλικ για να ανοίξετε το επιλεγμένο αρχείο. Μπορείτε να κλείσετε το μικρό παράθυρο για να επιστρέψετε στο κύριο Παράθυρο WEKA. Πατήστε το κουμπί «Έναρξη» για την εκπαίδευση και δοκιμή ξανά. Μήπως το δέντρο απόφασης έχει αλλάξει; Πόσο περιπτώσεις έχουν ταξινομείται ορθώς; Ερμηνεύστε τον πίνακα σύγχυσης. No. Outlook Nominal Temperature nominal Humidity nominal Windy Play nominal 1 sunny cool high TRUE yes 2 overcast mild FALSE 3 rainy High
Επιλέξτε τη δοκιμαστική λειτουργία “Percentage split” (66% for training). Εκτελέστε το Naive Bayes ταξινομητή και παρατηρήστε τα αποτελέσματα που εμφανίζονται στο παράθυρο "εξόδου Κατηγοριοποιητή". Πόσες περιπτώσεις έχουν ταξινομηθεί εσφαλμένα; Να γίνει σύγκριση των αποτελεσμάτων του ταξινομητή Naive Bayes για τις 2 δοκιμές λειτουργίας. Σε ποια δοκιμαστική λειτουργία ο ταξινομητής παράγει ένα καλύτερο αποτέλεσμα (δηλαδή, ένα μικρότερο σφάλμα); Ποιος ταξινομητής, Zeror ή NaiveBayes, δείχνει μια καλύτερη απόδοση για την πρόβλεψη του τρέχον σύνολο δεδομένων;