ΕΞΟΡΥΞΗ ΓΝΩΣΗΣ ΑΠΟ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ ΜΕ ΧΡΗΣΗ JAVA: ΤΟ ΛΟΓΙΣΜΙΚΟ WEKA ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΤΩΝ: ΚΙΟΣΣΕΣ ΑΝΤΩΝΙΟΣ 2436 ΒΑΛΣΑΜΙΔΗΣ ΙΩΑΝΝΗΣ 2557 ΕΠΙΒΛΕΠΩΝ: ΠΑΡΙΣ ΜΑΣΤΟΡΟΚΩΣΤΑΣ, ΚΑΘΗΓΗΤΗΣ
ΕΙΣΑΓΩΓΗ Στόχος της εργασίας Τι είναι το Data Mining
ΜΕΛΕΤΗ ΑΝΤΙΚΕΙΜΕΝΟΥ Αξιοπιστία: Αξιολόγηση της εκπαίδευσης Ομαδοποίηση Αξιοπιστία: Αξιολόγηση της εκπαίδευσης Ομαδοποίηση Επιλογή χαρακτηριστικών Δεδομένα
ΑΞΙΟΛΟΓΗΣΗ ΤΗΣ ΕΚΠΑΙΔΕΥΣΗΣ Δύο βασικές μέθοδοι: Εκπαίδευση και έλεγχος – “Training and testing” Διασταυρωμένη επικύρωση – “Cross validation”
ΟΜΑΔΟΠΟΙΗΣΗ Γενικά Ιεραρχική ομαδοποίηση – “Hierarchical clustering” Προσέγγιση από πάνω προς τα κάτω – “Top down” Προσέγγιση από κάτω προς τα πάνω – “Bottom up” Βηματική/σταδιακή ομαδοποίηση – “Incremental clustering”
ΕΠΙΛΟΓΗ ΧΑΡΑΚΤΗΡΙΣΤΙΚΩΝ Επιλογή ανεξαρτήτου σχήματος – “Scheme-independent selection” Μέθοδος διήθησης/φίλτρου – “Filter method Ψάχνοντας τον χώρο τον χαρακτηριστικών Ορθή επιλογή – “Forward selection” Ανάδρομη εξάλειψη – “Backward elimination” Επιλογή στοχευμένη στο σχήμα – “Scheme-specific selection” Μέθοδος περιτυλίγματος/ενσωμάτωσης – “Wrapper method”
WEKA: WAIKATO ENVIRONMENT FOR KNOWLEDGE ANALYSIS Που το βρίσκουμε – http://www.cs.waikato.ac.nz/ml/weka/downloading.html Δύο βασικές διεπαφές Explorer Experimenter Ασκήσεις εξοικείωσης
EXPLORER Τι είναι η διεπαφή του Explorer Βασικές λειτουργίες
EXPERIMENTER Τι είναι η διεπαφή του Experimenter Βασικές λειτουργίες
ΑΝΑΠΤΥΞΗ ΠΑΡΑΔΕΙΓΜΑΤΩΝ ΟΜΑΔΟΠΟΙΗΣΗΣ ΣΤΟ WEKA Σχετικά με τα παραδείγματα Πηγή συνόλων δεδομένων – https://archive.ics.uci.edu/ml/datasets.html
ΠΑΡΑΔΕΙΓΜΑΤΑ Πολυδιάστατο σύνολο δεδομένων Δύο αλγόριθμοι - “K-Means, Hierarchical” Αξιολόγηση των αποτελεσμάτων Συμπεράσματα για κάθε αλγόριθμο Μονοδιάστατο σύνολο δεδομένων Δύο αλγόριθμοι - “K-Means, Hierarchical” Αξιολόγηση των αποτελεσμάτων Συμπεράσματα για κάθε αλγόριθμο Τελικά συμπεράσματα
ΕΥΧΑΡΙΣΤΟΥΜΕ ΓΙΑ ΤΗΝ ΠΑΡΑΚΟΛΟΥΘΗΣΗ