Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Bayes Classifiers.
Advertisements

Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης
Μεταπτυχιακή Διατριβή
Κατηγοριοποίηση και Πρόβλεψη
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Εξόρυξη Γνώσης Από Χωρικά Δεδομένα Φροντιστήριο Αγγελική Σκούρα
ΕΙΣΑΓΩΓΗ ΣΤΑ ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ
Εξόρυξη Γνώσης Από Χωρικά Δεδομένα
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ Πρόγραμμα μεταπτυχιακών σπουδών Προσαρμοστικό σχήμα συμπίεσης δεδομένων.
Αναγνώριση Προτύπων.
Μικροσυστοιχίες και ανάλυση δεδομένων
Αναγνώριση Προτύπων.
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
Γραφήματα & Επίπεδα Γραφήματα
Συνιστώσες δεδομένων  Αντίληψη(concept):το αντικείμενο μάθησης  Υπόδειγμα(instance):το ξεχωριστό και ανεξάρτητο παράδειγμα(example) ενός concept  Χαρακτηριστικό(attribute):η.
Κοντινότεροι Κοινοί Πρόγονοι α βγ θ δεζ η π ν ι κλμ ρσ τ κκπ(λ,ι)=α, κκπ(τ,σ)=ν, κκπ(λ,π)=η κκπ(π,σ)=γ, κκπ(ξ,ο)=κ ξο κκπ(ι,ξ)=β, κκπ(τ,θ)=θ, κκπ(ο,μ)=α.
Εξόρυξη Δεδομένων και Τεχνητά Νευρωνικά Δίκτυα
ΕΞΌΡΥΞΗ ΔΕΔΟΜΈΝΩΝ ΚΑΙ ΑΛΓΌΡΙΘΜΟΙ ΜΆΘΗΣΗΣ Κατηγοριοποίηση 4 ο Φροντιστήριο Σκούρα Αγγελική
Αναγνώριση Προτύπων.
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης
ΣΥΣΤΗΜΑΤΑ ΣΥΛΛΟΓΗΣ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΜΕΤΡΗΣΕΩΝ
Ανάπτυξη και εκπαίδευση ιεραρχίας ταξινομητών για την κατηγοριοποίηση κειμένων Αβραμίδη Γεωργία 719.
Αλγόριθμοι Συσταδοποίησης και Κατηγοριοποίησης Βιολογικών Δεδομένων
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής και Τηλεπικοινωνιών Learning to Learn: Algorithmic Inspirations from Human Problem Solving.
ΚΕΦΑΛΑΙΟ 16 ΝΕΥΡΩΝΙΚΑ ΔΙΚΤΥΑ
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.
Λεξικό, Union – Find Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Εξόρυξη Δεδομένων: Ακ. Έτος ΚΑΤΗΓΟΡΙΟΠΟΙΗΣΗ II1 Κατηγοριοποίηση ΙΙ.
Διπλωματική Εργασία Πειραματική Αξιολόγηση της Μοναδιαίας Οκνηρής Συνέπειας Τόξου (Singleton Lazy Arc Consistency) Ιωαννίδης Γιώργος (ΑΕΜ: 491)
Δομές Δεδομένων 1 Θέματα Απόδοσης. Δομές Δεδομένων 2 Οργανώνοντας τα Δεδομένα  Η επιλογή της δομής δεδομένων και του αλγορίθμου επηρεάζουν το χρόνο εκτέλεσης.
Data Mining software Weka. Εισαγωγή Weka: Wekato Environment for knowledge Analysis Η weka είναι ένα software για εξόρυξη δεδομένων γραμμένο σε JAVA το.
Εμμανουήλ-Μάνος Γεροθανάσης Ευάγγελος Μπέκος
Πρόβλεψη Θέσης Χρήστη σε Κινητά Δίκτυα - Ταξινομητής Βέλτιστης Παύσης Σπύρος Γεωργάκης Διπλωματική Εργασία.
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
ΤΜΗΥΠ / ΕΕΣΤ1 Μάθημα 8 ο Ανίχνευση Ακμών. ΤΜΗΥΠ / ΕΕΣΤ2 Εισαγωγή (1)  Οι ακμές είναι βασικά χαρακτηριστικά της εικόνας Προς το παρόν δεν υπάρχει ακόμα.
ΕΞΟΡΥΞΗ ΔΕΔΟΜΕΝΩΝ Δρ. Παναγιώτης Συμεωνίδης
Μηχανική Μάθηση σε Συστήματα Πολλαπλών Πρακτόρων Παπαλιάς Κωνσταντίνος Τμήμα Πληροφορικής.
Παρεμβολή συνάρτησης μιας μεταβλητής με την βοήθεια νευρωνικών δικτύων
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Ροές Δεδομένων (3 ο Μέρος)
ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ: ΤΑΞΙΝΟΜΗΣΗ ΨΗΦΙΑΚΩΝ ΕΙΚΟΝΩΝ ΜΕ ΧΩΡΙΚΗ-ΣΗΜΑΣΙΟΛΟΓΙΚΗ ΑΝΤΙΣΤΟΙΧΗΣΗ ΣΠΟΥΔΑΣΤΗΣ : ΦΩΤΙΑΔΗΣ ΚΥΡΙΑΚΟΣ Α.Μ ΕΠΙΒΛΕΠΩΝ : Δρ. ΝΙΚΟΛΑΙΔΗΣ.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
Δρ. Αλέξανδρος Βακαλούδης.  Εξόρυξη δεδομένων (Data Mining)  Association Rules  Clustering  Classification  Στάδια για εξόρυξη δεδομένων  Επανάληψη.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ Παραδείγματα BP.
Τεχνητή Νοημοσύνη Ενότητα 10: Μηχανική Μάθηση (Machine Learning) Κατερίνα Γεωργούλη ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ TEI ΑΘΗΝΑΣ.
ΥΠΟΛΟΓΙΣΤΙΚΕΣ ΤΕΧΝΙΚΕΣ ΓΙΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΔΟΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Αντικειμενοστραφής προγραμματισμός Web Site: ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ.
ΥΝ Ι: ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ 1 ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ (Τεχνητά Νευρωνικά Δίκτυα και Γενετικοί Αλγόριθμοι) ΣΠΥΡΟΣ ΛΥΚΟΘΑΝΑΣΗΣ, ΚΑΘΗΓΗΤΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ.
Ιατρικά Συστήματα Τεχνητής Νοημοσύνης με την συνεργασία τεχνικών Ασαφούς Λογικής, Νευρωνικών Δικτύων και Γενετικών Αλγορίθμων. A.Τζαβάρας P.R.Weller B.
Ασκήσεις WEKA Δέντρα αποφάσεων.
Ασκήσεις WEKA.
ΟΜΑΔΕΣ Δημιουργία Ομάδων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ
Ασκήσεις WEKA Νευρωνικά δίκτυα.
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Συστήματα CAD Πανεπιστήμιο Θεσσαλίας Σχολή Θετικών Επιστημών
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Μηχανικών Πληροφορικής ΤΕ
Τμήμα Μηχανικών Πληροφορικής Τ.Ε.
ΔΙΠΛΩΜΑΤΙΚΗ ΜΕΤΑΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ Γεώργιος Τζούμας (ΑΕΜ:45)  
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ
Σκοπός Η συνοπτική παρουσίαση
Εξωτερική Αναζήτηση Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη
Μεταγράφημα παρουσίασης:

Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης WEKA Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης 4ο Φροντιστήριο Παναγιώτης Αντωνέλλης adonel@ceid.upatras.gr Σκούρα Αγγελική skoura@ceid.upatras.gr

Μηχανική Μάθηση Η μηχανική μάθηση είναι μια περιοχή της τεχνητής νοημοσύνης η οποία αφορά αλγορίθμους και μεθόδους που επιτρέπουν στους Η/Υ να «μαθαίνουν». Σκοπός = η εξόρυξη δεδομένων Η μηχανική μάθηση επικαλύπτεται σημαντικά με τη στατιστική, αφού και τα δύο πεδία μελετούν την ανάλυση δεδομένων. Οι αλγόριθμοι μηχανικής μάθησης κατηγοριοποιούνται ως εξής: Επιβλεπόμενη μάθηση (supervised learning), όπου ο αλγόριθμος κατασκευάζει μια συνάρτηση που απεικονίζει δεδομένες εισόδους σε γνωστές, επιθυμητές εξόδους (σύνολο εκπαίδευσης), με απώτερο στόχο τη γενίκευση της συνάρτησης αυτής και για εισόδους με άγνωστη έξοδο (σύνολο ελέγχου). Π.χ. κατηγοριοποίηση Μη επιβλεπόμενη μάθηση (unsupervised learning), όπου ο αλγόριθμος κατασκευάζει ένα μοντέλο για κάποιο σύνολο εισόδων χωρίς να γνωρίζει επιθυμητές εξόδους για το σύνολο εκπαίδευσης. Π.χ. συσταδοποίηση Η ανάλυση των αλγόριθμων μηχανικής μάθησης είναι ένας κλάδος της στατιστικής που ονομάζεται θεωρία μάθησης.

Μηχανική Μάθηση Input Data Classifier ML e.g. Gene Expression Profiles, … Machine Learning Classification: Yes / No

Αλγόριθμος κατηγοριοποίησης Κατηγοριοποίηση Αποτελεί μια από τις βασικές εργασίες στην εξόρυξη δεδομένων Βασίζεται στην εξέταση των χαρακτηριστικών ενός αντικειμένου το όποιο, με βάση τα χαρακτηριστικά αυτά, αντιστοιχίζεται σε ένα προκαθορισμένο σύνολο κλάσεων Αλγόριθμος κατηγοριοποίησης Μετρική ομοιότητας Αναπαράσταση δένδρων

Κατηγοριοποίηση Η εργασία της κατηγοριοποίησης χαρακτηρίζεται από έναν καλά καθορισμένο ορισμό των κατηγοριών(κλάσεων) και το σύνολο που χρησιμοποιείται για την εκπαίδευση του μοντέλου αποτελείται από προκατηγοριοποιημένα παραδείγματα Η βασική εργασία είναι να δημιουργηθεί ένα μοντέλο το οποίο θα μπορούσε να εφαρμοστεί για να κατηγοριοποιήσει δεδομένα που δεν έχουν ακόμα κατηγοριοποιηθεί

Κατηγοριοποίηση Υπάρχει συνήθως περιορισμένος αριθμός κατηγοριών Χρησιμοποιούνται τεχνικές όπως: Δέντρα Αποφάσεων (Decision Trees) Νευρωνικά Δίκτυα (Neural Networks) K-Πλησιέστερων Γειτόνων (k-Nearest Neighbors, k-NN) Μηχανές Υποστήριξης Διανυσμάτων (Support Vector Machines, SVM) Bayesian Μέθοδοι Στηρίζεται στην ιδέα της «εκπαίδευσης» με τη βοήθεια ενός υποσυνόλου δεδομένων (σύνολο εκπαίδευσης)

Πριν την κατηγοριοποίηση: Προεπεξεργασία δεδομένων Επιλογή των instances: Απομάκρυνε τα όμοια / ασυνεπή / ανολοκλήρωτα (π.χ. reduction of homologous genes, removal of wrongly annotated genes) Μετασχηματισμός/επιλογή των features: Feature selection techniques Projection techniques (e.g. principal components analysis) Compression techniques (e.g. minimum description length)

Πριν την κατηγοριοποίηση: Προεπεξεργασία δεδομένων Πλεονεκτήματα από την επιλογή των χαρακτηριστικών Πετυχαίνουμε καλύτερα αποτελέσματα κατηγοριοποίησης χρησιμοποιώντας μικρά σύνολα από χαρακτηριστικά Λιγότερος θόρυβος στα δεδομένα Παρέχουμε πιο αποδοτικούς σε κόστος κατηγοριοποιητές Λιγότερα χαρακτηριστικά να λάβουμε υπόψη smaller datasets faster classifiers Αναγνώριση συσχετιζόμενων χαρακτηριστικών για ένα δοθέν πρόβλημα

Εκμάθηση του μοντέλου κατηγοριοποίησης Το μοντέλο κατασκευάζεται περιγράφοντας ένα προκαθορισμένο σύνολο από κατηγορίες δεδομένων Τα δεδομένα εκπαίδευσης αναλύονται από έναν αλγόριθμο κατηγοριοποίησης για να κατασκευάσουν στη συνέχεια το μοντέλο Τα στοιχεία αυτά επιλέγονται τυχαία από ένα πληθυσμό δεδομένων και ανήκουν σε μια από τις προκαθορισμένες κατηγορίες Η κατηγορία των δειγμάτων εκπαίδευσης είναι γνωστή και το βήμα αυτό λέγεται «εποπτευόμενη μάθηση»

Αξιολόγηση Κατηγοριοποίησης Χρησιμοποιούνται τα δοκιμαστικά δεδομένα για να υπολογίσουν την ακρίβεια του μοντέλου Αν η ακρίβεια είναι αποδεκτή το μοντέλο χρησιμοποιείται για κατηγοριοποίηση (classification) μελλοντικών δεδομένων των οποίων η κατηγορία (class) είναι άγνωστη

Δένδρα Απόφασης Χρήση της τεχνικής «διαίρει και βασίλευε» για διαίρεση του χώρου αναζήτησης σε υποσύνολα (ορθογώνιες περιοχές) Κάθε εσωτερικός κόμβος ονοματίζεται με το όνομα ενός χαρακτηριστικού Κάθε κλαδί/σύνδεση ονοματίζεται με ένα κατηγόρημα που μπορεί να εφαρμοστεί στο χαρακτηριστικό που αποτελεί το όνομα του κόμβου - πατέρα Κάθε φύλλο ονοματίζεται με το όνομα μιας κλάσης

Νευρωνικά Δίκτυα Συνάρτηση Μεταφοράς, η οποία μπορεί να είναι: Οι νευρώνες είναι το δομικό στοιχείο του δικτύου. Υπάρχουν δύο είδη νευρώνων, οι νευρώνες εισόδου και οι υπολογιστικοί νευρώνες. Οι νευρώνες εισόδου δεν υπολογίζουν τίποτα, μεσολαβούν ανάμεσα στις εισόδους του δικτύου και τους υπολογιστικούς νευρώνες. Οι υπολογιστικοί νευρώνες πολλαπλασιάζουν τις εισόδους τους με τα συναπτικά βάρη και υπολογίζουν το άθροισμα του γινομένου. Το άθροισμα που προκύπτει είναι το όρισμα της συνάρτησης μεταφοράς. Συνάρτηση Μεταφοράς, η οποία μπορεί να είναι: βηματική (step), γραμμική (linear), μη γραμμική (non-linear), στοχαστική (stochastic).

K-nn Η τεχνική των κοντινότερων γειτόνων (Nearest Neighbor (NN)) είναι μια απλή προσέγγιση του προβλήματος της κατηγοριοποίησης. Ένα νέο στοιχείο κατηγοριοποιείται χρησιμοποιώντας την πλειοψηφία μεταξύ των κατηγοριών από k παραδείγματα που είναι τα πιο κοντινά σε αυτό που δίνεται για να κατηγοριοποιηθεί Μια τέτοια μέθοδος παράγει συνεχείς και επικαλυπτόμενες, παρά σταθερές γειτονιές. Κ=3

Κατηγοριοποίηση k-nn Επίσης είναι εφικτή η εφαρμογή του ΝΝ σε κείμενα Εύρεση ΝΝ Bucketing Kd tree Περιορισμός με προβολή Περιορισμός με τριγωνική ανισότητα Επίσης είναι εφικτή η εφαρμογή του ΝΝ σε κείμενα

Εφαρμογές αναζήτησης ΝΝ Αναγνώριση προτύπων computer aided diagnosis δηλ. υποστηρίζει τους γιατρούς στην αναγνώριση ευρημάτων οπτική αναγνώριση χαρακτήρων Θεωρεία κωδικοποίησης αποκωδικοποίηση ληφθέντων σημάτων Βάσεις δεδομένων που είναι context based ανάκτηση δεδομένων Ηλεκτρονικό εμπόριο contextual advertising Βιοπληροφορική ταξινόμηση βιολογικών ακολουθιών σε ομάδες Spell checking εφαρμογές όπως Microsoft Word Plagiarism detection ανίχνευση αντιγραφής, ομοιότητας κειμένων

Μηχανές Υποστήριξης Διανυσμάτων (SVM) Αρχικός Χώρος Νέος Χώρος

Μηχανές Υποστήριξης Διανυσμάτων (SVM) Χρησιμοποιούν μια συνάρτηση πυρήνα Π.χ. συνάρτηση πυρήνα ακτινωτής βάσης όπου s είναι τα διανύσματα υποστήριξης, z είναι τα διανύσματα γνωρισμάτων των αντικειμένων ελέγχου και γ παράμετρος που καθορίζει το μέγεθος του πυρήνα το όριο απόφασης της κατηγοριοποίησης Π.χ. ως όπου ns είναι το πλήθος των διανυσμάτων υποστήριξης si, li είναι οι ετικέτες των αντίστοιχων διανυσμάτων υποστήριξης, a, b παράμετροι που υπολογίζονται κατά τη διαδικασία εκμάθησης και Δ η τιμή κατωφλίου για την εξισορρόπηση των ρυθμών των ψευδώς θετικών και ψευδών αρνητικών. Η εξίσωση αυτή ουσιαστικά δείχνει ότι οι δύο κατηγορίες δεδομένων μπορούν να διαχωριστούν από ένα υπερεπίπεδο

Μηχανές Υποστήριξης Διανυσμάτων (SVM) Οι Μηχανές Διανυσμάτων Υποστήριξης είναι μια μέθοδος μηχανικής μάθησης για δυαδικά προβλήματα ταξινόμησης. Προβάλλουν τα σημεία του συνόλου εκπαίδευσης σε έναν χώρο περισσοτέρων διαστάσεων και βρίσκουν το υπερεπίπεδο το οποίο διαχωρίζει βέλτιστα τα σημεία των δύο τάξεων. Τα άγνωστα σημεία ταξινομούνται σύμφωνα με την πλευρά του υπερεπίπεδου στην οποία βρίσκονται. Τα διανύσματα τα οποία ορίζουν το υπερεπίπεδο το οποίο χωρίζει τις δύο τάξεις ονομάζονται διανύσματα υποστήριξης (support vectors). Χαμηλό υπολογιστικό κόστος, ακόμη και στην περίπτωση μη γραμμικότητας

Εμφάνιση μεγάλου όγκου δεδομένων Παραδείγματα: Image processing Spam email detection Text mining DNA micro-array data Protein data …

Εμφάνιση μεγάλου όγκου δεδομένων Η πολυπλοκότητα προκύπτει από: Πολλά instances (παραδείγματα) Instances με πολλαπλά χαρακτηριστικά (ιδιότητες/ χαρακτηριστικά) Εξαρτήσεις μεταξύ των χαρακτηριστικών (συσχετίσεις)

Βήματα του Data Analysis στον Explorer του WEKA Επιλογή class variable Επιλογή αλγόριθμου Ρυθμίσεις αλγορίθμου Ρυθμίσεις sampling Ρυθμίσεις output Ανάλυση του output

Μέθοδοι Κατηγοριοποίησης στο WEKA Decision Trees Hidden Markov Models (HMMs) Support Vector Machines Artificial Neural Networks Bayesian methods …

Δέντρα απόφασης Δοθέντος ενός συνόλου από instances (κάθε instance περιέχει ένα σύνολο χαρακτηριστικών), δημιουργείται ένα δέντρο με εσωτερικούς κόμβους τα χαρακτηριστικά και με φύλλα τις κλάσεις.

Παράδειγμα Instance Attributes / Features Class day outlook   Class day outlook temperature humidity windy Play Golf ? 1 sunny hot high FALSE no 2 TRUE 3 overcast yes 4 rainy mild 5 cool normal 6 7 8 9 10 11 12 13 14 today ?

Παράδειγμα: δεδομένα Independent features (attributes) Class Instance Independent features (attributes) Class Day Outlook Temperature Humidity Windy Play Golf? 1 sunny hot high FALSE no 2 TRUE 3 overcast yes 4 rainy mild 5 cool normal 6 7 8 9 10 11 12 13 14 WEKA data file (arff format) : @relation weather.symbolic @attribute outlook {sunny, overcast, rainy} @attribute temperature {hot, mild, cool} @attribute humidity {high, normal} @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data sunny,hot,high,FALSE,no sunny,hot,high,TRUE,no overcast,hot,high,FALSE,yes rainy,mild,high,FALSE,yes rainy,cool,normal,FALSE,yes rainy,cool,normal,TRUE,no overcast,cool,normal,TRUE,yes sunny,mild,high,FALSE,no sunny,cool,normal,FALSE,yes rainy,mild,normal,FALSE,yes sunny,mild,normal,TRUE,yes overcast,mild,high,TRUE,yes overcast,hot,normal,FALSE,yes rainy,mild,high,TRUE,no

Παράδειγμα: σύνθεση χαρακτηριστικών

Δέντρο απόφασης Attributes / Features Attribute Values Classes J48 pruned tree ------------------ outlook = sunny | humidity = high: no (3.0) | humidity = normal: yes (2.0) outlook = overcast: yes (4.0) outlook = rainy | windy = TRUE: no (2.0) | windy = FALSE: yes (3.0) Number of Leaves : 5 Size of the tree : 8 Attributes / Features Classes Attribute Values

Πειράματα Αξιολόγησης Απόδοσης Πειράματα Αξιολόγησης Απόδοσης Data (9/10) Training Set Test Set (1/10) 10x Σταυρωτή Επικύρωση (Cross-Validation ) 10 fold ML Classifier Performance Evaluation

Αξιολόγηση και Μετρικές

Μετρικές Αξιολόγησης Accuracy Precision Recall Roc καμπύλη (Roc Curve) The number of correctly classified instances/number of instances Precision The number of correctly classified instances of class X/number of instances classified as belonging to class X Recall The number of correctly classified instances of class X/number of instances in class X Roc καμπύλη (Roc Curve)

Μετρικές Αξιολόγησης

Ευχαριστώ για την προσοχή σας…