Κατηγοριοποίηση και Πρόβλεψη

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Bayes Classifiers.
Advertisements

Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης
Μεταπτυχιακή Διατριβή
Γεώργιος Σιδερίδης Πανεπιστήμιο Κρήτης
Ανάλυση Πολλαπλής Παλινδρόμησης
Πιθανοκρατικοί Αλγόριθμοι
Γεώργιος Σιδερίδης Πανεπιστήμιο Κρήτης
Μια Μπεϋζιανή Μέθοδος για την Επαγωγή Πιθανοτικών Δικτύων από Δεδομένα ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ B. Μεγαλοοικονόμου, Χ. Μακρής.
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Μικροσυστοιχίες και ανάλυση δεδομένων
Αναγνώριση Προτύπων.
Independent Component Analysis (ICA) Ιανουάριος 2012.
Προσεγγιστικοί Αλγόριθμοι
Εξόρυξη Δεδομένων και Τεχνητά Νευρωνικά Δίκτυα
ΕΞΌΡΥΞΗ ΔΕΔΟΜΈΝΩΝ ΚΑΙ ΑΛΓΌΡΙΘΜΟΙ ΜΆΘΗΣΗΣ Κατηγοριοποίηση 4 ο Φροντιστήριο Σκούρα Αγγελική
Αριθμητικές Μέθοδοι Βελτιστοποίησης Θεωρία & Λογισμικό Τμήμα Πληροφορικής - Πανεπιστήμιο Ιωαννίνων Ι. Η. Λαγαρής.
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
ΧΩΡΟΘΕΤΗΣΕΙΣ-ΚΑΤΑΝΟΜΕΣ. Η βασική αρχή του οικονομικού σχεδιασμού είναι η δημιουργία οικονομικών και κοινωνικών στόχων για το μέλλον, εκφρασμένων σε ποσοτικοποιημένα.
Επίλυση Προβλημάτων με Η/Υ
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης
ΚΕΦΑΛΑΙΟ 5 ΧΩΡΙΚΗ ΔΕΙΓΜΑΤΟΛΗΨΙΑ
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής και Τηλεπικοινωνιών Learning to Learn: Algorithmic Inspirations from Human Problem Solving.
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.
Διδακτική της Πληροφορικής ΗΥ302 Εργασία :Παρουσίαση σχολικού βιβλίου Γ’ Λυκείου Τεχνολογικής Κατεύθυνσης «Ανάπτυξη εφαρμογών σε προγραμματιστικό περιβάλλον»
Λεξικό, Union – Find Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
ΚΕΦΑΛΑΙΟ 6 ΓΕΩΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΙ ΚΑΙ ΤΕΧΝΙΚΕΣ: ΣΗΜΕΙΑ
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 4 Σημασιολογία μιας Απλής Προστακτικής Γλώσσας Προπτυχιακό.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
ΚΕΦΑΛΑΙΟ 10 ΠΑΛΙΝΔΡΟΜΗΣΗ
Ασυμπτωτικός Συμβολισμός
ΚΕΦΑΛΑΙΟ Τι είναι αλγόριθμος
Διάλεξη 14: Εισαγωγή στη ροή ρευστών
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Ροές Δεδομένων (3 ο Μέρος)
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
Σχεδιασμός των Μεταφορών Ενότητα #5: Δειγματοληψία – Sampling. Δρ. Ναθαναήλ Ευτυχία Πολυτεχνική Σχολή Τμήμα Πολιτικών Μηχανικών.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ Παραδείγματα BP.
Γλώσσες Προγραμματισμού Μεταγλωττιστές Πίνακας Συμβόλων Πανεπιστήμιο Μακεδονίας Τμήμα Εφαρμοσμένης Πληροφορικής Ηλίας Σακελλαρίου.
ΕΛΕΓΧΟΙ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ Η πιο συνηθισμένη στατιστική υπόθεση είναι η λεγόμενη Υπόθεση Μηδέν H 0. –Υποθέτουμε ότι η εμφανιζόμενη διαφορά μεταξύ μιας.
Έλεγχος Υποθέσεων Ο έλεγχος υποθέσεων αναφέρεται στη διαδικασία αποδοχής ή απόρριψης μιας στατιστικής υπόθεσης, Κατά την εκτέλεση ενός στατιστικού ελέγχου,
ΣΥΣΤΗΜΑΤΑ ΑΥΤΟΜΑΤΟΥ ΕΛΕΓΧΟΥ Ι 7 η Διάλεξη Η ΜΕΘΟΔΟΣ ΤΟΥ ΓΕΩΜΕΤΡΙΚΟΥ ΤΟΠΟΥ ΡΙΖΩΝ  Ορισμός του γεωμετρικού τόπου ριζών Αποτελεί μια συγκεκριμένη καμπύλη,
ΗΛΕΚΤΡΙΚΕΣ ΜΕΤΡΗΣΕΙΣ ΣΦΑΛΜΑΤΑ ΜΕΤΡΗΣΗΣ.
ΥΝ Ι: ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ 1 ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ (Τεχνητά Νευρωνικά Δίκτυα και Γενετικοί Αλγόριθμοι) ΣΠΥΡΟΣ ΛΥΚΟΘΑΝΑΣΗΣ, ΚΑΘΗΓΗΤΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ.
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΠΙΝΑΚΕΣ ΚΑΙ ΔΙΑΓΡΑΜΜΑΤΑ Πηγή: Βιοστατιστική [Σταυρινός / Παναγιωτάκος] Βιοστατιστική [Τριχόπουλος / Τζώνου / Κατσουγιάννη]
Ασκήσεις WEKA Δέντρα αποφάσεων.
Ασκήσεις WEKA.
ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΔΙΑΣΠΟΡΑΣ - ΑΣΥΜΜΕΤΡΙΑΣ - ΚΥΡΤΩΣΕΩΣ
Δυναμικός Κατακερματισμός
ΟΜΑΔΕΣ Δημιουργία Ομάδων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ
Ανάλυση κρίσιμου συμβάντος
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Μεθοδολογία Έρευνας Διάλεξη 5η: Δειγματοληψία
Independent Component Analysis (ICA)
Πού χρησιμοποιείται ο συντελεστής συσχέτισης (r) pearson
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
Πολυσυγγραμμικότητα Εξειδίκευση
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Μεθοδολογία Έρευνας Διάλεξη 5η: Δειγματοληψία
ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Μηχανικών Πληροφορικής ΤΕ
Τμήμα Μηχανικών Πληροφορικής Τ.Ε.
ΥΠΟΛΟΓΙΣΜΟΣ ΚΑΘΑΡΟΥ ΚΕΡΔΟΥΣ ΑΠΌ ΤΗΝ ΑΓΡΟΤΙΚΗ ΔΡΑΣΤΗΡΙΟΤΗΤΑ
Μεθοδολογία Έρευνας Διάλεξη 5η: Δειγματοληψία
ΑΣΥΜΠΤΩΤΙΚΗ ΑΝΑΛΥΣΗ & ΠΡΟΣΘΕΣΗ
Μη Γραμμικός Προγραμματισμός
Εξωτερική Αναζήτηση Ιεραρχία Μνήμης Υπολογιστή Εξωτερική Μνήμη
Διαχρονικές Δομές Δεδομένων
Δυναμικός Κατακερματισμός
Μεταγράφημα παρουσίασης:

Κατηγοριοποίηση και Πρόβλεψη ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης Κατηγοριοποίηση και Πρόβλεψη B. Μεγαλοοικονόμου, Χ. Μακρής (εν μέρη βασισμένο σε σημειώσεις των J. Han και M. Kamber)

Θεματολογία Τι είναι Κατηγοριοποίηση; Τι είναι Πρόβλεψη; Ζητήματα κατηγοριοποίησης και πρόβλεψης Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Μπεϋζιανή Κατηγοριοποίηση Κατηγοριοποίηση με πίσω διάδοση (backpropagation) Κατηγοριοποίηση βασισμένη σε έννοιες από την εξόρυξη κανόνων συσχετίσεων Λοιπές μέθοδοι Κατηγοριοποίησης Πρόβλεψη Ακρίβεια κατηγοριοποίησης (accuracy) Σύνοψη

Κατηγοριοποίηση vs. Πρόβλεψη Κατηγοριοποίηση: Προβλέπει κατηγορικές ετικέτες κλάσης Κατηγοριοποιεί δεδομένα (κατασκευάζει μοντέλο) χρησιμοποιώντας το σύνολο εκπαίδευσης και τις τιμές (ετικέτες κλάσης) του προς κατηγοριοποίηση χαρακτηριστικού και με βάση αυτά κατηγοριοποιεί τα νέα δεδομένα Πρόβλεψη: Μοντελοποιεί συνεχείς συναρτήσεις, π.χ. προβλέπει άγνωστες ή χαμένες τιμές Βασικές Εφαρμογές: Πιστοληπτική απόφαση Εύρεση στοχευόμενου κοινού (target marketing) Ιατρική διάγνωση Ανάλυση απόδοσης διαχείρισης Μεγάλα σύνολα δεδομένων: αποθήκευση στο δίσκο αντί αποθήκευσης στην κύρια μνήμη

Κατηγοριοποίηση —Μία διαδικασία δύο βημάτων Κατασκευή Μοντέλου: η περιγραφή ενός συνόλου προκαθορισμένων κλάσεων Κάθε πλειάδα θεωρείται ότι ανήκει σε μια προκαθορισμένη κλάση, που καθορίζεται από το χαρακτηριστικό της ετικέτας κλάσης (επιβλεπόμενη μάθηση – supervised learning) Σύνολο εκπαίδευσης (training set): το σύνολο των πλειάδων που χρησιμοποιείται για την κατασκευή του μοντέλου Το μοντέλο αναπαρίστανται ως κανόνες κατηγοριοποίησης, δέντρα απόφασης ή μαθηματικοί τύποι Εφαρμογή Μοντέλου: για την κατηγοριοποίηση νέων αντικειμένων Αξιολόγηση της απόδοσης του μοντέλου χρησιμοποιώντας ένα σύνολο ελέγχου (test set) Η γνωστή κλάση του δείγματος ελέγχου συγκρίνεται με το αποτέλεσμα της κατηγοριοποίησης Ακρίβεια (accuracy) είναι το ποσοστό των δειγμάτων ελέγχου που κατηγοριοποιήθηκαν ορθά από το μοντέλο Το σύνολο ελέγχου πρέπει να είναι ανεξάρτητο από το σύνολο εκπαίδευσης για αποφυγή over-fitting

Διαδικασία Κατηγοριοποίησης: Κατασκευή Μοντέλου Classification Algorithms Training Data Classifier (Model) IF rank = ‘professor’ OR years > 6 THEN tenured = ‘yes’

Διαδικασία Κατηγοριοποίησης: Εφαρμογή Μοντέλου για Πρόβλεψη Classifier Testing Data Unseen Data (Jeff, Professor, 4) Tenured?

Επιβλεπόμενη vs. Μη Επιβλεπόμενη Μάθηση Επιβλεπόμενη μάθηση (κατηγοριοποίηση) Επίβλεψη: Τα δεδομένα εκπαίδευσης (παρατηρήσεις, μετρήσεις, κ.α.) συνοδεύονται από ετικέτες που δείχνουν την κλάση τους Τα νέα δεδομένα κατηγοριοποιούνται βάση του συνόλου εκπαίδευσης Μη επιβλεπόμενη μάθηση (συσταδοποίηση) Οι ετικέτες κλάσης του συνόδου εκπαίδευσης είναι άγνωστες Δοσμένου ενός συνόλου μετρήσεων, παρατηρήσεων, κτλ, ο στόχος είναι η εύρεση της ύπαρξης κλάσεων ή συστάδων μεταξύ των δεδομένων

Θεματολογία Τι είναι Κατηγοριοποίηση; Τι είναι Πρόβλεψη; Ζητήματα κατηγοριοποίησης και πρόβλεψης Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Μπεϋζιανή Κατηγοριοποίηση Κατηγοριοποίηση με πίσω διάδοση (backpropagation) Κατηγοριοποίηση βασισμένη σε έννοιες από την εξόρυξη κανόνων συσχετίσεων Λοιπές μέθοδοι Κατηγοριοποίησης Πρόβλεψη Ακρίβεια κατηγοριοποίησης (accuracy) Σύνοψη

Ζητήματα κατηγοριοποίησης και πρόβλεψης: Προετοιμασία Δεδομένων Καθαρισμός δεδομένων Μείωση του θορύβου και διαχείριση των χαμένων τιμών Ανάλυση συσχετίσεων (επιλογή χαρακτηριστικών) Απομάκρυνση των μη-σχετικών ή πλεοναζόντων χαρακτηριστικών Μετασχηματισμός δεδομένων Γενίκευση ή/και κανονικοποίηση των δεδομένων

Ζητήματα κατηγοριοποίησης και πρόβλεψης: Αξιολόγηση Μεθόδων Κατηγοριοποίησης Ακρίβεια πρόβλεψης Ταχύτητα και κλιμάκωση Χρόνος κατασκευής του μοντέλου Χρόνος εφαρμογής του μοντέλου Αποδοτικότητα σε βάσεις δεδομένων αποθηκευμένες στο δίσκο (disk-resident) Ανθεκτικότητα (robustness) Διαχείριση θορύβου και χαμένων τιμών Ερμηνευσιμότητα (interpretability): Κατανόηση και διορατικότητα που προσφέρει το μοντέλο Ποιότητα των κανόνων Μέγεθος του δένδρου απόφασης Περιεκτικότητα των κανόνων κατηγοριοποίησης

Θεματολογία Τι είναι Κατηγοριοποίηση; Τι είναι Πρόβλεψη; Ζητήματα κατηγοριοποίησης και πρόβλεψης Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Μπεϋζιανή Κατηγοριοποίηση Κατηγοριοποίηση με πίσω διάδοση (backpropagation) Κατηγοριοποίηση βασισμένη σε έννοιες από την εξόρυξη κανόνων συσχετίσεων Λοιπές μέθοδοι Κατηγοριοποίησης Πρόβλεψη Ακρίβεια κατηγοριοποίησης (accuracy) Σύνοψη

Κατηγοριοποίηση με Επαγωγή Δένδρου Απόφασης Βασικά χαρακτηριστικά δένδρου απόφασης (καλύφθηκαν προηγουμένως) Μέτρα επιλογής χαρακτηριστικών: Κέρδος πληροφορίας (ID3/C4.5) Όλα τα χαρακτηριστικά θεωρούνται κατηγορικά Δυνατότητα τροποποίησης για συνεχή χαρακτηριστικά Δείκτης Gini (IBM IntelligentMiner) Όλα τα χαρακτηριστικά θεωρούνται συνεχείς μεταβλητές Θεωρεί ότι υπάρχουν διάφορες πιθανές τιμές διαχωρισμού για κάθε χαρακτηριστικό Η εύρεση των τιμών διαχωρισμού μπορεί να απαιτεί χρήση εργαλείων όπως π.χ. συσταδοποίηση Δυνατότητα τροποποίησης για κατηγορικά χαρακτηριστικά Αποφυγή overfitting Εξαγωγή κανόνων κατηγοριοποίησης από δένδρα

Δείκτης Gini (IBM IntelligentMiner) Για ένα σύνολο δεδομένων T, που περιέχει παραδείγματα από n κλάσεις, ο δείκτης gini index, gini(T), ορίζεται ως όπου pj είναι η σχετική συχνότητα της κλάσης j στο T. Για ένα σύνολο δεδομένων T, που αποτελείται από δύο υποσύνολα T1 και T2 με μέγεθος N1 και N2 αντίστοιχα, ο δείκτης gini των διαχωρισμένων δεδομένων περιέχει παραδείγματα από n κλάσεις και ορίζεται ως Το γνώρισμα που παρέχει το ελάχιστο ginisplit(T) επιλέγεται για τον διαχωρισμό του κόμβου (απαιτείται η απαρίθμηση όλων των πιθανών σημείων διαχωρισμού για κάθε γνώρισμα)

Προσεγγίσεις για τον Καθορισμό του Τελικού Μεγέθους του Δένδρου Διαχωρισμός συνόλου εκπαίδευσης (2/3) και συνόλου ελέγχου (1/3) Χρήση σταυρωτής επικύρωσης (cross validation), π.χ., 10-fold cross validation Χρήση όλων των δεδομένων για εκπαίδευση αλλά εφαρμογή ενός στατιστικού test (π.χ., chi-square) για την εκτίμηση του αν η διεύρυνση ή η περικοπή ενός κόμβου θα βελτιώσει τη συνολική κατανομή Χρήση της Αρχής Ελάχιστου Μήκους Περιγραφής (Minimum Description Length (MDL) principle) αναστολή της ανάπτυξης του δένδρου όταν η κωδικοποίηση ελαχιστοποιείται

Βελτιώσεις στην Βασική Μέθοδο Επαγωγής Δένδρων Απόφασης Δυνατότητα για συνεχή χαρακτηριστικά Δυναμικός ορισμός νέων διακριτών χαρακτηριστικών τα οποία διαχωρίζουν τα συνεχή χαρακτηριστικά σε ένα διακριτό σύνολο διαστημάτων Διαχείριση χαμένων τιμών των χαρακτηριστικών Ανάθεση της πιο συχνά εμφανιζόμενης τιμής του χαρακτηριστικού Ανάθεση πιθανότητας σε κάθε πιθανή τιμή Κατασκευή γνωρισμάτων Δημιουργία νέων γνωρισμάτων με βάση τα υπάρχοντα τα οποία αναπαριστούνται αραιά Συμβάλλει στη μείωση της κατάτμησης (fragmentation), της επανάληψης και της πολλαπλής αντιγραφής (replication)

Κατηγοριοποίηση σε Μεγάλες Βάσεις Δεδομένων Κατηγοριοποίηση — ένα κλασικό πρόβλημα που έχει διερευνηθεί εκτενώς από στατιστικούς και ερευνητές μηχανικής μάθησης Κλιμάκωση: Κατηγοριοποίηση συνόλων δεδομένων με εκατομύρια παραδείγματα και εκατοντάδες χαρακτηριστικά με λογική ταχύτητα Γιατί επαγωγή με δένδρα απόφασης στην εξόρυξη δεδομένων; σχετικά μεγαλύτερη ταχύτητα μάθησης (σε σχέση με άλλες μεθόδους κατηγοριοποίησης) δυνατότητα μετατροπής σε απλούς και κατανοητούς κανόνες κατηγοριοποίησης δυνατότητα χρήσης SQL ερωτημάτων για πρόσβαση σε βάσεις δεδομένων σύγκρισιμη ακρίβεια κατηγοριοποίησης με άλλες μεθόδους

Κλιμάκωση της Επαγωγής με Δένδρα Απόφασης Διαχωρισμός των δεδομένων σε υποσύνολα και κατασκευή ενός δένδρου απόφασης για κάθε υποσύνολο; SLIQ (EDBT’96 — Mehta et al.) Κατασκευή ενός ευρετηρίου για κάθε χαρακτηριστικό και αποθήκευση μόνο της λίστας κλάσεων και της λίστας των τρέχοντων χαρακτηριστικών στην μνήμη SPRINT (VLDB’96 — J. Shafer et al.) κατασκευάζει μια δομή δεδομένων για τη λίστα των χαρακτηριστικών PUBLIC (VLDB’98 — Rastogi & Shim) ενοποιεί tree splitting και tree pruning: τερματισμός ανάπτυξης του δένδρου νωρίτερα RainForest (VLDB’98 — Gehrke, Ramakrishnan & Ganti) διαχωρίζει τις προοπτικές κλιμάκωσης από τα κριτήρια που καθορίζουν την ποιότητα του δένδρου κατασκευάζει μια AVC λίστα (γνώρισμα, τιμή, ετικέτα κλάσης)

Επαγωγή Δένδρου Απόφασης με βάση Κύβους Δεδομένων Ενοποίηση της γενίκευσης με την επαγωγή δένδρου απόφασης (Kamber et al’97) Κατηγοριοποίηση σε επίπεδα βασικών εννοιών Π.χ., ακριβής θερμοκρασία, υγρασία, εμφάνιση, κ.α. Χαμηλού επιπέδου έννοιες, διασκορπισμένες κλάσεις, πυκνά δένδρα κατηγοριοποίησης Προβλήματα σημασιολογικής ερμηνείας Πολύ-επίπεδη κατηγοριοποίηση βασισμένη σε κύβους Ανάλυση σχετικότητας σε πολλαπλά επίπεδα Ανάλυση κέρδους πληροφορίας με διάσταση + επίπεδο

Παρουσίαση των Αποτελεσμάτων Κατηγοριοποίησης

Θεματολογία Τι είναι Κατηγοριοποίηση; Τι είναι Πρόβλεψη; Ζητήματα κατηγοριοποίησης και πρόβλεψης Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Μπεϋζιανή Κατηγοριοποίηση Κατηγοριοποίηση με πίσω διάδοση (backpropagation) Κατηγοριοποίηση βασισμένη σε έννοιες από την εξόρυξη κανόνων συσχετίσεων Λοιπές μέθοδοι Κατηγοριοποίησης Πρόβλεψη Ακρίβεια κατηγοριοποίησης (accuracy) Σύνοψη

Μπεϋζιανή Κατηγοριοποίηση: Γιατί; Πιθανοτική Μάθηση: Υπολόγισε άμεσα τις πιθανότητες για την υπόθεση Μεταξύ των πλέον πρακτικών μεθόδων για συγκεκριμένους τύπους προβλημάτων μάθησης Επαυξησιμότητα: Κάθε παράδειγμα εκπαίδευσης μπορεί επαυξητικά να αυξήσει/μειώσει την πιθανότητα της ορθότητας της υπόθεσης Προηγούμενη γνώση μπορεί να συνδυαστεί με τα παρατηρημένα δεδομένα Πιθανοτική πρόβλεψη: Προβλέπει πολλαπλές υποθέσεις, σταθμισμένες με βάση τις πιθανότητές τους Τυπικά: Ακόμα και αν οι Μπεϋζιανές μέθοδοι είναι υπολογιστικά intractable, μπορούν να παρέχουν ένα standard επίπεδο βέλτιστης λήψης αποφάσεων σε σύγκριση με άλλες μεθόδους που μπορούν να μετρηθούν

Μπεϋζιανό Θεώρημα Δοσμένου ενός σύνολο εκπαίδευσης D, η εκ των υστέρων πιθανότητα (posteriori probability) της υπόθεσης h, P(h|D) ακολουθεί το θεώρημα του Bayes: MAP (maximum posteriori) υπόθεση: Πρακτικές δυσκολίες: Απαιτούν αρχική γνώση αρκετών πιθανοτήτων Σημαντικό υπολογιστικό κόστος

Αφελής (Naive) Μπεϋζιανός Κατηγοριοποιητής Απλοποιημένη υπόθεση: τα χαρακτηριστικά είναι υπό-συνθήκη ανεξάρτητα: όπου V είναι απλά δείγματα, vi είναι η τιμή του χαρακτηριστικού i στο δείγμα και Cj είναι η j-οστή κλάση Μειώνει σημαντικά το υπολογιστικό κόστος, υπολογίζοντας μόνο την κατανομή κλάσης

Αφελής (Naive) Μπεϋζιανός Κατηγοριοποιητής Δοσμένου ενός συνόλου εκπαίδευσης, μπορούμε να υπολογίσουμε τις πιθανότητες

Μπεϋζιανή Κατηγοριοποίηση Το πρόβλημα της κατηγοριοποίησης μπορεί να διατυπωθεί χρησιμοποιώντας εκ των υστέρων πιθανότητες: P(C|X) = πιθ. ότι το δείγμα-πλειάδα X=<x1,…,xk> ανήκει στην κλάση C Π.χ. P(class=N | outlook=sunny,windy=true,…) Ιδέα: ανάθεσε στο δείγμα X την κλάση C ώστε η πιθανότητα P(C|X) είναι μέγιστη

Υπολογισμός των εκ των υστέρων πιθανοτήτων Μπεϋζιανό θεώρημα: P(C|X) = P(X|C)·P(C) / P(X) P(X) είναι σταθερή για κάθε κλάση P(C) = σχετική συχνότητα των δειγμάτων της κλάσης C C έτσι ώστε P(C|X) να μεγιστοποιείται = C έτσι ώστε P(X|C)·P(C) να μεγιστοποιείται Πρόβλημα: ο υπολογισμός της P(X|C) είναι ανέφικτος!

Αφελής Μπεϋζιανή Κατηγοριοποίηση Αφελής υπόθεση: ανεξαρτησία των χαρακτηριστικών P(x1,…,xk|C) = P(x1|C)·…·P(xk|C) Αν το i-οστό χαρακτηριστικό είναι κατηγορικό: P(xi|C) υπολογίζεται ως η σχετική συχνότητα των δειγμάτων που έχουν την τιμή xi ως το i-οστό χαρακτηριστικό στην κλάση C Αν το i-οστό χαρακτηριστικό είναι συνεχές: P(xi|C) υπολογίζεται μέσω μιας Γκαουσιανής συνάρτησης πυκνότητας πιθανότητας Υπολογιστικά εύκολο, και στις δύο περιπτώσεις !!!

Play-tennis παράδειγμα: Υπολογισμός P(xi|C) outlook P(sunny|p) = 2/9 P(sunny|n) = 3/5 P(overcast|p) = 4/9 P(overcast|n) = 0 P(rain|p) = 3/9 P(rain|n) = 2/5 temperature P(hot|p) = 2/9 P(hot|n) = 2/5 P(mild|p) = 4/9 P(mild|n) = 2/5 P(cool|p) = 3/9 P(cool|n) = 1/5 humidity P(high|p) = 3/9 P(high|n) = 4/5 P(normal|p) = 6/9 P(normal|n) = 1/5 windy P(true|p) = 3/9 P(true|n) = 3/5 P(false|p) = 6/9 P(false|n) = 2/5 P(p) = 9/14 P(n) = 5/14

Play-tennis παράδειγμα: Κατηγοριοποίηση του X Ένα άγνωστο δείγμα X = <rain, hot, high, false> P(X|p)·P(p) = P(rain|p)·P(hot|p)·P(high|p)·P(false|p)·P(p) = 3/9·2/9·3/9·6/9·9/14 = 0.010582 P(X|n)·P(n) = P(rain|n)·P(hot|n)·P(high|n)·P(false|n)·P(n) = 2/5·2/5·4/5·2/5·5/14 = 0.018286 Το δείγμα X κατηγοριοποιείται στην κλάση n (don’t play)

Η υπόθεση ανεξαρτησίας… … καθιστά τον υπολογισμό δυνατό … αποφέρει βέλτιστους κατηγοριοποιητές όταν ικανοποιείται … ωστόσο, σπάνια ικανοποιείται στην πράξη, καθώς τα χαρακτηριστικά (μεταβλητές) συχνά συσχετίζονται Προσπάθειες να υπερπηδήσουν αυτόν τον περιορισμό: Μπεϋζιανά δίκτυα, τα οποία συνδυάζουν την Μπεϋζιανή λογική με αιτιατές σχέσεις μεταξύ των χαρακτηριστικών Δέντρα απόφασης, τα οποία χειρίζονται ένα γνώρισμα κάθε στιγμή, ξεκινώντας από τα πλέον σημαντικά γνωρίσματα

Δίκτυα Μπεϋζιανής Λογικής Family History Smoker (FH, S) (FH, ~S) (~FH, S) (~FH, ~S) LC 0.8 0.5 0.7 0.1 LungCancer Emphysema ~LC 0.2 0.5 0.3 0.9 Ο πίνακας με τις υπό-συνθήκη πιθανότητες για τη μεταβλητή LungCancer PositiveXRay Dyspnea Δίκτυο Μπεϋζιανής Λογικής

Δίκτυα Μπεϋζιανής Λογικής Τα δίκτυα Μπεϋζιανής λογικής θεωρούν ότι ένα υποσύνολο των μεταβλητών είναι υπό-συνθήκη ανεξάρτητο Ένα γραφικό μοντέλο των αιτιατών σχέσεων Διάφορες περιπτώσεις μάθησης των Μπεϋζιανών δικτύων Δεδομένου μιας δομής δικτύου και όλων των μεταβλητών: εύκολο Δεδομένου μιας δομής δικτύου αλλά μερικών μεταβλητών Όταν η δομή του δικτύου δεν είναι γνωστή εξ αρχής Η διαδικασία κατηγοριοποίησης επιστρέφει μια κατανομή πιθανότητας για όλες τις ετικέτες του χαρακτηριστικού κλάσης (όχι μόνο για μία ετικέτα κλάσης)

Θεματολογία Τι είναι Κατηγοριοποίηση; Τι είναι Πρόβλεψη; Ζητήματα κατηγοριοποίησης και πρόβλεψης Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Μπεϋζιανή Κατηγοριοποίηση Κατηγοριοποίηση με πίσω διάδοση (backpropagation) Κατηγοριοποίηση βασισμένη σε έννοιες από την εξόρυξη κανόνων συσχετίσεων Λοιπές μέθοδοι Κατηγοριοποίησης Πρόβλεψη Ακρίβεια κατηγοριοποίησης (accuracy) Σύνοψη

Νευρωνικά Δίκτυα Ένα σύνολο συνεκτικών μονάδων εισόδου/εξόδου όπου κάθε σύνδεση έχει ένα συντελεστή βαρύτητας Πλεονεκτήματα η ακρίβεια πρόβλεψης είναι γενικά υψηλή robust, δουλεύει όταν τα παραδείγματα του συνόλου εκπαίδευσης περιέχουν λάθη η έξοδος μπορεί να είναι διακριτή, συνεχών τιμών, ή ένα διάνυσμα διαφόρων διακριτών ή συνεχών τιμών χαρακτηριστικών γρήγορη αξιολόγηση της μαθημένης συνάρτησης στόχου Προβληματισμοί μεγάλος χρόνος εκπαίδευσης απαιτούν παραμέτρους (που συνήθως καθορίζονται εμπειρικά) (π.χ. η τοπολογία του δικτύου) δύσκολη η κατανόηση της μαθημένης συνάρτησης (βάρη) δεν είναι εύκολη η ενσωμάτωση της γνώσης του εκάστοτε γνωστικού πεδίου

Ένας νευρώνας - f mk å x0 w0 x1 w1 xn wn Βεβαρυμένο Άθροισμα Διάνυσμα Εισόδου x Έξοδος y Συνάρτηση Ενεργοποίησης Βαρών w å w0 w1 wn x0 x1 xn Το n-διαστάσεων διάνυσμα εισόδου x αντιστοιχίζεται στη μεταβλητή y μέσω ενός βαθμωτού γινομένου και μιας μη-γραμμικής συνάρτησης αντιστοίχισης

Εκπαίδευση Δικτύου Ο απώτερος στόχος της εκπαίδευσης Βήματα Εύρεση ενός συνόλου βαρών τα οποία εφαρμοζόμενα σε (σχεδόν) όλες τις πλειάδες του συνόλου εκπαίδευσης, τις κατηγοριοποιούν σωστά Βήματα Αρχικοποίηση βαρών με τυχαίες τιμές Τροφοδοσία των πλειάδων εισόδου στο δίκτυο μία προς μία Για κάθε μονάδα Υπολόγισε την συνολική είσοδο της μονάδας ως το γραμμικό συνδυασμό όλων των εισόδων της μονάδας Υπολόγισε την τιμή εξόδου χρησιμοποιώντας τη συνάρτηση ενεργοποίησης Υπολόγισε το σφάλμα Ανανέωσε τα βάρη και τα bias

Πολυ-επίπεδο δίκτυο Perceptron Διάνυσμα Εξόδου Κόμβοι Εξόδου Κρυμμένοι Κόμβοι wij Κόμβοι Εισόδου Διάνυσμα Εισόδου: xi

Περικοπή Δικτύου και Εξαγωγή Κανόνων Πλήρως συνεκτικό δίκτυο είναι δύσκολο να κατασκευαστεί N κόμβοι εισόδου, h κρυμμένοι κόμβοι και m κόμβοι εξόδου οδηγούν σε h(m+N) βάρη Περικοπή: Αφαίρεσε μερικές συνδέσεις που δεν επηρεάζουν την ακρίβεια κατηγοριοποίησης του δικτύου Εξαγωγή κανόνων από ένα εκπαιδευμένο δίκτυο Διακριτοποίησε τις τιμές ενεργοποίησης, αντικατάστησε τις μεμονωμένες τιμές ενεργοποίησης με το μέσο της συστάδας διατηρώντας την ακρίβεια του δικτύου Απαρίθμησε την έξοδο από τις διακριτοποιημένες τιμές ενεργοποίησης για να βρεις κανόνες μεταξύ τιμής ενεργοποίησης και εξόδου Βρες τη σχέση μεταξύ εισόδου και τιμής ενεργοποίησης Συνδύασε τα δύο παραπάνω για την εξαγωγή κανόνων που συσχετίζουν την έξοδο με την είσοδο Εκτέλεσε ανάλυση ευαισθησίας (sensitivity analysis) Αξιολογεί την επίδραση μιας δεδομένης μεταβλητής εισόδου πάνω στην έξοδο

Θεματολογία Τι είναι Κατηγοριοποίηση; Τι είναι Πρόβλεψη; Ζητήματα κατηγοριοποίησης και πρόβλεψης Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Μπεϋζιανή Κατηγοριοποίηση Κατηγοριοποίηση με πίσω διάδοση (backpropagation) Μηχανές Διανυσμάτων Υποστήριξης Κατηγοριοποίηση βασισμένη σε έννοιες από την εξόρυξη κανόνων συσχετίσεων Λοιπές μέθοδοι Κατηγοριοποίησης Πρόβλεψη Ακρίβεια κατηγοριοποίησης (accuracy) Σύνοψη

SVM- Support Vector Machines Μηχανές Διανυσμάτων Υποστήριξης Μια νέα μέθοδος κατηγοριοποίησης για γραμμικά και μη γραμμικά δεδομένα Χρησιμοποιεί μη γραμμική αντιστοίχιση για να μετασχηματίσει τα αρχικά δεδομένα εκπαίδευσης σε δεδομένα υψηλότερης διάστασης Με βάση τη νέα διάσταση, ψάχνει για γραμμικώς διαχωριζόμενα υπερεπίπεδα (δηλ., “όρια απόφασης”) Με μια κατάλληλη μη γραμμική αντιστοίχιση σε μια επαρκώς υψηλότερη διάσταση, τα δεδομένα από δύο κλάσεις μπορούν να διαχωριστούν από ένα υπερεπίπεδο Η μέθοδος SVM βρίσκει αυτό το υπερεπίπεδο χρησιμοποιώντας Διανύσματα υποστήριξης (support vectors) (“κρίσιμες” πλειάδες εκπαίδευσης) και Όρια - margins (που καθορίζονται από τα διανύσματα υποστήριξης)

SVM—Ιστορία και Εφαρμογές Vapnik et al. (1992)—βασίστηκαν στην θεωρία στατιστικής εκμάθησης τωνVapnik & Chervonenkis (δεκαετία 1960) Χαρακτηριστικά: η εκπαίδευση μπορεί να είναι αργή η ακρίβεια είναι υψηλή χάρη στην ικανότητα μοντελοποίησης σύνθετων, μη γραμμικών ορίων απόφασης (μεγιστοποίηση ορίων) Χρησιμοποίηση για κατηγοριοποίηση και πρόβλεψη Εφαρμογές: αναγνώριση χειρόγραφων, αναγνώριση αντικειμένων, ταυτοποίηση ομιλίας, έλεγχοι πρόβλεψης χρονοσειρών benchmarking

SVM—Γενική Φιλοσοφία Διανύσματα Υποστήριξης Μεγάλο Όριο Μικρό Όριο

SVM—Όρια και Διανύσματα Υποστήριξης

SVM—Όταν τα δεδομένα είναι γραμμικώς διαχωριζόμενα Έστω το σύνολο δεδομένων D που αποτελείται από (X1, y1), …, (X|D|, y|D|), όπου Xi είναι το σύνολο των πλειάδων εκπαίδευσης που σχετίζονται με τις ετικέτες κλάσης yi Υπάρχουν άπειρες γραμμές (υπερεπίπεδα) που διαχωρίζουν τις δύο κλάσεις αλλά δεν είναι βέλτιστες. Στόχος είναι η εύρεση του βέλτιστου υπερεπιπέδου (αυτό που ελαχιστοποιεί το σφάλμα κατηγοριοποίησης στα άγνωστα δεδομένα) Η μέθοδος SVM αναζητά το υπερεπίπεδο με το μέγιστο όριο, π.χ., maximum marginal hyperplane (MMH)

SVM—Γραμμικώς Διαχωριζόμενα Ένα διαχωρίζον υπερεπίπεδο μπορεί να γραφτεί ως W ● X + b = 0 όπου W={w1, w2, …, wn} είναι ένα διάνυσμα βαρών και b ένας αριθμός (πόλωση-bias) Για 2-Δ μπορεί να γραφτεί ως w0 + w1 x1 + w2 x2 = 0 Τα υπερεπίπεδα που καθορίζουν τις πλευρές του ορίου: H1: w0 + w1 x1 + w2 x2 ≥ 1 για yi = +1, και H2: w0 + w1 x1 + w2 x2 ≤ – 1 για yi = –1 Οι πλειάδες εκπαίδευσης που πέφτουν στα υπερεπίπεδα H1 ή H2 (π.χ., πλευρές που καθορίζουν τα όρια) αποτελούν διανύσματα υποστήριξης Το πρόβλημα γίνεται ένα τετραγωνικό πρόβλημα βελτιστοποίησης με περιορισμούς (convex) : τετραγωνική συνάρτηση στόχου και γραμμική περιορισμοί Quadratic Programming (QP)  Lagrangian πολλαπλασιαστές

Γιατί η μέθοδος SVM είναι αποδοτική για Δεδομένα Υψηλών Διαστάσεων; Η πολυπλοκότητα του εκπαιδευμένου κατηγοριοποιητή χαρακτηρίζεται από το πλήθος των διανυσμάτων υποστήριξης παρά από τη διαστατικότητα των δεδομένων Τα διανύσματα υποστήριξης είναι τα κρίσιμα παραδείγματα εκπαίδευσης, τα οποία βρίσκονται πλησιέστερα στο όριο απόφασης (maximum marginal hyperplane) Αν όλα τα άλλα παραδείγματα εκπαίδευσης αφαιρεθούν και η εκπαίδευση επαναληφθεί, τα ίδια υπερεπίπεδα θα βρεθούν Το πλήθος των διανυσμάτων υποστήριξης που εντοπίστηκαν μπορεί να χρησιμοποιηθεί για το υπολογισμό ενός άνω ορίου για το εκτιμώμενο σφάλμα του SVM κατηγοριοποιητή, το οποίο είναι ανεξάρτητο από τη διαστατικότητα των δεδομένων .. ένα SVM με ένα μικρό σύνολο διανυσμάτων υποστήριξης μπορεί να έχει καλή γενίκευση, ακόμα και αν η διαστατικότητα των δεδομένων είναι υψηλή

SVM—Γραμμικώς Διαχωρίσιμα Μετασχηματίζει το αρχικό σύνολο δεδομένων εισόδου σε ένα υψηλότερης διάστασης χώρο Αναζήτηση για ένα γραμμικώς διαχωρίζον υπερεπίπεδο στο νέο χώρο Έστω το ακόλουθο παράδειγμα. Ένα 3-Δ διάνυσμα εισόδου X=(x1, x2, x3) αντιστοιχίζεται σε έναν 6-Δ χώρο Z χρησιμοποιώντας τις αντιστοιχίσεις Φ1(Χ)= x1, Φ2(Χ)= x2, Φ3(Χ)= x3, Φ4(Χ)= (x1)2, Φ5(Χ)= x1x2 και Φ6(Χ)= x1x3. Ένα υπερεπίπεδο απόφασης στο νέο χώρο είναι το d(Z)=WZ+b, όπου W και Z διανύσματα. Η εξίσωση είναι γραμμική. Λύνουμε ως προς W και b και αντικαθιστώντας στην εξίσωση, βλέπουμε ότι το υπερεπίπεδο γραμμικής απόφασης στο νέο χώρο Ζ αντιστοιχεί σε ένα μη γραμμικό, δεύτερης τάξης πολυώνυμο στο αρχικό 3-Δ χώρο.

SVM—Συναρτήσεις Πυρήνα (Kernel functions) Αντί του υπολογισμού του εσωτερικού γινομένου στις μετασχηματισμένες πλειάδες δεδομένων, είναι μαθηματικά ισοδύναμη η εφαρμογή συναρτήσεων πυρήνα K(Xi, Xj) στα αρχικά δεδομένα, π.χ., K(Xi, Xj) = Φ(Xi) Φ(Xj) Τυπικές Συναρτήσεις Πυρήνα Η μέθοδος SVM μπορεί να χρησιμοποιηθεί για κατηγοριοποίηση περισσότερων (> 2) κλάσεων και για ανάλυση παλινδρόμησης (regression analysis) με χρήση επιπλέον παραμέτρων

Κλιμάκωση SVM με Ιεραρχική ΜικροΣυσταδοποίηση “Classifying Large Datasets Using SVMs with Hierarchical Clusters Problem” by H. Yu, J. Yang, J. Han, KDD’03 CB-SVM (Clustering-Based SVM) Πρόβλημα: Δεδομένων περιορισμένων υπολογιστικών πόρων (π.χ., μνήμη), μεγιστοποίησε την απόδοση της SVM ως προς την ακρίβεια και την ταχύτητα εκπαίδευσης Χρησιμοποίησε micro-clustering για να μειωθεί αποδοτικά το πλήθος των σημείων που θα χρησιμοποιηθούν Για τον εντοπισμό των διανυσμάτων υποστήριξης, de-cluster micro-clusters που βρίσκονται κοντά σε ένα “υποψήφιο διάνυσμα” για την εξασφάλιση υψηλής ακρίβειας κατηγοριοποίησης

Clustering-Based SVM (CB-SVM) Τα σύνολα δεδομένων εκπαίδευσης μπορεί να μην χωρούν στη μνήμη Διάβασε το σύνολο δεδομένων μία φορά (ελαχιστοποίηση προσπελάσεων στο δίσκο) Κατασκευή ενός στατιστικού προφίλ των δεδομένων (π.χ., ιεραρχικές συστάδες) λόγω της περιορισμένης χωρητικότητας μνήμης Το στατιστικό προφίλ μεγιστοποιεί το όφελος της εκπαίδευσης της SVM Η σύνοψη παίζει σημαντικό ρόλο στην δεικτοδότηση των SVMs Βασική Ιδέα του Micro-clustering (Ιεραρχική δομή δεικτοδότησης) Χρήση micro-cluster ιεραρχικής δομής δεικτοδότησης Παροχή πιο λεπτομερών δειγμάτων που είναι πλησιέστερα στο όριο και λιγότερο λεπτομερών δειγμάτων που απέχουν αρκετά από το όριο Επιλεκτικό de-clustering για να εξασφαλιστεί υψηλή ακρίβεια

CF-Tree: Hierarchical Micro-cluster

CB-SVM Αλγόριθμος: Περίγραμμα Κατασκευή δύο CF-δένδρων από θετικά και αρνητικά ανεξάρτητα σύνολα δεδομένων Απαιτείται μία σάρωση του συνόλου δεδομένων Εκπαίδευση της SVM με τα κεντροειδή των εγγραφών της ρίζας De-cluster τις εγγραφές που είναι κοντά στο όριο προς το επόμενο επίπεδο Οι εγγραφές-παιδιά που έχουν από-συσταδοποιηθεί (de-clustered) από τις εγγραφές-γονείς, συσσωρεύονται στο σύνολο εκπαίδευσης με τις μη-declustered εγγραφές-γονείς Επανεκπαίδευση της SVM με τα κεντροειδή των εγγραφών του συνόλου εκπαίδευσης Επανάληψη μέχρι να μην υπάρχει συσσώρευση

Επιλεκτική Από-συσταδοποίηση (Declustering) Το CF δέντρο είναι η κατάλληλη δομή βάσης για την επιλεκτική απο-συσταδοποίηση Από-συσταδοποίηση μόνο των συστάδων Ei έτσι ώστε: Di – Ri < Ds, όπου Di είναι η απόσταση από το όριο μέχρι το κεντρικό σημείο Ei και Ri είναι η ακτίνα του Ei Αποσυσταδοποίηση μόνο των συστάδων των οποίων οι υποσυστάδες έχουν πιθανότητες να αποτελέσουν «συστάδες υποστήριξης» των ορίων “Συστάδα υποστήριξης”: Συστάδα της οποία το κεντροειδές είναι διάνυσμα υποστήριξης

Πείραμα σε Συνθετικό Σύνολο Δεδομένων

Πείραμα σε Μεγάλο Σύνολο Δεδομένων

SVM vs. Νευρωνικά Δίκτυα Σχετικά νέα ιδέα Ντετερμινιστικός αλγόριθμος Καλές ιδιότητες γενίκευσης Δύσκολη εκπαίδευση – εκμάθηση με batch mode χρησιμοποιώντας τεχνικές quadratic programming Η χρήση πυρήνων μπορεί να αναπαραστήσει πολύ σύνθετες συναρτήσεις Νευρωνικά Δίκτυα Σχετικά παλιά ιδέα Μη-Ντετερμινιστικός Αλγόριθμος Γενικεύει αλλά δεν έχει ισχυρή μαθηματική θεμελίωση Μπορεί να εκπαιδευτεί εύκολα με αύξοντα τρόπο Η εκμάθηση σύνθετων συναρτήσεων γίνεται με χρήση πολυεπίπεδων perceptrons (μη τετριμένα)

SVM - Σχετικά Links SVM Website Αντιπροσωπευτικές υλοποιήσεις http://www.kernel-machines.org/ Αντιπροσωπευτικές υλοποιήσεις LIBSVM: μια αποδοτική υλοποίηση της SVM, πολλαπλής κλάσης κατηγοριοποιήσεις, nu-SVM, one-class SVM, περιλαμβάνει επίσης διάφορες διεπαφές με java, python, κτλ. SVM-light: απλούστερη αλλά με απόδοση όχι καλύτερη της LIBSVM, υποστηρίζει μόνο δυαδική κατηγοριοποίηση και μόνο τη γλώσσα C SVM-torch: μια άλλη πρόσφατη υλοποίηση γραμμένη σε C

SVM—Εισαγωγική Βιβλιογραφία “Statistical Learning Theory” by Vapnik: δυσνόητο, περιέχει αρκετά λάθη C. J. C. Burges. A Tutorial on Support Vector Machines for Pattern Recognition. Knowledge Discovery and Data Mining, 2(2), 1998. Καλύτερο από το βιβλίο του Vapnik, ωστόσο δυσνόητο για εισαγωγή και τα παραδείγματα δεν είναι τόσο διαισθητικά “An Introduction to Support Vector Machines” by N. Cristianini and J. Shawe-Taylor Επίσης δυσνόητο για εισαγωγή, αλλά η εξήγηση του θεωρήματος mercer’s theorem είναι η βέλτιστη μεταξύ των ανωτέρω βιβλιογραφικών πηγών The neural network book by Haykins Περιέχει ένα καλογραμμένο κεφάλαιο για εισαγωγή στις SVMs

Θεματολογία Τι είναι Κατηγοριοποίηση; Τι είναι Πρόβλεψη; Ζητήματα κατηγοριοποίησης και πρόβλεψης Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Μπεϋζιανή Κατηγοριοποίηση Κατηγοριοποίηση με πίσω διάδοση (backpropagation) Μηχανές Διανυσμάτων Υποστήριξης Κατηγοριοποίηση βασισμένη σε έννοιες από την εξόρυξη κανόνων συσχετίσεων Λοιπές μέθοδοι Κατηγοριοποίησης Πρόβλεψη Ακρίβεια κατηγοριοποίησης (accuracy) Σύνοψη

Άλλες Μέθοδοι Κατηγοριοποίησης Kατηγοριοποιητής k-πλησιέστερων γειτόνων Συλλογιστική περιπτώσεων (case-based reasoning) Γενετικοί αλγόριθμοι Rough set προσέγγιση Fuzzy set προσεγγίσεις

Μέθοδοι βασισμένοι σε περιπτώσεις/στοιχεία (Instance based) Μάθηση βασισμένη σε περιπτώσεις (ή μάθηση με ΑΝΑΛΟΓΙΑ): Αποθήκευσε τα παραδείγματα εκπαίδευσης και καθυστέρησε την επεξεργασία (“lazy evaluation”) μέχρι ένα νέο δείγμα/στοιχείο να χρειάζεται κατηγοριοποίηση Βασικές προσεγγίσεις Προσέγγιση k-πλησιέστερων γειτόνων Τα στοιχεία αναπαρίστανται ως σημεία στον Ευκλείδειο χώρο Τοπικά βεβαρυμένη παλινδρόμηση (Locally weighted regression) Κατασκευάζει τοπική προσέγγιση Συλλογιστική Περιπτώσεων (Case-based reasoning) Χρησιμοποιεί συμβολικές αναπαραστάσεις και knowledge-based συμπερασμό

Ο αλγόριθμος των k-Πλησιέστερων Γειτόνων Όλα τα στοιχεία αντιστοιχίζονται σε σημεία στον n-Δ χώρο Οι πλησιέστεροι γείτονες υπολογίζονται με την βοήθεια της Ευκλείδειας απόστασης Η συνάρτηση στόχος μπορεί να έχει διακριτές ή συνεχείς τιμές Για διακριτές τιμές, η μέθοδος k-NN επιστρέφει την πιο κοινή τιμή μεταξύ των k παραδειγμάτων εκπαίδευσης (training) που είναι πλησιέστερα στο xq Vonoroi διάγραμμα: η επιφάνεια απόφασης παράγεται από τον 1-NN για ένα τυπικό σύνολο δεδομένων εκπαίδευσης . _ _ . _ _ + . . + . _ xq + . _ +

Συζήτηση πάνω στον αλγόριθμο k-NN Distance-weighted nearest neighbor αλγόριθμος Αναθέτει βάρος στην συνεισφορά καθενός από τους k γείτονες ανάλογα με την απόσταση τους από το σημείο-ερώτημα xq Αναθέτει μεγαλύτερο βάρος στους πλέον κοντινούς γείτονες Ομοίως, για συνεχείς συναρτήσεις στόχου Robust σε θορυβώδη δεδομένα βρίσκοντας τη μέση τιμή των k-πλησιέστερων γειτόνων Curse of dimensionality: η απόσταση μεταξύ γειτόνων μπορεί να κυριαρχείται από μη σχετικά χαρακτηριστικά Για την αποφυγή του, οι άξονες «επιμηκύνουν» ή «περιορίζουν» τα λιγότερο σχετικά χαρακτηριστικά

Συλλογιστική Περιπτώσεων (Case-Based Reasoning) Χρησιμοποιεί επίσης: lazy evaluation + ανάλυση όμοιων περιπτώσεων Διαφορά: Τα στοιχεία δεν θεωρούνται σημεία στον Ευκλείδειο χώρο Παράδειγμα: Water faucet problem in CADET (Sycara et al’92) Μεθοδολογία Τα στοιχεία αναπαριστώνται με πλούσιες συμβολικές αναπαραστάσεις (π.χ., γράφους συναρτήσεων) Πολλαπλές ανακτηθείσες περιπτώσεις μπορεί να συνδυαστούν Στενή συμπληρωματικότητα μεταξύ ανάκτησης περιπτώσεων, knowledge-based συλλογιστική και επίλυσης προβλήματος Ερευνητικά θέματα Δεικτοδότηση βασισμένη σε συντακτική μετρική ομοιότητας και σε περίπτωση αποτυχίας, backtracking και υιοθέτηση επιπλέον περιπτώσεων

Παρατηρήσεις σχετικά με Lazy vs. Eager Μάθησης Εκμάθηση βασισμένη σε περιπτώσεις: lazy evaluation Δέντρα απόφασης και Μπεϋζιανή κατηγοριοποίηση: eager evaluation Βασικές διαφορές Μια Lazy μέθοδος θεωρεί το υπόδειγμα του ερωτήματος xq όταν αποφασίζει την γενίκευση πέρα των δεδομένων εκπαίδευσης D Μία Eager μέθοδος έχει ήδη επιλέξει τον τρόπο καθολικής προσέγγισης όταν αντικρίζει το ερώτημα Απόδοση: Lazy – λιγότερος χρόνος εκπαίδευσης αλλά περισσότερος χρόνος πρόβλεψης Ακρίβεια Μια Lazy μέθοδος χρησιμοποιεί αποδοτικά έναν πλουσιότερο χώρο υποθέσεων αφού χρησιμοποιεί αρκετές τοπικά γραμμικές συναρτήσεις για να σχηματίσει την έμμεση καθολική προσέγγιση για τη συνάρτηση στόχο Μία Eager μέθοδος πρέπει να υπόκειται σε μια μόνο υπόθεση η οποία καλύπτει όλο τον χώρο των περιπτώσεων

Γενετικοί Αλγόριθμοι (ΓΑ) – Εξελικτική Προσέγγιση ΓΑ: βασίζονται στην βιολογική εξέλιξη Κάθε κανόνας αναπαρίστανται σαν αλφαριθμητικό από bits Ένας αρχικός πληθυσμός δημιουργείται, αποτελούμενος από τυχαίους παραγμένους κανόνες π.χ., ΑΝ A1 ΚΑΙ Not A2 ΤΟΤΕ C2 μπορεί να κωδικοποιηθεί ως 100 Με βάση την ιδέα ότι επιβιώνει ο καλύτερα προσαρμοσμένος, ένας νέος πληθυσμός σχηματίζεται για να διατηρηθούν οι καταλληλότεροι κανόνες και οι απόγονοί τους Η προσαρμοστικότητα ενός κανόνα αναπαρίσταται από την ακρίβεια κατηγοριοποίησης πάνω σε ένα σύνολο παραδειγμάτων εκπαίδευσης Οι απόγονοι παράγονται από διασταύρωση (crossover) και παραλλαγή (mutation)

Προσέγγιση με Rough Sets Τα Rough sets χρησιμοποιούνται για τον προσεγγιστικό (“roughly”) καθορισμό ισοδύναμων κλάσεων (εφαρμοζόμενα σε χαρακτηριστικά διακριτών τιμών) Ένα rough set για μια δεδομένη κλάση C προσεγγίζεται από δύο σύνολα: μία κάτω προσέγγιση (lower approximation) που σίγουρα ανήκει στην C) και μία άνω προσέγγιση (upper approximation) (δεν μπορεί να περιγραφεί σαν να μην ανήκει στη C) Χρησιμοποιείται επίσης για μείωση χαρακτηριστικών: Το πρόβλημα της εύρεσης των ελάχιστων υποσυνόλων (reducts) των χαρακτηριστικών είναι NP-hard αλλά ο discernibility πίνακας (αποθηκεύει τις διαφορές μεταξύ των τιμών των χαρακτηριστικών για κάθε ζευγάρι των δειγμάτων) χρησιμοποιείται για να μειώσει τον υπολογισμό

Fuzzy Set Προσεγγίσεις Η ασαφής λογική (Fuzzy logic) χρησιμοποιεί πραγματικές τιμές μεταξύ 0.0 και 1.0 για να αναπαραστήσει το βαθμό της συμμετοχής (π.χ., χρησιμοποιώντας τον fuzzy membership graph) Οι τιμές των χαρακτηριστικών μετατρέπονται σε fuzzy τιμές π.χ., η μεταβλητή εισόδημα αντιστοιχίζεται σε διακριτές κατηγορίες {low, medium, high} με τον υπολογισμό των fuzzy τιμών Για ένα νέο παράδειγμα, περισσότερες από μία fuzzy τιμές μπορούν να εφαρμοστούν Κάθε κανόνας που εφαρμόζεται συνεισφέρει μία ψήφο συμμετοχής στις κατηγορίες Τυπικά, οι αληθινές τιμές για κάθε εκτιμόμενη κατηγορία αθροίζονται

Θεματολογία Τι είναι Κατηγοριοποίηση; Τι είναι Πρόβλεψη; Ζητήματα κατηγοριοποίησης και πρόβλεψης Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Μπεϋζιανή Κατηγοριοποίηση Κατηγοριοποίηση με πίσω διάδοση (backpropagation) Μηχανές Διανυσμάτων Υποστήριξης Κατηγοριοποίηση βασισμένη σε έννοιες από την εξόρυξη κανόνων συσχετίσεων Λοιπές μέθοδοι Κατηγοριοποίησης Πρόβλεψη Ακρίβεια κατηγοριοποίησης (accuracy) Σύνοψη

Τι είναι πρόβλεψη? Η πρόβλεψη παρουσιάζει ομοιότητα με την κατηγοριοποίηση: Αρχικά, κατασκευάζεται ένα μοντέλο Έπειτα, το μοντέλο χρησιμοποιείται για την πρόβλεψη των άγνωστων τιμών Βασική μέθοδος για πρόβλεψη είναι η παλινδρόμηση (regression) Γραμμική και πολλαπλή παλινδρόμηση Μη γραμμική παλινδρόμηση Η πρόβλεψη διαφέρει από την κατηγοριοποίηση: Η κατηγοριοποίηση αναφέρεται στην πρόβλεψη των κατηγορικών ετικετών κλάσης Η πρόβλεψη μοντελοποιεί συναρτήσεις συνεχών τιμών

Προβλεπτική Μοντελοποίηση σε Βάσεις Δεδομένων Προβλεπτική μοντελοποίηση: Προβλέπει τιμές δεδομένων ή κατασκευάζει γενικευμένα γραμμικά μοντέλα βασισμένα στη βάση δεδομένων Προβλέπει πεδία τιμών ή κατανομές κατηγοριών Περιγραφή μεθόδου: Ελάχιστη γενίκευση Ανάλυση συσχετίσεων μεταξύ των γνωρισμάτων Κατασκευή γενικευμένου γραμμικού μοντέλου Πρόβλεψη Καθορισμός των σημαντικών παραγόντων οι οποίοι επηρεάζουν την πρόβλεψη Ανάλυση συσχετίσεων των δεδομένων: μέτρηση αβεβαιότητας, ανάλυση εντροπίας, κρίση ειδικών, κτλ. Πολύ-επίπεδη πρόβλεψη: drill-down και roll-up ανάλυση

Ανάλυση Παλινδρόμησης και Log-Linear Μοντέλα για Πρόβλεψη Γραμμική Παλινδρόμηση: Y =  +  X Δύο παράμετροι,  και  καθορίζουν τη Y-intercept και κλίση της γραμμής και υπολογίζονται με βάση τα δεδομένα. Χρησιμοποιώντας το κριτήριο των ελαχίστων τετραγώνων στις γνωστές τιμές των (X1,Y1), (X2,Y2), …, (Xs,Ys)

Regress Ανάλυση Παλινδρόμησης και Log-Linear Μοντέλα για Πρόβλεψη Πολλαπλή παλινδρόμηση: Y = a + b1 X1 + b2 X2. Περισσότερες από μία μεταβλητές πρόβλεψης Αρκετές μη γραμμικές συναρτήσεις μπορούν να μετασχηματιστούν όπως παραπάνω Μη γραμμική παλινδρόμηση: Y = a + b1 X + b2 X2 + b3 X3. Log-linear μοντέλα: Προσεγγίζουν διακριτές πολυδιάστατες κατανομές πιθανότητας (multi-way πίνακας με από-κοινού πιθανότητες) μέσω ενός γινομένου χαμηλής τάξης πινάκων Πιθανότητα: p(a, b, c, d) = ab acad bcd

Τοπικά Βεβαρυμένη Παλινδρόμηση Κατασκευάζει μια explicit προσέγγιση της f πάνω σε μια τοπική περιοχή γύρω από το ερώτημα xq. Τοπικά βεβαρυμένη γραμμική παλινδρόμηση: Η συνάρτηση στόχος f προσεγγίζεται κοντά στο xq χρησιμοποιώντας τη γραμμική συνάρτηση Ελαχιστοποιεί το τετραγωνικό σφάλμα: distance-decreasing weight K Ο κανόνας εκπαίδευσης φθίνουσας κλίσης: Στις περισσότερες περιπτώσεις, η συνάρτηση στόχος προσεγγίζεται από σταθερά, γραμμική ή τετραγωνική συνάρτηση

Πρόβλεψη: Αριθμητικά Δεδομένα

Πρόβλεψη: Κατηγορικά Δεδομένα

Θεματολογία Τι είναι Κατηγοριοποίηση; Τι είναι Πρόβλεψη; Ζητήματα κατηγοριοποίησης και πρόβλεψης Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Μπεϋζιανή Κατηγοριοποίηση Κατηγοριοποίηση με πίσω διάδοση (backpropagation) Μηχανές Διανυσμάτων Υποστήριξης Κατηγοριοποίηση βασισμένη σε έννοιες από την εξόρυξη κανόνων συσχετίσεων Λοιπές μέθοδοι Κατηγοριοποίησης Πρόβλεψη Ακρίβεια κατηγοριοποίησης (accuracy) Σύνοψη

Μετρικές Ακρίβειας Κατηγοριοποιητή C1 C2 True positive False negative False positive True negative Μετρικές Ακρίβειας Κατηγοριοποιητή Classes model -> buy_computer = yes buy_computer = no total recognition(%) 6954 46 7000 99.34 412 2588 3000 86.27 7366 2634 10000 95.52 Η Ακρίβεια (Accuracy) ενός κατηγοριοποιητή M, acc(M): το ποσοστό των πλειάδων ελέγχου που είναι σωστά κατηγοριοποιημένα από το μοντέλο M Ποσοστό Λάθους (Error rate) του M = 1 – acc(M) Δοσμένων m κλάσεων, CMi,j, μια εγγραφή στον confusion matrix, δείχνει το πλήθος των πλειάδων στην κλάση i τα οποία είναι κατηγοριοποιημένα από το μοντέλο στην κλάση j Εναλλακτικές Μετρικές Ακρίβειας (π.χ., για διάγνωση καρκίνου) sensitivity = t-pos/pos /* true positive recognition rate */ specificity = t-neg/neg /* true negative recognition rate */ precision = t-pos/(t-pos + f-pos) accuracy = sensitivity * pos/(pos + neg) + specificity * neg/(pos + neg) Αυτό το μοντέλο μπορεί επίσης να χρησιμοποιηθεί ανάλυση cost-benefit

Μέτρηση Σφάλματος Προβλέπτη (Predictor) Μέτρηση ακρίβειας προβλέπτη: μετρά πόσο απέχει η τιμή πρόβλεψης από την πραγματική (γνωστή) τιμή Συνάρτηση Απώλειας (Loss function): μετρά το σφάλμα μεταξύ yi και της τιμής πρόβλεψης yi’ Απόλυτο λάθος: | yi – yi’| Τετραγωνικό λάθος: (yi – yi’)2 Σφάλμα ελέγχου (γενίκευση σφάλματος): η μέση απώλεια στο σύνολο ελέγχου Mean absolute error: Mean squared error: Relative absolute error: Relative squared error: Το μέσο τετραγωνικό λάθος υπερβάλει την παρουσία των outliers Πιο δημοφιλείς μετρικές: mean-square error και root relative squared error

Αξιολόγηση της Ακρίβειας ενός Κατηγοριοποιητή ή Προβλέπτη (I) Holdout μέθοδος Τα δεδομένα τυχαία διαχωρίζονται σε δύο ανεξάρτητα σύνολα Σύνολο εκπαίδευσης (π.χ., 2/3) για κατασκευή μοντέλου Σύνολο ελέγχου (π.χ., 1/3) για αξιολόγηση ακρίβειας Τυχαία δειγματοληψία: μια παραλλαγή της holdout Επανέλαβε την τεχνική holdout k φορές, συνολική ακρίβεια (accuracy) = μ.ο. της ακρίβειας των επιμέρους εκτελέσεων Σταυρωτή επικύρωση (Cross-validation) (k-αναδιπλώσεις (k-fold), όπου συνήθως k = 10) Διαχώρισε τυχαία τα δεδομένα σε k αμοιβαία διαχωριζόμενα υποσύνολα, περίπου ισομεγέθη Στην i-οστή επανάληψη, χρησιμοποίησε το Di ως σύνολο ελέγχου και τα υπόλοιπα ως σύνολο εκπαίδευσης Leave-one-out: k αναδιπλώσεις όπου k = # των πλειάδων, για μικρού όγκου δεδομένα Stratified cross-validation: οι αναδιπλώσεις καθορίζονται έτσι ώστε η κατανομή κλάσεων σε κάθε αναδίπλωση να είναι περίπου ίδια με την αυτή στα αρχικά δεδομένα

Αξιολόγηση της Ακρίβειας ενός Κατηγοριοποιητή ή Προβλέπτη (II) Bootstrap Αποδίδει καλά για μικρά σύνολα δεδομένων Δειγματοληπτεί τις πλειάδες εκπαίδευσης ομοιόμορφα με αντικατάσταση Δηλ. κάθε φορά επιλέγεται μία πλειάδα. Με ίδια πιθανότητα είναι δυνατό να επιλεχθεί πάλι και επανεισάγεται στο σύνολο εκπαίδευσης Αρκετές boostrap μέθοδοι. Μια δημοφιλής είναι η .632 boostrap: Έστω ότι έχουμε ένα σύνολο d πλειάδων. Το σύνολο δεδομένων δειγματοληπτείται d φορές, με αντικατάσταση, καταλήγοντας σε ένα σύνολο εκπαίδευσης d δειγμάτων. Οι πλειάδες δεδομένων που δεν συμμετέχουν στο σύνολο εκπαίδευσης, σχηματίζουν το σύνολο ελέγχου. Περίπου 63.2% των αρχικών δεδομένων θα καταλήξουν στο bootstrap, και το υπόλοιπο 36.8% θα σχηματίσει το σύνολο ελέγχου (αφού (1 – 1/d)d ≈ e-1 = 0.368) Επανέλαβε τη διαδικασία δειγματοληψίας k φορές Συνολική ακρίβεια του μοντέλου:

Θεματολογία Τι είναι Κατηγοριοποίηση; Τι είναι Πρόβλεψη; Ζητήματα κατηγοριοποίησης και πρόβλεψης Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Μπεϋζιανή Κατηγοριοποίηση Κατηγοριοποίηση με πίσω διάδοση (backpropagation) Μηχανές Διανυσμάτων Υποστήριξης Κατηγοριοποίηση βασισμένη σε έννοιες από την εξόρυξη κανόνων συσχετίσεων Λοιπές μέθοδοι Κατηγοριοποίησης Πρόβλεψη Ακρίβεια κατηγοριοποίησης (accuracy) Μέθοδοι συνένωσης, Bagging, Boosting Σύνοψη

Μέθοδοι Συνένωσης: Αυξάνοντας την ακρίβεια Μέθοδοι συνένωσης Χρήση ενός συνδυασμού από μοντέλα με σκοπό την αύξηση της ακρίβειας Συνδυασμός μια σειράς από k εκπαιδευμένα μοντέλα, M1, M2, …, Mk, για την δημιουργία ενός βελτιωμένου μοντέλου M* Συνήθεις μέθοδοι συνένωσης Bagging: υπολογισμός μέσου όρου της πρόβλεψης πάνω σε μια συλλογή κατηγοριοποιητών Boosting: βεβαρυμένη συμμετοχή σε μια συλλογή κατηγοριοποιητών Ensemble: συνδυασμός ενός συνόλου ετερογενών κατηγοριοποιητών

Bagging: Boostrap Συνάθροιση Αναλογία: Διάγνωση βασισμένη στην πλειοψηφούσα άποψη πολλών γιατρών Εκπαίδευση Δοσμένου ενός συνόλου D με d πλειάδες, σε κάθε επανάληψη i, ένα σύνολο εκπαίδευσης Di με d πλειάδες δειγματοληπτείται με αντικατάσταση από το D (π.χ., boostrap) Ένα μοντέλο κατηγοριοποιητή Mi εκπαιδεύεται για κάθε σύνολο Di Κατηγοριοποίηση: κατηγοριοποίησε ένα άγνωστο δείγμα X Κάθε κατηγοριοποιητής Mi επιστρέφει την κλάση πρόβλεψης Ο bagged κατηγοριοποιητής M* μετρά τις ψήφους και αναθέτει στο X την πλειοψηφούσα κλάση Πρόβλεψη: μπορεί να εφαρμοστεί για την πρόβλεψη συνεχών τιμών, λαμβάνοντας την μέση τιμή κάθε πρόβλεψης για μια συγκεκριμένη πλειάδα ελέγχου Ακρίβεια Συχνά αρκετά καλύτερη από έναν κατηγοριοποιητή που παράγεται από το D Για θορυβώδη δεδομένα: όχι σημαντικά χειρότερα, ωστόσο περισσότερο robust Αποδεικνύεται ότι παρουσιάζει καλύτερη ακρίβεια στην πρόβλεψη

Boosting Αναλογία: Συμβουλεύσου διάφορους γιατρούς και αποφάσισε χρησιμοποιώντας ένα συνδυασμό βεβαρυμένων διαγνώσεων, το κάθε βάρος σχετίζεται με την ακρίβεια των προηγούμενων διαγνώσεων Πως δουλεύει το boosting? Ανατίθενται βάρη σε κάθε πλειάδα εκπαίδευσης Μια σειρά k κατηγοριοποιητών εκπαιδεύεται επαναληπτικά Αφού εκπαιδευτεί ένας κατηγοριοποιητής Mi, τα βάρη ανανεώνονται για να επιτρέψουν στον επόμενο κατηγοριοποιητή, Mi+1, να δώσει περισσότερη προσοχή στις πλειάδες εκπαίδευσης που δεν κατηγοριοποιήθηκαν σωστά από τον Mi Ο τελικός M* συνδυάζει τις ψήφους κάθε επιμέρους κατηγοριοποιητή, όπου το βάρος κάθε κατηγοριοποιητή είναι συνάρτηση της ακρίβειάς του Ο αλγόριθμος boosting μπορεί να επεκταθεί για την πρόβλεψη συνεχών τιμών Συγκρίνοντας με τον αλγόριθμο bagging: ο boosting τείνει να πετυχαίνει μεγαλύτερη ακρίβεια, αλλά υπάρχει ο κίνδυνος overfitting του μοντέλου σε δεδομένα που δεν κατηγοριοποιήθηκαν σωστά (misclassified)

Adaboost (Freund και Schapire, 1997) Δοσμένου ενός συνόλου d class-labeled πλειάδων, (X1, y1), …, (Xd, yd) Αρχικά, όλα τα βάρη των πλειάδων είναι ίδια (1/d) Δημιούργησε k κατηγοριοποιητές σε k γύρους. Στο γύρο i, Πλειάδες από το D δειγματοληπτούνται (με αντικατάσταση) για να σχηματίσουν το σύνολο εκπαίδευσης Di του ίδιου μεγέθους Η πιθανότητα κάθε πλειάδας να επιλεχθεί εξαρτάται από το βάρος της Το μοντέλο κατηγοριοποίησης Mi παράγεται από το Di Το ποσοστό σφάλματος υπολογίζεται χρησιμοποιώντας το Di ως σύνολο ελέγχου Αν μια πλειάδα δεν κατηγοριοποιηθεί σωστά, το βάρος της αυξάνεται, αλλιώς μειώνεται Ποσοστό σφάλματος: err(Xj) είναι το σφάλμα της μη σωστής κατηγοριοποίησης της πλειάδας Xj. Το ποσοστό σφάλματος του κατηγοριοποιητή Mi είναι το σύνολο των βαρών των μη σωστά κατηγοριοποιημένων πλειάδων: Το βάρος της ψήφου του Mi κατηγοριοποιητή:

Επιλογή Μοντέλου: ROC Καμπύλες ROC (Receiver Operating Characteristic) καμπύλες: για οπτική σύγκριση των μοντέλων κατηγοριοποίησης Προέρχεται από την θεωρία ανίχνευσης σημάτων Δείχνει το trade-off μεταξύ true positive rate και false positive rate Η επιφάνεια κάτω από την ROC καμπύλη είναι μετρική της ακρίβειας του μοντέλου Ταξινόμησε τις πλειάδες ελέγχου σε φθίνουσα σειρά: αυτές που είναι πιο πιθανό να ανήκουν στη θετική κλάση εμφανίζονται στην κορυφή της λίστας Όσο πιο κοντά στη διαγώνιο (π.χ., εμβαδόν περιοχής περίπου 0.5), τόσο λιγότερο ακριβές είναι το μοντέλο Κάθετος άξονας: true positive rate Οριζόντιος άξονας: false positive rate Διαγώνια γραμμή; Μοντέλο με τέλεια ακρίβεια: εμβαδόν 1.0

Θεματολογία Τι είναι Κατηγοριοποίηση; Τι είναι Πρόβλεψη; Ζητήματα κατηγοριοποίησης και πρόβλεψης Κατηγοριοποίηση με επαγωγή δένδρου απόφασης Μπεϋζιανή Κατηγοριοποίηση Κατηγοριοποίηση με πίσω διάδοση (backpropagation) Μηχανές Διανυσμάτων Υποστήριξης Κατηγοριοποίηση βασισμένη σε έννοιες από την εξόρυξη κανόνων συσχετίσεων Λοιπές μέθοδοι Κατηγοριοποίησης Πρόβλεψη Ακρίβεια κατηγοριοποίησης (accuracy) Μέθοδοι συνένωσης, Bagging, Boosting Σύνοψη

Σύνοψη (I) Κατηγοριοποίηση και πρόβλεψη είναι δύο μορφές ανάλυσης δεδομένων που μπορούν να χρησιμοποιηθούν για την εξαγωγή μοντέλων που περιγράφουν σημαντικά δεδομένα κλάσεων ή για την πρόβλεψη μελλοντικών τάσεων Αποδοτικές και κλιμακώσιμες μέθοδοι έχουν αναπτυχθεί όπως δέντρα απόφασης, Αφελής Μπεϋζιανός κατηγοριοποιητής, Δίκτυα Μπεϋζιανής Λογικής, κατηγοριοποιητές βασισμένοι σε κανόνες, πίσω μετάδοση σφάλματος, Μηχανές Διανυσμάτων Υποστήριξης (SVM), συσχετιστική κατηγοριοποίηση, κατηγοριοποιητές πλησιέστερων γειτόνων, case-based συλλογιστική, και άλλες μέθοδοι κατηγοριοποίησης όπως γενετικοί αλγόριθμοι, rough set και fuzzy set προσεγγίσεις. Γραμμικά, μη γραμμικά και γενικευμένα γραμμικά μοντέλα παλινδρόμησης μπορούν να χρησιμοποιηθούν για πρόβλεψη. Αρκετά μη γραμμικά προβλήματα μπορούν να μετατραπούν σε γραμμικά προβλήματα εκτελώντας μετασχηματισμούς στις μεταβλητές πρόβλεψης. Δένδρα παλινδρόμησης και μοντέλα δένδρων έχουν χρησιμοποιηθεί επίσης για πρόβλεψη.

Σύνοψη(II) Η stratified k-αναδιπλώσεων σταυρωτή επικύρωση (k-fold cross-validation) είναι μια μέθοδος που ενδείκνυται για τον υπολογισμό της ακρίβειας. Οι τεχνικές Bagging και boosting μπορούν να χρησιμοποιηθούν για την αύξηση της συνολικής ακρίβειας εκπαιδεύοντας και συνδυάζοντας μια σειρά επιμέρους μοντέλων. Significance tests και ROC curves είναι χρήσιμα εργαλεία για επιλογή μοντέλων Έχουν προταθεί πολυάριθμες συγκρίσεις διαφορετικών μεθόδων κατηγοριοποίησης και πρόβλεψης, ωστόσο το ερευνητικό ζήτημα παραμένει ανοιχτό Καμία μέθοδος δεν έχει βρεθεί να υπερτερεί των υπολοίπων για όλα τα σύνολα δεδομένων Ζητήματα όπως η ακρίβεια, ο χρόνος εκπαίδευσης, οι ιδιότητες robustness και interpretability, καθώς και η δυνατότητα κλιμάκωσης μπορούν να θεωρηθούν ως trade-offs, περιπλέκοντας ακόμα την εύρεση ενός καθολικά αποδοτικότερου μοντέλου

References (1) C. Apte and S. Weiss. Data mining with decision trees and decision rules. Future Generation Computer Systems, 13, 1997. C. M. Bishop, Neural Networks for Pattern Recognition. Oxford University Press, 1995. L. Breiman, J. Friedman, R. Olshen, and C. Stone. Classification and Regression Trees. Wadsworth International Group, 1984. C. J. C. Burges. A Tutorial on Support Vector Machines for Pattern Recognition. Data Mining and Knowledge Discovery, 2(2): 121-168, 1998. P. K. Chan and S. J. Stolfo. Learning arbiter and combiner trees from partitioned data for scaling machine learning. KDD'95. W. Cohen. Fast effective rule induction. ICML'95. G. Cong, K.-L. Tan, A. K. H. Tung, and X. Xu. Mining top-k covering rule groups for gene expression data. SIGMOD'05. A. J. Dobson. An Introduction to Generalized Linear Models. Chapman and Hall, 1990. G. Dong and J. Li. Efficient mining of emerging patterns: Discovering trends and differences. KDD'99. R. O. Duda, P. E. Hart, and D. G. Stork. Pattern Classification, 2ed. John Wiley and Sons, 2001 U. M. Fayyad. Branching on attribute values in decision tree generation. AAAI’94. Y. Freund and R. E. Schapire. A decision-theoretic generalization of on-line learning and an application to boosting. J. Computer and System Sciences, 1997. J. Gehrke, R. Ramakrishnan, and V. Ganti. Rainforest: A framework for fast decision tree construction of large datasets. VLDB’98. J. Gehrke, V. Gant, R. Ramakrishnan, and W.-Y. Loh, BOAT -- Optimistic Decision Tree Construction. SIGMOD'99. T. Hastie, R. Tibshirani, and J. Friedman. The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer-Verlag, 2001. D. Heckerman, D. Geiger, and D. M. Chickering. Learning Bayesian networks: The combination of knowledge and statistical data. Machine Learning, 1995. M. Kamber, L. Winstone, W. Gong, S. Cheng, and J. Han. Generalization and decision tree induction: Efficient classification in data mining. RIDE'97. B. Liu, W. Hsu, and Y. Ma. Integrating Classification and Association Rule. KDD'98. W. Li, J. Han, and J. Pei, CMAR: Accurate and Efficient Classification Based on Multiple Class-Association Rules, ICDM'01.

References (2) T.-S. Lim, W.-Y. Loh, and Y.-S. Shih. A comparison of prediction accuracy, complexity, and training time of thirty-three old and new classification algorithms. Machine Learning, 2000. J. Magidson. The Chaid approach to segmentation modeling: Chi-squared automatic interaction detection. In R. P. Bagozzi, editor, Advanced Methods of Marketing Research, Blackwell Business, 1994. M. Mehta, R. Agrawal, and J. Rissanen. SLIQ : A fast scalable classifier for data mining. EDBT'96. T. M. Mitchell. Machine Learning. McGraw Hill, 1997. S. K. Murthy, Automatic Construction of Decision Trees from Data: A Multi-Disciplinary Survey, Data Mining and Knowledge Discovery 2(4): 345-389, 1998 J. R. Quinlan. Induction of decision trees. Machine Learning, 1:81-106, 1986. J. R. Quinlan and R. M. Cameron-Jones. FOIL: A midterm report. ECML’93. J. R. Quinlan. C4.5: Programs for Machine Learning. Morgan Kaufmann, 1993. J. R. Quinlan. Bagging, boosting, and c4.5. AAAI'96. R. Rastogi and K. Shim. Public: A decision tree classifier that integrates building and pruning. VLDB’98. J. Shafer, R. Agrawal, and M. Mehta. SPRINT : A scalable parallel classifier for data mining. VLDB’96. J. W. Shavlik and T. G. Dietterich. Readings in Machine Learning. Morgan Kaufmann, 1990. P. Tan, M. Steinbach, and V. Kumar. Introduction to Data Mining. Addison Wesley, 2005. S. M. Weiss and C. A. Kulikowski. Computer Systems that Learn: Classification and Prediction Methods from Statistics, Neural Nets, Machine Learning, and Expert Systems. Morgan Kaufman, 1991. S. M. Weiss and N. Indurkhya. Predictive Data Mining. Morgan Kaufmann, 1997. I. H. Witten and E. Frank. Data Mining: Practical Machine Learning Tools and Techniques, 2ed. Morgan Kaufmann, 2005. X. Yin and J. Han. CPAR: Classification based on predictive association rules. SDM'03 H. Yu, J. Yang, and J. Han. Classifying large data sets using SVM with hierarchical clusters. KDD'03.