1 Μη γραμμικοί ταξινομητές Το πρόβλημα XOR x1x1 x2x2 XORClass 000B 011A 101A 110B
2 Δεν υπάρχει μία γραμμή (υπερεπίπεδο) που να διαχωρίζει την κλάση A από την κλάση B. Αντίθετα, οι λειτουργίες AND και OR είναι γραμμικώς διαχωρίσιμα προβλήματα
3 Το δι-επίπεδο (Two-Layer) Perceptron Για το πρόβλημα XOR, ζωγράφισε δύο, αντί, για μία γραμμή
4 Τότε, η κλάση B βρίσκεται εκτός της σκιασμένης περιοχής ενώ η κλάση A εντός αυτής. Πρόκειται για μία σχεδίαση δύο φάσεων (two-phase design). Φάση 1Φάση 1: χάραξε δύο γραμμές (υπερεπίπεδα) Καθένα από αυτά υλοποιείται από ένα perceptron. Οι έξοδοι των perceptrons θα είναι ανάλογα με τη θέση του x. Φάση 2Φάση 2: Βρες τη θέση του x ως προς αμφότερες τις γραμμές, με βάση τις τιμές των y 1, y 2.
5 Ισοδύναμα: Οι υπολογισμοί της πρώτης φάσης υλοποιούν μία απεικόνιση 1 st phase 2 nd phase x1x1 x2x2 y1y1 y2y2 000(-) B(0) 011(+)0(-)A(1) 101(+)0(-)A(1) 111(+) B(0)
6 Η απόφαση παίρνεται τώρα με βάση τα μετασχηματισμένα δεδομένα. Αυτό μπορεί να γίνει μέσω μίας δεύτερης γραμμής, η οποία μπορεί επίσης να υλοποιηθεί από ένα perceptron.
7 Οι υπολογισμοί της πρώτης φάσης πραγματοποιούν μία απεικόνιση που μετασχηματίζει το μη γραμμικώς διαχωρίσιμο πρόβλημα σε ένα γραμμικώς διαχωρίσιμο. Η αρχιτεκτονική
8 Αυτή είναι γνωστή ως perceptron δύο επιπέδων με ένα κρυφό (hidden) και ένα επίπεδο εξόδου (output layer). Οι συναρτήσεις ενεργοποίησης (activation functions) είναι Οι νευρώνες (κόμβοι) του σχήματος υλοποιούν τις ακόλουθες γραμμές (υπερέπίπεδα)
9 Δυνατότητες ταξινόμησης δικτύου perceptron δύο επιπέδων Η απεικόνιση που πραγματοποιείται από τους νευρώνες του 1 ου επιπέδου είναι πάνω στις κορυφές του τετραγώνου πλευράς 1, e.g., (0, 0), (0, 1), (1, 0), (1, 1). Η πιο γενική περίπτωση,
10 πραγματοποιεί μία απεικόνιση ενός διανύσματος στις κορυφές του υπερκύβου H p μοναδιαίας ακμής. Η απεικόνιση πραγματοποιείται με p νευρώνες καθένας από τους οποίους υλοποιεί ένα υπερεπίπεδο. Η έξοδος καθενός από αυτούς τους νευρώνες είναι 0 ή 1 ανάλογα με τη σχετική θέση του x ως προς το υπερεπίπεδο.
11 Τομές αυτών των υπερεπιπέδων ορίζουν περιοχές στον l- διάστατο χώρο. Κάθε περιοχή αντιστοιχεί σε μία κορυφή του μοναδιαίου υπερκύβου H p.
12 Για παράδειγμα, η κορυφή 001 αντιστοιχεί στην περιοχή που βρίσκεται στην (-) πλευρά του g 1 (x)=0 στην (-) πλευρά του g 2 (x)=0 στην (+) πλευρά του g 3 (x)=0
13 Ο νευρώνας εξόδου υλοποιεί ένα υπερεπίπεδο στο μετασχηματισμένο χώρο, ο οποίος διαχωρίζει μερικές κορυφές από μερικές άλλες. Έτσι, το δίκτυο perceptron δύο επιπέδων έχει τη δυνατότητα να διαχωρίζει κλάσεις που αποτελούνται από ενώσεις πολυεδρικών περιοχών. Αλλά ΟΧΙ ΟΠΟΙΕΣΔΗΠΟΤΕ ενώσεις. Εξαρτάται από τη σχετική θέση των αντίστοιχων κορυφών.
14 Δίκτυα perceptron τριών επιπέδων Η δομή τους Αυτά είναι ικανά να διαχωρίζουν κλάσεις οι οποίες αποτελούνται από ΟΠΟΙΑΔΗΠΟΤΕ ένωση πολυεδρικών περιοχών. Η ιδέα είναι παρόμοια μ’ αυτή του προβλήματος XOR. Το δίκτυο υλοποιεί περισσότερα του ενός υπερεπίπεδα στο χώρο
15 Η λογική Για κάθε κορυφή, που αντιστοιχεί, ας πούμε, στην κλάση A κατασκεύασε ένα υπερεπίπεδο που αφήνει ΑΥΤΉ την κορυφή στην θετική πλευρά του (+) and ΟΛΕΣ τις άλλες κορυφές στην αρνητική πλευρά του (-). Ο νευρώνας εξόδου υλοποιεί μία πύλη OR Συνολικά: Το πρώτο επίπεδο του δικτύου ορίζει τα υπερεπίπεδα, το δεύτερο επίπεδο ορίζει τις περιοχές και ο νευρώνας εξόδου ορίζει τις κλάσεις. Σχεδιάζοντας perceptrons πολλαπλών επιπέδων Ένας τρόπος είναι να υιοθετήσουμε την παραπάνω λογική. Στην πράξη όμως σπάνια γνωρίζουμε ακριβώς τα όρια των κλάσεων Ο άλλος τρόπος είναι να επιλέξουμε μία δομή και να υπολογίσουμε τα συναπτικά βάρη της έτσι ώστε να βελτιστοποιείται μία συνάρτηση κόστους.
16 Ο αλγόριθμος οπισθοδρομικής διάδοσης (Backpropagation Algorithm) Πρόκειται για μία αλγοριθμική διαδικασία που υπολογίζει τα συναπτικά βάρη επαναληπτικά, έτσι ώστε να ελαχιστοποιείται (βελτιστοποιείται) μία επιλεγμένη συνάρτηση κόστους. Ο υπολογισμός των παραγώγων εμπλέκεται σε ένα μεγάλο αριθμό διαδικασιών βελτιστοποίησης. Έτσι, οι μη συνεχείς συναρτήσεις ενεργοποίησης (εξόδου) δημιουργούν πρόβλημα, δηλαδή, Υπάρχει πάντα μία έξοδος κινδύνου!!! Η logistic συνάρτηση είναι ένα παράδειγμα. Άλλες συναρτήσεις είναι επίσης δυνατές και, μερικές φόρες, πιο επιθυμητές.
17
18 Τα βήματα: Υιοθέτησε μία συνάρτηση κόστους για βελτιστοποίηση, δηλ., –Σφάλμα ελαχίστων τετραγώνων (Least Squares Error) –Σχετική εντροπία (Relative Entropy) ανάμεσα σε επιθυμητές και πραγματικές αποκρίσεις του δικτύου για τα διαθέσιμα δεδομένα εκπαίδευσης. Δηλαδή, από εδώ και πέρα θα ζήσουμε με λάθη. Προσπαθούμε μόνο να τα ελαχιστοποιήσουμε, χρησιμοποιώντας ορισμένα κριτήρια. Υιοθέτησε μία αλγοριθμική διαδικασία για τη βελτιστοποίηση της συνάρτησης κόστους ως προς τα συναπτικά βάρη, π.χ., –Αλγόριθμος απότομης κατάδυσης (Gradient descent) –Αλγόριθμος του Newton –Αλγόριθμος συζυγών διευθύνσεων (Conjugate gradient algorithm)
19 Η διαδικασία βελτιστοποίησης είναι μη γραμμική. Για τη μέθοδο απότομής κατάδυσης (gradient descent)
20 Η διαδικασία: Αρχικοποίησε τυχαία τα άγνωστα βάρη με μικρές τιμές. Υπολόγισε τους όρους του gradient προς τα πίσω, αρχίζοντας από τα βάρη του τελευταίου (3 rd ) επιπέδου και κινούμενος προς το πρώτο. Ενημέρωσε τα βάρη. Επανέλαβε τη διαδικασία έως ότου ικανοποιηθεί ένα κριτήριο τερματισμού. Δύο κύριες φιλοσοφίες: Επεξεργασία κατά συρροή (Batch mode): Τα gradients του τελευταίου επιπέδου υπολογίζονται αφού παρουσιαστούν στον αλγόριθμο ΟΛΑ τα δεδομένα εκπαίδευσης, δηλ., αθροίζοντας όλους τους όρους λάθους. Επεξεργασία κατά πρότυπο (Pattern mode): Τα gradients υπολογίζονται κάθε φορά που εμφανίζεται ένα νέο διάνυσμα εκπαίδευσης. Έτσι, τα gradients βασίζονται σε διαδοχικά μεμονωμένα σφάλματα.
21
22 Ένα σημαντικό πρόβλημα: Ο αλγόριθμος μπορεί να συγκλίνει σε ένα τοπικό ελάχιστο.
23 Η επιλογή της συνάρτησης κόστους Παραδείγματα: Η συνάρτηση ελαχίστων τετραγώνων (Least Squares) Επιθυμητή απόκριση του m th νευρώνα εξόδου (1 or 0) για Πραγματική απόκριση του m th νευρώνα εξόδου, στο δίαστημα [0, 1], για είσοδο
24 Η συνάρτηση cross-entropy Αυτή προϋποθέτει την ερμηνεία των y and ŷ ως πιθανότητες. Ποσοστό σφάλματος ταξινόμησης (Classification error rate). Είναι επίσης γνωστό ως discriminative learning. Οι περισσότερες από αυτές τις τεχνικές χρησιμοποιούν μία εξομαλυσμένη έκδοση του σφάλματος ταξινόμησης.
25 Σχόλιο 1: Ένα κοινό χαρακτηριστικό των παραπάνω συναρτήσεων είναι ο κίνδυνος σύγκλισης σε κάποιο τοπικό ελάχιστο. Οι “καλώς ορισμένες” (“Well formed”) συναρτήσεις κόστους εγγυώνται σύγκλιση σε μία “καλή” λύση, δηλαδή σε μία λύση που να ταξινομεί σωστά ΟΛΑ τα δεδομένα εκπαίδευσης, υπό την προϋπόθεση ότι υπάρχει μία τέτοια λύση. Η cross- entropy συνάρτηση κόστους είναι καλώς ορισμένη. Η συνάρτηση ελαχίστων τετραγώνων δεν είναι.
26 Σχόλιο 2: Αμφότερες οι συναρτήσεις κόστους ελαχίστων τετραγώνων και cross entropy οδηγούν σε τιμές εξόδου που προσεγγίζουν κατά βέλτιστο τρόπο τις εκ των υστέρων πιθανότητες για κάθε κλάση (Optimally class a- posteriori probabilities)!!! Δηλ., την πιθανότητα της κλάσης δοθέντος του. Πρόκειται για ένα πολύ ενδιαφέρον αποτέλεσμα. Δεν εξαρτάται από τις κατανομές των κλάσεων. Είναι ένα χαρακτηριστικό ορισμένων συναρτήσεων κόστους. Η ποιότητα της προσέγγισης εξαρτάται από το μοντέλο που υιοθετήθηκε. Επιπλέον, ισχύει μόνο στο ολικό ελάχιστο.
27 Παραλλαγές του αλγορίθμου Backpropagation Αλγόριθμος backpropagation με όρο ορμής (momentum term) Προστατεύει τον αλγόριθμο από περιπτώσεις ταλάντωσης και, κατά συνέπεια, αργής σύγκλισης Εξισώσεις Προσαρμοστικός (adaptive) αλγόριθμος backpropagation Επιταχύνει ή επιβραδύνει ανάλογα με το είδος της περιοχής του landscape της συνάρτησης κόστους που βρίσκεται η τρέχουσα εκτίμηση Εξισώσεις
28
29 Επιλογή του μεγέθους του δικτύου. Πόσο μεγάλο μπορεί να είναι;; Πόσα επίπεδα νευρώνων και πόσοι νευρώνες ανά επίπεδο;; Υπάρχουν δύο κύριες κατευθύνσεις Τεχνικές «κλαδέματος» (Pruning Techniques): Αυτές ξεκινούν με ένα δίκτυο μεγάλου μεγέθους και απομακρύνουν επαναληπτικά βάρη και/ή νευρώνες, σύμφωνα με ένα κριτήριο.
30 —Μέθοδοι που βασίζονται στην ευαισθησία των παραμέτρων + όροι υψηλής τάξης όπου Κοντά σ’ ένα ελάχιστο και υποθέτοντας ότι
31 Το κλάδεμα τώρα γίνεται ως ακολούθως: Εκπαίδευσε το δίκτυο χρησιμοποιώντας Backpropagation για έναν αριθμό βημάτων Υπολόγισε τις «προεξοχές» (saliencies) Απομάκρυνε τα βάρη με μικρά s i. Επανέλαβε τη διαδικασία —Μέθοδοι που βασίζονται στην κανονικοποίηση συνάρτησης (function regularization)
32 Ο δεύτερος όρος ευνοεί μικρές τιμές για τα βάρη, π.χ., όπου Μετά από μερικά βήματα εκπαίδευσης, τα βάρη με μικρές τιμές απομακρύνονται. Κατασκευαστικές τεχνικές (Constructive techniques): Ξεκινούν με ένα δίκτυο μικρού μεγέθους και το μεγαλώνουν, σύμφωνα με μία προκαθορισμένη διαδικασία και κριτήριο.
33 Σχόλιο: Γιατί να μην ξεκινήσουμε με ένα δίκτυο μεγάλου μεγέθους και να αφήσουμε τον αλγόριθμο να αποφασίσει ποια βάρη είναι μικρά;; Η προσέγγιση αυτή είναι απλοϊκή. Παραβλέπει το γεγονός ότι οι ταξινομητές πρέπει να έχουν καλή δυνατότητα γενίκευσης (generalization). Ένα μεγάλο δίκτυο μπορεί να δώσει μικρά σφάλματα για το σύνολο εκπαίδευσης, αφού μπορεί να μάθει τις συγκεκριμένες λεπτομέρειές του. Από την άλλη μεριά, δεν αναμένεται να παρουσιάζει καλή απόδοση για δεδομένα στα οποία δεν εκπαιδεύτηκε. Το μέγεθος του δικτύου πρέπει να είναι: Αρκούντως μεγάλο για να μπορεί να μάθει τι κάνει όμοια τα δεδομένα της ίδιας κλάσης και τι κάνει ανόμοια τα δεδομένα διαφορετικών κλάσεων. Αρκούντως μικρό για να μην μπορεί να μάθει τις διαφορές μεταξύ δεδομένων της ίδιας κλάσης. Το τελευταίο οδηγεί στο λεγόμενο υπερ-ταίριασμα (overfitting).
34 Παράδειγμα:
35 Υπερεκπαίδευση (Overtraining) είναι μία άλλη όψη του ίδιου νομίσματος, δηλ. το δίκτυο προσαρμόζεται στις ιδιαιτερότητες του συνόλου δεδομένων.
36 Γενικευμένοι γραμμικοί ταξινομητές Ας θεωρήσουμε το πρόβλημα XOR. Η απεικόνιση Η συνάρτηση ενεργοποίησης μετασχηματίζει το μη γραμμικό πρόβλημα σε γραμμικό. Στη γενικότερη περίπτωση: Έστω και ένα μη γραμμικό πρόβλημα.
37 Υπάρχουν κατάλληλες συναρτήσεις και κατάλληλο k, έτσι ώστε η απεικόνιση να μετασχηματίζει σε γραμμικό το πρόβλημα στο χώρο ? Αν αυτό ισχύει, τότε υπάρχει υπερεπίπεδο έτσι ώστε
38 Παράδειγμα: Έστω x1=(2,1), x2=(1,2), x3=(0,1), x4=(1,0), x5=(3,1), x6=(1,3), x7=(-1,1), x8=(1,-1). Τα 4 πρώτα ανήκουν στην κατηγορία +1 και τα υπόλοιπα στην κατηγορία -1 (x 1,x 2 ) - (x 1 2, x 2 2, sqrt(2)x 1 x 2 )
39 Παράδειγμα: Έστω x1=(1,0), x2=(0,1), x3=(-1,0), x4=(0,-1), x5=(2,0), x6=(0,2), x7=(-2,0), x8=(0,-2). Τα 4 πρώτα ανήκουν στην κατηγορία +1 και τα υπόλοιπα στην κατηγορία -1 (x 1,x 2 ) - (x 1 2, x 2 2, sqrt(2)x 1 x 2 )
40 Σε μία τέτοια περίπτωση αυτό είναι ισοδύναμο με την προσέγγιση της μη γραμμικής συνάρτησης g(x), εκπεφρασμένη ως γραμμικός συνδυασμός των δηλ., Δοθέντων των, η διαδικασία υπολογισμού των βαρών είναι γραμμική. Πόσο λογικό είναι αυτό;; Από τη σκοπιά της αριθμητικής ανάλυσης αυτό δικαιολογείται αν οι είναι συναρτήσεις παρεμβολής. Από τη σκοπιά της αναγνώρισης προτύπων, αυτό δικαιολογείται από το θεώρημα του Cover.
41 Χωρητικότητα του l -διάστατου χώρου σε γραμμικές διχοτομήσεις Έστω N σημεία στον χώρο που υποθέτουμε ότι βρίσκονται σε γενική θέση, δηλαδή: Καμία ομάδα τέτοιων σημείων δεν βρίσκεται σε έναν διάστατο χώρο.
42 Το θεώρημα του Cover λέει: Ο αριθμός των ομαδοποιήσεων που μπορούν να υλοποιηθούν από ( l-1 )- διάστατα υπερεπίπεδα προκειμένου να διαχωριστούν N σημεία σε δύο κλάσεις είναι Example: N=4, l=2, O(4,2)=14 Σημείωση:Ο συνολικός αριθμός δυνατών ομαδοποιήσεων είναι 2 4 =16
43 Η πιθανότητα ομαδοποίησης N σημείων σε δύο γραμμικώς διαχωρίσιμες κλάσεις είναι
44 Έτσι, η πιθανότητα να έχουμε N σημεία σε γραμμικώς διαχωρίσιμες κλάσεις τείνει στο 1, για μεγάλο, υπό την προϋπόθεση ότι N<2( +1) Έτσι, απεικονίζοντας σε χώρο υψηλότερης διάστασης, αυξάνουμε την πιθανότητα γραμμικού διαχωρισμού, υπό την προϋπόθεση ότι ο χώρος δεν παρουσιάζει μεγάλη πυκνότητα σε σημεία δεδομένων.
45 Δίκτυα συνάρτησης ακτινικής βάσης (Radial Basis Function Networks - RBF) Επέλεξε
46 Ισοδύναμο με ένα δίκτυο ενός κρυφού επιπέδου με RBF συναρτήσεις ενεργοποίησης και γραμμικό νευρώνα εξόδου.
47 Παράδειγμα: Το πρόβλημα XOR Ορίζουμε:
48
49 Εκπαίδευση δικτύων RBF Σταθερά κέντρα: Επέλεξε τα κέντρα με τυχαίο τρόπο από το σύνολο δεδομένων. Επίσης, σταθεροποίησε τα σ i ’s. Τότε είναι ένα τυπικό πρόβλημα σχεδίασης γραμμικού ταξινομητή. Εκπαίδευση των κέντρων: Πρόκειται για ένα μη γραμμικό πρόβλημα βελτιστοποίησης Συνδυασμός τεχνικών εκπαίδευσης με επίβλεψη και χωρίς επίβλεψη. Το χωρίς επίβλεψη τμήμα αποκαλύπτει τάσεις ομαδοποίησης των δεδομένων και αντιστοιχεί τα κέντρα των RBF νευρώνων στους αντιπροσώπους των ομάδων (clusters)
50 Μοντέλα καθολικής προσέγγισης (Universal Approximators) Έχει αποδειχθεί ότι οποιαδήποτε μη γραμμική συνεχής συνάρτηση μπορεί να προσεγγιστεί αυθαίρετα κοντά, τόσο από ένα perceptron δύο επιπέδων, με νευρώνες σιγμοειδούς συναρτήσεων ενεργοποίησης, όσο και από ένα δίκτυο RBF, υπό την προϋπόθεση ότι χρησιμοποιείται αρκούντως μεγάλος αριθμός νευρώνων. Perceptrons πολλών επιπέδων vs. Δικτύων RBF MLP’s περιλαμβάνουν ενεργοποιήσεις ολικής φύσης. Ένας κόμβος εδώ δίνει την ίδια απόκριση για όλα τα σημεία του επιπέδου. Τα δίκτυα RBF παρουσιάζουν ενεργοποίηση τοπικής φύσης, λόγω της εκθετικής μείωσης καθώς απομακρυνόμαστε από το κέντρο ενός κόμβου. Τα MLP’s μαθαίνουν πιο αργά αλλά παρουσιάζουν καλύτερες ικανότητες γενίκευσης
51 Μηχανές διανυσματικής στήριξης: Η μη γραμμική περίπτωση Υπενθυμίζουμε ότι η πιθανότητα για γραμμικώς διαχωρίσιμες κλάσεις αυξάνει καθώς η διάσταση των διανυσμάτων χαρακτηριστικών αυξάνει. Θεωρείστε την απεικόνιση: Στη συνέχεια χρησιμοποιήστε SVM στον R k Θυμηθείτε ότι στην περίπτωση αυτή το δυϊκό πρόβλημα θα είναι
52 Επίσης ο ταξινομητής θα είναι Έτσι, εμπλέκονται εσωτερικά γινόμενα στο χώρο υψηλής διάστασης. Έτσι, έχουμε Υψηλή υπολογιστική πολυπλοκότητα
53 Κάτι έξυπνο: Υπολόγισε τα εσωτερικά γινόμενα στον χώρο υψηλής διάστασης σαν συνάρτηση των εσωτερικών γινομένων στο χώρο χαμηλής διάστασης!!! Είναι αυτό ΔΥΝΑΤΟ?? Ναι. Να ένα παράδειγμα Τότε, είναι εύκολο να δείξουμε ότι
54 Θεώρημα του Mercer Τότε, το εσωτερικό γινόμενο στο χώρο H όπου για οποιαδήποτε g(x), x : K(x,y) είναι συμμετρική συνάρτηση γνωστή ως πυρήνας (kernel).
55 Ισχύει επίσης και το αντίθετο. Κάθε πυρήνας, με τις παραπάνω ιδιότητες, αντιστοιχεί σε εσωτερικό γινόμενο σε ΚΑΠΟΙΟ χώρο!!! Παραδείγματα πυρήνων Συναρτήσεις ακτινικής βάσης (Radial basis Functions): Πολυωνυμικές: Συνάρτηση υπερβολικής εφαπτομένης: για κατάλληλες τιμές των β, γ.
56 Διατύπωση του SVM Βήμα 1:Επέλεξε κατάλληλο πυρήνα. Αυτή η ενέργεια υπονοεί την απεικόνιση σε ένα (άγνωστο) χώρο υψηλότερης διάστασης. Βήμα 2: Αυτό καταλήγει σε έναν υπονοούμενο συνδυασμό
57 Βήμα 3:Καταχώρησε το x στην Η αρχιτεκτονική SVM
58
59 Παράδειγμα: Έστω x1=(2,1), x2=(1,2), x3=(0,1), x4=(1,0), x5=(3,1), x6=(1,3), x7=(-1,1), x8=(1,-1). Τα 4 πρώτα ανήκουν στην κατηγορία +1 και τα υπόλοιπα στην κατηγορία -1 (x 1,x 2 ) - (x 1 2, x 2 2, sqrt(2)x 1 x 2 )
60 Παράδειγμα: Έστω x1=(1,0), x2=(0,1), x3=(-1,0), x4=(0,-1), x5=(2,0), x6=(0,2), x7=(-2,0), x8=(0,-2). Τα 4 πρώτα ανήκουν στην κατηγορία +1 και τα υπόλοιπα στην κατηγορία -1 (x 1,x 2 ) - (x 1 2, x 2 2, sqrt(2)x 1 x 2 )
61 Δένδρα Απόφασης Πρόκειται για μια οικογένεια μη γραμμικών ταξινομητών. Είναι συστήματα απόφασης πολλών σταδίων (multistage), όπου οι κλάσεις απορρίπτονται διαδοχικά (sequentially), έως ότου φτάσουμε σε μια κλάση που θα είναι τελικά αποδεκτή. Για το λόγο αυτό: Ο χώρος των χαρακτηριστικών τεμαχίζεται σε μοναδικές περιοχές με έναν ακολουθιακό τρόπο. Με την άφιξη ενός διανύσματος χαρακτηριστικών, λαμβάνονται διαδοχικές αποφάσεις καταχώρησης χαρακτηριστικών σε συγκεκριμένες περιοχές, ακολουθώντας ένα μονοπάτι κόμβων (nodes) ενός κατάλληλα κατασκευασμένου δένδρου. Η ακολουθία των αποφάσεων εφαρμόζεται σε μεμονωμένα χαρακτηριστικά και οι ερωτήσεις που εξετάζονται σε κάθε κόμβο είναι του τύπου: είναι το χαρακτηριστικό όπου α είναι ένα προεπιλεγμένο κατώφλι (επιλέγεται κατά τη διάρκεια της εκπαίδευσης).
62 Τα παρακάτω σχήματα αντιστοιχούν σε τέτοια παραδείγματα. Τα δένδρα αυτού του τύπου είναι γνωστά ως Συνήθη Δυαδικά Δένδρα Ταξινόμησης (Ordinary Binary Classification Trees (OBCT)). Τα υπερπέπιπεδα απόφασης που διαιρούν το χώρο σε περιοχές, είναι παράλληλα στους άξονες του χώρου των δειγμάτων. Άλλοι τύποι διαίρεσης του χώροι είναι επίσης δυνατοί, παρότι είναι λιγότερο δημοφιλείς.
63 Σχεδιαστικά στοιχεία που ορίζουν ένα δένδρο απόφασης. Κάθε κόμβος, t, αντιστοιχεί σε ένα υποσύνολο, όπου X είναι το σύνολο εκπαίδευσης. Σε κάθε κόμβο, το αντίστοιχο σύνολο, X t διαιρείται σε δύο (δυαδική διαίρεση) ξένα μεταξύ τους υποσύνολα-απογόνους X t,Y and X t,N, ώστε X t,Y X t,N = Ø X t,Y X t,N = X t X t,Y είναι το υποσύνολο του X t για το οποίο η απάντηση στην ερώτηση του κόμβου t είναι ΝΑΙ. X t,N είναι το υποσύνολο που αντιστοιχεί στο ΟΧΙ. Η διαίρεση αποφασίζεται με βάση την ερώτηση (query) που υιοθετείται.
64 Ένα κριτήριο διαμερισμού πρέπει να υιοθετηθεί προκειμένου να επιτευχθεί η βέλτιστη διαμέριση του X t στα X t,Y και X t,N. Ένα κριτήριο τερματισμού-διαμέρισης (stop-splitting) πρέπει να υιοθετηθεί προκειμένου να ελεγχθεί η ανάπτυξη του δένδρου έως τους τερματικούς κόμβους (φύλλα – leafs). Απαιτείται ένας κανόνας καταχώρησης ενός τερματικού κόμβου σε μία κατηγορία.
65 Σύνολο ερωτήσεων: Στα δένδρα OBCT το σύνολο των ερωτήσεων είναι του τύπου είναι ; Η επιλογή του συγκεκριμένου χαρακτηριστικού x i και της τιμής του κατωφλίου α, για κάθε κόμβο t, είναι το αποτέλεσμα αναζήτησης, κατά την εκπαίδευση, ανάμεσα στα χαρακτηριστικά και ένα σύνολο από δυνατές τιμές κατωφλίου. Ο τελικός συνδυασμός είναι αυτός που οδηγεί στη βέλτιστη τιμή ενός κατάλληλου κριτηρίου.
66 Κριτήριο διαίρεσης: Η κύρια ιδέα πίσω από τη διαίρεση σε κάθε κόμβο είναι τα υποσύνολα-απόγονοι X t,Y και X t,N που θα προκύψουν να παρουσιάζουν μεγαλύτερο βαθμό ομογενοποίησης ως προς τις κλάσεις, σε σχέση με αυτόν του X t. Έτσι το κριτήριο που θα επιλεγεί θα πρέπει να είναι σε συμφωνία με αυτόν το στόχο. Ένα συχνά χρησιμοποιούμενο κριτήριο είναι ο βαθμός μη-καθαρότητας ενός κόμβου (node impurity): και όπου είναι ο αριθμός των στοιχείων τουσυνόλου X t, τα οποία ανήκουν στην κλάση i. Η μείωση της μη-καθαρότητας ενός κόμβου (decrease in node impurity) ορίζεται ως:
67 Ο στόχος είναι να επιλεγούν σε κάθε κόμβο εκείνοι οι παράμετροι (χαρακτηριστικό και κατώφλι), που οδηγούν σε μία διαίρεση, η οποία παρουσιάζει τη μεγαλύτερη δυνατή μείωση της μη-καθαρότητας. Γιατί η μεγαλύτερη δυνατή μείωση; Παρατηρείστε ότι η μέγιστη τιμή για την I(t) λαμβάνεται όταν όλες οι κλάσεις είναι ισοπίθανες, δηλ. όταν το X t παρουσιάζει τον ελάχιστο δυνατό βαθμό ομογενοποίησης. Κανόνας τερματισμού διαίρεσης. Υιοθέτησε ένα κατώφλι T και σταμάτα την περαιτέρω διαίρεση ενός κόμβου (δηλ. καταχώρησέ τον σαν φύλλο-τερματικό κόμβο), αν η μείωση της μη-καθαρότητας είναι μικρότερη από T. Δηλ. όταν ο κόμβος t είναι “αρκετά καθαρός”. Κανόνας αντιστοίχησης σε κλάση: Καταχώρησε ένα φύλλο στην κλάση j, για την οποία:
68 Summary of an OBCT algorithmic scheme:
69 Παρατηρήσεις: Ένας κρίσιμος παράγοντας κατά τη φάση σχεδιασμού είναι το μέγεθος του δένδρου. Συνήθως το δένδρο αναπτύσσεται έως ότου φτάσει σε μεγάλο μέγεθος και στη συνέχεια εφαρμόζονται διάφορες τεχνικές κλαδέματος (pruning). Τα δένδρα απόφασης ανήκουν στην κατηγορία των ασταθών (unstable) ταξινομητών. Αυτό μπορεί να αντιμετωπιστεί με τεχνικές «μέσου όρου» (“averaging” techniques). Π.χ. χρησιμοποιώντας τεχνικές bootstrapping στο X, κατασκευάζονται διάφορα δένδρα, T i, i=1, 2, …, B. Η απόφαση ταξινόμησης λαμβάνεται με βάση έναν κανόνα πλειοψηφίας (majority voting).
70 Συνδυάζοντας ταξινομητές Η βασική φιλοσοφία πίσω από το συνδυασμό διαφορετικών ταξινομητών βασίζεται στο γεγονός ότι ακόμα και ο «καλύτερος» ταξινομητής αποτυγχάνει σε μερικά διανύσματα όπου άλλοι ταξινομητές μπορεί να δώσουν σωστή ταξινόμηση. Ο συνδυασμός ταξινομητών σκοπεύει στην εκμετάλλευση αυτής της συμπληρωματικής πληροφορίας (complementary information) που δίνεται από διάφορους ταξινομητές. Έτσι κάποιος σχεδιάζει διαφορετικούς βέλτιστους ταξινομητές και στη συνέχεια συνδυάζει τα αποτελέσματα με βάση ένα συγκεκριμένο κανόνα. Έστω ότι καθένας από τους, L ταξινομητές που σχεδιάστηκαν δίνει στην έξοδό του τις εκ των υστέρων πιθανότητας
71 Κανόνας γινομένου: Καταχώρησε το στην κλάση : όπου είναι η αντίστοιχη εκ των υστέρων πιθανότητα του j th ταξινομητή. Κανόνας άθροισης: Καταχώρησε το στην κλάση :
72 Κανόνας πλειοψηφίας: Καταχώρησε το στην κλάση για την οποία υπάρχει ομοφωνία ή όταν τουλάχιστον από τους ταξινομητές συμφωνούν στην κλάση Διαφορετικά η απόφαση είναι απόρριψη (rejection), δηλ. δεν λαμβάνεται καμία απόφαση. Έτσι σωστή απόφαση λαμβάνεται όταν η πλειοψηφία των ταξινομητών συμφωνεί με τη σωστή κατηγορία και λάθος όταν η πλειοψηφία συμφωνεί με μία λάθος κατηγορία.
73 Εξαρτημένοι ή ανεξάρτητοι ταξινομητές; Παρότι δεν υπάρχουν γενικά θεωρητικά αποτελέσματα, το πείραμα έδειξε ότι όσο πιο ανεξάρτητοι είναι οι ταξινομητές ως προς τις αποφάσεις τους, τόσο πιο πολύ αναμένεται η λήψη βελτιωμένων αποτελεσμάτων μετά το συνδυασμό των επιμέρους αποφάσεων. Ωστόσο, δεν υπάρχει εγγύηση ότι ο συνδυασμός ταξινομητών οδηγεί σε καλύτερη απόδοση συγκρινόμενος με την απόδοση του “καλύτερου” ανάμεσα στους ταξινομητές. Προς την ανεξαρτησία: Δυνατά σενάρια Εκπαίδευση μεμονωμένων ταξινομητών χρησιμοποιώντας διαφορετικά διανύσματα δεδομένων. Εδώ κάποιος έχει αρκετές επιλογές: –Bootstrapping: Πρόκειται για μία δημοφιλή τεχνική για το συνδυασμό ασταθών ταξινομητών, όπως είναι τα δένδρα απόφασης.
74 –Stacking: Εκπαίδευση του συνδυαστή με δεδομένα που δεν έχουν χρησιμοποιηθεί για την εκπαίδευση των μεμονωμένων ταξινομητών. –Χρήση διαφορετικών υποχώρων για την εκπαίδευση μεμονωμένων ταξινομητών: Σύμφωνα μ’ αυτή τη μέθοδο, κάθε μεμονωμένος ταξινομητής εκπαιδεύεται σε διαφορετικό υπόχωρο του χώρου των χαρακτηριστικών. Δηλ. χρησιμοποιούνται διαφορετικά χαρακτηριστικά για κάθε ταξινομητή.
Παρατηρήσεις: Οι κανόνες πλειοψηφία και αθροίσματος συγκαταλέγονται ανάμεσα στα πιο δημοφιλή συνδυαστικά σχήματα. Η εκπαίδευση των μεμονωμένων ταξινομητών σε διαφορετικούς υποχώρους του χώρου των χαρακτηριστικών φαίνεται να οδηγεί σε σημαντικά καλύτερα αποτελέσματα σε σχέση με την περίπτωση όπου οι ταξινομητές εκπαιδεύονται στον ίδιο υπόχωρο. Εκτός από τους τρεις παραπάνω κανόνες, μπορούν να υιοθετηθούν και άλλοι όπως η τιμή της διαμέσου (Median value) των εξόδων των μεμονωμένων ταξινομητών. 75
76 The Boosting Approach The origins: Is it possible a weak learning algorithm (one that performs slightly better than a random guessing) to be boosted into a strong algorithm? (Villiant 1984). The procedure to achieve it: Adopt a weak classifier known as the base classifier. Employing the base classifier, design a series of classifiers, in a hierarchical fashion, each time employing a different weighting of the training samples. Emphasis in the weighting is given on the hardest samples, i.e., the ones that keep “failing”. Combine the hierarchically designed classifiers by a weighted average procedure.
77 The AdaBoost Algorithm. Construct an optimally designed classifier of the form: where: where denotes the base classifier that returns a binary class label: is a parameter vector.
78 The essence of the method. Design the series of classifiers: The parameter vectors are optimally computed so as: –To minimize the error rate on the training set. –Each time, the training samples are re-weighted so that the weight of each sample depends on its history. Hard samples that “insist” on failing to be predicted correctly, by the previously designed classifiers, are more heavily weighted.
79 Updating the weights for each sample – Z m is a normalizing factor common for all samples. – where P m 0. –The term: takes a large value if (wrong classification) and a small value in the case of correct classification –The update equation is of a multiplicative nature. That is, successive large values of weights (hard samples) result in larger weight for the next iteration
80 The algorithm
81 Remarks: Training error rate tends to zero after a few iterations. The test error levels to some value. AdaBoost is greedy in reducing the margin that samples leave from the decision surface.