Επιβλεπόμενη Μηχανική Εκμάθηση ΙI

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Ειδικότερα ζητήματα Πρόσβασης τρίτου
Advertisements

ΜΑΚΙΓΙΑΖ.
ΨΥΧΟΠΑΙΔΑΓΩΓΙΚΟ ΥΛΙΚΟ ΒΡΕΦΟΝΗΠΙΑΚΟΥ ΣΤΑΘΜΟΥ
Nacionalno računovodstvo
KVANTITATIVNE METODE U GRAĐEVINSKOM MENADŽMENTU
«Ο ΔΗΜΟΤΙΚΟΣ ΚΗΠΟΣ ΤΟΥ ΤΑΞΙΜΙΟΥ»
2. VAJA – sile ob dotiku in na daljavo
RADAR ZA PLOVILO ESMO Laboratorij za Sevanje in Optiko
תנועה הרמונית מטוטלת – חלק ב'.
Pasiruošimas “Elektros” skyriaus laboratoriniams darbams
הסקה על פרופורציה באוכלוסייה
ΧΡΗΣΤΟΓΛΟΥ ΙΩΑΝΝΗΣ ΓΕΝ
Κοινωνία, παραβατικές συμπεριφορές, πολιτική καταστολή
ΚΟΙΝΩΝΙΚΗ ΚΑΙ ΑΛΛΗΛΕΓΓΥΑ ΟΙΚΟΝΟΜΙΑ ΚΑΙ ΑΝΑΠΤΥΞΗ ΤΩΝ ΦΟΡΕΩΝ ΤΗΣ
ΔΙΑΤΑΡΑΧΕΣ ΟΞΕΟΒΑΣΙΚΗΣ ΙΣΟΡΡΟΠΙΑΣ
Επανάληψη.
ΑΝΑΛΥΤΙΚΗ ΧΗΜΕΙΑ Εισαγωγή.
ΑΡΙΘΜΟΔΕΙΚΤΕΣ ΔΡΑΣΤΗΡΙΟΤΗΤΑΣ
Διαχείριση Κινδύνου* *Η σειρά παρουσιάσεων για το μάθημα «Διαχείριση Κινδύνου» βασίζεται στο σύγγραμμα των Σχοινιωτάκη, Ν., και Συλλιγάρδου Γ., «Διαχείριση.
ΣΑΕ ΙΙ – ΥΔΡΑΥΛΙΚΑ & ΠΝΕΥΜΑΤΙΚΑ ΣΥΣΤΗΜΑΤΑ
Εργασία στο μάθημα της Βιολογίας της Ά λυκείου του μαθητή Γεώργιου Μ.
Κεφάλαιο 6 οι φίλοι μας, οι φίλες μας
ΜΑΘΗΜΑΤΙΚΑ ΓΙΑ ΟΙΚΟΝΟΜΟΛΟΓΟΥΣ (Κ105)
Επαγγέλματα στο Βυζάντιο
Μορφές & Διαδικασίες Αξιολόγησης
ΗΛΕΚΤΡΟΜΥΟΓΡΑΦΗΜΑ.
Εισαγωγή στη Ρομποτική
Λέκτορας Κώστας Κορδάς Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Κάνε κλικ σε κάθε λέξη για να δεις τη σημασία
Μεσαιωνικό Κάστρο Λεμεσού
ΕΠΑΝΑΛΗΨΗ ΓΕΩΜΕΤΡΙΑ 5Ο ΚΕΦ.
ΑΣΚΗΣΕΙΣ ΣΤΟ ΜΑΘΗΜΑ ΤΗΣ ΓΛΩΣΣΑΣ
Δρ. ΚΥΡΙΑΖΟΠΟΥΛΟΣ ΓΕΩΡΓΙΟΣ
Καδράκι ‘‘Ο Χριστός σώζει τον Πέτρο από τον καταποντισμό στα κύματα’’
Πυρηνική Φυσική και Φυσική Στοιχειωδών Σωματιδίων (5ου εξαμήνου, χειμερινό ) Τμήμα T3: Κ. Κορδάς & Χ. Πετρίδου Μάθημα 4 Mέγεθος πυρήνα Κώστας.
Η προβληματική των γενικών σκοπών και των ειδικών στόχων:
Σχεδιασμός και Οργάνωση του μαθήματος
Διαφορές και Ομοιότητες Κερδοσκοπικών και Μη Κερδοσκοπικών Οργανισμών
Put Options.
Χονδρός Παναγιώτης Σοφού Ειρήνη Μυρογιάννη Χρύσα Καλαϊτζή Κατερίνα
Εισηγητής: Ιωάννης Χρήστογλου Γεν. Διευθυντής Δ.Ε.Υ.Α. Κατερίνης
Καλαματα Η ιστορία της.
Ψηφιακές Επικοινωνίες Ι
Ψηφιακές Τηλεπικοινωνιές
Αθανάσιος Κ. Ρισβάς.
Η Γαλλική Επανάσταση.
ΠΥΡΟΣΒΕΣΤΙΚΟ ΣΩΜΑ.
Η ΤΕΧΝΗ ΣΤΗΝ ΑΡΧΑΪΚΗ ΕΠΟΧΗ
Απέκκριση Οι δυο κύριες οδοί απομάκρυνσης των φαρμάκων από τον οργανισμό, είναι αφ ενός ο μεταβολισμός τους στο ήπαρ, που μόλις εξετάσαμε, και αφ ετέρου.
ΜΥΕ003-ΠΛΕ70: Ανάκτηση Πληροφορίας
Τα πολιτικά κόμματα Ορισμός: α) η κατάκτηση της πολιτικής εξουσίας, β) μόνιμη οργάνωση σε όλη την επικράτεια, γ) λαϊκή στήριξη Λειτουργίες: -α) ενοποίηση-εναρμονισμός.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Μύκητας Κεφίρ και Σπόροι Κεφίρ είναι το ίδιο πράγμα.
ΗΜΕΡΟΛΟΓΙΟ.
Το παιδί που πεθαίνει.
ΤΟ ΜΑΓΝΗΤΙΚΟ ΠΕΔΙΟ ΜΕΣΑ ΣΤΗΝ ΥΛΗ
Οργανική Χημεία Ενότητα 1: Χημεία του Άνθρακα Χριστίνα Φούντζουλα
Πεντηκονταετία π.Χ..
Ψηφιακές Τηλεπικοινωνιές
Σύντομη Παρουσίαση Τόμος 2. Κεφάλαιο 2 «Στοιχεία Επικοινωνίας»
Αρχαία Ολυμπία Μυρσίνη Μαλίογκα Ε΄
3.
Τ.Ε.Ι. Κρήτης Σχολή Τεχνολογικών Εφαρμογών Τμ. Μηχανικών Πληροφορικής
ΕΛΕΥΘΕΡΟΣ ΧΡΟΝΟΣ.
Μερκ. Παναγιωτόπουλος - Φυσικός
ΑΘΛΗΤΙΣΜΟΣ ΚΑΙ ΜΥΙΚΟ ΣΥΣΤΗΜΑ
ΤΟ ΦΩΣ ΩΣ ΑΥΤΟΝΟΜΗ ΦΥΣΙΚΗ ΟΝΤΟΤΗΤΑ
Μάθημα: ΕΙΣΑΓΩΓΗ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΕΙΔΙΚΗΣ ΑΓΩΓΗΣ
Εισαγωγή στη Διοικητική Λογιστική
Μεταγράφημα παρουσίασης:

Επιβλεπόμενη Μηχανική Εκμάθηση ΙI Ταξινομητές μεγίστου περιθωρίου, Kernel μέθοδοι και ο SVM Δρ. Δημήτρης Καστανιώτης ΔΜΠΣ Ηλεκτρονική και Επεξεργασία Πληροφορίας 2017 Υπολογιστική Όραση και Μηχανική Εκμάθηση This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" Στόχος του μαθήματος Να παρουσιάσει τους ταξινομητές μέγιστου περιθωρίου Να αναδείξει τις Kernel προσεγγίσεις στο χώρο της μηχανικής Να παρουσιάσει τον ταξινομητή Support Vector Machine (SVM) Εύρεση υπερπαραμέτρων- Επιλογή μοντέλου ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Ανασκόπηση προηγούμενου μαθήματος Είδαμε ταξινομητές που προσεγγίζουν το πρόβλημα προσπαθώντας να εκτιμήσουν τη διαδικασία που παράγει τα δεδομένα. Βασίζονται δε, σε Discriminant functions και αναθέτουν το κάθε δείγμα στην κλάση με την μέγιστη απόκριση Η περιοχή απόφασης μπορεί να είναι οποιαδήποτε περιοχή χωρίζει τα δεδομένα- Αυτό μπορεί να επηρεάσει τη γενίκευση Απεικόνιση σε χώρο μεγαλύτερης διάστασης- εξάρτηση διάστασης επίδοσης ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" Στο σημερινό μάθημα Πως μπορούμε να βρούμε την «βέλτιστη» περιοχή απόφασης Πως μπορούμε να εξασφαλίσουμε τη γενίκευση όταν χρησιμοποιούμε απεικονίσεις σε μεγάλο αριθμό διαστάσεων Πως μπορούμε να οδηγηθούμε σε μια διατύπωση που θα μας επιτρέψει να ελαχιστοποιήσουμε το περιθώριο λάθους Απεικόνιση σε χώρο μεγαλύτερης διάστασης(ακόμη και άπειρης) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Ένας απλός ταξινομητής Από τη μεσοκάθετο στον ταξινομητή Bayes και τις kernel τεχνικές Έστω ότι μας δίνονται τα : ( 𝑥 1 , 𝑦 1 ,…, 𝑥 𝑛 , 𝑦 𝑛 ) Υπολογίζουμε το μέσο στοιχείο κάθε κλάσης 𝑐 + = 𝑖| 𝑦 𝑖 =+1 𝑥 𝑖 και 𝑐 − = 𝑖| 𝑦 𝑖 =−1 𝑥 𝑖 Ένα δειγμα 𝑥 ανατίθεται στην κλάση -1 ή +1 σύμφωνα με: y=sgn= 𝑥−𝑐 ,𝑤 = = 𝑥−( 𝑐 + − 𝑐 − )/2 , 𝑐 + − 𝑐 − = =sgn 𝑥, 𝑐 + − 𝑥, 𝑐 − +𝑏 , όπου 𝑏= 1 2 ( 𝑐 − 2 − 𝑐 + 2 ) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" Dual Representation Στο παρόν μάθημα θα μας απασχολήσει ιδιαίτερα η χρήση της dual αναπαράστασης Αυτή η αναπαράσταση αναφέρεται στην περίπτωση όπου τα δεδομένα μας εκφράζονται αποκλειστικά και μόνο χρησιμοποιώντας εκφράσεις των ίδιων των χαρακτηριστικών Για παραδειγμα, παρατηρήστε ότι η μεταβλητή 𝑤 εκφράζεται ως συνδυασμός των χαρακτηριστικών διανυσμάτων και των κέντρων των κλάσεων y=sgn= 𝑥−𝑐 ,𝒘 =sgn 𝑥, 𝑐 + − 𝑥, 𝑐 − +𝑏 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Εσωτερικά γινόμενα- Δημιουργία Kernel Είδαμε ότι έχουμε μια έκφραση εσωτερικών γινομένων Η έκφραση αυτή συνδέεται με τη δημιουργία των Kernel Οι Kernels που θα μας απασχολήσουν εδώ προκύπτουν αποκλειστικά χρησιμοποιώντας εσωτερικά γινόμενα μεταξύ διανυσμάτων y=sgn= 𝑥−𝑐 ,𝒘 =sgn 𝑥, 𝑐 + − 𝑥, 𝑐 − +𝑏 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Kernels

ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" Kernels Εκφράζουν ομοιότητες (συγκρίσεις) μεταξύ των χαρακτηριστικών Έστω X={ 𝑥 1 , 𝑥 2 , 𝑥 3 } τρία διανύσματα στον ℝ 2 𝑥 1 =[0.1 0.2], 𝑥 2 =[1.2 0.8] and 𝑥 3 =[−0.2 0.3] 𝑘:𝑋×𝑋→ ℝ Συνεπώς εάν σχεδιάσουμε αλγορίθμους που εργάζονται στον χώρο αυτό μπορούμε να εργαστούμε με δεδομένα οποιουδήποτε τύπου (κείμενο, διανύσματα, πίνακες, Γράφους κ.α.) 0.0500 0.2800 0.0400 0.2800 2.0800 0.0000 0.0400 0.0000 0.1300 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" Kernels Δημιουργούνται υπολογίζοντας το εσωτερικό γινόμενο μιας συνάρτησης (γραμμικής ή μη) των χαρακτηριστικών του αρχικού χώρου. Απεικονίζει τα διανύσματα στον ℝ Ορίζουμε λοιπόν μια συνάρτηση ως Kernel: 𝑘:𝑋×𝑋→ℝ 𝑘 𝑥 𝑖 , 𝑥 𝑗 = 𝜑(𝑥 𝑖 ), 𝜑( 𝑥 𝑗 ) Ως μια απεικόνιση στο Hilbert Space F k 𝜑(𝑥 𝑖 ), 𝜑( 𝑥 𝑗 ) = 𝑘=1 𝑑 𝜑(𝑥 𝑖,𝑘 ), 𝜑( 𝑥 𝑗,𝑘 ) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" Kernels Δημιουργούνται υπολογίζοντας το εσωτερικό γινόμενο μιας συνάρτησης (γραμμικής ή μη) των χαρακτηριστικών του αρχικού χώρου. Η συνάρτηση αυτή λέγεται kernel συνάρτηση. Μας επιτρέπουν να εκφράσουμε τα δεδομένα ως εσωτερικά γινόμενα Η απεικόνιση των δεδομένων σε πολύ μεγάλη διάσταση με την χρήση των Kernels δεν αυξάνει την υπολογιστική πολυπλοκότητα Μπορούμε να διατυπώσουμε αλγορίθμους στο χώρο των Kernel Gram Matrices, Symmetric Positive Definite, Hilbert Spaces ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Kernels- Mercers Theorem Gram Matrix: Πίνακας συμμετρικός, θετικά ημιορισμένος (θετικές ιδιοτιμές) Προκύπτει από τα εσωτερικά γινόμενα διανυσμάτων 𝑥 𝑖 , 𝑦 𝑖 Mercer Theorem: Έστω 𝑘: ℝ 𝑑 × ℝ 𝑑 →ℝ μια συνάρτηση απεικόνισης Για να είναι αποδεκτός “Kernel” είναι απαραίτητο και αρκεί ο “Kernel” που προκύπτει να είναι Symmetric and Positive Semi- definite 𝑥 𝑇 𝐾𝑥≥0 𝛾𝜄𝛼 𝜅𝛼𝜃𝜀 𝜇𝜂 𝜇𝜂𝛿𝜀𝜈𝜄𝜅ό 𝑥∈ ℝ 𝑑 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" Kernel Trick Στο προηγούμενο μάθημα είδαμε ότι μπορούμε να απεικονίσουμε τα δεδομένα μας σε ένα χώρο μεγαλύτερης διάστασης Σε αυτό το χώρο τα δεδομένα μας είναι γραμμικά διαχωρίσιμα Το Kernel Trick μας επιτρέπει να αποφύγουμε την απεικόνιση σε ένα χώρο μεγαλύτερης διάστασης καθώς τα δεδομένα ανεξάρτητα αυτής αναπαρίστανται ως εσωτερικά γινόμενα ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" Kernel Functions Τι είναι οι Kernels; Ποιες συναρτήσεις μπορούμε να χρησιμοποιήσουμε; Οι πιο δημοφιλείς είναι: Radial Basis Function Polynomial Sigmoid ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Kernel Functions- Radial Basis Functions K RBF 𝑥, 𝑥 𝑗 = exp −𝛾 𝑥− 𝑥 𝑗 2 exp x− x j 2 = exp −𝑥 2 exp − 𝑥 𝑗 2 exp 2𝑥 𝑥 𝑗 = = exp −𝑥 2 exp − 𝑥 𝑗 2 𝑘=0 ∞ 2 𝑘 (𝑥 𝑘 )( 𝑥 𝑗 𝑘 ) 𝑘! exp 𝑥 = 𝑘=0 ∞ 1 𝑘! 𝑥 𝑘 Polynomial Kernel of infinite degree ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Kernel Functions- Polynomial Επιβεβαιώστε το Kernel Functions- Polynomial K P 𝑥, 𝑥 𝑗 = 𝒙,𝒚 𝟐 = = 𝑥 1 𝑦 1 + 𝑥 2 𝑦 2 2 = = 𝑥 1 2 𝑦 1 2 +2 𝑥 1 𝑦 1 𝑥 2 𝑦 2 +𝑥 2 2 𝑦 2 2 = = ( 𝑥 1 2 , 2 𝑥 1 𝑥 2 , 𝑥 2 2 ),( 𝑦 1 2 , 2 𝑦 1 𝑦 2 , 𝑦 2 2 ) = = 𝝋 𝒙 𝟏 ,𝝋( 𝒙 𝟐 ) Έστω: 𝑥,𝑦∈ ℝ 2 K P 𝑥, 𝑥 𝑗 ∈ ℝ ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Kernel Trick- αξιοποίηση της συνάρτησης απεικόνισης ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Kernel Trick- Διαχωρισμός κλάσεων LAB #2 Kernel Trick- Διαχωρισμός κλάσεων ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Δημιουργία νέων Kernel ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Representer Theorem Η Ελαχιστοποίηση στο Hilbert χώρο ισοδυναμεί με ελαχιστοποίηση στον ℝ 𝑛 Έστω ότι έχουμε την kernel συνάρτηση 𝑘:𝑋×𝑋→ℝ Ο ταξινομητής SVM επιλύει ένα πρόβλημα βελτιστοποίησης της μορφής: 𝑓 = arg min 1 𝑛 𝜄=1 𝑛 L( y i ,f( x i )) +𝝀 𝒇 𝑭 𝒌 𝟐 , 𝜆≥0 Στο πρόβλημα αυτό η 𝑓 μπορεί να διατυπωθεί ως: 𝑓 𝑥 = 𝜄=1 𝑛 α i K(x, x i ) Tikhonov Regularization- Impose stability ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" Dual Representation Γιατί είναι τόσο χρήσιμη η dual αναπαράσταση; Ειδικά για την περίπτωση των Kernel τεχνικών είναι εξαιρετικής σημασίας Αυτό διότι όπως θα δούμε, με το φορμαλισμό των Kernel, μπορούμε να αναπαραστήσουμε το σύνολο των δειγμάτων ως εσωτερικά γινόμενα Τα οφέλη από αυτό το φορμαλισμό είναι πολλά και θα προσπαθήσουμε να τα παρουσιάσουμε στην παρούσα διάλεξη ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Kernel Ridge Regression

ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" Dual Representation Ας δούμε λίγο ένα γνωστό σε εμάς πρόβλημα από την προηγούμενη άσκηση (linear regression, polynomial basis expansion) Σε αυτό το πρόβλημα θα χρησιμοποιήσουμε την Dual αναπαράσταση Θα γνωρίσουμε μια τεχνική που ονομάζεται Kernel Ridge Regression ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" LAB #1 Dual Representation Ridge Regression Kernel Ridge Regression Primal 𝑦 𝑒𝑠𝑡 = x Τ 𝒘=x Τ 𝝀 𝚰 𝐍 +𝑋 Χ Τ −1 Χ Τ 𝑦 𝑎= 𝑋 Χ Τ +𝜆 𝚰 N −1 𝑦= 𝑋 Χ Τ +𝜆 𝚰 N −1 𝑦 𝑦 𝑒𝑠𝑡 = x Τ Χ Τ 𝑎= 𝑖=1 𝑛 𝑎 𝑖 𝑥, 𝑥 𝑖 𝑤 = argmin 𝑤 𝑖=1 𝑛 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 2 + 𝜆 𝑊 2 𝒘= 𝝀 𝚰 𝐝 + Χ Τ 𝑋 −1 Χ Τ 𝑦 𝑦 𝑒𝑠𝑡 = x Τ 𝒘 Dual Reconstruction error Penalty Term Dual Εκφράζουμε την έξοδο ως συνάρτηση των δειγμάτων ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Dual Representation 𝑤 = argmin 𝑤 𝑖=1 𝑛 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 2 + 𝜆 𝑊 2 LAB # 1 Dual Representation Ridge Regression Kernel Ridge Regression Primal 𝑦 𝑒𝑠𝑡 = x Τ 𝒘=x Τ 𝜆 𝚰 𝐍 +𝑋 Χ Τ −1 Χ Τ 𝑦 𝑎= 𝑋 Χ Τ +𝜆Ι −1 𝑦= 𝑋 Χ Τ +𝜆 𝚰 N −1 𝑦 𝑦 𝑒𝑠𝑡 = x Τ Χ Τ 𝑎= 𝑖=1 𝑛 𝑎 𝑖 𝑥, 𝑥 𝑖 𝑤 = argmin 𝑤 𝑖=1 𝑛 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 2 + 𝜆 𝑊 2 𝒘= 𝜆 𝚰 𝐝 + Χ Τ 𝑋 −1 Χ Τ 𝑦 𝑦 𝑒𝑠𝑡 = x Τ 𝒘 Dual Εκφράζουμε την έξοδο ως συνάρτηση των δειγμάτων Reconstruction error Penalty Term Διάσταση ίση με την διάσταση των χαρακτηριστικών Διάσταση ίση με τον αριθμό των δειγμάτων. ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Dual Representation Γενικά: 𝑦= 𝑤,𝑥 +𝑏= 𝑖=1 𝑛 𝑎 𝑖 𝑦 𝑖 𝑥 𝑖 ,𝑥 +𝑏 𝑦= 𝑤,𝑥 +𝑏= 𝑖=1 𝑛 𝑎 𝑖 𝑦 𝑖 𝑥 𝑖 ,𝑥 +𝑏 Διάσταση ίση με τη διάσταση των διανυσμάτων Άθροισμα γινομένων ίσο με τον αριθμό των δειγμάτων 𝑤,𝑥 +𝑏= 𝑤 0 𝑥 0 + 𝑤 1 𝑥 1 +…+ 𝑤 𝑑 𝑥 𝑑 Στο σημερινό μάθημα ΔΕΝ θα ενσωματώσουμε το bias term στην έκφραση ( 𝑤 0 𝑥 0 ), καθώς θα χρειαστεί να κανονικοποιήσουμε το διάνυσμα 𝒘 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Kernel Ridge Regression Revisited LAB # 1 Kernel Ridge Regression Revisited Kernel Ridge Regression with RBF 𝐊= 𝜲 𝜯 𝑿 Linear Kernel (Inner Product) 𝐊 𝐑𝐁𝐅 =𝐞𝐱𝐩(−𝛄𝐃) 𝑦 𝑒𝑠𝑡 = x Τ 𝒘=x Τ 𝝀𝚰+ K RBF −1 Χ Τ 𝑦 𝑎= 𝐾+𝜆Ι −1 𝑦= K RBF +𝜆Ι −1 𝑦 𝑦 𝑒𝑠𝑡 = 𝑖=1 𝑛 𝑎 𝑖 𝐾 𝑅𝐵𝐹 (𝑥, 𝑥 𝑖 ) RBF Kernel 𝑦 𝑒𝑠𝑡 = x Τ 𝒘=x Τ 𝝀𝚰+ Χ Τ 𝑋 −1 Χ Τ 𝑦 𝑎= 𝐾+𝜆Ι −1 𝑦= 𝐾+𝜆Ι −1 𝑦 𝑦 𝑒𝑠𝑡 = 𝑖=1 𝑛 𝑎 𝑖 𝑥, 𝑥 𝑖 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Kernel Ridge Regression Revisited LAB # 1 Kernel Ridge Regression Revisited Kernel Ridge Regression with RBF ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Ταξινομητές μεγίστου περιθωρίου Στοιχεία Statistical Learning Theory

Δυαδικός Γραμμικός Ταξινομητής Έστω w∈ ℝ 𝑑 𝑔 𝑤 𝑥 = 𝑤 𝑡 𝑥= 𝑏+ 𝑤 1 𝑥 1 +…+ 𝑤 𝑑 𝑥 𝑑 =𝑤 0 𝑥 0 + 𝑤 1 𝑥 1 +…+ 𝑤 𝑑 𝑥 𝑑 Όπου 𝑥 0 =1και κατά συνέπεια: w∈ ℝ 𝑑+1 Απόφαση: 𝑓 𝑔 𝑤 𝑥 = 1 𝑖𝑓 𝑔 𝑥 ≥0 −1𝑖𝑓 𝑔 𝑥 <0 𝑦 𝑓 𝑔 𝑤 𝑥 >0 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" Perceptron Η έξοδος (ανάθεση ενός δείγματος x) δίνεται από την παρακάτω έκφραση 𝑦=𝑠𝑖𝑛𝑔( 𝑖=1 𝑑 𝑤 𝑖 𝑥 𝑖 ) -Online Learning rule -Stochastic gradient descent -Works only for linearly separable cases We need multilayer linear nets XOR Problem ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Δυαδικός Γραμμικός Ταξινομητής Η περιοχή απόφασης μπορεί να είναι οποιαδήποτε ευθεία χωρίζει τα δεδομένα μας ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Δυαδικός Γραμμικός Ταξινομητής 𝑥 2 Ταξινομητές μεγίστου περιθωρίου Η περιοχή απόφασης έχει τη μέγιστη παρέχει μια ζώνη ασφαλείας μεταξύ των δύο κλάσεων Το μέγιστο περιθώριο έχει πολλά Πλεονεκτήματα και αποτελεί την καρδιά του SVM ταξινομητή 𝑥 1 𝑤 𝑇 𝑥+𝑏=−1 𝑤 𝑇 𝑥+𝑏=1 𝑤 𝑇 𝑥+𝑏=0 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Η έννοια του μεγίστου περιθωρίου Η γενίκευση του μοντέλο εξαρτάται από: α. Το πλήθος των δειγμάτων β. Τον αριθμό των ευθείων που μπορούν να διχοτομήσουν τα δεδομένα μας Η εισαγωγή του περιθωρίου κατά μια έννοια περιορίζει τη δυνατότητα τα δεδομένα μας να διχοτομηθούν Ας κρατήσουμε την προηγούμενη φράση και ας δούμε κάποια ενδιαφέροντα στοιχεία ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Model Capacity and VC dimension Statistical Learning theory Περιορισμός του συνόλου των συναρτήσεων ώστε η χωρητικότητα να ταιριάζει με το πλήθος των διαθέσιμων δειγμάτων εκπαίδευσης Η θεωρία των Vapnik-Chevronenkins παρέχει όρια στο σφάλμα δοκιμής Η ελαχιστοποίηση αυτών των ορίων εξαρτάται από το εμπειρικό σφάλμα και την χωρητικότητα του μοντέλου οδηγεί στην αρχή του Structural Risk Minimization (SRM) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Model Capacity and VC dimension Για ένα γραμμικό μοντέλο η διάσταση αυτή μπορεί να οριστεί ως η διάσταση των χαρακτηριστικών +1 Διαισθητικά παρατηρώντας το παρακάτω γράφημα Τέσσερα σημεία δεν μπορούν να διαχωριστούν Τρία μπορούν να διαχωριστούν ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Model Capacity and VC dimension O SVM αποτελεί μια ιδιαίτερη περίπτωση Εξαναγκάζοντας το περιθώριο να είναι μέγιστο οδηγούμαστε σε περιορισμό της VC διάστασης 𝛾 𝛾 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Model Capacity and VC dimension O SVM αποτελεί μια ιδιαίτερη περίπτωση Εξαναγκάζοντας το περιθώριο να είναι μέγιστο οδηγούμαστε σε περιορισμό της VC διάστασης h=VC dimension (the maximum number of points that can be separated in all possible ways by the selected set of functions Test Error ≤ Training Error + Complexity of set of Models ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Support Vector Machines

Support Vector Machines LAB 2 Support Vector Machines Μόνο μερικά δείγματα Χρησιμοποιούνται ως support vectors Η περιοχή απόφασης ορίζεται από αυτά τα δείγματα Γραμμικά διαχωρίσιμη περίπτωση ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Support Vector Machines- Margins 𝑥 2 Ο SVM υπολογίζει την ευθεία για την οποία μεγιστοποιείται το περιθώριο μεταξύ των δύο κατηγοριών ( γραμμικά διαχωρίσιμα δεδομένα) Τώρα θα δείξουμε πως προκύπτουν αυτές οι ευθείες, γιατί τα σημεία εκατέρωθεν της περιοχής απόφασης που βρίσκονται πάνω στις δύο ευθείες (πορτοκαλί ευθείες) 𝑥 1 𝑤 𝑇 𝑥+𝑏=−1 𝑤 𝑇 𝑥+𝑏=1 𝑤 𝑇 𝑥+𝑏=0 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Functional Margin Ταξινόμηση σε μια κατηγορία -1,1 σύμφωνα με 𝑦=1 , ό𝜏𝛼𝜈: 𝑤 𝑇 𝑥 𝑖 +𝑏≥0 𝑦=−1, ό𝜏𝛼𝜈 𝑤 𝑇 𝑥 𝑖 +𝑏<0 Επιθυμούμε να έχουμε τιμές 𝑤 𝑇 𝑥 𝑖 +𝑏≫0 για τα θετικά και 𝑤 𝑇 𝑥 𝑖 +𝑏≪−1 για τα αρνητικά δείγματα αντίστοιχα Functional Margin: γ = min γ 𝑖 , 𝑖=1,…,𝑛 γ 𝑖 =𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏) Πολλαπλασιάζοντας το w με μια τιμή δεν αλλάζει η απόφαση ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Functional Margin Functional Margin: Πολλαπλασιάζοντας το w με μια τιμή δεν αλλάζει η απόφαση Functional Margin: γ = min γ 𝑖 , 𝑖=1,…,𝑛 , όπου: γ 𝑖 =𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏) Εισαγωγή περιορισμού: 𝑤 =1 ή κανονικοποίηση με 𝑤 . Ποια είναι η απόσταση ενός σημείου 𝑥 𝑖 από την περιοχή απόφασης; 𝑥 𝑖 − 𝛾 𝑖 𝑤 𝑤 (1) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Geometric Margin Η απόσταση του σημείου είναι η ευθεία Πολλαπλασιάζοντας το w με μια τιμή δεν αλλάζει η απόφαση 𝛾 𝑖 Η απόσταση του σημείου είναι η ευθεία προς την περιοχή απόφασης Δίνεται από την προβολή του σημείου πάνω στην περιοχή απόφασης 𝑥 𝑖 − 𝛾 𝑖 𝑤 𝑤 (1) Εφόσον το σημείο αυτό βρίσκεται στην περιοχή απόφασης ισχύει: 𝑤 𝑇 𝑥 𝑖 +𝑏=0 (2) 𝑑𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑏𝑜𝑢𝑛𝑑𝑎𝑟𝑦 Geometric Margin 𝑥 𝑖 w ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" Geometric Margin 𝑥 𝑖 − 𝛾 𝑖 𝑤 𝑤 (1) Εφόσον το σημείο αυτό βρίσκεται στην περιοχή απόφασης ισχύει: 𝑤 𝑇 𝑥 𝑖 +𝑏=0 (2) Από τις (1) και (2) οδηγούμαστε στο: 𝑤 𝑇 𝑥 𝑖 − 𝛾 𝑖 𝑤 𝑤 +𝑏 =0 Λύνοντας ως προς 𝛾 𝑖 λαμβάνουμε για το σημείο: 𝛾 𝑖 = ( 𝑤 𝑤 𝑇 𝑥 𝑖 + 𝑏 𝑤 ) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" Geometric Margin Λύνοντας ως προς 𝛾 𝑖 λαμβάνουμε για το σημείο: 𝛾 𝑖 = ( 𝑤 𝑤 𝑇 𝑥 𝑖 + 𝑏 𝑤 ) Με μια μικρή τροποποίηση λαμβάνουμε μια έκφραση που περιγράφει τόσο τα θετικά όσο και τα αρνητικά δείγματα: 𝛾 𝑖 = 𝑦 𝑖 ( 𝑤 𝑤 𝑇 𝑥 𝑖 + 𝑏 𝑤 ) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Geometric Margin Ως Geometric margin έχουμε λοιπόν: 𝛾 = min 𝛾 𝑖 , 𝑖=1,…,𝑛 , όπου: 𝛾 𝑖 = 𝑦 𝑖 ( 𝑤 𝑤 𝑇 𝑥 𝑖 + 𝑏 𝑤 ) Αρά καταλήγουμε ότι: 𝛾 = γ 𝑤 Και στην περίπτωση που 𝑤 =1, 𝛾 = γ ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Support Vector Machines- Margins Θέλουμε να μεγιστοποιήσουμε το περιθώριο (𝛾 -margin) w.r.t max 𝛾,𝑤,𝑏 𝛾 𝑠.𝑡. 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥𝛾,𝑖=1,…,𝑛 𝑤 =1 Non Convex- non convenient format ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Support Vector Machines- Margins Θέλουμε να μεγιστοποιήσουμε το περιθώριο (𝛾 -margin) w.r.t max 𝛾,𝑤,𝑏 𝛾 𝑠.𝑡. 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥𝛾,𝑖=1,…,𝑛 𝑤 =1 Non Convex Non Convex- non convenient format max 𝛾,𝑤,𝑏 𝛾 𝑤 𝑠.𝑡. 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥𝛾 ̂,𝑖=1,…,𝑛 𝜸 = 𝜸 𝒘 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Support Vector Machines- Margins Θέλουμε να μεγιστοποιήσουμε το περιθώριο (𝛾 -margin) w.r.t max 𝛾,𝑤,𝑏 𝛾 𝑠.𝑡. 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥𝛾,𝑖=1,…,𝑛 𝑤 =1 Non Convex Non Convex- non convenient format max 𝛾,𝑤,𝑏 𝛾 𝑤 𝑠.𝑡. 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥ 𝜸 ,𝑖=1,…,𝑛 min 𝛾,𝑤,𝑏 𝑤 2 2 𝑠.𝑡. 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥1,𝑖=1,…,𝑛 Convex We set 𝜸 =1 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Support Vector Machines- Margins 𝑥 2 Θέλουμε να μεγιστοποιήσουμε το περιθώριο (𝛾 -margin) w.r.t min 𝛾,𝑤,𝑏 𝑤 2 2 𝑠.𝑡. 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥1,𝑖=1,…,𝑛 𝑥 1 𝑤 𝑇 𝑥+𝑏=−1 𝑤 𝑇 𝑥+𝑏=1 𝑤 𝑇 𝑥+𝑏=0 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Support Vector Machines Δύο βασικοί φορμαλισμοί: Primal Dual Δύο εκδόσεις του προβλήματος βελτιστοποίησης- διαφορετικές συναρτήσεις κόστους. Η μια θεωρεί πως τα δεδομένα είναι γραμμικά διαχωρίσιμα Hard margin Η άλλη θεωρεί πως τα δεδομένα ΔΕΝ είναι γραμμικά διαχωρίσιμα Soft Margin ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Support Vector Machines- Hard Margin min 𝑤 𝑤 2 2 𝑠.𝑡. 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥1,𝑖=1,…,𝑛 Διατυπώνουμε το πρόβλημα με δύο τρόπους χρησιμοποιώντας πολλαπλασιαστές Langrage Linear Separable Data ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Support Vector Machines- Hard Margin Primal Form 𝑓 𝑥 = 𝑤 𝑇 𝑥+𝑏 𝑦 𝑖 𝑤 𝑇 𝑥 𝑖 +𝑏 ≥1 𝑦 𝑖 𝑤 𝑇 𝑥 𝑖 +𝑏 - 1 ≥0 min 𝑤∈ ℝ 𝑑 𝑤 2 + 𝑖=1 𝑛 𝑎 𝑖 [ 𝑦 𝑖 𝑤 𝑇 𝑥 𝑖 +𝑏 −1] Dual Form 𝑓 𝑥 = 𝑖=1 𝑛 𝑎 𝑖 𝑦 𝑖 𝑥 𝑖 𝑇 𝑥 +𝑏 min 𝑎 − 𝑖=1 𝑛 𝑎 𝑖 + 1 2 𝑖,𝑗 𝑛 𝑎 𝑖 𝑎 𝑗 𝑦 𝑖 𝑦 𝑗 ( 𝑥 𝑖 𝑇 𝑥 𝑗 ) 𝑠.𝑡. 𝑖 𝑛 𝑎 𝑖 𝑦 𝑖 =0 and 𝑎 𝑖 ≥0 Karush-Kuhn-Tucker (KKT) Conditions ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Support Vector Machines- Hard Margin min 𝑤 𝑤 2 2 𝑠.𝑡. 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥1,𝑖=1,…,𝑛 Τι συμβαίνει στην περίπτωση όπου τα δεδομένα μας δεν είναι γραμμικά διαχωρίσιμα; Linear Separable Data ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Support Vector Machines- Soft Margin min 𝑤 𝑤 2 2 +𝐶 𝑖=1 𝑛 𝜉 𝜄 𝑠.𝑡. 𝜉 𝜄 ≥0 𝑎𝑛𝑑 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥1− 𝜉 𝜄 ,𝑖=1,…,𝑛 Κλασσικός φορμαλισμός του SVM If 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥ 1 then 𝜉 𝜄 =0 If 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)< 1 then 𝜉 𝜄 =(1− 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)) max⁡ (0,1− 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)))  Hinge Loss Non-Linear Separable Data ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Support Vector Machines- Soft Margin Hinge: Δεν αρκεί μόνο θετική απόφαση- μόνο πάνω από 1 δεν έχουμε καθόλου κόστος. Διαφορετικά έχουμε γραμμικό penalty ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Support Vector Machines- Optimization Dual Form 𝑓 𝑥 = 𝑖=1 𝑛 𝑎 𝑖 𝑦 𝑖 𝒌( 𝒙 𝒌 , 𝒙 𝒍 ) +𝑏 min 𝑎 − 𝑖=1 𝑛 𝑎 𝑖 + 1 2 𝑘,𝑙 𝑛 𝑎 𝑘 𝑎 𝑙 𝑦 𝑘 𝑦 𝑙 (𝒌( 𝒙 𝒌 , 𝒙 𝒍 )) 𝑠.𝑡. 𝑖 𝑛 𝑎 𝑖 𝑦 𝑖 =0 and 0≤𝑎 𝑖 ≤𝑪 Primal Form 𝑓 𝑥 = 𝑤 𝑇 𝝋(𝒙)+𝑏 min 𝑤∈ ℝ 𝑑 𝑤 2 +𝐶 𝑖=1 𝑛 max⁡(0,1− 𝑦 𝑖 (𝑓( 𝑥 𝑖 )) Empirical Risk Minimization Regularization ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Support Vector Machines- Optimization Dual Form min 𝑎 − 𝑖=1 𝑛 𝑎 𝑖 + 1 2 𝑘,𝑙 𝑛 𝑎 𝑘 𝑎 𝑙 𝑦 𝑘 𝑦 𝑙 (𝒌( 𝒙 𝒌 , 𝒙 𝒍 )) 𝑠.𝑡. 𝑖 𝑛 𝑎 𝑖 𝑦 𝑖 =0 and 0≤𝑎 𝑖 ≤𝑪 Primal Form min 𝑤∈ ℝ 𝑑 𝑤 2 +𝐶 𝑖=1 𝑛 max⁡(0,1− 𝑦 𝑖 (𝑓( 𝑥 𝑖 )) Empirical Risk Minimization Regularization 𝑓 = arg min 1 𝑛 𝜄=1 𝑛 L( y i ,f( x i )) +𝝀 𝒇 𝑭 𝒌 𝟐 , 𝜆≥0 Representer Theorem ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Support Vector Machines LAB #2 Support Vector Machines Οι κλάσεις εμφανίζουν επικάλυψη- μη διαχωρίσιμα δεδομένα Η περιοχή απόφασης μετακινείται ανάλογα με τη σημασία που δίνουμε στα δείγματα που ταξινομήθηκαν λάθος ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Support Vector Machines στην πράξη Δυαδικός ταξινομητής (binary classifier) Υπάρχουν επεκτάσεις βασισμένες στη Hinge Loss για multiclass Στο μάθημα αυτό και συγκεκριμένα στο εργαστήριο θα δούμε την προσέγγιση one-vs-all classifiers Για κάθε κλάση εκπαιδεύουμε ένα ταξινομητή ο οποίος μας διαχωρίζει την κλάση αυτή από τις υπόλοιπες Ωστόσο μπορεί ένα δείγμα να ταξινομείται σε περισσότερες από μια κατηγορίες Αναθέτουμε το δείγμα στην κατηγορία εκείνη για την οποία έχουμε τη μέγιστή ανάθεση ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Support Vector Machines στην πράξη #Homework Support Vector Machines στην πράξη One-vs-all ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Εκτίμηση παραμέτρων

Εύρεση υπερπαραμέτρων LAB #3 Εύρεση υπερπαραμέτρων Προσδιορισμός της τιμής C: Τα δεδομένα μας είναι σπάνια γραμμικά διαχωρίσιμα. Συνήθως οι κατανομές επικαλύπτονται. Η τιμή αυτή ρυθμίζει το πόσο αυστηροί θέλουμε να είμαστε με τα λάθος ταξινομημένα δείγματα ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

K-Fold validation+ Grid Search LAB K-Fold validation+ Grid Search Εύρεση παραμέτρων Διαδικασία grid search Παίρνουμε διαφορες τιμές της π.χ. 0,01, 0,1 1 10 50 10 150 Ακολουθούμε τη διαδικασία 10-fold validation (train-dev set) Επιλέγουμε την τιμή του C για την οποία λάβαμε το μκρότερο σφάλμα ταξινόμησης. Στη συνέχεια, δοκιμάζουμε τον ταξινομητή στο σύνολο δοκιμής (test- set) Με την ίδια λογική αναζητούμε και την τιμή των παραμέτρων της συνάρτησης Kernel ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Διαδικασία k-fold validation LAB K-Fold validation+ Grid Search Διαδικασία k-fold validation Χωρίζουμε τα δεδομένα μας σε Κ μέρη. Σε κάθε μια από τις Κ επαναλήψεις χρησιμοποιούμε τα Κ-1 σύνολα ως δεδομένα εκπαίδευσης και το σύνολο που μένει ως δεδομένα development. Εδώ δίνεται ένα παράδειγμα για Κ=10 Dev Error 1 Dev Error 2 Error = 1 10 𝑖=1 10 Dev Error i Dev Error 9 Dev Error 10 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας" Διαδικασία Holdout Ειδική περίπτωση του K-fold. Χωρίζουμε τα δεδομένα μας σε 2 μέρη. Χρησιμοποιούμε το ένα από τα δύο κάθε φορά για εκπαίδευση και το άλλο για δοκιμή (train and dev set) Χρησιμοποιούμε την μέση τιμή των δύο δοκιμών. Error = 1 2 𝑖=1 2 Dev Error i Dev Error 1 Dev Error 2 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Διαδικασία Cross Validation και Σύνολο αναφοράς Πάντα κραταμε ένα σύνολο δεδομένων εκτός από τη διαδικασία cross- validation. Αυτό το σύνολο ονομάζεται test-set. Για μικρές βάσεις (μερικές εκατοντάδες ή χιλιάδες εικόνες) χωρίζουμε τα δεδομένα μας σε 80% training+development και 20% test Όταν τα δεδομένα μας είναι πάρα πολλά δεν χρειάζεται να έχουμε μεγάλο ποσοστό development set. Για παράδειγμα για 1.000.000 εικόνες αρκεί να έχουμε 10,000 εικόνες για development set. Σημαντικό: Δεν χρησιμοποιούμε ποτέ το development set για αναφορά. Πάντα κραταμε ένα σύνολο το οποίο χρησιμοποιούμε για να ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Χαρακτηρισμός μοντέλου Γενικά θα συναντήσετε τις παρακάτω κλασικές περιπτώσεις: Υψηλό test error, χαμηλό train  Overfit Υψηλό test error, υψηλό train  Underfit Χαμηλό test error, χαμηλό train  Μάλλον εντάξει Τι ορίζουμε ως χαμηλό train error; Ο ρόλος της εκτίμησης του ανθρώπινου σφάλματος ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Χαρακτηρισμός μοντέλου Υψηλό test error, χαμηλό train  Overfit Αυτό σημαίνει ότι θέλουμε πιο απλό μοντέλο; ΌΧΙ απαραίτητα. Μπορεί τα δείγματα Δοκιμής (test-set) να μην είναι Αντιπροσωπευτικά. Πιθανή λύση- δημιουργία dev-test set. Λήψη νέων δεδομένων. ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Advanced topics in Kernel Methods Multiple Kernel Learning Kernel Methods in Sparse Representation Kernel Methods in Riemannian Manifolds Convolutional Kernel Networks ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Multiple Kernel Learning Σύνθεση πιο πολύπλοκων συναρτήσεων Πληροφορία από περισσότερα από ένα συστήματα- Σύνθεση πληροφορίας- Επιλογή χαρακτηριστικών Αξιοποίηση του φορμαλισμού εκπαίδευσης τους SVM για την δημιουργία συνδυασμού ταξινομητών (χαρακτηριστικών) Μια εναλλακτική προσέγγιση των Ensemble Methods F. R. Bach, G. R. G. Lanckriet, and M. I. Jordan. Multiple kernel learning, conic duality, and the SMO algorithm. In Proceedings of the International Conference on Machine Learning (ICML), 2004a ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Kernel Methods in Sparse Representation Sparse Representation problem L0 convex Relaxation arg min 𝐷,𝑎 𝐷𝑎−𝑋 2 ,𝑠.𝑡. 𝑎 0 <𝑡 L1 convex Relaxation arg min 𝐷,𝑎 𝐷𝑎−𝑋 2 +𝜆 𝑎 1 Non-Linear problem arg min 𝐷,𝑎 𝜑(𝐷)𝑎−𝜑(𝑋) 2 +𝜆 𝑎 1 Map data into RKHS arg min 𝐷,𝑎 𝐾 𝑋,𝑋 −2 𝑎 𝑇 𝐾 𝑋,𝐷 + 𝑎 𝑇 𝐾 D,𝐷 𝑎 2 +𝜆 𝑎 1 M. Harandi, C. Sanderson, R. Hartley and B. Lovell, Sparse Coding and Dictionary Learning for Symmetric Positive Definite Matrices: A Kernel Approach European Conference on Computer Vision (ECCV), Firenze, 2012. ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Kernel Methods in Riemannian Manifolds 𝐷 𝐿𝐸 x,y = log 𝑆 1 − log 𝑆 2 2 Κ RBF_LE =exp⁡(−𝛾 𝐷 𝐿𝐸 x,y ) S. Jayasumana, R. Hartley, M. Salzmann, H. Li and M. Harandi, "Kernel Methods on Riemannian Manifolds with Gaussian RBF Kernels," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 37, no. 12, pp. 2464-2477, Dec. 1 2015. doi: 10.1109/TPAMI.2015.2414422 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Convolutional Kernel Networks Βελτίωση των συνελικτικών δικτύων επιτρέποντας στα επιπεδα αυτά να είναι ανεξάρτητα κάποιων μετασχηματισμών Αυτό επιτυγχάνεται μαθαίνοντας την απεικόνιση σε ένα Reproducing Kernel Μπορεί να απλοποιήσει σημαντικά, πολύπλοκα δίκτυα Julien Mairal, Piotr Koniusz, Zaid Harchaoui, and Cordelia Schmid. 2014. Convolutional kernel networks. In Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 2 (NIPS'14), Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger (Eds.), Vol. 2. MIT Press, Cambridge, MA, USA, 2627-2635. ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας Ανασκόπηση Παρουσιάσαμε ένα νέο τρόπο αναπαράστασης των χαρακτηριστικών διανυσμάτων ως γινόμενα Η αναπαράσταση αυτή μας οδήγησε στη δημιουργία των Kernel Δείξαμε πως αυτή η αναπαράσταση μπορεί να ενσωματώσει με αποδοτικό τρόπο μη γραμμικές συναρτήσεις που απεικονίζουν τα δεδομένα μας σε μια μεγάλη (ακόμη και άπειρη) διάσταση Παρουσιάσαμε τους ταξινομητές μεγίστου περιθωρίου και τον ταξινομητή SVM με έμφαση στις ιδιότητες του Διατυπώσαμε το πρόβλημα βελτιστοποίησης σε δύο μορφές για την περίπτωση όπου τα δεδομένα είναι διαχωρίσιμα ή μη. Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας Άσκηση- Παραδοτέο Παραδοτέο- Κατεβάστε το αρχείο της Άσκησης 2 από εδώ: http://www.upcv.upatras.gr/personal/kastaniotis/MLcourse/index.ht ml Ακολουθήστε τις οδηγίες για να ολοκληρώσετε την άσκηση Αποστολή στο dkastaniotis at[@] upatras dot[.] gr Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας Επιπλέον Υλικό Το υλικό της διάλεξης θα το βρείτε εδώ: http://www.upcv.upatras/personal/kastaniotis/MLcourse/index.html Παραπομπές: Learning with Kernels, Support Vector Machines, Regularization, Optimization, and Beyond, Bernhard Schölkopf and Alexander J. Smola Statistical Learning Theory, Vladimir N. Vapnik, ISBN: 978-0-471-03003-4 Kernel Methods for Pattern Analysis, John Shawe-Taylor, Nello Cristianini, Cambridge University Press New York, NY, USA ©2004 , ISBN:0521813972 A Tutorial on Support Vector Machines for Pattern Recognition , Chris J.C. Burges, Data Mining and Knowledge Discovery, pages: 121-167, vol: 2 https://see.stanford.edu/materials/aimlcs229/cs229-notes3.pdf Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας