Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Επιβλεπόμενη Μηχανική Εκμάθηση ΙI

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Επιβλεπόμενη Μηχανική Εκμάθηση ΙI"— Μεταγράφημα παρουσίασης:

1 Επιβλεπόμενη Μηχανική Εκμάθηση ΙI
Ταξινομητές μεγίστου περιθωρίου, Kernel μέθοδοι και ο SVM Δρ. Δημήτρης Καστανιώτης ΔΜΠΣ Ηλεκτρονική και Επεξεργασία Πληροφορίας 2017 Υπολογιστική Όραση και Μηχανική Εκμάθηση This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

2 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"
Στόχος του μαθήματος Να παρουσιάσει τους ταξινομητές μέγιστου περιθωρίου Να αναδείξει τις Kernel προσεγγίσεις στο χώρο της μηχανικής Να παρουσιάσει τον ταξινομητή Support Vector Machine (SVM) Εύρεση υπερπαραμέτρων- Επιλογή μοντέλου ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

3 Ανασκόπηση προηγούμενου μαθήματος
Είδαμε ταξινομητές που προσεγγίζουν το πρόβλημα προσπαθώντας να εκτιμήσουν τη διαδικασία που παράγει τα δεδομένα. Βασίζονται δε, σε Discriminant functions και αναθέτουν το κάθε δείγμα στην κλάση με την μέγιστη απόκριση Η περιοχή απόφασης μπορεί να είναι οποιαδήποτε περιοχή χωρίζει τα δεδομένα- Αυτό μπορεί να επηρεάσει τη γενίκευση Απεικόνιση σε χώρο μεγαλύτερης διάστασης- εξάρτηση διάστασης επίδοσης ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

4 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"
Στο σημερινό μάθημα Πως μπορούμε να βρούμε την «βέλτιστη» περιοχή απόφασης Πως μπορούμε να εξασφαλίσουμε τη γενίκευση όταν χρησιμοποιούμε απεικονίσεις σε μεγάλο αριθμό διαστάσεων Πως μπορούμε να οδηγηθούμε σε μια διατύπωση που θα μας επιτρέψει να ελαχιστοποιήσουμε το περιθώριο λάθους Απεικόνιση σε χώρο μεγαλύτερης διάστασης(ακόμη και άπειρης) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

5 Ένας απλός ταξινομητής
Από τη μεσοκάθετο στον ταξινομητή Bayes και τις kernel τεχνικές Έστω ότι μας δίνονται τα : ( 𝑥 1 , 𝑦 1 ,…, 𝑥 𝑛 , 𝑦 𝑛 ) Υπολογίζουμε το μέσο στοιχείο κάθε κλάσης 𝑐 + = 𝑖| 𝑦 𝑖 =+1 𝑥 𝑖 και 𝑐 − = 𝑖| 𝑦 𝑖 =−1 𝑥 𝑖 Ένα δειγμα 𝑥 ανατίθεται στην κλάση -1 ή +1 σύμφωνα με: y=sgn= 𝑥−𝑐 ,𝑤 = = 𝑥−( 𝑐 + − 𝑐 − )/2 , 𝑐 + − 𝑐 − = =sgn 𝑥, 𝑐 + − 𝑥, 𝑐 − +𝑏 , όπου 𝑏= 1 2 ( 𝑐 − 2 − 𝑐 ) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

6 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"
Dual Representation Στο παρόν μάθημα θα μας απασχολήσει ιδιαίτερα η χρήση της dual αναπαράστασης Αυτή η αναπαράσταση αναφέρεται στην περίπτωση όπου τα δεδομένα μας εκφράζονται αποκλειστικά και μόνο χρησιμοποιώντας εκφράσεις των ίδιων των χαρακτηριστικών Για παραδειγμα, παρατηρήστε ότι η μεταβλητή 𝑤 εκφράζεται ως συνδυασμός των χαρακτηριστικών διανυσμάτων και των κέντρων των κλάσεων y=sgn= 𝑥−𝑐 ,𝒘 =sgn 𝑥, 𝑐 + − 𝑥, 𝑐 − +𝑏 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

7 Εσωτερικά γινόμενα- Δημιουργία Kernel
Είδαμε ότι έχουμε μια έκφραση εσωτερικών γινομένων Η έκφραση αυτή συνδέεται με τη δημιουργία των Kernel Οι Kernels που θα μας απασχολήσουν εδώ προκύπτουν αποκλειστικά χρησιμοποιώντας εσωτερικά γινόμενα μεταξύ διανυσμάτων y=sgn= 𝑥−𝑐 ,𝒘 =sgn 𝑥, 𝑐 + − 𝑥, 𝑐 − +𝑏 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

8 Kernels

9 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"
Kernels Εκφράζουν ομοιότητες (συγκρίσεις) μεταξύ των χαρακτηριστικών Έστω X={ 𝑥 1 , 𝑥 2 , 𝑥 3 } τρία διανύσματα στον ℝ 2 𝑥 1 =[ ], 𝑥 2 =[ ] and 𝑥 3 =[− ] 𝑘:𝑋×𝑋→ ℝ Συνεπώς εάν σχεδιάσουμε αλγορίθμους που εργάζονται στον χώρο αυτό μπορούμε να εργαστούμε με δεδομένα οποιουδήποτε τύπου (κείμενο, διανύσματα, πίνακες, Γράφους κ.α.) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

10 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"
Kernels Δημιουργούνται υπολογίζοντας το εσωτερικό γινόμενο μιας συνάρτησης (γραμμικής ή μη) των χαρακτηριστικών του αρχικού χώρου. Απεικονίζει τα διανύσματα στον ℝ Ορίζουμε λοιπόν μια συνάρτηση ως Kernel: 𝑘:𝑋×𝑋→ℝ 𝑘 𝑥 𝑖 , 𝑥 𝑗 = 𝜑(𝑥 𝑖 ), 𝜑( 𝑥 𝑗 ) Ως μια απεικόνιση στο Hilbert Space F k 𝜑(𝑥 𝑖 ), 𝜑( 𝑥 𝑗 ) = 𝑘=1 𝑑 𝜑(𝑥 𝑖,𝑘 ), 𝜑( 𝑥 𝑗,𝑘 ) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

11 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"
Kernels Δημιουργούνται υπολογίζοντας το εσωτερικό γινόμενο μιας συνάρτησης (γραμμικής ή μη) των χαρακτηριστικών του αρχικού χώρου. Η συνάρτηση αυτή λέγεται kernel συνάρτηση. Μας επιτρέπουν να εκφράσουμε τα δεδομένα ως εσωτερικά γινόμενα Η απεικόνιση των δεδομένων σε πολύ μεγάλη διάσταση με την χρήση των Kernels δεν αυξάνει την υπολογιστική πολυπλοκότητα Μπορούμε να διατυπώσουμε αλγορίθμους στο χώρο των Kernel Gram Matrices, Symmetric Positive Definite, Hilbert Spaces ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

12 Kernels- Mercers Theorem
Gram Matrix: Πίνακας συμμετρικός, θετικά ημιορισμένος (θετικές ιδιοτιμές) Προκύπτει από τα εσωτερικά γινόμενα διανυσμάτων 𝑥 𝑖 , 𝑦 𝑖 Mercer Theorem: Έστω 𝑘: ℝ 𝑑 × ℝ 𝑑 →ℝ μια συνάρτηση απεικόνισης Για να είναι αποδεκτός “Kernel” είναι απαραίτητο και αρκεί ο “Kernel” που προκύπτει να είναι Symmetric and Positive Semi- definite 𝑥 𝑇 𝐾𝑥≥0 𝛾𝜄𝛼 𝜅𝛼𝜃𝜀 𝜇𝜂 𝜇𝜂𝛿𝜀𝜈𝜄𝜅ό 𝑥∈ ℝ 𝑑 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

13 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"
Kernel Trick Στο προηγούμενο μάθημα είδαμε ότι μπορούμε να απεικονίσουμε τα δεδομένα μας σε ένα χώρο μεγαλύτερης διάστασης Σε αυτό το χώρο τα δεδομένα μας είναι γραμμικά διαχωρίσιμα Το Kernel Trick μας επιτρέπει να αποφύγουμε την απεικόνιση σε ένα χώρο μεγαλύτερης διάστασης καθώς τα δεδομένα ανεξάρτητα αυτής αναπαρίστανται ως εσωτερικά γινόμενα ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

14 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"
Kernel Functions Τι είναι οι Kernels; Ποιες συναρτήσεις μπορούμε να χρησιμοποιήσουμε; Οι πιο δημοφιλείς είναι: Radial Basis Function Polynomial Sigmoid ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

15 Kernel Functions- Radial Basis Functions
K RBF 𝑥, 𝑥 𝑗 = exp −𝛾 𝑥− 𝑥 𝑗 2 exp x− x j 2 = exp −𝑥 2 exp − 𝑥 𝑗 2 exp 2𝑥 𝑥 𝑗 = = exp −𝑥 2 exp − 𝑥 𝑗 2 𝑘=0 ∞ 2 𝑘 (𝑥 𝑘 )( 𝑥 𝑗 𝑘 ) 𝑘! exp 𝑥 = 𝑘=0 ∞ 1 𝑘! 𝑥 𝑘 Polynomial Kernel of infinite degree ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

16 Kernel Functions- Polynomial
Επιβεβαιώστε το Kernel Functions- Polynomial K P 𝑥, 𝑥 𝑗 = 𝒙,𝒚 𝟐 = = 𝑥 1 𝑦 1 + 𝑥 2 𝑦 2 2 = = 𝑥 1 2 𝑦 𝑥 1 𝑦 1 𝑥 2 𝑦 2 +𝑥 2 2 𝑦 2 2 = = ( 𝑥 1 2 , 2 𝑥 1 𝑥 2 , 𝑥 2 2 ),( 𝑦 1 2 , 2 𝑦 1 𝑦 2 , 𝑦 2 2 ) = = 𝝋 𝒙 𝟏 ,𝝋( 𝒙 𝟐 ) Έστω: 𝑥,𝑦∈ ℝ 2 K P 𝑥, 𝑥 𝑗 ∈ ℝ ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

17 Kernel Trick- αξιοποίηση της συνάρτησης απεικόνισης
ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

18 Kernel Trick- Διαχωρισμός κλάσεων
LAB #2 Kernel Trick- Διαχωρισμός κλάσεων ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

19 Δημιουργία νέων Kernel
ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

20 Representer Theorem Η Ελαχιστοποίηση στο Hilbert χώρο ισοδυναμεί με ελαχιστοποίηση στον ℝ 𝑛 Έστω ότι έχουμε την kernel συνάρτηση 𝑘:𝑋×𝑋→ℝ Ο ταξινομητής SVM επιλύει ένα πρόβλημα βελτιστοποίησης της μορφής: 𝑓 = arg min 1 𝑛 𝜄=1 𝑛 L( y i ,f( x i )) +𝝀 𝒇 𝑭 𝒌 𝟐 , 𝜆≥0 Στο πρόβλημα αυτό η 𝑓 μπορεί να διατυπωθεί ως: 𝑓 𝑥 = 𝜄=1 𝑛 α i K(x, x i ) Tikhonov Regularization- Impose stability ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

21 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"
Dual Representation Γιατί είναι τόσο χρήσιμη η dual αναπαράσταση; Ειδικά για την περίπτωση των Kernel τεχνικών είναι εξαιρετικής σημασίας Αυτό διότι όπως θα δούμε, με το φορμαλισμό των Kernel, μπορούμε να αναπαραστήσουμε το σύνολο των δειγμάτων ως εσωτερικά γινόμενα Τα οφέλη από αυτό το φορμαλισμό είναι πολλά και θα προσπαθήσουμε να τα παρουσιάσουμε στην παρούσα διάλεξη ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

22 Kernel Ridge Regression

23 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"
Dual Representation Ας δούμε λίγο ένα γνωστό σε εμάς πρόβλημα από την προηγούμενη άσκηση (linear regression, polynomial basis expansion) Σε αυτό το πρόβλημα θα χρησιμοποιήσουμε την Dual αναπαράσταση Θα γνωρίσουμε μια τεχνική που ονομάζεται Kernel Ridge Regression ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

24 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"
LAB #1 Dual Representation Ridge Regression Kernel Ridge Regression Primal 𝑦 𝑒𝑠𝑡 = x Τ 𝒘=x Τ 𝝀 𝚰 𝐍 +𝑋 Χ Τ −1 Χ Τ 𝑦 𝑎= 𝑋 Χ Τ +𝜆 𝚰 N −1 𝑦= 𝑋 Χ Τ +𝜆 𝚰 N −1 𝑦 𝑦 𝑒𝑠𝑡 = x Τ Χ Τ 𝑎= 𝑖=1 𝑛 𝑎 𝑖 𝑥, 𝑥 𝑖 𝑤 = argmin 𝑤 𝑖=1 𝑛 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 2 + 𝜆 𝑊 2 𝒘= 𝝀 𝚰 𝐝 + Χ Τ 𝑋 −1 Χ Τ 𝑦 𝑦 𝑒𝑠𝑡 = x Τ 𝒘 Dual Reconstruction error Penalty Term Dual Εκφράζουμε την έξοδο ως συνάρτηση των δειγμάτων ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

25 Dual Representation 𝑤 = argmin 𝑤 𝑖=1 𝑛 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 2 + 𝜆 𝑊 2
LAB # 1 Dual Representation Ridge Regression Kernel Ridge Regression Primal 𝑦 𝑒𝑠𝑡 = x Τ 𝒘=x Τ 𝜆 𝚰 𝐍 +𝑋 Χ Τ −1 Χ Τ 𝑦 𝑎= 𝑋 Χ Τ +𝜆Ι −1 𝑦= 𝑋 Χ Τ +𝜆 𝚰 N −1 𝑦 𝑦 𝑒𝑠𝑡 = x Τ Χ Τ 𝑎= 𝑖=1 𝑛 𝑎 𝑖 𝑥, 𝑥 𝑖 𝑤 = argmin 𝑤 𝑖=1 𝑛 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 2 + 𝜆 𝑊 2 𝒘= 𝜆 𝚰 𝐝 + Χ Τ 𝑋 −1 Χ Τ 𝑦 𝑦 𝑒𝑠𝑡 = x Τ 𝒘 Dual Εκφράζουμε την έξοδο ως συνάρτηση των δειγμάτων Reconstruction error Penalty Term Διάσταση ίση με την διάσταση των χαρακτηριστικών Διάσταση ίση με τον αριθμό των δειγμάτων. ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

26 Dual Representation Γενικά: 𝑦= 𝑤,𝑥 +𝑏= 𝑖=1 𝑛 𝑎 𝑖 𝑦 𝑖 𝑥 𝑖 ,𝑥 +𝑏
𝑦= 𝑤,𝑥 +𝑏= 𝑖=1 𝑛 𝑎 𝑖 𝑦 𝑖 𝑥 𝑖 ,𝑥 +𝑏 Διάσταση ίση με τη διάσταση των διανυσμάτων Άθροισμα γινομένων ίσο με τον αριθμό των δειγμάτων 𝑤,𝑥 +𝑏= 𝑤 0 𝑥 0 + 𝑤 1 𝑥 1 +…+ 𝑤 𝑑 𝑥 𝑑 Στο σημερινό μάθημα ΔΕΝ θα ενσωματώσουμε το bias term στην έκφραση ( 𝑤 0 𝑥 0 ), καθώς θα χρειαστεί να κανονικοποιήσουμε το διάνυσμα 𝒘 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

27 Kernel Ridge Regression Revisited
LAB # 1 Kernel Ridge Regression Revisited Kernel Ridge Regression with RBF 𝐊= 𝜲 𝜯 𝑿 Linear Kernel (Inner Product) 𝐊 𝐑𝐁𝐅 =𝐞𝐱𝐩(−𝛄𝐃) 𝑦 𝑒𝑠𝑡 = x Τ 𝒘=x Τ 𝝀𝚰+ K RBF −1 Χ Τ 𝑦 𝑎= 𝐾+𝜆Ι −1 𝑦= K RBF +𝜆Ι −1 𝑦 𝑦 𝑒𝑠𝑡 = 𝑖=1 𝑛 𝑎 𝑖 𝐾 𝑅𝐵𝐹 (𝑥, 𝑥 𝑖 ) RBF Kernel 𝑦 𝑒𝑠𝑡 = x Τ 𝒘=x Τ 𝝀𝚰+ Χ Τ 𝑋 −1 Χ Τ 𝑦 𝑎= 𝐾+𝜆Ι −1 𝑦= 𝐾+𝜆Ι −1 𝑦 𝑦 𝑒𝑠𝑡 = 𝑖=1 𝑛 𝑎 𝑖 𝑥, 𝑥 𝑖 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

28 Kernel Ridge Regression Revisited
LAB # 1 Kernel Ridge Regression Revisited Kernel Ridge Regression with RBF ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

29 Ταξινομητές μεγίστου περιθωρίου Στοιχεία Statistical Learning Theory

30 Δυαδικός Γραμμικός Ταξινομητής
Έστω w∈ ℝ 𝑑 𝑔 𝑤 𝑥 = 𝑤 𝑡 𝑥= 𝑏+ 𝑤 1 𝑥 1 +…+ 𝑤 𝑑 𝑥 𝑑 =𝑤 0 𝑥 0 + 𝑤 1 𝑥 1 +…+ 𝑤 𝑑 𝑥 𝑑 Όπου 𝑥 0 =1και κατά συνέπεια: w∈ ℝ 𝑑+1 Απόφαση: 𝑓 𝑔 𝑤 𝑥 = 1 𝑖𝑓 𝑔 𝑥 ≥0 −1𝑖𝑓 𝑔 𝑥 <0 𝑦 𝑓 𝑔 𝑤 𝑥 >0 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

31 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"
Perceptron Η έξοδος (ανάθεση ενός δείγματος x) δίνεται από την παρακάτω έκφραση 𝑦=𝑠𝑖𝑛𝑔( 𝑖=1 𝑑 𝑤 𝑖 𝑥 𝑖 ) -Online Learning rule -Stochastic gradient descent -Works only for linearly separable cases We need multilayer linear nets XOR Problem ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

32 Δυαδικός Γραμμικός Ταξινομητής
Η περιοχή απόφασης μπορεί να είναι οποιαδήποτε ευθεία χωρίζει τα δεδομένα μας ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

33 Δυαδικός Γραμμικός Ταξινομητής
𝑥 2 Ταξινομητές μεγίστου περιθωρίου Η περιοχή απόφασης έχει τη μέγιστη παρέχει μια ζώνη ασφαλείας μεταξύ των δύο κλάσεων Το μέγιστο περιθώριο έχει πολλά Πλεονεκτήματα και αποτελεί την καρδιά του SVM ταξινομητή 𝑥 1 𝑤 𝑇 𝑥+𝑏=−1 𝑤 𝑇 𝑥+𝑏=1 𝑤 𝑇 𝑥+𝑏=0 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

34 Η έννοια του μεγίστου περιθωρίου
Η γενίκευση του μοντέλο εξαρτάται από: α. Το πλήθος των δειγμάτων β. Τον αριθμό των ευθείων που μπορούν να διχοτομήσουν τα δεδομένα μας Η εισαγωγή του περιθωρίου κατά μια έννοια περιορίζει τη δυνατότητα τα δεδομένα μας να διχοτομηθούν Ας κρατήσουμε την προηγούμενη φράση και ας δούμε κάποια ενδιαφέροντα στοιχεία ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

35 Model Capacity and VC dimension
Statistical Learning theory Περιορισμός του συνόλου των συναρτήσεων ώστε η χωρητικότητα να ταιριάζει με το πλήθος των διαθέσιμων δειγμάτων εκπαίδευσης Η θεωρία των Vapnik-Chevronenkins παρέχει όρια στο σφάλμα δοκιμής Η ελαχιστοποίηση αυτών των ορίων εξαρτάται από το εμπειρικό σφάλμα και την χωρητικότητα του μοντέλου οδηγεί στην αρχή του Structural Risk Minimization (SRM) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

36 Model Capacity and VC dimension
Για ένα γραμμικό μοντέλο η διάσταση αυτή μπορεί να οριστεί ως η διάσταση των χαρακτηριστικών +1 Διαισθητικά παρατηρώντας το παρακάτω γράφημα Τέσσερα σημεία δεν μπορούν να διαχωριστούν Τρία μπορούν να διαχωριστούν ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

37 Model Capacity and VC dimension
O SVM αποτελεί μια ιδιαίτερη περίπτωση Εξαναγκάζοντας το περιθώριο να είναι μέγιστο οδηγούμαστε σε περιορισμό της VC διάστασης 𝛾 𝛾 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

38 Model Capacity and VC dimension
O SVM αποτελεί μια ιδιαίτερη περίπτωση Εξαναγκάζοντας το περιθώριο να είναι μέγιστο οδηγούμαστε σε περιορισμό της VC διάστασης h=VC dimension (the maximum number of points that can be separated in all possible ways by the selected set of functions Test Error ≤ Training Error + Complexity of set of Models ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

39 Support Vector Machines

40 Support Vector Machines
LAB 2 Support Vector Machines Μόνο μερικά δείγματα Χρησιμοποιούνται ως support vectors Η περιοχή απόφασης ορίζεται από αυτά τα δείγματα Γραμμικά διαχωρίσιμη περίπτωση ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

41 Support Vector Machines- Margins
𝑥 2 Ο SVM υπολογίζει την ευθεία για την οποία μεγιστοποιείται το περιθώριο μεταξύ των δύο κατηγοριών ( γραμμικά διαχωρίσιμα δεδομένα) Τώρα θα δείξουμε πως προκύπτουν αυτές οι ευθείες, γιατί τα σημεία εκατέρωθεν της περιοχής απόφασης που βρίσκονται πάνω στις δύο ευθείες (πορτοκαλί ευθείες) 𝑥 1 𝑤 𝑇 𝑥+𝑏=−1 𝑤 𝑇 𝑥+𝑏=1 𝑤 𝑇 𝑥+𝑏=0 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

42 Functional Margin Ταξινόμηση σε μια κατηγορία -1,1 σύμφωνα με
𝑦=1 , ό𝜏𝛼𝜈: 𝑤 𝑇 𝑥 𝑖 +𝑏≥0 𝑦=−1, ό𝜏𝛼𝜈 𝑤 𝑇 𝑥 𝑖 +𝑏<0 Επιθυμούμε να έχουμε τιμές 𝑤 𝑇 𝑥 𝑖 +𝑏≫0 για τα θετικά και 𝑤 𝑇 𝑥 𝑖 +𝑏≪−1 για τα αρνητικά δείγματα αντίστοιχα Functional Margin: γ = min γ 𝑖 , 𝑖=1,…,𝑛 γ 𝑖 =𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏) Πολλαπλασιάζοντας το w με μια τιμή δεν αλλάζει η απόφαση ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

43 Functional Margin Functional Margin:
Πολλαπλασιάζοντας το w με μια τιμή δεν αλλάζει η απόφαση Functional Margin: γ = min γ 𝑖 , 𝑖=1,…,𝑛 , όπου: γ 𝑖 =𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏) Εισαγωγή περιορισμού: 𝑤 =1 ή κανονικοποίηση με 𝑤 . Ποια είναι η απόσταση ενός σημείου 𝑥 𝑖 από την περιοχή απόφασης; 𝑥 𝑖 − 𝛾 𝑖 𝑤 𝑤 (1) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

44 Geometric Margin Η απόσταση του σημείου είναι η ευθεία
Πολλαπλασιάζοντας το w με μια τιμή δεν αλλάζει η απόφαση 𝛾 𝑖 Η απόσταση του σημείου είναι η ευθεία προς την περιοχή απόφασης Δίνεται από την προβολή του σημείου πάνω στην περιοχή απόφασης 𝑥 𝑖 − 𝛾 𝑖 𝑤 𝑤 (1) Εφόσον το σημείο αυτό βρίσκεται στην περιοχή απόφασης ισχύει: 𝑤 𝑇 𝑥 𝑖 +𝑏=0 (2) 𝑑𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑏𝑜𝑢𝑛𝑑𝑎𝑟𝑦 Geometric Margin 𝑥 𝑖 w ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

45 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"
Geometric Margin 𝑥 𝑖 − 𝛾 𝑖 𝑤 𝑤 (1) Εφόσον το σημείο αυτό βρίσκεται στην περιοχή απόφασης ισχύει: 𝑤 𝑇 𝑥 𝑖 +𝑏=0 (2) Από τις (1) και (2) οδηγούμαστε στο: 𝑤 𝑇 𝑥 𝑖 − 𝛾 𝑖 𝑤 𝑤 +𝑏 =0 Λύνοντας ως προς 𝛾 𝑖 λαμβάνουμε για το σημείο: 𝛾 𝑖 = ( 𝑤 𝑤 𝑇 𝑥 𝑖 + 𝑏 𝑤 ) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

46 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"
Geometric Margin Λύνοντας ως προς 𝛾 𝑖 λαμβάνουμε για το σημείο: 𝛾 𝑖 = ( 𝑤 𝑤 𝑇 𝑥 𝑖 + 𝑏 𝑤 ) Με μια μικρή τροποποίηση λαμβάνουμε μια έκφραση που περιγράφει τόσο τα θετικά όσο και τα αρνητικά δείγματα: 𝛾 𝑖 = 𝑦 𝑖 ( 𝑤 𝑤 𝑇 𝑥 𝑖 + 𝑏 𝑤 ) ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

47 Geometric Margin Ως Geometric margin έχουμε λοιπόν:
𝛾 = min 𝛾 𝑖 , 𝑖=1,…,𝑛 , όπου: 𝛾 𝑖 = 𝑦 𝑖 ( 𝑤 𝑤 𝑇 𝑥 𝑖 + 𝑏 𝑤 ) Αρά καταλήγουμε ότι: 𝛾 = γ 𝑤 Και στην περίπτωση που 𝑤 =1, 𝛾 = γ ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

48 Support Vector Machines- Margins
Θέλουμε να μεγιστοποιήσουμε το περιθώριο (𝛾 -margin) w.r.t max 𝛾,𝑤,𝑏 𝛾 𝑠.𝑡 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥𝛾,𝑖=1,…,𝑛 𝑤 =1 Non Convex- non convenient format ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

49 Support Vector Machines- Margins
Θέλουμε να μεγιστοποιήσουμε το περιθώριο (𝛾 -margin) w.r.t max 𝛾,𝑤,𝑏 𝛾 𝑠.𝑡 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥𝛾,𝑖=1,…,𝑛 𝑤 =1 Non Convex Non Convex- non convenient format max 𝛾,𝑤,𝑏 𝛾 𝑤 𝑠.𝑡 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥𝛾 ̂,𝑖=1,…,𝑛 𝜸 = 𝜸 𝒘 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

50 Support Vector Machines- Margins
Θέλουμε να μεγιστοποιήσουμε το περιθώριο (𝛾 -margin) w.r.t max 𝛾,𝑤,𝑏 𝛾 𝑠.𝑡 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥𝛾,𝑖=1,…,𝑛 𝑤 =1 Non Convex Non Convex- non convenient format max 𝛾,𝑤,𝑏 𝛾 𝑤 𝑠.𝑡 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥ 𝜸 ,𝑖=1,…,𝑛 min 𝛾,𝑤,𝑏 𝑤 2 2 𝑠.𝑡 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥1,𝑖=1,…,𝑛 Convex We set 𝜸 =1 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

51 Support Vector Machines- Margins
𝑥 2 Θέλουμε να μεγιστοποιήσουμε το περιθώριο (𝛾 -margin) w.r.t min 𝛾,𝑤,𝑏 𝑤 2 2 𝑠.𝑡 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥1,𝑖=1,…,𝑛 𝑥 1 𝑤 𝑇 𝑥+𝑏=−1 𝑤 𝑇 𝑥+𝑏=1 𝑤 𝑇 𝑥+𝑏=0 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

52 Support Vector Machines
Δύο βασικοί φορμαλισμοί: Primal Dual Δύο εκδόσεις του προβλήματος βελτιστοποίησης- διαφορετικές συναρτήσεις κόστους. Η μια θεωρεί πως τα δεδομένα είναι γραμμικά διαχωρίσιμα Hard margin Η άλλη θεωρεί πως τα δεδομένα ΔΕΝ είναι γραμμικά διαχωρίσιμα Soft Margin ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

53 Support Vector Machines- Hard Margin
min 𝑤 𝑤 2 2 𝑠.𝑡. 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥1,𝑖=1,…,𝑛 Διατυπώνουμε το πρόβλημα με δύο τρόπους χρησιμοποιώντας πολλαπλασιαστές Langrage Linear Separable Data ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

54 Support Vector Machines- Hard Margin
Primal Form 𝑓 𝑥 = 𝑤 𝑇 𝑥+𝑏 𝑦 𝑖 𝑤 𝑇 𝑥 𝑖 +𝑏 ≥1 𝑦 𝑖 𝑤 𝑇 𝑥 𝑖 +𝑏 - 1 ≥0 min 𝑤∈ ℝ 𝑑 𝑤 2 + 𝑖=1 𝑛 𝑎 𝑖 [ 𝑦 𝑖 𝑤 𝑇 𝑥 𝑖 +𝑏 −1] Dual Form 𝑓 𝑥 = 𝑖=1 𝑛 𝑎 𝑖 𝑦 𝑖 𝑥 𝑖 𝑇 𝑥 +𝑏 min 𝑎 − 𝑖=1 𝑛 𝑎 𝑖 𝑖,𝑗 𝑛 𝑎 𝑖 𝑎 𝑗 𝑦 𝑖 𝑦 𝑗 ( 𝑥 𝑖 𝑇 𝑥 𝑗 ) 𝑠.𝑡. 𝑖 𝑛 𝑎 𝑖 𝑦 𝑖 =0 and 𝑎 𝑖 ≥0 Karush-Kuhn-Tucker (KKT) Conditions ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

55 Support Vector Machines- Hard Margin
min 𝑤 𝑤 2 2 𝑠.𝑡. 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥1,𝑖=1,…,𝑛 Τι συμβαίνει στην περίπτωση όπου τα δεδομένα μας δεν είναι γραμμικά διαχωρίσιμα; Linear Separable Data ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

56 Support Vector Machines- Soft Margin
min 𝑤 𝑤 2 2 +𝐶 𝑖=1 𝑛 𝜉 𝜄 𝑠.𝑡. 𝜉 𝜄 ≥0 𝑎𝑛𝑑 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥1− 𝜉 𝜄 ,𝑖=1,…,𝑛 Κλασσικός φορμαλισμός του SVM If 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)≥ 1 then 𝜉 𝜄 =0 If 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)< 1 then 𝜉 𝜄 =(1− 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)) max⁡ (0,1− 𝑦 𝑖 (𝑤 𝑇 𝑥 𝑖 +𝑏)))  Hinge Loss Non-Linear Separable Data ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

57 Support Vector Machines- Soft Margin
Hinge: Δεν αρκεί μόνο θετική απόφαση- μόνο πάνω από 1 δεν έχουμε καθόλου κόστος. Διαφορετικά έχουμε γραμμικό penalty ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

58 Support Vector Machines- Optimization
Dual Form 𝑓 𝑥 = 𝑖=1 𝑛 𝑎 𝑖 𝑦 𝑖 𝒌( 𝒙 𝒌 , 𝒙 𝒍 ) +𝑏 min 𝑎 − 𝑖=1 𝑛 𝑎 𝑖 𝑘,𝑙 𝑛 𝑎 𝑘 𝑎 𝑙 𝑦 𝑘 𝑦 𝑙 (𝒌( 𝒙 𝒌 , 𝒙 𝒍 )) 𝑠.𝑡. 𝑖 𝑛 𝑎 𝑖 𝑦 𝑖 =0 and 0≤𝑎 𝑖 ≤𝑪 Primal Form 𝑓 𝑥 = 𝑤 𝑇 𝝋(𝒙)+𝑏 min 𝑤∈ ℝ 𝑑 𝑤 2 +𝐶 𝑖=1 𝑛 max⁡(0,1− 𝑦 𝑖 (𝑓( 𝑥 𝑖 )) Empirical Risk Minimization Regularization ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

59 Support Vector Machines- Optimization
Dual Form min 𝑎 − 𝑖=1 𝑛 𝑎 𝑖 𝑘,𝑙 𝑛 𝑎 𝑘 𝑎 𝑙 𝑦 𝑘 𝑦 𝑙 (𝒌( 𝒙 𝒌 , 𝒙 𝒍 )) 𝑠.𝑡. 𝑖 𝑛 𝑎 𝑖 𝑦 𝑖 =0 and 0≤𝑎 𝑖 ≤𝑪 Primal Form min 𝑤∈ ℝ 𝑑 𝑤 2 +𝐶 𝑖=1 𝑛 max⁡(0,1− 𝑦 𝑖 (𝑓( 𝑥 𝑖 )) Empirical Risk Minimization Regularization 𝑓 = arg min 1 𝑛 𝜄=1 𝑛 L( y i ,f( x i )) +𝝀 𝒇 𝑭 𝒌 𝟐 , 𝜆≥0 Representer Theorem ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

60 Support Vector Machines
LAB #2 Support Vector Machines Οι κλάσεις εμφανίζουν επικάλυψη- μη διαχωρίσιμα δεδομένα Η περιοχή απόφασης μετακινείται ανάλογα με τη σημασία που δίνουμε στα δείγματα που ταξινομήθηκαν λάθος ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

61 Support Vector Machines στην πράξη
Δυαδικός ταξινομητής (binary classifier) Υπάρχουν επεκτάσεις βασισμένες στη Hinge Loss για multiclass Στο μάθημα αυτό και συγκεκριμένα στο εργαστήριο θα δούμε την προσέγγιση one-vs-all classifiers Για κάθε κλάση εκπαιδεύουμε ένα ταξινομητή ο οποίος μας διαχωρίζει την κλάση αυτή από τις υπόλοιπες Ωστόσο μπορεί ένα δείγμα να ταξινομείται σε περισσότερες από μια κατηγορίες Αναθέτουμε το δείγμα στην κατηγορία εκείνη για την οποία έχουμε τη μέγιστή ανάθεση ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

62 Support Vector Machines στην πράξη
#Homework Support Vector Machines στην πράξη One-vs-all ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

63 Εκτίμηση παραμέτρων

64 Εύρεση υπερπαραμέτρων
LAB #3 Εύρεση υπερπαραμέτρων Προσδιορισμός της τιμής C: Τα δεδομένα μας είναι σπάνια γραμμικά διαχωρίσιμα. Συνήθως οι κατανομές επικαλύπτονται. Η τιμή αυτή ρυθμίζει το πόσο αυστηροί θέλουμε να είμαστε με τα λάθος ταξινομημένα δείγματα ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

65 K-Fold validation+ Grid Search
LAB K-Fold validation+ Grid Search Εύρεση παραμέτρων Διαδικασία grid search Παίρνουμε διαφορες τιμές της π.χ. 0,01, 0, Ακολουθούμε τη διαδικασία 10-fold validation (train-dev set) Επιλέγουμε την τιμή του C για την οποία λάβαμε το μκρότερο σφάλμα ταξινόμησης. Στη συνέχεια, δοκιμάζουμε τον ταξινομητή στο σύνολο δοκιμής (test- set) Με την ίδια λογική αναζητούμε και την τιμή των παραμέτρων της συνάρτησης Kernel ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

66 Διαδικασία k-fold validation
LAB K-Fold validation+ Grid Search Διαδικασία k-fold validation Χωρίζουμε τα δεδομένα μας σε Κ μέρη. Σε κάθε μια από τις Κ επαναλήψεις χρησιμοποιούμε τα Κ-1 σύνολα ως δεδομένα εκπαίδευσης και το σύνολο που μένει ως δεδομένα development. Εδώ δίνεται ένα παράδειγμα για Κ=10 Dev Error 1 Dev Error 2 Error = 𝑖=1 10 Dev Error i Dev Error 9 Dev Error 10 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

67 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"
Διαδικασία Holdout Ειδική περίπτωση του K-fold. Χωρίζουμε τα δεδομένα μας σε 2 μέρη. Χρησιμοποιούμε το ένα από τα δύο κάθε φορά για εκπαίδευση και το άλλο για δοκιμή (train and dev set) Χρησιμοποιούμε την μέση τιμή των δύο δοκιμών. Error = 𝑖=1 2 Dev Error i Dev Error 1 Dev Error 2 ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

68 Διαδικασία Cross Validation και Σύνολο αναφοράς
Πάντα κραταμε ένα σύνολο δεδομένων εκτός από τη διαδικασία cross- validation. Αυτό το σύνολο ονομάζεται test-set. Για μικρές βάσεις (μερικές εκατοντάδες ή χιλιάδες εικόνες) χωρίζουμε τα δεδομένα μας σε 80% training+development και 20% test Όταν τα δεδομένα μας είναι πάρα πολλά δεν χρειάζεται να έχουμε μεγάλο ποσοστό development set. Για παράδειγμα για εικόνες αρκεί να έχουμε 10,000 εικόνες για development set. Σημαντικό: Δεν χρησιμοποιούμε ποτέ το development set για αναφορά. Πάντα κραταμε ένα σύνολο το οποίο χρησιμοποιούμε για να ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

69 Χαρακτηρισμός μοντέλου
Γενικά θα συναντήσετε τις παρακάτω κλασικές περιπτώσεις: Υψηλό test error, χαμηλό train  Overfit Υψηλό test error, υψηλό train  Underfit Χαμηλό test error, χαμηλό train  Μάλλον εντάξει Τι ορίζουμε ως χαμηλό train error; Ο ρόλος της εκτίμησης του ανθρώπινου σφάλματος ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

70 Χαρακτηρισμός μοντέλου
Υψηλό test error, χαμηλό train  Overfit Αυτό σημαίνει ότι θέλουμε πιο απλό μοντέλο; ΌΧΙ απαραίτητα. Μπορεί τα δείγματα Δοκιμής (test-set) να μην είναι Αντιπροσωπευτικά. Πιθανή λύση- δημιουργία dev-test set. Λήψη νέων δεδομένων. ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

71 Advanced topics in Kernel Methods
Multiple Kernel Learning Kernel Methods in Sparse Representation Kernel Methods in Riemannian Manifolds Convolutional Kernel Networks ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

72 Multiple Kernel Learning
Σύνθεση πιο πολύπλοκων συναρτήσεων Πληροφορία από περισσότερα από ένα συστήματα- Σύνθεση πληροφορίας- Επιλογή χαρακτηριστικών Αξιοποίηση του φορμαλισμού εκπαίδευσης τους SVM για την δημιουργία συνδυασμού ταξινομητών (χαρακτηριστικών) Μια εναλλακτική προσέγγιση των Ensemble Methods F. R. Bach, G. R. G. Lanckriet, and M. I. Jordan. Multiple kernel learning, conic duality, and the SMO algorithm. In Proceedings of the International Conference on Machine Learning (ICML), 2004a ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

73 Kernel Methods in Sparse Representation
Sparse Representation problem L0 convex Relaxation arg min 𝐷,𝑎 𝐷𝑎−𝑋 2 ,𝑠.𝑡. 𝑎 0 <𝑡 L1 convex Relaxation arg min 𝐷,𝑎 𝐷𝑎−𝑋 2 +𝜆 𝑎 1 Non-Linear problem arg min 𝐷,𝑎 𝜑(𝐷)𝑎−𝜑(𝑋) 2 +𝜆 𝑎 1 Map data into RKHS arg min 𝐷,𝑎 𝐾 𝑋,𝑋 −2 𝑎 𝑇 𝐾 𝑋,𝐷 + 𝑎 𝑇 𝐾 D,𝐷 𝑎 2 +𝜆 𝑎 1 M. Harandi, C. Sanderson, R. Hartley and B. Lovell, Sparse Coding and Dictionary Learning for Symmetric Positive Definite Matrices: A Kernel Approach European Conference on Computer Vision (ECCV), Firenze, 2012. ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

74 Kernel Methods in Riemannian Manifolds
𝐷 𝐿𝐸 x,y = log 𝑆 1 − log 𝑆 Κ RBF_LE =exp⁡(−𝛾 𝐷 𝐿𝐸 x,y ) S. Jayasumana, R. Hartley, M. Salzmann, H. Li and M. Harandi, "Kernel Methods on Riemannian Manifolds with Gaussian RBF Kernels," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 37, no. 12, pp , Dec doi: /TPAMI ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

75 Convolutional Kernel Networks
Βελτίωση των συνελικτικών δικτύων επιτρέποντας στα επιπεδα αυτά να είναι ανεξάρτητα κάποιων μετασχηματισμών Αυτό επιτυγχάνεται μαθαίνοντας την απεικόνιση σε ένα Reproducing Kernel Μπορεί να απλοποιήσει σημαντικά, πολύπλοκα δίκτυα Julien Mairal, Piotr Koniusz, Zaid Harchaoui, and Cordelia Schmid Convolutional kernel networks. In Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 2 (NIPS'14), Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger (Eds.), Vol. 2. MIT Press, Cambridge, MA, USA, ΔΜΠΣ "Ηλεκτρονική και Επεξεργασία της Πληροφορίας"

76 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Ανασκόπηση Παρουσιάσαμε ένα νέο τρόπο αναπαράστασης των χαρακτηριστικών διανυσμάτων ως γινόμενα Η αναπαράσταση αυτή μας οδήγησε στη δημιουργία των Kernel Δείξαμε πως αυτή η αναπαράσταση μπορεί να ενσωματώσει με αποδοτικό τρόπο μη γραμμικές συναρτήσεις που απεικονίζουν τα δεδομένα μας σε μια μεγάλη (ακόμη και άπειρη) διάσταση Παρουσιάσαμε τους ταξινομητές μεγίστου περιθωρίου και τον ταξινομητή SVM με έμφαση στις ιδιότητες του Διατυπώσαμε το πρόβλημα βελτιστοποίησης σε δύο μορφές για την περίπτωση όπου τα δεδομένα είναι διαχωρίσιμα ή μη. Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

77 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Άσκηση- Παραδοτέο Παραδοτέο- Κατεβάστε το αρχείο της Άσκησης 2 από εδώ: ml Ακολουθήστε τις οδηγίες για να ολοκληρώσετε την άσκηση Αποστολή στο dkastaniotis upatras dot[.] gr Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

78 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Επιπλέον Υλικό Το υλικό της διάλεξης θα το βρείτε εδώ: Παραπομπές: Learning with Kernels, Support Vector Machines, Regularization, Optimization, and Beyond, Bernhard Schölkopf and Alexander J. Smola Statistical Learning Theory, Vladimir N. Vapnik, ISBN: Kernel Methods for Pattern Analysis, John Shawe-Taylor, Nello Cristianini, Cambridge University Press New York, NY, USA ©2004 , ISBN: A Tutorial on Support Vector Machines for Pattern Recognition , Chris J.C. Burges, Data Mining and Knowledge Discovery, pages: , vol: 2 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας


Κατέβασμα ppt "Επιβλεπόμενη Μηχανική Εκμάθηση ΙI"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google