Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Επιβλεπόμενη Μηχανική Εκμάθηση Ι

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Επιβλεπόμενη Μηχανική Εκμάθηση Ι"— Μεταγράφημα παρουσίασης:

1 Επιβλεπόμενη Μηχανική Εκμάθηση Ι
Μοντέλα παλινδρόμησης και ταξινόμησης Δρ. Δημήτρης Καστανιώτης ΔΜΠΣ Ηλεκτρονική και Επεξεργασία Πληροφορίας 2017 Υπολογιστική Όραση και Μηχανική Εκμάθηση This work is licensed under a Creative Commons Attribution-NonCommercial-NoDerivatives 4.0 International License.

2 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Στόχοι του μαθήματος Εισαγωγή στη επιβλεπόμενη μηχανική εκμάθηση Παρουσίαση των βασικών μεθόδων παλινδρόμησης και ταξινόμησης Τεχνικές βελτιστοποίησης Σχεδιασμός, αξιολόγηση και χρήση μοντέλων μηχανικής εκμάθησης Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

3 Μηχανική εκμάθηση- Εισαγωγή Ι
Αποτελεί τη διαδικασία εκείνη όπου ένα σύστημα μέσα από μια διαδικασία εκμάθησης αποκτά εμπειρία από ένα σύνολο δεδομένων, ώστε να εκτελεί μια λειτουργία χωρίς να είναι σαφώς προγραμματισμένο Το σύστημα αυτό μαθαίνει μια συνάρτηση απεικόνισης μεταξύ των δεδομένων εισόδου και των δεδομένων εξόδου. Στην πράξη: Ένα μοντέλο προσαρμοζεται στα δεδομένα με στόχο να ικανοποιήσει ενα κριτήριο. Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

4 Μηχανική εκμάθηση- Εισαγωγή ΙΙ
Μη επιβλεπόμενη εκμάθηση Επιβλεπόμενη εκμάθηση Reinforcement Learning Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

5 Μηχανική εκμάθηση- Εισαγωγή ΙIΙ
Μη επιβλεπόμενη εκμάθηση Δεν υπάρχει πληροφορία/ χαρακτηρισμός για τα δείγματα Αναζητείται δομή στα δεδομένα (π.χ. Clustering) Είναι εφικτό να επιτευχθούν νεες αναπαραστάσεις των δεδομένων αλλάζοντας βάση (PCA, ICA, NMF, Sparse Coding) Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

6 Μηχανική εκμάθηση- Εισαγωγή IV
Επιβλεπόμενη εκμάθηση Δίνεται ένα σύνολο δειγμάτων υπό τη μορφή ζευγών εισόδου- εξόδου Στόχος μας είναι να μοντελοποιήσουμε τη σχέση μεταξύ των δεδομένων εισόδου και των δεδομένων εξόδου Δεδομένα εισόδου Predictors Δεδομένα εξόδου Target qualitative or quantitative Variables (ποιοτικές ή ποσοτικές μεταβλητές) Ποσοτικές  Παλινδρόμηση Ποιοτικές  Ταξινόμηση Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

7 Μηχανική εκμάθηση- Εισαγωγή V
Δεδομένα εισόδου- Διανύσματα εισόδου- Εξαγωγή χαρακτηριστικών Δημιουργούν τον χώρο των χαρακτηριστικών Πως προκύπτουν; Morphological and Texture Descriptors Pixels are used as features Texture Descriptors e.g. Local Binary Pattern Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

8 Μηχανική εκμάθηση- Εισαγωγή VII
Παραδείγματα- Παλινδρόμησης: Αριστερά, Ταξινόμησης: Δεξιά Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

9 Μέρος 1ο- Γραμμική παλινδρόμηση
Θα ασχοληθούμε με γραμμικά μοντέλα της μορφής 𝑦= 𝑤 0 ∙ 𝑥 0 + 𝑤 1 ∙ 𝑥 1 +…+ 𝑤 𝑑 ∙ 𝑥 𝑑 Για 𝑦 μια scalar μεταβλητή και για 𝑥 0 =1, έχουμε: 𝑦= 𝑤 0 ∙1+ 𝑤 1 ∙ 𝑥 1 +…+ 𝑤 𝑑 ∙ 𝑥 𝑑 Όπου σε μορφή πίνακα διατυπώνεται ως εξής: Υ = Χ Τ 𝑊 Χ∈ ℝ 𝑑+1 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

10 Γραμμική παλινδρόμηση
Παραδείγματα με μια μεταβλητή x Y=f(x) 2.3676 0.5263 0.5003 1.0526 3.4089 1.5789 3.5852 2.1053 2.7585 …. 10.0 Τα Δεδομένα εισόδου δίνονται σε ζευγάρια της μορφής: (x1,y1),(x2,y2),(x3,y3),…,(xn,yn) Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

11 Γραμμική παλινδρόμηση
Πως υπολογίζουμε τις παραμέτρους του μοντέλου μας; 𝑅𝑆𝑆 𝑤 = 𝑖=1 𝑛 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 2 𝑅𝑆𝑆 𝑤 = 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 𝒘= 𝜲 𝜯 𝑿 −𝟏 𝜲 𝜯 𝒚 Γιατί αυτή και όχι κάποια άλλη, συνάρτηση κόστους π.χ: Least Absolute Deviation 𝑖=1 𝑛 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 1 Using normal equations LSE LAD Επιρρεπής στους outliers Εύρωστη στους outliers Σταθερή λύση και μοναδική Μη σταθερή και πολλές λύσεις Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

12 Γραμμική παλινδρόμηση
Τι το ιδιαίτερο έχει αυτή η περίπτωση; Μπορεί το μοντέλο μας να δώσει λύσει στο πρόβλημα; Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

13 Γραμμική παλινδρόμηση
Επεκτείνουμε τη βάση μας προσθέτοντας όρους πολυωνύμου Γραμμική επέκταση βάσης 𝑦 𝑤,𝑥 = 𝑤 0 + 𝑤 1 ∙ 𝑥 1 + 𝑤 2 ∙ 𝑥 …+ 𝑤 𝑀 ∙ 𝑥 1 𝑀 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

14 Γραμμική παλινδρόμηση
Επεκτείνουμε τη βάση μας προσθέτοντας όρους πολυωνύμου Τι άλλες βάσεις μπορούμε να χρησιμοποιήσουμε; 𝑥 𝑡 𝑅𝑎𝑑𝑖𝑎𝑙 𝐵𝑎𝑠𝑖𝑠 𝑓𝑢𝑛𝑐𝑡𝑖𝑜𝑛𝑠 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

15 Γραμμική παλινδρόμηση
Αυξήσαμε την πολυπλοκότητα του μοντέλου Τι προβλήματα εισάγει αυτή η τροποποίηση; Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

16 Bias-Variance Tradeoff
Σχέση πολυπλοκότητας μοντέλου- σφάλματος Διαισθητική περιγραφή Πόσο καλά θα αναπαραστήσει νέα δείγματα; Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας Source:

17 Bias-Variance Tradeoff
LAB 1 Bias-Variance Tradeoff Σχέση πολυπλοκότητας μοντέλου- σφάλματος Τα μισά δείγματα για εκπαίδευση. Πολλές επαναλήψεις Λάθος υπόθεση για το μοντέλο μας- BIAS Μεγάλη πολυπλοκότητα μοντέλου- Variance M=1 M=3 M=9 Γραφήματα για διαφορετικούς βαθμούς Πολυωνύμου Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

18 Bias-Variance Tradeoff
𝑌=𝑓 𝑥 +𝜀 𝜀~Ν(0, σ 𝜀 ) Ανάλυση του σφάλματος: Bias Λάθος υπόθεση για το μοντέλο μας Variance Πολύπλοκο μοντέλο 𝑌 = 𝑓 𝑥 +𝜀 Err x =E 𝑌− 𝑓 𝑥 2 = = 𝑬[ 𝒇 𝒙 ]−𝒇 𝒙 𝟐 +𝑬 ( 𝒇 𝒙 −𝑬[ 𝒇 𝒙 ]) 𝟐 + 𝝈 𝜺 𝟐 = 𝑩𝒊𝒂𝒔 𝟐 +𝑽𝒂𝒓𝒊𝒂𝒏𝒄𝒆+𝑰𝒓𝒓𝒆𝒅𝒖𝒄𝒊𝒃𝒍𝒆 𝑬𝒓𝒓𝒐𝒓 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

19 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Regularization Τα μοντέλα με αυξημένη πολυπλοκότητα τείνουν να προσαρμόζονται ιδανικά στα δεδομένα εκπαίδευσης (increased variance) Μεγάλο σφάλμα στα δεδομένα δοκιμής Αυτή η κατάσταση μπορεί να αντιμετωπιστεί εισάγοντας κάποιους περιορισμούς στην ενέργεια των παραμέτρων. Δύο βασικές προσεγγίσεις Ridge Regression Lasso Regression Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

20 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
LAB 1 Regularization Ridge Regression Lasso Regression 𝑤 = argmin 𝑤 𝑖=1 𝑛 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 2 + 𝜆 𝑊 2 𝑤= 𝝀𝚰+ Χ Τ 𝑋 −1 Χ Τ 𝑦 𝑤 = argmin 𝑤 𝑖=1 𝑛 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 2 + 𝜆 𝑊 1 Reconstruction error Penalty Term Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

21 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Regularization Promotes Sparsity- Feature Selection! Lasso Regression Ridge Regression- Regularization Path Για κάθε τιμή λ έχουμε μια λύση Πως επιλέγουμε την τιμή λ;  Cross Validation 𝑑𝑓(𝜆)= 𝑖=1 𝑑 𝑑 𝑖 2 𝑑 𝑖 2 +𝜆 Shrinkage Factor 𝑆=𝑡/ 𝑖=1 𝑑 𝑤 𝑖 𝑡=( 𝑖=1 𝑑 𝑤 𝑖 )/2 𝜆→∞ 𝜆→0 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

22 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Regularization Πως επηρεάζει τη λύση του προβλήματος η εισαγωγή του επιπλέον όρου (regularizer); Coefficients for M=2 and M=8 Without Regularizer With L2 Regularizer M=2 1.2137 M=8 0.7556 M=2 0.1252 0.9755 M=9 0.1214 0.4612 0.2427 0.0315 0.0252 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

23 Robust statistics fitting- outliers
Outliers have large residuals Suppress them via reweighting Δείτε το “robustdemo” του Matlab Αλλαγή συνάρτησης κόστους Lorentzian -Δεν υπάρχει αναλυτική λύση Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

24 Γραμμική παλινδρόμηση πολλών μεταβλητών (multivariate regression)
Μέχρι τώρα ασχοληθήκαμε με συναρτήσεις μίας μεταβλητής. Όπως αναφέραμε μπορεί να έχουμε πολλαπλές εισόδους ή εξόδους Θα παρουσιάσουμε εδώ ένα παράδειγμα όπου η μεταβλητή εισόδου μας ανήκει στον 𝑅 2 (bivariate regression) Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

25 Γραμμική παλινδρόμηση πολλών μεταβλητών
Εδώ το μοντέλο μας παίρνει την εξής μορφή 𝑦= 𝑤 0 ∙ 𝑥 0 + 𝑤 1 ∙ 𝑥 1 + 𝑤 2 ∙ 𝑥 2 Ιδιαίτερη αξία εδώ έχουν οι όροι αλληλεπίδρασης μεταξύ μεταβλητών Για παράδειγμα: 𝑦= 𝑤 0 + 𝑤 1 ∙ 𝑥 1 + 𝑤 2 ∙ 𝑥 2 + 𝑤 3 ∙ 𝑥 1 𝑥 2 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

26 Γραμμική παλινδρόμηση πολλών μεταβλητών
Γεωμετρική αναπαράσταση Έχουμε πει ότι η λύση δίνεται για: 𝒘= 𝜲 𝜯 𝑿 −𝟏 𝜲 𝜯 𝒚 Η εκτίμηση ενός νέου σημείου: 𝒚 = 𝑿𝒘=𝑿 𝜲 𝜯 𝑿 −𝟏 𝜲 𝜯 𝒚 Ο όρος 𝚮=𝑿 𝜲 𝜯 𝑿 −𝟏 ονομάζεται “hat” πίνακας. Using normal equations- Τα υπόλοιπα (residuals) είναι κάθετα στην επιφάνεια Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

27 Γραμμική παλινδρόμηση πολλών μεταβλητών
Παραδείγματα: Estimated Plane Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

28 Εισαγωγή στις τεχνικές βελτιστοποίησης
Η μηχανική εκμάθηση είναι άρρηκτα συνδεδομένη με την έννοια της βελτιστοποίησης Αυτό που επιθυμούμε είναι να ελαχιστοποιήσουμε (ή να μέγιστοποιήσουμε) μια συνάρτηση αναφορικά με ένα σύνολο παραμέτρων. Μας επιτρέπει να προσεγγίσουμε με υπολογιστικά ελκυστικό τρόπο προβλήματα όπου ο αριθμός των δειγμάτων είναι μεγάλος ή δεν υπάρχει αναλυτική λύση Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

29 Πρόβλημα βελτιστοποίησης
Διατύπωση της λύσης του: 𝑅𝑆𝑆 𝑤 = 𝑖=1 𝑛 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 2 Ως πρόβλημα βελτιστοποίησης: 𝑤 =argmin 𝑤 𝑖 𝑛 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 2 Ως πρόβλημα βελτιστοποίησης με περιορισμούς (constrained): 𝑤 =argmin 𝑤 𝑖 𝑛 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 2 , s.t. 𝑊 ≤𝑡 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

30 Πρόβλημα βελτιστοποίησης
Γεωμετρική αναπαράσταση: 𝑤 =argmin 𝑤 𝑖 𝑛 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 2 , s.t. 𝑊 1 ≤𝑡 𝑤 ≜argmin 𝑤 𝑖 𝑛 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 2 , s.t. 𝑊 2 ≤𝑡 Coefficients Without Regularizer With L2 Regularizer 0.7556 0.1214 0.4612 0.2427 0.0315 0.0252 Η ενέργεια μειώνεται σημαντικά Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

31 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Convex optimization Least Squares Loss Convex -- twice differentiable with positive semi-definite matrix Τι μορφή έχει η συνάρτηση κόστους μας; Πως μπορούμε να βρούμε τις παραμέτρους που ελαχιστοποιούν την σχέση: 𝑤 =argmin 𝑤 𝑖 𝑛 𝑌 𝑖 − 𝑋 𝑖 Τ 𝑊 2 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

32 Newton-Raphson Επαναληπτική διαδικασία Second order method
If quadratic, converges in one step Επαναληπτική διαδικασία Second order method Χρειαζόμαστε μια συνάρτηση κόστους την 1η και 2η παράγωγο της Find the roots of the derivative 𝑥 𝑛+1 = 𝑥 𝑛 − 𝑓 ′ (𝑥) 𝑓 ′′ (𝑥) Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

33 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Newton-Raphson Η γαλάζια γραμμή είναι η προσεγγιση Το ελάχιστο της μας δίνει το επόμενο σημείο Το ίδιο ισχύει και για >1 διαστάσεις Χρησιμοποιεί μια τετραγωνική προσέγγιση της συνάρτησης στο στο σημείο και ελαχιστοποιεί αυτή Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

34 Newton-Raphson Επαναληπτική διαδικασία Second order method
Χρειαζόμαστε μια συνάρτηση κόστους την 1η και 2η παράγωγο της 1 dimension Higher dimensions 𝑥 𝑛+1 = 𝑥 𝑛 − 𝑓 ′ 𝑥 𝑓 ′′ (𝑥) 𝑥 𝑛+1 = 𝑥 𝑛 − (𝐻 (𝑥)) −1 𝛻 (𝑥) Inverting the Hessian is not easy Approximation, or Quasi Newton Methods Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

35 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Gradient Descent Μέθοδος που βασίζεται μόνο στην πρώτη παράγωγο Χρειαζόμαστε μια συνάρτηση κόστους (objective function) και την παράγωγο της Για την περίπτωση της ελαχιστοποίησης του αθροίσματος των διαφορών του τετραγώνου Η συνάρτηση κόστους (objective function) Η πρώτη παράγωγος 𝐽 𝑤 𝑗 = 1 2𝑛 𝑖=1 𝑛 𝑓 𝑥 𝑖,𝑗 − 𝑦 𝑖 2 𝑔 𝑤 𝑗 = 1 𝑛 𝑖=1 𝑛 (𝑓 𝑥 𝑖,𝑗 − 𝑦 𝑖 ) 𝑥 𝑖,𝑗 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

36 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Gradient Descent Η συνάρτηση κόστους 𝐽 𝑤 𝑗 = 1 2𝑛 𝑖=1 𝑛 𝑓 𝑥 𝑖,𝑗 − 𝑦 𝑖 2 Σύγκριση αναλυτικής λύσης με Gradient Descent Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

37 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Gradient Descent First order iterative method Έστω το παρακάτω πρόβλημα Η συνάρτηση κόστους 𝐽 𝑤 = 1 2𝑛 𝑖=1 𝑛 𝑦 𝑖,𝑗 −𝑓 𝑥 𝑖,𝑗 2 𝑓 𝑥 = 𝑤 0 1+ 𝑤 1 𝑥 1 +…+ 𝑤 𝑑 𝑥 𝑑 = 𝑤 𝑇 𝑥 Ενημέρωση Παραμέτρων 𝑤 𝑗 := 𝑤 𝑗 −𝑎 1 𝑛 𝑖=1 𝑛 𝑦 𝑖,𝑗 −𝑓 𝑥 𝑖,𝑗 𝑥 𝑖,𝑗 Για όλους τους άξονες j Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

38 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
LAB 2 Gradient Descent Learning Rate = 0.1 Learning Rate = 0.01 Learning Rate = 1 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

39 Online Learning Learning
Όταν τα δείγματα είναι πάρα πολλά δεν μπορούμε να τα φορτώνουμε όλα στη μνήμη Για το σκοπό αυτό προτάθηκε η μέθοδος “Stochastic Gradient Descent” Σύμφωνα με αυτή, τα δεδομένα έρχονται σε μικρές ομάδες (≥1) και χρησιμοποιούνται για να υπολογίσουμε τα νέα βάρη Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

40 (stochastic) Gradient Descent
Ρυθμός εκμάθησης Αποτελεί μια πολύ κρίσιμη παράμετρο Χρειάζεται να υπολογιστεί εμπειρικά Μπορεί να εγκλωβιστούμε σε τοπικά ελάχιστα Μικρές προσθήκες βελτιώνουν σημαντικά τα αποτελέσματα της μεθόδου Εισαγωγή momentum, Nesterov Accelerated Gradient ADAM AdaGrad RMSprop Regularization with gradient descent Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

41 Προβληματα Ταξινόμησης
Εδώ θα ασχοληθούμε με προβλήματα όπου η έξοδος του συστήματος θα αποτελεί categorical variables Τα δεδομένα παρέχονται σε μορφή (x1,y1),(x2,y2),…,(xn,yn), όπου 𝑦∈{0,…,𝐾} για Κ μεταβλητές και x∈ ℝ 𝑑 για d-διάστατα δεδομένα Ταξινόμηση σε δύο βασικές κατηγορίες Discriminant functions: Logistic Regression, Generative Discriminant Analysis Modeling Decision boundary (Perceptron, SVM) Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

42 Logistic Regression- Binary Classification
Εφαρμογή μιας μη γραμμικότητα στην έξοδο του μοντέλου γραμμικής παλινδρόμησης ακολουθούμενη από μια συνάρτηση κατωφλίου Η συνάρτηση αυτή απεικονίζει τα δεδομένα (οριζόντιος άξονας) στο εύρος [0,1] (κάθετος άξονας) Αναθέτει πιθανότητες στα δεδομένα μας 𝑓 𝑤 𝑇 𝑥 = 1 1+ 𝑒 − 𝑤 𝑇 𝑥 = 𝑒 𝑤 𝑇 𝑥 1+ 𝑒 𝑤 𝑇 𝑥 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

43 Logistic Regression- Binary Classification
Σχηματική αναπαράσταση Type equation here. Συνάρτηση κατωφλίου Συνάρτηση κατωφλίου Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

44 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Logistic Regression Εφαρμογή μιας συνάρτησης κατωφλίου στην έξοδο του μοντέλου γραμμικής παλινδρόμησης- μη γραμμικότητα Πλέον έχουμε ένα πρόβλημα μη-γραμμικό δεν υπάρχει αναλυτική λύση 𝑓 𝑤 𝑇 𝑥 = ℎ 𝑤 𝑥 = 1 1+ 𝑒 − 𝑤 𝑇 𝑥 ,όπου x∈ ℝ 𝑑+1 Έχουμε μια μη γραμμική σχέση, και δύο καταστάσεις εξόδου. Πως λύνουμε αυτό το πρόβλημα; Υπάρχουν δύο βασικές προσεγγίσεις Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

45 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Logistic Regression Δύο τρόποι να εκτιμήσουμε τις παραμέτρους Maximum Likelihood estimation Fit model with probabilistic assumptions Ελαχιστοποίηση της συνάρτησης κόστους Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

46 Logistic Regression- Maximum Likelihood estimation
Πιθανότητες ανάθεσης: Σε πιο συμπαγή μορφή, έχουμε την ισοδύναμη αναπαράσταση: Θέλουμε να μεγιστοποιήσουμε το log-likelihood 𝑃 𝑦=1 𝑥;𝑤 = ℎ 𝑤 𝑥 𝑃 𝑦=0 𝑥;𝑤 =1− ℎ 𝑤 (𝑥) 𝑃 𝑦 𝑥;𝑤 = ℎ 𝑤 𝑥 𝑦 (1− ℎ 𝑤 𝑥 ) 1−𝑦 𝑙 𝑤 =𝑝 𝑦 𝑋;𝑤 = 𝑖=1 𝑛 ℎ 𝑤 𝑥 𝑖 𝑦 𝑖 (1− ℎ 𝑤 𝑥 𝑖 ) 1− 𝑦 𝑖 log 𝑙 𝑤 = 𝜄=1 𝑛 𝑦 𝑖 log ℎ 𝑤 𝑥 𝑖 +(1− 𝑦 𝑖 )log(1− ℎ 𝑤 𝑥 𝑖 ) Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

47 Logistic Regression- Maximum Likelihood estimation
Λύση με την μέθοδο gradient descend Θέλουμε τη συνάρτηση κόστους και την παράγωγο της Τότε η παράγωγος δίνεται: 𝑑 𝑑𝑤 (ℎ 𝑤 𝑥) = ℎ 𝑤 (𝑥)(1− ℎ 𝑤 (𝑥)) Θέλουμε να μεγιστοποιήσουμε το log likelihood των παραμέτρων Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

48 Logistic Regression- Maximum Likelihood estimation
Θέλουμε να μεγιστοποιήσουμε το log likelihood των παραμέτρων Λύση με την μέθοδο gradient descent ascend Αντίστοιχα ο κανόνας ενημέρωσης των παραμέτρων γίνεται: Ενημέρωση Παραμέτρων- Πλέον μεγιστοποιούμε 𝑤 𝑗 := 𝑤 𝑗 +𝑎 1 𝑛 𝑖=1 𝑛 𝑦 𝑖,𝑗 − ℎ 𝑤 𝑗 𝑥 𝑖,𝑗 𝑥 𝑖,𝑗 Για όλους τους άξονες j Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

49 Logistic Regression- Maximum Likelihood estimation
Ποια είναι η περιοχή απόφασης; Logit transformation: log⁡(𝑝/(1−𝑝)) from [0,1] to -∞,∞ log⁡ 𝑃 𝑦=1 𝑥 𝑃 𝑦=2 𝑥 = 𝑤 𝑇 𝑥= 𝒘 𝟎 + 𝒘 𝟏 𝒙 𝑃 𝑦=1 𝑥;𝑤 = 𝑒 𝑤 𝑇 𝑥 1+ 𝑒 𝑤 𝑇 𝑥 𝑃 𝑦=0 𝑥;𝑤 =1− 𝑃 𝑦=1 𝑥;𝑤 Decision boundary: 𝒘 𝟎 + 𝒘 𝟏 𝒙=𝟎 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

50 Logistic Regression- Ελαχιστοποίηση κόστους
LAB 3 Ελαχιστοποίηση συνάρτησης κόστους με Newton-Raphson Θέλουμε τη συνάρτηση κόστους καθώς και την 1η και 2η παράγωγο της (Hessian) Cost w = 1 𝑛 ( 𝑖=1 𝑛 − 𝑦 𝑖 (log⁡( ℎ 𝑤 ( 𝑥 𝑖 ))− (1−𝑦 𝑖 )( log 1 −( ℎ 𝑤 ( 𝑥 𝑖 )) ) 𝜕Cost w 𝜕 𝑤 𝑗 = 1 𝑛 𝑖=1 𝑛 (ℎ 𝑤 𝑗 𝑥 𝑖 −𝑦) 𝑥 𝑖 𝐻 𝑖𝑗 = 𝜕 2 𝑙𝑜𝑠𝑠(𝑤) 𝜕 𝑤 𝑖 𝜕 𝑤 𝑗 Ενημέρωση Παραμέτρων 𝑤 𝑗 := 𝑤 𝑗 − 𝐻 −1 𝛻 𝑤 𝑙𝑜𝑠𝑠(𝑤) Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

51 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Logistic Regression Παράδειγμα με δύο κλάσεις στον ℝ 2 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

52 Logistic Regression Παράδειγμα με δύο κλάσεις στον ℝ 2
Παράδειγμα με δύο κλάσεις στον ℝ 2 Discriminant Functions Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

53 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Logistic Regression Επέκταση βάσης και αλληλεπίδραση μεταβλητών Μπορεί να βοηθήσει στο διαχωρισμό των κατηγοριών Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

54 Multinomial Logistic Regression
Γενίκευση της μεθόδου Logistic Regression (LR) Η μέθοδος SoftMax regression Γενίκευση της LR για Κ>2 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

55 Multinomial Logistic Regression
Η μέθοδος SoftMax regression Γενίκευση της LR για Κ>2 Αντικατάσταση της Sigmoid με τη Softmax One-hot Vectors 𝑠 𝑤 𝑖 𝑥 = 𝑒 𝑤 𝑖 𝑇 𝑥 𝑖=1 𝐾 𝑒 𝑤 𝑖 𝑇 𝑥 ,i=0,…,K Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

56 From Logistic Regression to Gaussian Discriminant
Θέλουμε οι παράμετροι μας να μεγιστοποιούν την παρακάτω πιθανότητα 𝑝 𝑦 𝑥;𝑤 = 1 2𝜋𝜎 exp⁡(− (𝑦− 𝑤 𝑡 𝑥) 2 2 𝜎 2 ) Γιατί να μην μοντελοποιήσουμε απευθείας τις κλάσεις ως Gaussian κατανομές και στη συνέχεια να αναθέτουμε κάθε δείγμα στην κατηγορία με την μεγαλύτερη πιθανότητα; Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

57 Linear and Quadratic Discriminant Analysis
Generative Learning Method Δηλαδή, μοντελοποιούμε απευθείας τη διαδικασία από την οποία παρήχθησαν τα δεδομένα Εκτίμηση παραμέτρων με την μέθοδο Maximum Likelihood Estimation Απευθείας υπολογισμός της μέσης τιμής και της διακύμανσης Σε περισσότερες από μια διαστάσεις έχουμε πίνακα Συνδιακύμανσης (Covariance Matrix) Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

58 Linear and Quadratic Discriminant Analysis
Κάποια βασικά στοιχεία Mutlivariate Normal distribution Examples of 2-D Gaussians: Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

59 Linear and Quadratic Discriminant Analysis
LAB 4 Ταξινόμηση δείγματος σε μια κατηγορία: Για ένα σύνολο κατηγοριών 𝑦={1,…,𝐾} , το δείγμα 𝑥~𝑁(𝜇,Σ) θα ανατεθεί στην κατηγορία εκείνη για την οποία μεγιστοποιείται η posterior probability 𝑝(𝑦|𝑥). argm𝑎𝑥 𝑦 𝑃(𝑦|𝑥)= argm𝑎𝑥 𝑦 𝑃 𝑥 𝑦 𝑃(𝑦) 𝑃(𝑥) Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

60 Linear and Quadratic Discriminant Analysis
Τι σημαίνει όμως Linear και τι Quadratic DA; Διαφορετικές υποθέσεις για τον πίνακα Σ Linear Quadratic Υποθεση: Ολες οι κατηγορίες έχουν ένα κοινό πίνακα Σ Παράγονται από την ιδια κατανομή με διαφορετική μεση τιμή Περιοχή απόφασης γραμμική (μεσοκάθετος) Υπόθεση: Κάθε κατηγορία έχει ένα δικό της Σ - Περιοχή απόφασης μη γραμμική! Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

61 Linear and Quadratic Discriminant Analysis
Ποιες είναι οι περιοχές απόφασης; LDA QDA Ταξινόμηση 𝜋 𝑘  Αριθμός δειγμάτων κλάσης K ως προς το σύνολο των δειγμάτων 𝛿 𝑘 = 𝑥 𝑇 Σ −1 𝜇 𝑘 − 1 2 𝜇 𝑘 Τ Σ −1 𝜇 𝑘 +log( 𝜋 𝑘 ) 𝛿 𝑘 =− 1 2 𝑙𝑜𝑔 Σ 𝑘 − 1 2 (𝑥− 𝜇 𝑘 ) 𝑇 Σ 𝑘 −1 (𝑥− 𝜇 𝑘 )+log( 𝜋 𝑘 ) 𝑘= argm𝑎𝑥 𝑘 𝛿 𝑘 (𝑥) Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

62 Fisher Linear and Quadratic Discriminant Analysis
Υπάρχει μια ευθεία (όταν 𝑥∈ ℝ 2 ) ή (υπερ)επιφάνεια (όταν 𝑥∈ ℝ 𝑑 ,𝑑≥ 2) στην οποία εάν προβάλουμε τα δεδομένα επιτυγχάνουμε τα εξής: Αυξάνουμε τη διαχωρισιμότητα μεταξύ των κλάσεων Μικραίνουμε τη διακύμανση των δειγμάτων των επιμέρους κλάσεων Για d-διάστατα δεδομένα, αρκούν d-1 διαστάσεις. Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

63 Linear and Quadratic Discriminant Analysis
Σύγκριση και Σύνδεση με την μέθοδο Logistic Regression Δεν χρειάζεται κάποια διαδικασία βελτιστοποίησης- εκτίμηση παραμέτρων από τα δεδομένα Ισχυρή υπόθεση για την κατανομή που παρήγαγε τα δεδομένα Εάν τα δεδομένα είναι πράγματι Gaussian Distributed υπερτερεί της Logistic Regression (LR). Είναι εγγενώς multiclass μέθοδος. Bayes classifier  LDA + Independent variables zero Off-diagonal Covariance Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

64 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
k-NN classifier Ταξινομητής k- εγγύτερων γειτόνων Προσεγγίζει τοπικά το πρόβλημα ελαχιστοποίησης του σφάλματος του τετραγώνου προσπαθώντας να εκτιμήσει τη μέση τιμή τοπικά Αποτελεί μια διαφορετική προσέγγιση του ίδιου προβλήματος με το γραμμικό μοντέλο που παρουσιάσαμε Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

65 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
k-NN classifier Ταξινομητής k- εγγύτερων γειτόνων Μη παραμετρική μέθοδος Δεν απαιτεί εκπαίδευση. Εκτιμά τις εξόδους κατά την εφαρμογή Μη γραμμικές περιοχές απόφασης Επηρεάζεται σημαντικά από την διαστατικότητα Χαρακτηρίζεται από high variance το οποίο ελέγχεται από την παράμετρο K. Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

66 Οδηγίες για τα προβλήματα ταξινόμησης
Πάντα χωρίζουμε τα δεδομένα μας σε δεδομένα εκπαίδευσης και δοκιμής Χρησιμοποιούμε τα δεδομένα εκπαίδευσης για να εκτιμήσουμε τις παραμέτρους του μοντέλου μας. Εκπαιδεύουμε στα δεδομένα εκπαίδευσης και αναφέρουμε στα δεδομένα δοκιμής ΠΟΤΕ δεν χρησιμοποιούμε τα δεδομένα δοκιμής κατά την εκπαίδευση Στο επόμενο μάθημα θα σας παρουσιάσουμε τη διαδικασία Cross- Validation Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

67 Προεπεξεργασία δεδομένων
Η προεπεξεργασία των δεδομένων βοηθά στη συγκλιση Αποσυσχέτιση των δειγμάτων  Διαδικασία sphering Sphering + κανονικοποίηση της διακύμανσης  Διαδικασία Whitening Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

68 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Στο επόμενο μάθημα: Εισαγωγή στους ταξινομητές που μοντελοποιούν απευθείας την περιοχή απόφασης Κάποια στοιχεία σχετικά με Statistical Learning Παρουσίαση των Kernel Methods Παρουσίαση των ταξινομητών μεγίστου περιθωρίου Ο ταξινομητής SVM Επιλογή παραμέτρων, η μέθοδος Cross-Validation Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

69 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Ανασκόπηση Παρουσιάσαμε τα γραμμικά μοντέλα παλινδρόμησης/ταξινόμησης Είδαμε πως αυτά μπορούν να εκτιμήσουν μη γραμμικές συναρτήσεις Παρουσιάσαμε την μέθοδο regularization Δείξαμε τις τεχνικές λύσης του προβλήματος εκτίμησης παραμέτρων Δώσαμε ιδιαίτερη έμφαση στην κανονικοποίηση των δεδομένων Κάναμε μια σύντομη εισαγωγή σε μη γραμμικές τεχνικές παλινδρόμησης/ταξινόμησης Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

70 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Άσκηση- Παραδοτέο Παραδοτέο- Κατεβάστε το αρχείο της Aσκησης 1 από εδώ: ml Ακολουθήστε τις οδηγίες για να ολοκληρώσετε την άσκηση Αποστολή στο dkastaniotis upatras dot[.] gr Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας

71 Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας
Επιπλέον Υλικό Το υλικό της διάλεξης θα το βρείτε εδώ: Παραπομπές: The Elements of Statistical Learning, Hastie Trevor, Tibshirani Robert, Friedman Jerome, Springer Series in Statistics, 2009 Pattern Recognition and Machine Learning (Information Science and Statistics), Christopher M. Bishop, Springer-Verlag New York, Inc. Secaucus, NJ, USA ©2006  ISBN: Τμήμα Φυσικής- ΔΜΠΣ Ηλεκτρονική και επεξεργασία της πληροφορίας


Κατέβασμα ppt "Επιβλεπόμενη Μηχανική Εκμάθηση Ι"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google