Bayes Classifiers.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
ΜΑΘΗΜΑΤΙΚΑ ΚΑΤΕΥΘΥΝΣΗΣ
Advertisements

Πιθανότητες & Τυχαία Σήματα Συσχέτιση
Επίπεδα Γραφήματα : Προβλήματα και Υπολογιστική Πολυπλοκότητα TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A AA.
Πολυπλοκότητα Παράμετροι της αποδοτικότητας ενός αλγόριθμου:
Μια Μπεϋζιανή Μέθοδος για την Επαγωγή Πιθανοτικών Δικτύων από Δεδομένα ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ B. Μεγαλοοικονόμου, Χ. Μακρής.
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Αναγνώριση Προτύπων.
Στατιστική Ι Παράδοση 5 Οι Δείκτες Διασποράς Διασπορά ή σκεδασμός.
Αναγνώριση Προτύπων.
Γραφήματα & Επίπεδα Γραφήματα
Διαίρει και Βασίλευε πρόβλημα μεγέθους Ν διάσπαση πρόβλημα μεγέθους Ν-k πρόβλημα μεγέθους k.
Κ. Μόδη: Γεωστατιστική και Εφαρμογές της (Κεφάλαιο 5) 1 Τυχαία συνάρτηση Μία τυχαία συνάρτηση (ΤΣ) είναι ένας κανόνας με τον οποίο σε κάθε αποτέλεσμα ζ.
Κοντινότεροι Κοινοί Πρόγονοι α βγ θ δεζ η π ν ι κλμ ρσ τ κκπ(λ,ι)=α, κκπ(τ,σ)=ν, κκπ(λ,π)=η κκπ(π,σ)=γ, κκπ(ξ,ο)=κ ξο κκπ(ι,ξ)=β, κκπ(τ,θ)=θ, κκπ(ο,μ)=α.
Προσεγγιστικοί Αλγόριθμοι
Γ΄ κατεύθυνση Προβληματισμοί για τους ορισμούς, θεωρήματα, παραδείγματα και τις ασκήσεις του 3ου κεφαλαίου
Κ. Μόδη: Γεωστατιστική και Εφαρμογές της (Κεφάλαιο 3) 1 Από κοινού κατανομή δύο ΤΜ Στην περίπτωση που υπάρχουν δύο ΤΜ ενδιαφέροντος, η συνάρτηση κατανομής.
ΒΕΣ 06: Προσαρμοστικά Συστήματα στις Τηλεπικοινωνίες © 2007 Nicolas Tsapatsoulis Θεωρία Στοχαστικών Σημάτων: Στοχαστικές διεργασίες, Περιγραφή εργοδικών.
Αναγνώριση Προτύπων.
Ανάλυση Πολλαπλής Παλινδρόμησης
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
Βασικές Αρχές Μέτρησης
ΒΕΣ 06: Προσαρμοστικά Συστήματα στις Τηλεπικοινωνίες © 2007 Nicolas Tsapatsoulis Προσαρμοστικοί Αλγόριθμοι Υλοποίησης Βέλτιστων Ψηφιακών Φίλτρων: Ο αναδρομικός.
Κ. Μόδη: Γεωστατιστική και Εφαρμογές της (Κεφάλαιο 2) 1 Τι είναι η πιθανότητα Έστω ότι δίνεται ένα πείραμα τύχης το οποίο καθορίζεται από το σύνολο των.
Κ. Μόδη: Γεωστατιστική και Εφαρμογές της (Κεφάλαιο 4) 1 Από κοινού κατανομή πολλών ΤΜ Ορίζεται ως από κοινού συνάρτηση κατανομής F(x 1, …, x n ) n τυχαίων.
1 Βέλτιστη δρομολόγηση (optimal routing) Αντιμετώπιση της δρομολόγησης σαν «συνολικό» πρόβλημα βελτιστoποίησης. Γιατί: Η αλλαγή της δρομολόγησης μιας συνόδου.
ΚΕΦΑΛΑΙΟ 6 ΓΕΩΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΙ ΚΑΙ ΤΕΧΝΙΚΕΣ: ΣΗΜΕΙΑ
Olympia Nikou1 Τίτλος Παρουσίασης: Προσεγγιστικός Υπολογισμός των λύσεων ενός προβλήματος με: Δειγματοληψία στον χώρο αναζήτησης των λύσεων.
ΚΑΤΑΝΟΜΕΣ ΠΙΘΑΝΟΤΗΤΩΝ ΔΙΑΚΡΙΤΩΝ ΚΑΙ ΣΥΝΕΧΩΝ ΤΥΧΑΙΩΝ ΜΕΤΑΒΛΗΤΩΝ
ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ
Διάλεξη 14: Εισαγωγή στη ροή ρευστών
Αρχές επαγωγικής στατιστικής
ΚΙΝΗΜΑΤΙΚΗ ΤΩΝ ΡΕΥΣΤΩΝ ΕΙΣΑΓΩΓΗ Σκοπός της κινηματικής είναι η περιγραφή της κίνησης του ρευστού Τα αίτια που δημιούργησαν την κίνηση και η αναζήτηση των.
Σχεδιασμός των Μεταφορών Ενότητα #5: Δειγματοληψία – Sampling. Δρ. Ναθαναήλ Ευτυχία Πολυτεχνική Σχολή Τμήμα Πολιτικών Μηχανικών.
Διαστήματα Εμπιστοσύνης α) για τη μέση τιμή β) για ένα ποσοστό.
 Ο Νόμος των Μεγάλων Αριθμών είναι το θεώρημα που περιγράφει τον τρόπο με τον οποίο συμπεριφέρεται ένα συγκεκριμένο πείραμα, όταν ο αριθμός των επαναλήψεων.
Αρχές επαγωγικής στατιστικής Τμήμα :Νοσηλευτικής Πατρών Διδάσκουσα: Παναγιώταρου Αλίκη Διάλεξη 9.
ΕΛΕΓΧΟΙ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ Η πιο συνηθισμένη στατιστική υπόθεση είναι η λεγόμενη Υπόθεση Μηδέν H 0. –Υποθέτουμε ότι η εμφανιζόμενη διαφορά μεταξύ μιας.
Έλεγχος Υποθέσεων Ο έλεγχος υποθέσεων αναφέρεται στη διαδικασία αποδοχής ή απόρριψης μιας στατιστικής υπόθεσης, Κατά την εκτέλεση ενός στατιστικού ελέγχου,
ΣΥΣΤΗΜΑΤΑ ΑΥΤΟΜΑΤΟΥ ΕΛΕΓΧΟΥ Ι 7 η Διάλεξη Η ΜΕΘΟΔΟΣ ΤΟΥ ΓΕΩΜΕΤΡΙΚΟΥ ΤΟΠΟΥ ΡΙΖΩΝ  Ορισμός του γεωμετρικού τόπου ριζών Αποτελεί μια συγκεκριμένη καμπύλη,
Διάστημα εμπιστοσύνης για τη διακύμανση. Υπολογισμός Διακυμάνσεως και Τυπικής Αποκλίσεως Όταν τα δεδομένα αφορούν πληθυσμό – μ είναι ο μέσος του πληθυσμού.
ΗΛΕΚΤΡΙΚΕΣ ΜΕΤΡΗΣΕΙΣ ΣΦΑΛΜΑΤΑ ΜΕΤΡΗΣΗΣ.
Κεφάλαιο 5 Συμπεριφορά των ΣΑΕ Πλεονεκτήματα της διαδικασίας σχεδίασης ΣΑΕ κλειστού βρόχου Συμπεριφορά των ΣΑΕ στο πεδίο του χρόνου Απόκριση ΣΑΕ σε διάφορα.
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ II Καθ. Πέτρος Π. Γρουμπός Διάλεξη 8η Στοχαστικά Σήματα - 1.
ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ II Καθ. Πέτρος Π. Γρουμπός Διάλεξη 4η Δειγματοληψία.
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΠΙΝΑΚΕΣ ΚΑΙ ΔΙΑΓΡΑΜΜΑΤΑ Πηγή: Βιοστατιστική [Σταυρινός / Παναγιωτάκος] Βιοστατιστική [Τριχόπουλος / Τζώνου / Κατσουγιάννη]
ΣΥΣΤΗΜΑΤΑ ΑΥΤΟΜΑΤΟΥ ΕΛΕΓΧΟΥ Ι 8 η Διάλεξη ΣΥΣΤΗΜΑΤΑ ΑΥΤΟΜΑΤΟΥ ΕΛΕΓΧΟΥ Ι ΠΑΡΑΔΕΙΓΜΑΤΑ ΣΧΕΔΙΑΣΜΟΥ ΚΑΙ ΧΡΗΣΗΣ ΤΟΥ ΓΕΩΜΕΤΡΙΚΟΥ ΤΟΠΟΥ ΤΩΝ ΡΙΖΩΝ Το σύστημα ελέγχου.
Συμπληρωματική Πυκνότητα Ελαστικής Ενέργειας Συμπληρωματικό Εξωτερικό Έργο W: Κανονικό έργο Τελικές δυνάμεις Ρ, τελικές ροπές Μ, ολικές μετατοπίσεις δ.
Τι είναι «διάστημα» (1). Διαστήματα Εμπιστοσύνης α) για τη μέση τιμή (ποσοτικά) β) για ένα ποσοστό (ποιοτικά)
ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΔΙΑΣΠΟΡΑΣ - ΑΣΥΜΜΕΤΡΙΑΣ - ΚΥΡΤΩΣΕΩΣ
Επικρατούσα τιμή. Σε περιπτώσεις, που διαφορετικές τιμές μιας μεταβλητής επαναλαμβάνονται περισσότερο από μια φορά, η επικρατούσα τιμή είναι η συχνότερη.
Μεθοδολογία έρευνας και στατιστική – Δείγμα –Κατανομές
Δειγματοληψία Στην Επαγωγική στατιστική οδηγούμαστε σε συμπεράσματα και αποφάσεις για τις παραμέτρους ενός πληθυσμού με τη βοήθεια ενός τυχαίου δείγματος.
Independent Component Analysis (ICA)
Άσκηση 2-Περιγραφικής Στατιστικής
Διάλεξη 15: O αλγόριθμος SIMPLE
Λήμμα άντλησης Πως αποφασίζουμε αποδεικνύουμε ότι μία γλώσσα δεν είναι κανονική; Δυσκολότερο από την απόδειξη ότι μια γλώσσα είναι κανονική. Γενικότερο.
Η Έννοια της τυχαίας Διαδικασίας
ΣΗΜΑΤΑ ΚΑΙ ΣΥΣΤΗΜΑΤΑ II
Εισαγωγή στο Γραμμικό Προγραμματισμό
Διάλεξη 6: Εξίσωση διάχυσης (συνέχεια)
ΙΔΙΟΤΗΤΕΣ ΤΟΥ ΕΔΑΦΟΥΣ Το αντικείμενο της εδαφομηχανικής είναι η μελέτη των εδαφών, με στόχο την κατανόηση και πρόβλεψη της συμπεριφοράς του εδάφους για.
Τμήμα Μηχανικών Πληροφορικής Τ.Ε.
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΑΕΠΠ
ΑΣΥΜΠΤΩΤΙΚΗ ΑΝΑΛΥΣΗ & ΠΡΟΣΘΕΣΗ
Στατιστικά Περιγραφικά Μέτρα
ΤΑΞΙΝΟΜΗΣΗ ΠΡΟΤΥΠΩΝ ΜΕ ΣΥΝΑΡΤΗΣΕΙΣ ΑΠΟΣΤΑΣΗΣ Απλοί Ταξινομητές
Μη Γραμμικός Προγραμματισμός
Τι είναι «διάστημα» (1). Διαστήματα Εμπιστοσύνης α) για τη μέση τιμή (ποσοτικά) β) για ένα ποσοστό (ποιοτικά)
Μη Γραμμικός Προγραμματισμός
Μεταγράφημα παρουσίασης:

Bayes Classifiers

Θεώρημα Bayes Tο θεώρημα Bayes εκφράζεται ως: όπου ωj η κλάση j και x το διάνυσμα χαρακτηριστικών Ένας τυπικός κανόνας απόφασης είναι να επιλέγουμε την κλάση με τη μέγιστη P[ωj|x] P[ωj] εκ των προτέρων πιθανότητα P[ωj|x] εκ των υστέρων πιθανότητα P[x|ωj] πιθανοφάνεια P[x] σταθερά κανονικοποίησης

Λόγος Πιθανοφάνειας  Δεδομένου του θεωρήματος Bayes: H P(x) μπορεί να απλοποιηθεί και μετά από ανακατάταξη της σχέσης προκύπτει ο λόγος πιθανοφάνειας Λ(x) και ο κανόνας απόφασης του Bayes:  Ερωτήσεις 1) Ορίστε το λόγο πιθανοφάνειας.

Κανόνας Απόφασης Bayes - Άσκηση Δεδομένου προβλήματος ταξινόμησης με τις πιο κάτω υπό συνθήκη πιθανότητες και υποθέτοντας ίσες εκ των προτέρων πιθανότητες, εξάγετε κανόνα απόφασης.

Κανόνας Απόφασης Bayes - Λύση Αντικαθιστώντας στον κανόνα: Απλοποιώντας Λογαριθμόντας  

Κανόνας Απόφασης Bayes - Λύση

Συμπέρασμα Πιθανότητα λάθους

Gaussian συνάρτηση πυκνότητας πιθανότητας

Gaussian συνάρτηση πυκνότητας πιθανότητας Gaussian pdf πολλών μεταβλητών όπου Και ο Πίνακας συνδιασποράς

Ταξινομητές Ελάχιστης Απόστασης Ο Βέλτιστος Bayesian ταξινομητής, απλοποιείται σημαντικά όταν: Οι κλάσεις είναι ισοπίθανες Τα δεδομένα σε όλες τις κλάσεις ακολουθούν κανονική κατανομή Το μητρώο συνδιασποράς είναι το ίδιο για όλες τις κλάσεις Το μητρώο συνδιασποράς είναι διαγώνιο με όλα τα στοιχεία ίσα S=σ2Ι

Ταξινομητές Ελάχιστης Απόστασης Αν ισχύουν οι περιορισμοί ο Βayes classifier γίνεται: Euclidean Distance: Αν δεν ισχύει ο τελευταίος περιορισμός γίνεται: Mahalanobis Distance:

Επιβλεπόμενη vs Μη-Επιβλεπόμενη Μάθηση Μέχρι τώρα θεωρήσαμε μεθόδους αναγνώρισης με classification όπου το πρότυπο χαρακτηρίζεται από τα μεγέθη {x,ω} Αυτά τα προβλήματα αναγνώρισης ονομάζονται Επιβλεπόμενα (supervised) αφού διατίθενται και το χαρακτηριστικό διάνυσμα και η σωστή απάντηση. Υπάρχουν όμως περιπτώσεις όπου δίνεται το χαρακτηριστικό διάνυσμα χωρίς την κλάση. Αυτές οι μέθοδοι καλούνται Μη-Επιβλεπόμενες (unsupervised) λόγω του ότι δεν χρησιμοποιούν τη σωστή απάντηση. Ερωτήσεις 1) Τι είναι επιβλεπόμενη και τι μη-επιβλεπόμενη μάθηση;

Επιβλεπόμενη vs Μη-Επιβλεπόμενη Μάθηση Αν και η μέθοδοι μη επιβλεπόμενης μάθηση φαίνονται περιορισμένων δυνατοτήτων υπάρχουν πολλές περιπτώσεις που επιβάλλεται η χρήση τους: Ο χαρακτηρισμός πολλών δεδομένων μπορεί να αποβεί δαπανηρός (π.χ. αναγνώριση ομιλίας) Το είδος της κλάσης μπορεί να μην είναι γνωστό εξ’αρχής. Ερωτήσεις 1) Μπορείτε να φανταστείτε περιπτώσει όπου επιβάλλεται η χρήση μη επιβλεπόμενης μάθησης;

Κατηγοριοποιήση των μη-επιβλεπόμενων μεθόδων εκμάθησης Παραμετρικές (μείγματα κατανομών): Αυτές οι μέθοδοι μοντελοποιούν την υπό συνθήκη πυκνότητα πιθανότητας με ένα μίγμα παραμετρικών πυκνοτήτων με σκοπό να βρουν τις παραμέτρους του μοντέλου. Μη-παραμετρικές (clustering): Δεν γίνεται υπόθεση για την πυκνότητα πιθανότητα αλλά επιχειρείται διαχωρισμός των δεδομένων σε clusters. Ερωτήσεις 1) Ποιες είναι οι κατηγορίες των μη-επιβλεπόμενων μεθόδων μάθησης και πως λειτουργεί η καθεμία;

Μοντέλα Μίξης Θεωρήστε το πρόβλημα μοντελοποίησης συνάρτησης πυκνότητας πιθανότητας δεδομένου ενός συνόλου δεδομένων X={x(1, x(2, …, x(N} Αν η μορφή πυκνότητας ήταν γνωστή το πρόβλημα θα λύνονταν με το κριτήριο της Μέγιστης Πιθανότητας Αν η μορφή πυκνότητας ήταν άγνωστη, θα μπορούσε να λυθεί με τα παράθυρα Parzen

Μοντέλα Μίξης Εδώ θα θεωρήσουμε μια εναλλακτική μέθοδο εκτίμησης της πυκνότητας, μέσω μείγματος παραμετρικών πυκνοτήτων

Ο αλγόριθμος ΕΜ (Expectation Maximization -μεγιστοποίηση αναμονής) Ο ΕΜ είναι γενική μέθοδος για την εκτίμηση της μέγιστης πιθανότητας όταν λείπουν δεδομένα. Χρησιμοποιείται όταν όντως έχουν καταστραφεί ή λείπουν δεδομένα ή ότι η υπόθεση ότι λείπουν δεδομένα απλοποιεί τη συνάρτηση πιθανότητας Υποθέστε σύνολο δεδομένων που περιέχει δύο είδη χαρακτηριστικών: τα Χ που είναι γνωστά και τα Ζ που είναι άγνωστα Ερωτήσεις 1) Τι είναι ο αλγόριθμος ΕΜ και που χρησιμοποιείται;

Ο αλγόριθμος ΕΜ (Expectation Maximization -μεγιστοποίηση αναμονής) Ορίζουμε μια συνάρτηση κατανομής πιθανότητας όλων των δεδομένων p(X,Z|θ) όπου θ={μ,Σ} Η συνάρτηση είναι τυχαίας μεταβλητής ως προς Ζ δηλ. p(X,Z|θ)=hX,θ(Z) Ο ΕΜ έχει δύο λειτουργίες που επαναλαμβάνει: Μια λειτουργία αναμονής (Expectation) Μια λειτουργία μεγιστοποίησης (Maximization) Ερωτήσεις 1) Ποια είναι τα δύο στάδια που περιλαμβάνει ο αλγόριθμος ΕΜ;

Ο αλγόριθμος ΕΜ (Expectation Maximization -μεγιστοποίηση αναμονής) ANAMONH Υπολόγισε την αναμενόμενη τιμή της πιθανότητας log[p(X,Z|θ)] ως προς τα άγνωστα δεδομένα Ζ, δεδομένων των Χ και την τρέχουσα τιμή θ(i-1 ΜΕΓΙΣΤΟΠΟΙΗΣΗ Υπολόγισε το όρισμα θ Αποδεικνύεται ότι ο ΕΜ συγκλίνει σε τοπικό μέγιστο της συνάρτησης πιθανότητας Ερωτήσεις 1) Τι περιλαμβάνει το στάδιο αναμονής και τι το στάδιο μεγιστοποίησης του ΕΜ και πως συνδυάζονται;

Ο αλγόριθμος ΕΜ (Expectation Maximization -μεγιστοποίηση αναμονής) Κατά την Ε λειτουργία τα χαρακτηριστικά Ζ διώχνονται με ολοκλήρωση Κατά την Μ λειτουργία υπολογίζονται οι τιμές των παραμέτρων που μεγιστοποιούν την αναμενόμενη τιμή. Αφού το Ζ είναι άγνωστο μεγιστοποιούμε τη λογαριθμική συνάρτηση πιθανότητας για όλες τις πιθανές τιμές του Ζ

Ο αλγόριθμος ΕΜ και μίγμα μοντέλων Έχοντας ορίσει τον αλγόριθμο ΕΜ μπορούμε να λύσουμε το πρόβλημα μίγματος παραμετρικών κατανομών Για λόγους απλοποίησης θα θεωρήσουμε πρόβλημα μιας μεταβλητής όπου όλα τα μέρη έχουν γνωστή τυπική απόκλιση σ.

Ο αλγόριθμος ΕΜ και μίγμα μοντέλων Δεδομένου του συνόλου δεδομένων X={x(1, x(2, …, x(N}, ζητείται να υπολογίσουμε τις παραμέτρους του μοντέλου θ={µ1, µ2, …µC} Θεωρούμε ότι κάθε μεταβλητή x(n δημιουργήθηκε με τον εξής τρόπο: Αρχικά μια κατανομή Gauss επιλέγεται βάσει των συντελεστών του μίγματος P(ωc) Τότε, το x(n δημιουργείται βάσει της πιθανότητας p(x|µc) του συγκεκριμένου συστατικού Σε ένα τέτοιο πρόβλημα, οι κρυφές μεταβλητές Z={z1(n,z2(n,…zC(n} χρησιμοποιούνται για να δείξουν ποια από τις C κατανομές Gauss παρήγαγε το x(n

Ο αλγόριθμος ΕΜ και μίγμα μοντέλων Η πιθανότητα p(x,z|θ) για ένα συγκεκριμένο δείγμα είναι: Μόνο ένα από τα zc(n μπορεί να είναι 1.

Ο αλγόριθμος ΕΜ και μίγμα μοντέλων Η λογαριθμική συνάρτηση πιθανότητας για όλο το σύνολο θα είναι Για να υπολογίσουμε το Q(θ|θ(i-1) πρέπει να πάρουμε τη μέση τιμής ως προς Ζ E[zc(n] είναι η πιθανότητα το παράδειγμα x(n να δημιουργήθηκε από τη c-στη κατανομή Gauss δεδομένων των παραμέτρων θ(i-1

Ο αλγόριθμος ΕΜ και μίγμα μοντέλων Αυτές οι δύο εκφράσεις δίνουν την Q συνάρτηση:

Ο αλγόριθμος ΕΜ και μίγμα μοντέλων Το δεύτερο βήμα (Maximization) είναι ο υπολογισμός των τιμών {µ1,µ2,…,µC} όπου μεγιστοποιεί τη συνάρτηση Q Και υπολογίζοντας τα μηδενικά της μερικής παραγώγισης:

Ιστόγραμμα Η πιο απλή μορφή μη παραμετρικής εκτίμησης πυκνότητας είναι το ιστόγραμμα Χωρίζει το δειγματοχώρο σε μικρές περιοχές και προσεγγίζει την πυκνότητα από το πλήθος των δειγμάτων που εμπίπτουν στην κάθε περιοχή. Ερωτήσεις Τι είναι το ιστόγραμμα δεδομένων; Πως υπολογίζεται; Σε τι χρησιμεύει;

Ιστόγραμμα - Μειονεκτήματα Το τελικό σχήμα της συνάρτησης πυκνότητας πιθανότητας εξαρτάται από το σημείο εκκίνησης των περιοχών Η φαινομενική συνέχεια στα δεδομένα εξαρτάται από την επιλογή των περιοχών Σε προβλήματα πολλών διαστάσεων θα απαιτούνται πολλά δείγματα αλλιώς ο σχηματισμός θα είναι ελλιπής. Ερωτήσεις 1) Ποια είναι τα μειονεκτήματα του υπολογισμού της συνάρτησης πυκνότητας πιθανότητας από τα δεδομένα;

Γενική διατύπωση εκτίμησης Η πιθανότητα ένα διάνυσμα x, με κατανομή p(x), να ανήκει σε μια περιοχή  είναι: Αν υποθέσουμε ότι Ν είναι τα δείγματα της κατανομής, η πιθανότητα να ανήκουν k στην περιοχή , είναι:

Γενική διατύπωση εκτίμησης Από τις ιδιότητες των διωνυμικών κατανομών έχουμε: Που σημαίνει ότι όταν Ν→∞ η κατανομή γίνεται πιο αιχμηρή, άρα μπορούμε να θεωρήσουμε ότι μία καλή εκτίμηση της P είναι το μέσο των σημείων που εμπίπτουν στην :

Γενική διατύπωση εκτίμησης Αν υποθέσουμε ότι η περιοχή  είναι τόσο μικρή που η p(x) δεν αλλάζει: Και συνδυάζοντας με το προηγούμενο αποτέλεσμα: Ο υπολογισμός είναι πιο ακριβής όσο αυξάνει το πλήθος των δειγμάτων Ν και μικραίνει ο όγκος V Ερωτήσεις Ποιο είναι ο βασικότερος περιορισμός για την εκτίμηση της συνάρτησης πυκνότητας πιθανότητας με παράθυρα Parzen; Τι πρόβλημα υπάρχει και τι συμβιβασμός πρέπει να γίνει;

Γενική διατύπωση εκτίμησης Στην προηγούμενη σχέση ο συνολικός αριθμός δειγμάτων Ν είναι σταθερός Για να βελτιωθεί η ακρίβεια στην εκτίμηση του p(x) μπορούμε να ελαχιστοποιήσουμε τον όγκο (σχεδόν 0), αλλά τότε η περιοχή  θα γίνει τόσο μικρή που δεν θα περιέχει πρακτικά δείγματα Άρα θα πρέπει να γίνει ένας συμβιβασμός ώστε το V να είναι αρκετά μεγάλο για να περιέχει αρκετά δείγματα και αρκετά μικρό ώστε να στηρίζεται η υπόθεση ότι το p(x) παραμένει σταθερό εντός της 

Γενική διατύπωση εκτίμησης Στην πράξη δύο προσεγγίσεις ακολουθούνται: Μπορούμε να επιλέξουμε μια σταθερή τιμή για τον όγκο V και να υπολογίσουμε τα περιεχόμενα δείγματα από τα δεδομένα (Εκτίμηση Πυκνότητας Kernel) Μπορούμε να ορίσουμε σταθερό αριθμό δειγμάτων k και να υπολογίσουμε τον αντίστοιχο όγκο V από τα δεδομένα (k-Nearest Neighbours) Αποδεικνύεται ότι και οι δύο πιο πάνω προσεγγίσεις συγκλίνουν στην πραγματική τιμή της συνάρτησης πυκνότητας πιθανότητας όταν N→∞, δεδομένου ότι ο όγκος V συρρικνώνεται και το k μεγαλώνει με το N, Ερωτήσεις 1) Τι προσεγγίσεις ακολουθούνται στην πράξη για τον υπολογισμό της συνάρτησης πυκνότητας πιθανότητας; Πως ονομάζονται οι τεχνικές σε κάθε περίπτωση;

Παράθυρα Parzen Αν υποθέσουμε ότι η περιοχή  που περικλείει k δείγματα είναι ένας κύβος πλευράς h κεντραρισμένος στο σημείο εκτίμησης x, ο όγκος είναι V=hD. Για να βρούμε τον αριθμό των δειγμάτων στην περιοχή ορίζουμε την Kernel συνάρτηση: Ερωτήσεις Τι είναι τα παράθυρα Parzen; Πως ορίζονται; Που χρησιμοποιούνται;

Παράθυρα Parzen Αυτή η συνάρτηση, μοναδιαίου υπερκύβου κεντραρισμένο στο x, ονομάζεται παράθυρο Parzen Η ποσότητα K((x-x(n)/h) ισούται με τη μονάδα αν το σημείο x(n βρίσκεται μέσα στον κύβο. Ερωτήσεις 1) Τι είναι η συνάρτηση Kernel και πως ορίζεται;

Παράθυρα Parzen Ο συνολικός αριθμός δειγμάτων μέσα στον κύβο είναι: Και αν αντικαταστήσουμε στην έκφραση εκτίμησης της πυκνότητας πιθανότητας:

Παράθυρα Parzen - Άσκηση Βάσει των δεδομένων που ακολουθούν, χρησιμοποίησε τα παράθυρα Parzen να υπολογίσετε τη συνάρτηση πυκνότητας πιθανότητας στα σημεία y=3,10,15. Χρησιμοποιήστε h=4

Παράθυρα Parzen - Λύση Αν παραστήσουμε τα δεδομένα σε έναν άξονα, έχουμε:

Εκτίμηση Πυκνότητας με k-NN Επιλέγοντας σταθερή τιμή για το k και ορίζοντας ελάχιστο όγκο V στο σύνολο δεδομένων που περικλείει τα k σημεία, εφαρμόζουμε τη μέθοδο του k πλησιέστερου γείτονα (k Nearest Neighbor kNN) Ερωτήσεις 1) Πως γίνεται η εκτίμησης συνάρτησης πυκνότητας πιθανότητας με τη μέθοδο του πλησιέστερου γείτονα;

Εκτίμηση Πυκνότητας με k-NN Στη μέθοδο k-NN μεγαλώνουμε τον όγκο που περικλείει το σημείο εκτίμησης x εωσότου περικλείει k σημεία δεδομένων. Τότε η εκτίμηση πυκνότητας γίνεται: Όπου Rk(x) είναι η απόσταση μεταξύ του σημείου εκτίμησης και του k-στού πλησιέστερου γείτονα. cD είναι ο όγκος της μοναδιαίας σφαίρας στις D διαστάσεις, και είναι: c1=2, c2=π, c3=4π/3 κλπ

Εκτίμηση Πυκνότητας με k-NN

Εκτίμηση Πυκνότητας με k-NN Η προσέγγιση επηρεάζεται από τοπικό θόρυβο Καθώς η συνάρτηση Rk(x) δεν είναι παραγωγίσιμη θα υπάρχουν ασυνέχειες. Το αποτέλεσμα θα αποκλίνει σε όλο το δειγματοχώρο Ερωτήσεις 1) Ποια είναι τα μειονεκτήματα της εκτίμησης πυκνότητας με k-NN;

Εκτίμηση Πυκνότητας με kNN για δύο Gaussians

Εκτίμηση Πυκνότητας με k-NN Για δύο Gaussians όπου: Εκτίμηση για k=10 γείτονες και Ν=200 δείγματα

Εκτίμηση Πυκνότητας με k-NN Πραγματικά περιγράμματα Eκτίμησης με kNN

k-NN vs Bayes classifier Το μεγαλύτερο πλεονέκτημα της μεθόδου k-NN είναι ότι αποτελεί μια πολύ απλή προσέγγιση του Bayes classifier Ας υποθέσουμε ότι έχουμε ένα σύνολο δεδομένων με N δείγματα και Ni ανήκουν στην κλάση ωi και θέλουμε να ταξινομήσουμε άγνωστο δείγμα xu Θεωρούμε όγκο V γύρω από το xu με k δείγματα συνολικά και έστω ki από ωi. Ερωτήσεις 1) Πως σχετίζεται η μέθοδος k-NN με αυτή του ταξινομητή Bayes;

kNN vs Bayes classifier Παρόμοια η συνάρτηση πυκνότητας θα είναι: Και οι εκ των προτέρων πιθανότητα Αν τα βάλουμε όλα μαζί στο ταξινομητή Bayes

Ο κανόνας ταξινόμησης του k πλησιέστερου γείτονα (k-NN) Ο κανόνας του k Nearest Neighbor Rule (kNN) είναι διαισθητική μέθοδο που ταξινομεί άγνωστα δείγματα με βάσει την ομοιότητα τους με τα δείγματα εκπαίδευσης. Για δεδομένο άγνωστο πρότυπο xu βρες τα k «κοντινότερα» δείγματα από τα δεδομένα εκπαίδευσης και απέδωσε το xu στην κλάση που εμφανίζεται πιο πολύ στο k-υποσύνολο Ερωτήσεις 1) Τι λέει ο κανόνας ταξινόμησης k-NN;

Κανόνας k-NN Απαιτεί μόνο: Έναν ακέραιο k Ένα σετ γνωστών δειγμάτων (σύνολο εκπαίδευσης) Ένα μέτρο «απόστασης»

Κανόνας k-NN Στο παράδειγμα έχουμε 3 κλάσεις και άγνωστο δείγμα xu 4 γείτονες ανήκουν στην ω1 και 1 ανήκει στην ω3 Το xu κατατάσσεται στην ω1 Ερωτήσεις 1) Εξηγήστε το κανόνα k-NN με σχήμα.

k-NN - παράδειγμα Έχουμε δεδομένα για διδιάστατο πρόβλημα 3 κλάσεων όπως φαίνεται στο δείγμα Χρησιμοποιούμε k=5 και Ευκλείδεια απόσταση

k-NN - παράδειγμα Το ίδιο για άλλη διάταξη δεδομένων

O k-NN ως χαλαρός (lazy) αλγόριθμος Επεξεργάζεται τα δεδομένα εκπαίδευσης αφού ζητηθεί ταξινόμηση Απαντάει στο αίτημα ταξινόμησης συνδυάζοντας τα αποθηκευμένα δεδομένα εκπαίδευσης Δεν λαμβάνει υπόψη λογική ή άλλα αποτελέσματα. Ερωτήσεις 1) Τι είναι οι χαλαροί (lazy) αλγόριθμοι; Είναι ο k-NN ένας από αυτούς; Γιατί;

lazy αλγόριθμοι Tradeoffs χαλαρών αλγορίθμων Έχουν μικρότερο υπολογιστικό κόστος κατά την εκπαίδευση Έχουν μεγαλύτερες απαιτήσεις αποθήκευσης και υπολογιστικό κόστος κατά την κλήση τους. Ερωτήσεις 1) Ποια είναι τα υπέρ και τα κατά των χαλαρών αλγορίθμων;

Χαρακτηριστικά του k-NN Πλεονεκτήματα Απλή υλοποίηση Πολύ καλά αποτελέσματα για μεγάλο αριθμό δειγμάτων (N→∞) Μειονεκτήματα Μεγάλη απαίτηση σε αποθηκευτικό χώρο Υπολογιστικό κόστος στην κλήση Ευάλωτος στην «κατάρα πολυδιάστατων προβλημάτων» Ερωτήσεις 1) Ποια είναι τα πλεονεκτήματα και τα μειονεκτήματα του k-NN;

k-NN vs1-ΝΝ Μεγάλο k σημαίνει πιο ομαλές περιοχές αποφάσεων Δίνει πιο σωστές πιθανοτικά πληροφορίες Ωστόσο πολύ μεγάλο k μπορεί να χαλάσει την τοπικότητα της απόφασης Αυξάνει το υπολογιστικό κόστος Ερωτήσεις 1) Ποια είναι η επίδραση της μεταβολής του k στον k-NN;

k-NN vs1-ΝΝ

Άσκηση 1 Κατηγοριοποίησε τα σημεία A, B και C χρησιμοποιώντας για κατηγοριοποίηση τον κανόνα 5-ΝΝ και Ευκλείδεια απόσταση

Λύση Για το Α, για κάθε σημείο η Ευκλείδειος απόσταση θα είναι:

Άσκηση 2 Αν εφαρμόσουμε τον k-NN κανόνα απόφασης στο σχήμα της προηγούμενης άσκηση, θα πάρουμε περιοχές απόφασης και όριο απόφασης για τις δύο κλάσεις. Αν y(i) είναι τα χαρακτηριστικά διανύσματα της κλάσης 1 και s(i) της κλάσης 2, τότε σύμφωνα με τον ορισμό, κάθε σημείο του ορίου απόφασης θα πρέπει ικανοποιεί τη σχέση: Υποθέστε Ευκλείδεια απόσταση Α) ποια είναι η σχέση που καθορίζει το όριο απόφασης για μια περιοχή κοντά στο όριο αν ένα διάνυσμα y(i) είναι πιο κοντά στο όριο για την κλάση 1 και το s(j) για την κλάση 2 Β) σχεδιάστε ένα όριο απόφασης για τις δύο κλάσεις Γ) βρείτε τα στοιχεία που η μετακίνηση τους δεν αλλάζει το όριο

Λύση Για κάθε σημείο στο διάγραμμα ισχύει: Για σημείο του ορίου απόφασης

Λύση Θέτοντας Έχουμε

Λύση

NAIVE – BAYES CLASSIFIER Έστω x1, x2, ..., xℓ ανεξάρτητες μεταξύ τους μεταβλητές. Τότε Σε αυτή την περίπτωση, κάποιος θα χρειαστεί, κατά προσέγγιση, Ν σημεία για κάθε pdf. Αρα συνολικά N · ℓ θα αρκούσαν.