Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
ΔημοσίευσεΠερσεφόνη Βουγιουκλάκης Τροποποιήθηκε πριν 6 χρόνια
1
Διδάσκων: Καθηγητής Αλέξανδρος Ρήγας Συνεπικουρία: Σπύρογλου Ιωάννης
ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΔΙΑΣΤΗΜΙΚΗΣ Βιοϊατρική Τεχνολογία 9ο Εξάμηνο Διδάσκων: Καθηγητής Αλέξανδρος Ρήγας Συνεπικουρία: Σπύρογλου Ιωάννης
2
Διωνυμική λογιστική παλινδρόμηση
Σκοπός εδώ είναι να μελετήσουμε γενικευμένα γραμμικά μοντέλα στα οποία η μεταβλητή απόκρισης 𝑌 είναι μία δυαδική μεταβλητή, παίρνει δηλαδή δύο δυνατές τιμές. Έστω τώρα, ότι έχουμε 𝛮 ανεξάρτητες μεταβλητές 𝑌 𝑖 , για τις οποίες ισχύει ότι: 𝑌 𝑖 ~𝐵𝑖𝑛𝑜𝑚𝑖𝑎𝑙 𝑛 𝑖 , 𝜋 𝑖 (𝜎𝜐𝜈𝜂𝜃𝜔𝜍 𝑛 𝑖 =1) Αυτό που θέλουμε είναι να εξετάσουμε τη σχέση μεταξύ της επεξηγηματικής μεταβλητής και της πιθανότητας των επιτυχιών. Αυτό μπορεί να γίνει μοντελοποιώντας τις πιθανότητες 𝜋 𝑖 ως εξής: 𝑔 𝜋 𝑖 = 𝑚 𝑖 = 𝒙 𝑖 𝑇 𝒃, όπου το 𝑔 είναι η συνάρτηση σύνδεσης, το 𝒙 𝑖 είναι το διάνυσμα των επεξηγηματικών μεταβλητών και 𝒃 είναι το διάνυσμα των παραμέτρων. Για να αποφύγουμε αυτό το πρόβλημα το οποίο προέρχεται από τη μοντελοποίηση του 𝝅, επιλέγουμε την κατάλληλη συνάρτηση σύνδεσης έτσι ώστε να πάρουμε τιμές για την εκτίμηση του 𝜋 μέσα στο διάστημα [0,1].
3
Διωνυμική λογιστική παλινδρόμηση
Οι τρεις συναρτήσεις σύνδεσης που χρησιμοποιούνται ευρέως στην πράξη είναι: Logit ή logistic: 𝑔 𝜋 𝑖 = l𝑛 𝜋 𝑖 1− 𝜋 𝑖 Probit: 𝑔 𝜋 𝑖 = 𝛷 −1 ( 𝜋 𝑖 ) όπου με 𝛷 −1 συμβολίζεται η αντίστροφη συνάρτηση της συνάρτησης κατανομής μίας τυπικής κανονικής τυχαίας μεταβλητής. Επομένως 𝜋 𝑖 =𝛷 𝑛 𝑖 όπου 𝑛 𝑖 =𝑋𝑏 Συμπληρωματική log-log (Σπάνια) : 𝑔 𝜋 𝑖 = ln − ln 1− 𝜋 𝑖 οπότε: 𝜋 𝑖 =1− 𝑒 (− 𝑒 𝑛 𝑖 ) Η συμπληρωματική log-log συνάρτηση σύνδεσης χρησιμοποιείται τις περισσότερες φορές σε περιπτώσεις όπου η πιθανότητα να πραγματοποιηθεί ένα συμβάν ή ένα γεγονός είναι είτε πολύ μικρή είτε πολύ μεγάλη. Οι συναρτήσεις οι οποίες αναφέρθηκαν είναι όλες συνεχείς και αύξουσες στο διάστημα (0,1).
4
Διωνυμική λογιστική παλινδρόμηση
Ας υποθέσουμε ότι 𝑦 𝑖 , 𝑖=1,…,𝑛 είναι η δυαδική εξαρτημένη μεταβλητή που θέλουμε να μελετήσουμε. Τότε το μοντέλο λογιστικής παλινδρόμησης δίνεται από τη σχέση: 𝜋 𝑖 = {1+ exp −𝛽∙ 𝑥 𝑖 } −1 , όπου 𝛽 είναι το διάνυσμα των συντελεστών παλινδρόμησης. Οι εκτιμητές μέγιστης πιθανοφάνειας των παραμέτρων 𝛽 𝑗 , 𝑗=1,…,𝑘 και συνεπώς των πιθανοτήτων 𝜋 𝑖 , λαμβάνονται από τη μεγιστοποίηση της συνάρτησης πιθανοφάνειας: 𝐿 𝛽 𝑦 = 𝑖=1 𝑛 𝜋 𝑖 𝑦 1− 𝜋 𝑖 1− 𝑦 𝑖 , 𝑦 𝑖 =0,1 ή από τη λογαριθμική συνάρτηση πιθανοφάνειας 𝑙 𝛽 𝑦 = log 𝐿 𝛽 𝑦 , 𝑙 𝛽 𝑦 = 𝑖=1 𝑛 𝑦 𝑖 log exp − 𝑥 𝑖 𝑇 𝛽 − 𝑦 𝑖 log 1− 1 1+ exp −𝑥 𝑖 𝑇 𝛽
5
Υπόλοιπα Μπορούμε να εκφράσουμε την εξαρτημένη μεταβλητή στη μορφή:
𝑦= 𝜇 + 𝑦− 𝜇 Δηλαδή: 𝛥𝜀𝛿𝜊𝜇𝜀𝜈𝜊=𝜋𝜌𝜊𝜎𝛼𝜌𝜇𝜊𝜎𝜇𝜀𝜈𝜂 𝜏𝜄𝜇𝜂+𝜐𝜋ό𝜆𝜊𝜄𝜋𝜊 Τα υπόλοιπα μπορούν να χρησιμοποιηθούν για να ερευνήσουμε την επάρκεια της προσαρμογής ενός μοντέλου. Υπόλοιπα Pearson Στην περίπτωση μοντέλων λογιστικής παλινδρόμησης με δυαδική μεταβλητή απόκρισης, τα υπόλοιπα Pearson ορίζονται από την παρακάτω σχέση: 𝑟 𝑝,𝑖 =( 𝑦 𝑖 − 𝜋 𝑖 )/ 𝜋 𝑖 1− 𝜋 𝑖 Υπόλοιπα Απόκλισης Επίσης για ένα μοντέλο λογιστικής παλινδρόμησης έχουμε: 𝑟 𝐷 =𝑠𝑖𝑔𝑛 𝑦 𝑖 − 𝜋 𝑖 2 𝑦 𝑖 ln 𝑦 𝑖 𝜋 𝑖 +2(1− 𝑦 𝑖 ) ln 1− 𝑦 𝑖 1− 𝜋 𝑖
6
Απόδοση του προτεινόμενου μοντέλου
Μετά τον έλεγχο εγκυρότητας είναι πάντα πολύ σημαντικό, αν μπορούμε, να εξετάσουμε την απόδοση του μοντέλου σε νέα δεδομένα. Έχουμε λοιπόν τα παρακάτω μέτρα ακρίβειας: 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑃𝑟𝑒𝑑. 𝑉𝑎𝑙𝑢𝑒= 𝑁 𝑇𝑃 𝑁 𝑇𝑃 + 𝑁 𝐹𝑃 ×100, 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 𝑃𝑟𝑒𝑑. 𝑉𝑎𝑙𝑢𝑒= 𝑁 𝑇𝑁 𝑁 𝑇𝑁 + 𝑁 𝐹Ν ×100, 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦= 𝑁 𝑇𝑃 + 𝑁 𝑇𝑁 𝑁 𝑇𝑃 + 𝑁 𝑇𝑁 + 𝑁 𝐹𝑃 + 𝑁 𝐹𝑁 ×100 NPV ουσιαστικά δηλώνει την πιθανότητα να μην έχεις την ασθένεια ή επιμονή της ασθένειας δοθέντος αρνητικού τεστ.
7
Δεδομένα Τhis dataset is from the Duke University Cardiovascular Disease Databank and consists of 3504 patients and 6 variables. The patients were referred to Duke University Medical Center for chest pain. Some interesting analyses include predicting the probability of significant coronary disease, and predicting the probability of severe coronary disease given that some significant disease is "ruled in." The first analysis would use sigdz as a response variable, and the second would use tvdlm on the subset of patients having sigdz=1. Severe coronary disease is defined as three-vessel or left main disease and is denoted by tvdlm=1. sex=0 for males, 1 for females.
8
Υπόλοιπα Τυχαιοποιημένα Quantile Υπόλοιπα
Στην περίπτωση όμως της λογιστικής παλινδρόμησης με δυαδική μεταβλητή απόκρισης, οι κατανομές των υπολοίπων Pearson και απόκλισης δεν προσεγγίζουν σε καμία περίπτωση την κανονική κατανομή που θέλουμε. Ας υποθέσουμε ότι 𝐹 𝑦 𝑖 ; 𝜋 𝑖 =𝑃 𝑌 𝑖 ≤ 𝑦 𝑖 = 𝑚=0 𝑦 𝑖 𝜋 𝑖 𝑚 (1− 𝜋 𝑖 ) 1−𝑚 είναι η αθροιστική Διωνυμική Κατανομή της 𝑖−𝜊𝜎𝜏𝜂𝜍 δυαδικής απόκρισης. Τότε τα τυχαιοποιημένα υπόλοιπα ορίζονται από: 𝑟 𝑟𝑞, 𝑖 = 𝛷 −1 𝑢 , όπου, 𝛷 ∙ είναι η αθροιστική κατανομή της τυπικής κανονικής κατανομής, και 𝑢 𝑖 είναι μία ομοιόμορφη τυχαία μεταβλητή στο διάστημα, 𝑎 𝑖 , 𝑏 𝑖 = lim 𝑦↑ 𝑦 𝑖 𝐹 𝑦; 𝜋 𝑖 , 𝐹 𝑦; 𝜋 𝑖 ≈ 𝐹 𝑦 𝑖 −1; 𝜋 𝑖 , 𝐹 𝑦; 𝜋 𝑖 όπου 𝑦 𝑖 είναι το «πάτωμα» (floor) κάτω από το 𝑦 𝑖 , δηλαδή ο μεγαλύτερος ακέραιος μικρότερος ή ίσος του 𝑦 𝑖
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.