Διδάσκων: Καθηγητής Αλέξανδρος Ρήγας Συνεπικουρία: Σπύρογλου Ιωάννης ΔΗΜΟΚΡΙΤΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΡΑΚΗΣ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΚΑΙ ΔΙΑΣΤΗΜΙΚΗΣ Βιοϊατρικη Τεχνολογία 9ο Εξάμηνο Διδάσκων: Καθηγητής Αλέξανδρος Ρήγας Συνεπικουρία: Σπύρογλου Ιωάννης
ΑΝΑΛΥΣΗ ΒΙΟΪΑΤΡΙΚΩΝ ΔΕΔΟΜΕΝΩΝ Στα πλαίσια του μαθήματος: Δημιουργία Βιοϊατρικών μοντέλων πρόβλεψης με τη χρήση Γενικευμένων Γραμμικών Μοντέλων. Μελέτη βιοϊατρικών σημάτων στο πεδίο της συχνότητας (Υπολογισμός φάσματος ισχύος) Τεχνητά Νευρωνικά Δίκτυα Η πρακτική εργασία λαμβάνει το 20% του τελικού βαθμού.
Ανάλυση Δεδομένων Κάθε ανάλυση δεδομένων ξεκινάει με την εξέταση κάθε μεταβλητής. Κάθε μεταβλητή μπορεί να είναι: Συνεχής ή Κατηγορική (Πόσες κατηγορίες και είναι ονομαστικές ή αριθμητικές;) Σε μία στατιστική μελέτη αυτό που επιθυμούμε είναι: Η πρόβλεψη μιας μεταβλητής, η οποία ονομάζεται μεταβλητή απόκρισης ή εξαρτημένη, μέσω κάποιων γνωστών επεξηγηματικών μεταβλητών
Στατιστικό Μοντέλο Ένα μοντέλο προσδιορίζεται από δύο μέρη: Μία σχέση που συνδέει τη μεταβλητή απόκρισης με τις επεξηγηματικές. Την κατανομή που προσεγγιστικά ακολουθεί η κάθε μεταβλητή Τα επόμενα βήματα είναι: Εκτίμηση των παραμέτρων που χρησιμοποιούνται στο μοντέλο Δημιουργία διαστημάτων εμπιστοσύνης Έλεγχος επάρκειας – προσαρμοστικότητας του μοντέλου.
Γενικευμένο Γραμμικό Μοντέλο Ένα γενικευμένο γραμμικό μοντέλο έχει τρία στοιχεία: Μεταβλητές απόκρισης 𝑌 1 ,… 𝑌 𝑁 που θεωρούνται ότι ακολουθούν την ίδια κατανομή από την εκθετική οικογένεια. Ένα σύνολο παραμέτρων 𝒃 και τις επεξηγηματικές μεταβλητές: 𝑥= 𝑥 1 𝑇 . . 𝑥 𝑁 𝑇 = 𝑥 11 ⋯ 𝑥 1𝑝 ⋮ ⋱ ⋮ 𝑥 𝑁1 ⋯ 𝑥 𝑁𝑝 Μία συνάρτηση σύνδεσης 𝑔 τέτοια ώστε: 𝑔 𝜇 𝑖 = 𝒙 𝑖 𝑇 𝒃, όπου, 𝜇 𝑖 =𝐸 𝑌 𝑖 .
Συνάρτηση Σύνδεσης Για ένα ΓΓΜ υπάρχει ένας μετασχηματισμός του 𝜇 𝑖 , τέτοιος ώστε: 𝑔 𝜇 𝑖 = 𝒙 𝑖 𝑇 𝒃 όπου g είναι μία μονότονη διαφορίσιμη συνάρτηση που ονομάζεται συνάρτηση σύνδεσης(link function), 𝒙 𝒊 είναι ένα p×1 διάνυσμα επεξηγηματικών μεταβλητών 𝒙 𝑖 = 𝑥 𝑖1 . . 𝑥 𝑖𝑝 . Άρα 𝒙 𝑖 𝑇 =[ 𝑥 𝑖1 … 𝑥 𝑖𝑝 ] και 𝑏 είναι ένα 𝑝×1 διάνυσμα με παραμέτρους: 𝒃= 𝑏 1 . . 𝑏 𝑝 . Οι κανονικές συναρτήσεις σύνδεσης για τις συνήθεις κατανομές είναι: Κανονική: 𝑛=𝜇 Poisson: 𝑛= 𝑙𝑜𝑔 𝜇 (λογαριθμική συνάρτηση σύνδεσης) Διωνυμική: 𝑛= 𝑙𝑜𝑔 𝜇 1−𝜇 (logit)
Εκτίμηση Για την εκτίμηση των παραμέτρων 𝑏 1 ,…, 𝑏 𝑝 χρησιμοποιούνται 2 μέθοδοι: Η μέθοδος μέγιστης πιθανοφάνειας και Η μέθοδος ελαχίστων τετραγώνων
Μέθοδος Μέγιστης Πιθανοφάνειας Έστω 𝑌 1 ,…, 𝑌 𝑁 τυχαίες μεταβλητές με κοινή συνάρτηση πυκνότητας πιθανότητας 𝑓(𝑦,𝑏) η οποία εξαρτάται από το διάνυσμα των παραμέτρων: 𝑏= [ 𝑏 1 ,…, 𝑏 𝑝 ] 𝛵 Ο εκτιμητής μέγιστης πιθανοφάνειας του 𝑏 είναι η τιμή 𝑏 που μεγιστοποιεί τη λογαριθμική συνάρτηση πιθανοφάνειας: 𝑙 𝑏 ,𝑦 = max 𝑙 𝑏,𝑦 , 𝑏∈𝛩 όπου 𝛩 οι δυνατές τιμές του διανύσματος παραμέτρων Για τον υπολογισμό του 𝑏 λύνουμε την εξίσωση: 𝜕𝑙 𝑏,𝑦 𝜕 𝑏 𝑗 =0, 𝑗=1,…,𝑝 Έλεγχος αν οι λύσεις αντιστοιχούν στην μέγιστη τιμή της 𝑙 𝜃,𝑦 . Αυτό γίνεται όταν η δεύτερη παράγωγος στην τιμή 𝜃= 𝜃 είναι <0.
Μέθοδος Ελαχίστων Τετραγώνων Υποθέτουμε ότι 𝑌 1 ,…, 𝑌 𝑛 είναι ανεξάρτητες τυχαίες μεταβλητές με αναμενόμενες τιμές 𝜇 1 ,…, 𝜇 𝑛 . Οι 𝜇 𝑖 θεωρούνται ότι είναι συναρτήσεις των παραμέτρων b που θέλουμε να εκτιμήσουμε. Η μέθοδος ελαχίστων τετραγώνων συνίσταται στην εύρεση του εκτιμητή 𝑏 που ελαχιστοποιεί το άθροισμα τετραγώνων των διαφορών μεταξύ των παρατηρούμενων τιμών 𝑌 𝑖 και των αναμενόμενων - εκτιμώμενων τιμών 𝜇 𝑖 : 𝑆= 𝑌 𝑖 − 𝜇 𝑖 𝑏 2 . Το 𝑏 προκύπτει και εδώ με τον ίδιο τρόπο 1. Με μερική παραγώγιση του S ως προς 𝑏 𝑗 και εξισώνοντας με 0. Ελεγχος: θα πρέπει ο πίνακας 2ων παραγώγων να είναι θετικά ορισμένος.
Μελέτη Καταλληλότητας ή Προσαρμοστικότητας του μοντέλου Αφού επιλέξουμε ένα μοντέλο, θα πρέπει να εξετάσουμε την ικανότητα του μοντέλου μας να περιγράψει με ικανοποιητικό τρόπο τα δεδομένα που έχουμε. Οι προβλεπόμενες τιμές 𝜇 δεν θα είναι ακριβώς ίσες με τις παρατηρούμενες τιμές 𝑦. Το ερώτημα είναι πόσο διαφέρουν; Για να ερευνήσουμε την επάρκεια τώρα ενός μοντέλου, χρησιμοποιούμε τη δειγματική κατανομή της συνάρτησης απόκλισης 𝑫𝒆𝒗𝒊𝒂𝒏𝒄𝒆 𝑫 ή τα υπόλοιπα. Μία μικρή απόκλιση είναι ανεχτή
Στατιστική Συνάρτηση Απόκλισης Η στατιστική συνάρτηση απόκλισης δίνεται από τη σχέση: 𝐷=2 𝑙 𝒃 𝑚𝑎𝑥 ;𝒚 −𝑙 𝒃 ;𝒚 Ο αριθμός m των παραμέτρων στο πλήρες μοντέλο είναι ίδιος με τον αριθμό των παρατηρήσεων 𝛮. Όταν λοιπόν το μοντέλο έχει καλή προσαρμογή, ισχύει η παρακάτω σχέση: 𝐷~ 𝜒 2 (𝑚−𝑝) Για τη Διωνυμική και την Poisson κατανομή, η 𝐷 μπορεί να υπολογιστεί κατευθείαν και να χρησιμοποιηθεί ως στοιχείο καλής προσαρμογής. Πλήρες μοντέλο είναι ένα ΓΓΜ με ίδια κατανομή και ίδια συν. Σύνδεσης με το μοντέλο που μας ενδιαφέρει
Υπόλοιπα Για μοντέλα που ακολουθούν κανονική κατανομή μπορούμε να εκφράσουμε την εξαρτημένη μεταβλητή στη μορφή: 𝑦= 𝜇 + 𝑦− 𝜇 Δηλαδή: 𝛥𝜀𝛿𝜊𝜇𝜀𝜈𝜊=𝜋𝜌𝜊𝜎𝛼𝜌𝜇𝜊𝜎𝜇𝜀𝜈𝜂 𝜏𝜄𝜇𝜂+𝜐𝜋ό𝜆𝜊𝜄𝜋𝜊 Τα υπόλοιπα μπορούν και αυτά να χρησιμοποιηθούν για να ερευνήσουμε την επάρκεια της προσαρμογής ενός μοντέλου. Υπόλοιπα Pearson Υπόλοιπα Απόκλισης
ΜΟΝΤΕΛΑ ΓΡΑΜΜΙΚΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ Η γραμμική παλινδρόμηση αποτελεί ένα στατιστικό μοντέλο που συνδέει μία απλή εξαρτημένη μεταβλητή με μία ή περισσότερες ανεξάρτητες μεταβλητές. Έστω τώρα ότι έχουμε ένα διάνυσμα εισόδου 𝑋 𝑇 =( 𝑋 1, 𝑋 2 ,…, 𝑋 𝑝 ) και θέλουμε να προβλέψουμε τις πραγματικές τιμές μίας εξόδου 𝑌. Το μοντέλο γραμμικής παλινδρόμησης έχει τη μορφή: 𝑓 𝑋 = 𝛽 0 + 𝑗=1 𝑝 𝑋 𝑗 𝛽 𝑗 . Τα 𝛽 𝑗 , 𝑗=1,2,…,𝑝 είναι άγνωστοι συντελεστές, και οι μεταβλητές 𝑋 𝑗 μπορούν να προέρχονται από διαφορετικές πηγές Το γραμμικό μοντέλο προϋποθέτει η συνάρτηση παλινδρόμησης 𝛦 𝑌 𝑋 να είναι γραμμική ή ότι το γραμμικό μοντέλο είναι μια λογική προσέγγιση. The intercept (often labeled the constant) is the expected mean value of Y when all X=0. Start with a regression equation with one predictor, X. If X sometimes = 0, the intercept is simply the expected mean value of Y at that value.
ΜΟΝΤΕΛΑ ΓΡΑΜΜΙΚΗΣ ΠΑΛΙΝΔΡΟΜΗΣΗΣ Η πιο δημοφιλής μέθοδος εκτίμησης είναι η μέθοδος ελαχίστων τετραγώνων, από την οποία υπολογίζουμε τους συντελεστές 𝛽= ( 𝛽 0 , 𝛽 1 ,…, 𝛽 𝑝 ) 𝑇 ελαχιστοποιώντας το άθροισμα των τετραγώνων των υπολοίπων: 𝑅𝑆𝑆 𝛽 = 𝑖=1 𝑁 𝑦 𝑖 −𝑓 𝑥 𝑖 2 = 𝑖=1 𝑁 (𝑦 𝑖 − 𝛽 0 − 𝑗=1 𝑝 𝑥 𝑖𝑗 𝛽 𝑗 ) 2 . Ουσιαστικά αυτό που προσπαθούμε να βρούμε είναι μια ευθεία όπου η απόσταση κάθε σημείου { 𝑥 𝑖 , 𝑦 𝑖 } είναι ελάχιστη.
Δεδομένα για πίεση αίματος Η συστολική πίεση του αίματος μετρήθηκε για 30 άτομα διαφορετικών ηλικιών. Εξαρτημένη Μεταβλητή (Πίεση Αίματος) Ανεξάρτητη Μεταβλητή (Ηλικία) Βlood pressure is measured in millimetres of mercury (mm Hg). Reference: Helmut Spaeth, Mathematical Algorithms for Linear Regression, # Academic Press, 1991, page 304, ISBN 0-12-656460-4
Υπολογισμός τυπικών σφαλμάτων και p-values Στη στατιστική, η ποσότητα 𝑝−𝑣𝑎𝑙𝑢𝑒 χρησιμοποιείται στον έλεγχο υποθέσεων. Προτού πραγματοποιηθεί ο έλεγχος ορίζεται μία τιμή κατωφλίου που ονομάζεται επίπεδο σημαντικότητας. Παραδοσιακά το επίπεδο σημαντικότητας είναι 5% (0.05), πράγμα το οποίο σημαίνει ότι αν ισχύει η μηδενική υπόθεση θα βρίσκαμε λανθασμένα ότι δεν ισχύει περίπου 1 στις 20 φορές. Αξίζει όμως να αναφερθεί ότι μπορεί να υπάρχει σημαντική διαφορά μεταξύ της στατιστικής σημαντικότητας και επιστημονικής σημαντικότητας
Υπολογισμός 𝑉𝑎𝑟 𝛽 = 𝜎 2 ( 𝑋 ′ 𝑋) −1 𝑉𝑎𝑟 𝛽 = 𝜎 2 ( 𝑋 ′ 𝑋) −1 Όπου 𝜎 2 = 𝑅𝑆𝑆 𝑛−2 και Χ ο πίνακας των ανεξάρτητων μεταβλητών 𝑡𝑠𝑡𝑎𝑡= 𝛽 s.e( 𝛽 ) Coefficient Confidence Interval 𝛽 ± 1.96 ∗𝑠.𝑒( 𝛽 )