Μπεττίνα Χάιδιτς Επικ. Καθηγήτρια Υγιεινής-Ιατρικής Στατιστικής Εργαστήριο Υγιεινής
Παράδειγμα Σχέση προωρότητας και φύλου ΚΡΙΤΗΡΙΑ ΠΡΟΩΡΟΤΗΤΑ ΦΥΛΟNAIOXIΣΥΝΟΛΟ ΑΓΟΡΙΑa = 33 b = 49 a+b= 82 ΚΟΡΙΤΣΙΑc = 12 d = 47 c+d= 59 ΣΥΝΟΛΟa+c= 45b+d= 96N = 141 P = 0.012
Λόγος σχετικών πιθανοτήτων (odds ratio) Σχέση προωρότητας και φύλου ΚΡΙΤΗΡΙΑ ΠΡΟΩΡΟΤΗΤΑ ΦΥΛΟNAIOXIΣΥΝΟΛΟ ΑΓΟΡΙΑa = 33 b = 49 a+b= 82 ΚΟΡΙΤΣΙΑc = 12 d = 47 c+d= 59 ΣΥΝΟΛΟa+c= 45b+d= 96N = 141 Σχετική πιθανότητα πρόωρων αγοριών =a/b = 33/49 Σχετική πιθανότητα πρόωρων κοριτσιών =c/d = 12/47 OR = (a/b)/(c/d)= a*d/b*c = 33*47/49*12 = Λόγος διασταυρούμενων γινομένων
Λόγος αναλογιών (odds ratio) (a/b)/(c/d)= a*d/b*c = 33*47/49*12 = Η πιθανότητα προωρότητας ήταν 2.6 φορές μεγαλύτερη στα αγόρια απ’ ότι στα κορίτσια OR = 1 δεν υπάρχει διαφορά OR < 1 μειωμένη πιθανότητα OR > 1 αυξημένη πιθανότητα 1/ OR αντιστροφή πιθανότητας π.χ. 1/2.638= Η πιθανότητα προωρότητας ήταν κατά ( =0.621) 62% μικρότερη στα κορίτσια απ’ ότι στα αγόρια
Λογαριθμιστική εξάρτηση Η εξαρτημένη μεταβλητή είναι διχότομη (π.χ. ναι ή όχι) όπου x είναι η ανεξάρτητη μεταβλητή είτε ποσοτική ή ποιοτική Λόγος αναλογιών: Odds ratio exp(b) Εκτίμηση της πιθανότητας
Σχέση p και logit (p)
Παράδειγμα logit(p) =-1, *GENDER Odds ratio=exp(0.970)=2.638 Πιθανότητα να είναι πρόωρο ένα αγόρι: Πιθανότητα να είναι πρόωρο ένα κορίτσι:
logit(p)= a+b*x
Ψευδομεταβλητές Ένας παράγοντας με κ ομάδες κ-1 ψευδομεταβλητές (dummy variables) π.χ. φυλή με 3 κατηγορίες: Λευκοί, Μαύροι και άλλο ομάδα αναφοράς να είναι οι Λευκοί 2 ψευδομεταβλητές: Μαύροι παίρνει τις τιμές 1 αν φυλή=Μαύρος αλλιώς 0 και Άλλοι παίρνει τις τιμές 1 αν φυλή=Άλλοι αλλιώς 0
Ψευδομεταβλητές Ομάδα αναφοράς WHITE RACEBLACKOTHER White00 Black10 Other01 White00 Black10
Ψευδομεταβλητές Ομάδα αναφοράς BLACK RACEWHITEOTHER White10 Black00 Other01 White10 Black00
Ψευδομεταβλητές Ομάδα αναφοράς OTHER RACEWHITEBLACK White10 Black01 Other00 White10 Black01
Λογαριθμιστική εξάρτηση Αλλαγή μονάδας έκφρασης σε ποσοτικές ανεξάρτητες μεταβλητές: π.χ. OR=0,95 σχέση για γέννηση νεογνού με χαμηλό βάρος για κάθε χρονιά αύξηση στη ηλικία της μητέρας για πέντε χρόνια αύξηση: 0,95 5 = 0,77
Προσαρμογή δεδομένων Deviance: -2LogLikelihood χρησιμοποιείται για τη σύγκριση μοντέλων και όσο πιο μικρό είναι τόσο πιο καλό το μοντέλο Akaike’s information criterion: AIC =Deviance+2xp όσο πιο μικρό τόσο καλύτερα Cox & Snell R square και Nagelkerke R square όσο πιο κοντά στο 1 τόσο πιο καλό το μοντέλο Hosmer and Lemeshow test ελέγχει την υπόθεση αν τα παρατηρούμενα δεδομένα συμφωνούν με τα προβλεπόμενα, αν το p>0.05 τότε πληρείται αυτή η υπόθεση και τα δεδομένα προσαρμόζουν καλά το μοντέλο
Διαγνωστικά Επιρροή δεδομένων Cook’s: κατά πόσο τα κατάλοιπα θα αλλάξουν αν μια συγκεκριμένη τιμή αποκλειστεί Leverage value: Σχετική επιρροή κάθε παρατήρησης στο μοντέλο DFBeta(s): Διαφορά στο συντελεστή b μετά από τον αποκλεισμό κάθε 1 παρατήρησης
Διαγνωστικά Κατάλοιπα Unstandardised residuals: Logit residual Studentized residual Standardized residual, Pearson residuals Deviance Συνήθως μια παρατήρηση με standardized residual > 2 θεωρείται ακραία
Πολυσυγραμμικότητα (multicollinearity) Η κατάσταση η οποία δημιουργείται όταν υπάρχουν ισχυρές συσχετίσεις μεταξύ των ποσοτικών ανεξάρτητων μεταβλητών. Συσχέτιση μεταξύ ανεξάρτητων μεταβλητών r > 0.70 Αύξηση του SE(b) > 10% VIF (Variance Inflation Factor) > 4 Tolerance < 0.2 VIF = 1/Tolerance
Πολυπαραγοντική Λογαριθμιστική εξάρτηση Επιτρεπτός αριθμός ανεξάρτητων μεταβλητών Επιλογή μοντέλου: Σταδιακή εισαγωγή μεταβλητών (Forward) Σταδιακή ανάστροφη εξάλειψη μεταβλητών (Backward) Ιεραρχικά Συνήθως οι παράγοντες που έχουν P<0.20 μονοπαραγοντικά λαμβάνονται υπόψη
Άλλες μεθόδους Εξομοίωση Λογαριθμιστική εξάρτηση υπό συνθήκη (Conditional logistic regression) Μικρά δείγματα Ακριβείς μεθόδους LogXact