Μπουντζιούκα Βασιλική, MSc Βιοστατιστικός Εξωτ. Συνεργάτης ΕΣΔΥ Αναλυτική Στατιστική Μπουντζιούκα Βασιλική, MSc Βιοστατιστικός Εξωτ. Συνεργάτης ΕΣΔΥ Εθνική Σχολή Δημόσιας Υγείας, 16-11-2009
Συμπερασματολογία Στόχος: εξαγωγή συμπερασμάτων για το σύνολο ενός πληθυσμού, αντλώντας πληροφορίες από ένα μικρό υποσύνολο αυτού Ορισμοί Πληθυσμός: σύνολο όλων των υπό εξέταση μονάδων (ατόμων) Χαρακτηριστικό: μέτρηση που αφορά όλα τα άτομα του πληθυσμού Δείγμα: υποσύνολο του πληθυσμού
Κλάδοι Στατιστικής Παραμετρική: οι τιμές των παρατηρήσεων ακολουθούν μια γνωστή κατανομή (π.χ. κανονική) Μη-παραμετρική: οι τιμές των παρατηρήσεων ακολουθούν κάποια μη γνωστή κατανομή
Έλεγχοι υποθέσεων Λήψη απόφασης σε κάποιο επιστημονικό πρόβλημα Υπολογισμός σφάλματος στην περίπτωση της εσφαλμένης απόφασης Σε όλους τους στατιστικούς ελέγχους υποθέσεων έχουν οριστεί οι: Μηδενική υπόθεση Ηο: η υπόθεση εκείνη την οποία καλείται να απορρίψει ο ερευνητής Απουσία σχέσης μεταξύ δύο χαρακτηριστικών Εναλλακτική υπόθεση Η1: η άρνηση της Ηο Παρουσία σχέσης μεταξύ δύο χαρακτηριστικών
Στρατηγική Βήματα: Καθορίζεται η Ηο Καθορίζεται μια πιθανότητα (συνήθως 0,05) η οποία είναι η μέγιστη πιθανότητα αποδεκτού σφάλματος Λαμβάνουμε ένα κατάλληλο δείγμα για τη μελέτη της ερευνητικής μας υπόθεσης Ανάλογα με τη μορφή της Ηο και την τιμή του στατιστικού κριτηρίου απορρίπτουμε την Ηο
Λήψη απόφασης Πραγματική Κατάσταση της Ηο Η Ηο είναι αληθής (Α) Η Ηο είναι ψευδής (Ψ) Η Ηο είναι αληθής (Α) (αποδεκτή) Σωστή απόφαση, 1-α Σφάλμα Τύπου ΙΙ, β Η Ηο είναι ψευδής (Ψ) (απορρίπτεται) Σφάλμα Τύπου Ι, α, επίπεδο σημαντικότητας Σωστή απόφαση 1-β, δύναμη του ελέγχου Η επιλογή της κατάλληλης στατιστικής εξαρτάται από: τη φύση της μηδενικής υπόθεσης Ηο και της εναλλακτικής υπόθεσης Η1 τη δύναμη του ελέγχου
Επίπεδο σημαντικότητας Η ακριβής τιμή του σφάλματος Τύπου Ι για τα δεδομένα του προβλήματος (επίπεδο σημαντικότητας, “p – value”, significance level) η πιθανότητα η ληφθείσα απόφαση να είναι υπέρ της ύπαρξης σχέσης, ενώ στην πραγματικότητα δεν υπάρχει σχέση Θέλουμε να έχει πολύ μικρή τιμή (συνήθως < 5%) Μπορεί το επίπεδο σημαντικότητας p να είναι μικρό χωρίς απαραίτητα και η συσχέτιση να είναι βιολογικά ή κλινικά σημαντική
Στατιστική ισχύς Η πιθανότητα να απορριφθεί η Ho υπόθεση (δηλ. δεν υπάρχει σχέση), ενώ αυτή είναι εσφαλμένη Αυτό επιζητούμε σε κάθε έρευνα!!!
Τελική Επιλογή Υπόθεσης Ορίζουμε το επίπεδο στατιστικής σημαντικότητας α, στο οποίο θα διεξαχθεί ο έλεγχος p-value: η μικρότερη τιμή του α για την οποία απορρίπτεται η Ηο p-value < α τότε απορρίπτω την Ηο και αποδέχομαι την Η1 p-value > α τότε δεν απορρίπτω την Ηο Προσοχή τι δηλώνει η Ηο στην ερμηνεία του αποτελέσματος!!!
Έλεγχοι Υποθέσεων για Μέσους Μέσος ενός πληθυσμού π.χ. αν το εισόδημα ενός πληθυσμού είναι 900€ Ηο: μ = 900€ vs. H1: μ ≠ 900€ Μέσοι δύο πληθυσμών Αξιολόγηση ενός χαρακτηριστικού σε δύο ανεξάρτητα δείγματα π.χ. τη διαφορά της μέσης συστολικής αρτηριακής πίεσης σε άνδρες και γυναίκες Ηο: ΣΑΠ(άνδρες) = ΣΑΠ(γυναίκες) vs. H1: ΣΑΠ(άνδρες) ≠ ΣΑΠ(γυναίκες) Μέτρηση ενός χαρακτηριστικού στα ίδια άτομα πριν και μετά π.χ. διαφορά στο βάρος σώματος πριν και μετά την παρέμβαση Ηο: Βάρος(πριν) = Βάρος(μετά) vs. H1: Βάρος(πριν) ≠ Βάρος(μετά)
Στατιστικό κριτήριο: t-test του Student Όταν θέλουμε να ελέγξουμε αν η μέση τιμή μιας μεταβλητής σε μια ομάδα Α διαφέρει από τη μέση τιμή μιας άλλης ομάδας Β Η μεταβλητή πρέπει να κατανέμεται κανονικά και στις 2 ομάδες Έλεγχος για την ισότητα των διακυμάνσεων Στατιστικό κριτήριο: t-test του Student Ηο: μ1=μ2 έναντι Η1: μ1μ2 (αμφίπλευρος έλεγχος) ή Η1 : μ1>μ2 ή μ1<μ2 (μονόπλευροι έλεγχοι)
Ανάλυση Διακύμανσης Έλεγχος για την ύπαρξη διαφορών στις μέσες τιμές ενός ποσοτικού χαρακτηριστικού μεταξύ των κατηγοριών (>2) ενός άλλου χαρακτηριστικού π.χ. έλεγχος του σωματικού βάρους σε άτομα με καθιστική ζωή, με μέτρια φυσική δραστηριότητα, με έντονη φυσική δραστηριότητα Ηο: μ1 = μ2 = μ3 vs. H1: οι μέσοι διαφέρουν για τουλάχιστον ένα ζεύγος Η μεταβλητή πρέπει να κατανέμεται κανονικά και στις 2 ομάδες Έλεγχος για την ισότητα των διακυμάνσεων
Έλεγχοι υποθέσεων για Ποιοτικές Μεταβλητές Έλεγχος ανεξαρτησίας Χ2 : δύο ομάδες (ασθενείς-μάρτυρες) εξετάζονται ως προς την έκθεσή τους σε κάποιο κίνδυνο Ελέγχουμε αν τα επίπεδα έκθεσης σε κάποιο παράγοντα διαφέρουν σε δύο ή περισσότερες κατηγορίες του χαρακτηριστικού π.χ. Ηο: το σύνδρομο επαγγελματικής εξουθένωσης και η επαγγελματική κατάσταση είναι ανεξάρτητες vs. H1: οι δύο παράγοντες δεν είναι ανεξάρτητοι
Όσο πιο μεγάλες τιμές παίρνει το κριτήριο Χ2 τόσο πιο κοντά είμαστε στο να απορρίψουμε την Ηο Όσο πιο μικρές τιμές (0) παίρνει το κριτήριο Χ2 τόσο πιο κοντά είμαστε στο να ΜΗΝ απορρίψουμε την Ηο
Το στατιστικό κριτήριο Χ2 μπορεί επίσης να χρησιμοποιηθεί για έλεγχο Ομοιογένειας: π.χ. ελέγχουμε αν η κατανάλωση αλκοόλ διαφέρει στους ασθενείς απ’ ότι στους υγιείς και αν αυτό επηρεάζεται από το φύλο Καλής προσαρμογής: ελέγχουμε αν η κατανομή του πληθυσμού από όπου προέρχεται το δείγμα είναι μια δεδομένη θεωρητική κατανομή (κανονική)
Συσχέτιση Εξετάζει κατά πόσο η μια μεταβλητή επηρεάζεται από την άλλη Απλή συσχέτιση: 2 μεταβλητές Πολλαπλή συσχέτιση: >2 μεταβλητές Χαρακτηριστικά: Γραμμική – μη γραμμική Θετική – αρνητική Πλήρης Όχι συσχέτιση
Συντελεστές συσχέτισης Εργαλεία στατιστικού ελέγχου r του Pearson (για συνεχείς και κανονικά κατανεμημένες μεταβλητές) ρ (rho) του Spearman (για διακριτές ή μη κανονικά κατανεμημένες μεταβλητές)
Συντελεστής Συσχέτισης Pearson Ενδεδειγμένος για έλεγχο γραμμικής συσχέτισης μεταξύ δύο μεταβλητών Δεν έχει μονάδες μέτρησης Όρια: -1 ≤ ρ ≤ 1 -1 πλήρης αρνητική συσχέτιση +1 πλήρης θετική συσχέτιση 0 απουσία γραμμικής συσχέτισης Αν δύο μεταβλητές είναι ανεξάρτητες είναι και ασυσχέτιστες Δεν ισχύει το αντίθετο!!!
Συντελεστής Συσχέτισης Τάξεως Spearman Ενδείκνυται όταν μια από τις δύο μεταβλητές που εξετάζουμε είναι διατάξιμη Εναλλακτικός του συντελεστή συσχέτισης Pearson όταν τα δεδομένα παρουσιάζουν ασυμμετρία Όταν οι δύο μεταβλητές είναι κατηγορικές αλλά μπορούν να διαταχθούν Όρια: -1 ≤ spearman’s rho ≤ 1
Συντελεστής Συμφωνίας Kendall’s-tau Μετρά το βαθμό συμφωνίας μεταξύ δύο ποσοτικών ή διατάξιμων μεταβλητών Όρια: -1 ≤ kendall’s tau ≤ 1
Ισχυρή θετική συσχέτιση -1 … -0,8 -0,8 … -0,3 -0,3 … +0,3 +0,3 … +0,8 +0,8 … +1 Ισχυρή αρνητική συσχέτιση Μέτρια αρνητική συσχέτιση Ελαφρά συσχέτιση ή ασυσχέτιστα Μέτρια θετική Ισχυρή θετική συσχέτιση Η παραπάνω κατηγοριοποίηση δεν εκφράζει στατιστική σημαντικότητα Για να γνωρίζουμε αν η παρατηρηθείσα συσχέστιση είναι το ίδιο σημαντική και στον πληθυσμό πρέπει να γίνει ο κατάλληλος στατιστικός έλεγχος που θα δώσει και το αντίστοιχο σφάλμα (p)
Σύνοψη Ο συντελεστής συσχέτισης εκφράζει μόνο την «ένταση» της γραμμικής σχέσης Αν η τιμή του είναι 0 σημαίνει ότι δεν υπάρχει γραμμική συσχέτιση μεταξύ των μεταβλητών. Αυτό όμως δεν αποκλείει τη δυνατότητα να υπάρχει μη γραμμική συσχέτιση Η τιμή του συντελεστή δεν προσδιορίζει την ευθεία γύρω από την οποία συγκεντρώνονται τα σημεία του διαγράμματος. Δηλαδή δεν προσδιορίζει την κλίση και το σταθερό όρο της ευθείας Ο συντελεστής συσχέτισης δίνει ένα μέτρο της γραμμικής συσχέτισης των μεταβλητών Χ και Υ αλλά δεν προσδιορίζει την αιτιώδη σχέση που τις συνδέει, δηλαδή δεν προσδιορίζει ποιο είναι το αίτιο και ποιο το αποτέλεσμα Έτσι είναι δυνατόν η Χ να επηρεάζει την Υ, ή αντίστροφα ή και τα δύο να συμμεταβάλονται διότι εξαρτώνται από μια τρίτη μεταβλητή ή τέλος η συσχέτιση που βρέθηκε στο δείγμα να οφείλεται στην τύχη ή σε κάποιο συστηματικό σφάλμα
Γραμμική Παλινδρόμηση (Ι) Τεχνική που προσδιορίζει ποια η αιτία και ποιο το αποτέλεσμα Πόσο μεταβάλλεται η τιμή μιας μεταβλητής Υ (εξαρτημένης) από την μεταβολή μιας άλλης μεταβλητής Χ (ανεξάρτητης) Η Υ στη γραμμική παλινδρόμηση είναι συνεχής Υποθέσεις: Γραμμική σχέση Υ κ Χ Γνωρίζουμε όλες τις τιμές της Χ
Γραμμική Παλινδρόμηση (ΙΙ) Απλή: ένας ανεξάρτητος παράγοντας Πολλαπλή: πολλοί ανεξάρτητοι παράγοντες bo: σταθερός όρος, η τιμή Υ για Χi=0 bi: κλίση της ευθείας, συντελεστής παλινδρόμησης (i=1,2,..,k) εκφράζει την κατά μέσο όρο μεταβολή στην εξαρτημένη μεταβλητή, όταν η αντίστοιχη ανεξάρτητη μεταβλητή μεταβάλλεται κατά μια μονάδα και οι άλλες μεταβλητές παραμένουν σταθερές
Γραμμική Παλινδρόμηση (ΙΙΙ) Προϋποθέσεις: Κανονικότητα: οι παρατηρήσεις προέρχονται από πληθυσμό ο οποίος ακολουθεί την κανονική κατανομή Ομοσκεδαστικότητα: η διασπορά της Υ είναι η ίδια για κάθε τιμή της Χ Ανεξαρτησία: η τιμή της Υi δεν επηράζει την τιμή της Υj (i≠j, i, j=1,2,…,n) Οι τιμές των ανεξάρτητων μεταβλητών Χi παραμένουν σταθερές σε επανειλημμένα δείγματα Οι τιμές των Χ & Υ έχουν μετρηθεί χωρίς σφάλματα Τα σφάλματα της παλινδρόμησης , έχουν μέση τιμή μηδέν (0) για κάθε τιμή της Χ και διακύμανση ανεξάρτητη από τις τιμές της Χ Σφάλματα μέτρησης, παράλειψη προσθήκης σημαντικών μεταβλητών
Συσχέτιση vs Παλινδρόμηση Οι μεταβλητές Χ κ Υ είναι τυχαίες Δείχνει την παρουσία ή όχι σχέσης μεταξύ δύο μεταβλητών Μετράει την ένταση της σχέσης Θετική συσχέτιση θετική κλίση της ευθείας παλινδρόμησης Η μεταβλητή Υ είναι τυχαία Η μεταβλητή Χ είναι καθορισμένη Δείχνει το βαθμό μεταβολής μιας μεταβλητής, αν μεταβάλλεται μια ή περισσότερες μεταβλητές Μαθηματική σχέση μεταξύ Υ & Χ
Λογαριθμιστική Παλινδρόμηση (Ι) Η εξαρτημένη μεταβλητή Υ είναι δίτιμη Παίρνει τις τιμές 0 (π.χ. υγιείς, μη καπνιστές) & 1 (π.χ. ασθενείς, καπνιστές) Αναδρομικές μελέτες (ασθενών-μαρτύρων) Τυχαιοποίηση ως προς την έκθεση Εκτιμάμε τον Σχετικό Λόγο (Odds Ratio): η πιθανότητα να έχουν εκτεθεί σε κάποιο παράγοντα οι νοσούντες σε σχέση με τους μη νοσούντες Προοπτικές μελέτες Τυχαιοποίηση ως προς το συμβάν Εκτιμάμε το Σχετικό Κίνδυνο (Risk Ratio): ο κίνδυνος να νοσήσουν οι εκτεθέντες σε κάποιο παράγοντα προς τους μη εκτεθέντες
Λογαριθμιστική Παλινδρόμηση (ΙΙ) Η πιθανότητα π(Χ) είναι συνήθως συνάρτηση μιας ή περισσοτέρων μεταβλητών {Χ} (ανεξάρτητες μεταβλητές) οι οποίες ερμηνεύουν σε μικρό ή μεγάλο βαθμό την π, δηλαδή την πιθανότητα της παρουσίας μιας κατάστασης Η πιθανότητα να συμβεί ένα γεγονός για δεδομένες τιμές των ανεξάρτητων μεταβλητών Χi
Λογαριθμιστική Παλινδρόμηση (ΙΙΙ) Η πιθανότητα π(Χ) είναι συνήθως συνάρτηση μιας ή περισσοτέρων μεταβλητών {Χ} (ανεξάρτητες μεταβλητές) οι οποίες ερμηνεύουν σε μικρό ή μεγάλο βαθμό την π, δηλαδή της πιθανότητα της παρουσίας μιας κατάστασης
Ευχαριστώ!!!