Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
ΔημοσίευσεὙπατια Μιχαηλίδης Τροποποιήθηκε πριν 5 χρόνια
1
ΕΛΕΓΧΟI ΥΠΟΘΕΣΕΩΝ ΚΑΝΟΝΙΚΟΤΗΤΑΣ – ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ X2
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΤΕΧΝΟΛΟΓΙΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗΝ ΙΑΤΡΙΚΗ ΚΑΙ ΤΗ ΒΙΟΛΟΓΙΑ ΜΑΘΗΜΑ : ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΕΛΕΓΧΟI ΥΠΟΘΕΣΕΩΝ ΚΑΝΟΝΙΚΟΤΗΤΑΣ – ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ X2 ΔΙΟΝΥΣΗΣ ΛΙΝΑΡΔΑΤΟΣ 1 ΝΟΕΜΒΡΙΟΥ 2018
2
Έλεγχοι υποθέσεων κανονικότητας και χ-τετράγωνο
Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή Διαγράμματα κανονικότητας και Q-Q Έλεγχοι υποθέσεων κανονικότητας Έλεγχοι υποθέσεων χ2
3
1. Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή
Παράδειγμα Α Ένας ερευνητής επιθυμεί να μελετήσει την παρουσία της “b-ενδορφίνης” στους δρομείς. Μέτρησε τη συγκέντρωση της “b-ενδορφίνης” σε 11 δρομείς πριν και μετά από ένα ημιμαραθώνιο τον οποίο έτρεξαν. Τα αποτελέσματα των μετρήσεων είναι τα ακόλουθα : Δρομέας 1 2 3 4 5 6 7 8 9 10 11 Πριν τον αγώνα 4,3 4,6 5,2 6,6 7,2 8,4 9,0 10,4 14,0 17,8 Μετά τον αγώνα 29,6 25,1 15,5 24,1 37,8 20,2 21,9 14,2 34,6 46,2 Ο ερευνητής επιθυμεί να απαντήσει στο ερώτημα : Μεταβλήθηκαν τα επίπεδα της “b-ενδορφίνης” πριν και μετά τον αγώνα ? Τι πρέπει να κάνει για να απαντήσει στο ερώτημα ?
4
1. Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή
Παράδειγμα A (συν.) Αρχικά ο ερευνητής προσδιορίζει το επίπεδο σημαντικότητας και το είδος (μονόπλευρο ή αμφίπλευρο) του ελέγχου υποθέσεων. Θέτει επίπεδο σημαντικότητας a=0.05 (όπως συνήθως). Θα πραγματοποιήσει αμφίπλευρο έλεγχο υποθέσεων, αφού τον ενδιαφέρει ο έλεγχος της διαφοροποίησης (μεταβολή) των επιπέδων της “b-ενδορφίνης”. Στη συνέχεια, αναρωτιέται τι είδους έλεγχο υποθέσεων πρέπει να πραγματοποιήσει? Βέβαια, πρέπει να πραγματοποιήσει έλεγχο υποθέσεων για τη μέση τιμή. Αλλά ποιος από όλους είναι ο πλέον κατάλληλος για το υπό μελέτη πρόβλημα;
5
1. Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή
Περιπτώσεις ελέγχου υποθέσεων για τη μέση τιμή ενός ή δύο δειγμάτων Πλήθος δειγμάτων που ακολουθούν την κανονική κατανομή Διασπορά Ανεξαρτησία δειγμάτων H0 H1 (αμφίπλευρος έλεγχος) Στατιστική Κατανομή στατιστικής 1 σύνολο n δειγμάτων γνωστή : σ - μ=μ0 μ≠μ0 Τυποποιημένη κανονική άγνωστη Student’s t με n-1 β.ε. 1 σύνολο n1 δειγμάτων και 1 σύνολο n2 δειγμάτων γνωστές : σ1, σ2 Ναι μ1=μ2 μ1≠μ2 1 σύνολο n1 δειγμάτων και άγνωστες αλλά ίσες Student’s t με n1 + n2 -2 β.ε. άγνωστες αλλά άνισες Student’s t με ν=ν(s1,s2,n1,n2) β.ε. Όχι μD=0 μD≠0 Σχηματίζουμε ένα νέο δείγμα από τις διαφορές των παρατηρήσεων. Ακολουθούμε την περίπτωση ενός συνόλου n δειγμάτων με άγνωστη διασπορά.
6
1. Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή
Παράδειγμα A (συν.) Η πρώτη σκέψη είναι η εφαρμογή του t-test για να ελεγχθεί εάν τα δύο δείγματα (τα οποία –ο ερευνητής υποθέτει- ακολουθούν την κανονική κατανομή) προέρχονται από πληθυσμούς με την ίδια μέση τιμή, με τις τυπικές αποκλίσεις άγνωστες και ίσες. Η μηδενική υπόθεση είναι ότι το μέσο επίπεδο της “b-ενδορφίνης” στους δρομείς είναι ίδιο πριν και μετά τον αγώνα. Έτσι, χρησιμοποιεί τις ακόλουθες εντολές του MATLAB: x=[ ]'; y=[ ]’; [h,p,ci,stats] = ttest2(x,y) h = 1 p = e-006 ci = stats = tstat: , df: 20, sd: Επομένως, η μηδενική υπόθεση απορρίπτεται. Ο ερευνητής αναρωτιέται μήπως έχει κάνει κάποιο λάθος ;
7
1. Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή
Παράδειγμα A (συν.) Σκέφτεται να ελέγξει εάν τα δύο δείγματα προέρχονται από πληθυσμούς με ίσες διασπορές. Για τις δειγματικές αποκλίσεις λαμβάνει : std(x) = και std(y) = Ο ερευνητής πραγματοποιεί έλεγχο υποθέσεων για την ισότητα διασπορών (έχει ήδη υποθέσει την κανονικότητα). [h,p,ci,stats] = vartest2(x,y) % Μηδενική υπόθεση Vx=Vy / αμφίπλευρος h = 1 p = ci = stats = fstat: df1: 10 df2: 10 Άρα, η μηδενική υπόθεση απορρίπτεται. Έτσι, ο ερευνητής σκέφτεται να εφαρμόσει το t-test για να ελέγξει εάν τα δύο δείγματα (τα οποία -υποθέτει- ακολουθούν την κανονική κατανομή) προέρχονται από πληθυσμούς με την ίδια μέση τιμή, με τις τυπικές αποκλίσεις άγνωστες και άνισες.
8
1. Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή
Παράδειγμα A (συν.) Η μηδενική υπόθεση είναι ότι το μέσο επίπεδο της “b-ενδορφίνης” στους δρομείς είναι ίδιο πριν και μετά τον αγώνα. Έτσι, χρησιμοποιεί τις ακόλουθες εντολές του MATLAB: x=[ ]'; y=[ ]’; [h,p,ci,stats] = ttest2(x,y,0.05,’both’,’unequal’) h = 1 p = 4.357e-005 ci = stats = tstat: , df: , sd: [ ] Επομένως, η μηδενική υπόθεση απορρίπτεται. Ο ερευνητής αναρωτιέται μήπως έχει κάνει κάποιο λάθος; Σκέφτεται να επιβεβαιώσει πάλι ότι ισχύουν όλες οι παραδοχές για το τεστ που εφάρμοσε. Διαπιστώνει ότι η παραδοχή της ανεξαρτησίας των δύο δειγμάτων δεν ισχύει. Τα δύο δείγματα δεν είναι ανεξάρτητα αφού προέρχονται από τα ίδια άτομα. Επομένως, δεν μπορεί να εφαρμόσει το t-test για δύο δείγματα.
9
1. Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή
Παράδειγμα A (συν.) Συνειδητοποιεί ότι πρέπει να εφαρμόσει έναν κατά ζεύγη έλεγχο της υπόθεσης ότι τα δύο δείγματα x και y προέρχονται από πληθυσμούς με ίσες μέσες τιμές. Η διαφορά x-y (υποθέτει ότι) προέρχεται από κανονική κατανομή με άγνωστη διασπορά. Η μηδενική υπόθεση είναι ότι η διαφορά των επιπέδων της “b-ενδορφίνης” πριν και μετά τον αγώνα είναι 0. Έτσι, χρησιμοποιεί τις ακόλουθες εντολές MATLAB: x=[ ]'; y=[ ]’; [h,p,ci,stats] = ttest(x,y) h = 1 p = e-005 ci = stats = tstat: , df: 10, sd: Επομένως, η μηδενική υπόθεση απορρίπτεται. Υπάρχει διαφοροποίηση της “b-ενδορφίνης” πριν και μετά τον αγώνα.
10
1. Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή
Παράδειγμα A (συν.) Στη συνέχεια σκέφτεται να επιβεβαιώσει πάλι ότι ισχύουν όλες οι παραδοχές για να είναι σίγουρος ότι ορθώς εφάρμοσε το τεστ που εφάρμοσε. Αναρωτιέται εάν πραγματικά η διαφορά x-y προέρχεται από κανονική κατανομή με άγνωστη διασπορά. Πώς μπορεί να ελέγξει εάν αυτό ισχύει ? Χρειάζεται έναν έλεγχο υποθέσεων για την κανονικότητα. Οι έλεγχοι κανονικότητας παρουσιάζονται στη δεύτερη ενότητα της παρουσίασης.
11
1. Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή
Παράδειγμα B Ένας ερευνητής επιθυμεί να διαπιστώσει εάν τα ακόλουθα 3 ανεξάρτητα δείγματα (στήλες) προέρχονται από πληθυσμούς με ίδια μέση τιμή: a1 a2 a3 6 8 13 12 9 4 11 5 3 7 Δίνεται ότι τα τρία δείγματα προέρχονται από κανονικούς πληθυσμούς.
12
1. Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή
Παράδειγμα B Καταρχήν ελέγχει την υπόθεση της ισότητας των διασπορών των τριών πληθυσμών: x=[ ; ; ; ; 3 6 7; ]; [p,stats] = vartestn(x) % Η0: Ισότητα διασπορών p = stats = chisqstat: df: 2 Επειδή p>a=0.05, δεν μπορεί να απορριφθεί η μηδενική υπόθεση. Άρα αποδέχεται την ισότητα διασπορών
13
1. Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή
Παράδειγμα B (συν.) Εφαρμόζει την one-way ANOVA ([p,table,stats] = anova1(X)): Μηδενική Υπόθεση : όλα τα δείγματα προέρχονται από πληθυσμό με ίδια μέση τιμή. Εναλλακτική Υπόθεση: τουλάχιστον ένα δείγμα προέρχεται από πληθυσμό με διαφορετική μέση τιμή. Επειδή p=0.0024<a=0.05, η μηδενική υπόθεση πρέπει να απορριφθεί. Επομένως, δεν προέρχονται όλα τα δείγματα από πληθυσμoύς με ίδια μέση τιμή.
14
1. Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή
Παράδειγμα B (συν.) Στη συνέχεια προσδιορίζει ποιο δείγμα διαφέρει από τα υπόλοιπα. Χρησιμοποιώντας την εντολή MATLAB c=multcompare(stats) λαμβάνει τα ακόλουθα αποτελέσματα : c =
15
1. Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή
Παράδειγμα B (συν.) Ας δούμε μερικές λεπτομέρειες των one-way ANOVA υπολογισμών: a1 a2 a3 6 8 13 12 9 4 11 5 3 7 Το άθροισμα των Τετραγώνων για τις στήλες (SS) υπολογίζεται ως εξής : όπου Ai είναι το άθροισμα της i-οστής στήλης, n είναι το πλήθος των δειγμάτων και m είναι το πλήθος των παρατηρήσεων κάθε δείγματος.
16
1. Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή
Παράδειγμα B (συν.) a1 a2 a3 6 8 13 12 9 4 11 5 3 7 Το άθροισμα τετραγώνων (SS) των Σφαλμάτων (Errors) υπολογίζεται ως εξής: Οι βαθμοί ελευθερίας είναι : Ο μέσοι τετραγωνικοί όροι και ο λόγος F υπολογίζονται:
17
Έλεγχοι υποθέσεων κανονικότητας και χ-τετράγωνο
Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή Διαγράμματα κανονικότητας και Q-Q Έλεγχοι υποθέσεων κανονικότητας Έλεγχοι υποθέσεων χ2
18
2. Διαγράμματα κανονικότητας και χ2
Τα διαγράμματα κανονικότητας (normal probability plots) Το διάγραμμα κανονικότητας είναι ένα χρήσιμο γράφημα για να εκτιμάται εάν τα δεδομένα προέρχονται από κανονική κατανομή. Όπως έχουμε δει, πολλές στατιστικές διαδικασίες στηρίζονται στην παραδοχή ότι η κατανομή δεδομένων είναι κανονική. Το διάγραμμα κανονικότητας μπορεί να παρέχει κάποια διαβεβαίωση ότι η παραδοχή της κανονικότητας δεν παραβιάζεται ή να παρέχει έγκαιρη προειδοποίηση τυχόν απόκλισης από την παραδοχή της κανονικότητας. Εντολή Matlab : normplot(x) Παράδειγμα (κανονικότητας) : x = normrnd(5,4,100,1); normplot(x)
19
2. Διαγράμματα κανονικότητας και χ2
Τα διαγράμματα κανονικότητας (συν.) Το διάγραμμα κανονικότητας περιλαμβάνει τρία γραφικά στοιχεία: Τα “+” δείχνουν την εμπειρική πιθανότητα ως προς την τιμή των δεδομένων κάθε σημείου στο δείγμα. Η συμπαγής γραμμή συνδέει το 25ο και το 75ο εκατοστημόριο των δεδομένων και αναπαριστά μία γραμμική παλινδρόμηση (μη ευαίσθητη στα ακραία σημεία του δείγματος). Η διακεκομμένη γραμμή επεκτείνει τη συμπαγή γραμμή στα άκρα του δείγματος.
20
2. Διαγράμματα κανονικότητας και χ2
Τα διαγράμματα κανονικότητας (συν.) Η κλίμακα του y άξονα δεν είναι ομογενής. Οι τιμές του y άξονα είναι πιθανότητες και έτσι κυμαίνονται μεταξύ 0 και 1. Η απόσταση μεταξύ των σημείων στον άξονα y ταιριάζει με την απόσταση μεταξύ των εκατοστημορίων της κανονικής κατανομής. Τα εκατοστημόρια πλησιάζουν μεταξύ τους κοντά στη διάμεσο (πιθανότητα = 0.5) και «χαλαρώνουν» συμμετρικά καθώς απομακρυνόμαστε από τη διάμεσο. Εάν όλα τα σημεία των δεδομένων βρίσκονται κοντά στην ευθεία γραμμή, η παραδοχή της κανονικότητας είναι εύλογη. Εάν τα δεδομένα δεν είναι κανονικά, τα “+” μπορεί να ακολουθούν μία καμπύλη.
21
2. Διαγράμματα κανονικότητας και χ2
Τα διαγράμματα κανονικότητας (συν.) Παράδειγμα (μη κανονικότητας): x = exprnd(5,100,1); normplot(x) Το διάγραμμα αποτελεί ξεκάθαρη ένδειξη μη κανονικότητας.
22
2. Διαγράμματα κανονικότητας και χ2
Τα Q-Q διαγράμματα Το Q-Q (quantile-quantile) διάγραμμα είναι ένα πολύ χρήσιμο διάγραμμα με το οποίο εκτιμάται εάν δύο δείγματα προέρχονται από την ίδια κατανομή (είτε κανονική είτε όχι). Εντολή MATLAB : qqplot(x,y) Παράδειγμα : x=normrnd(1,1,500,1); y=normrnd(1,1,100,1); qqplot(x,y)
23
2. Διαγράμματα κανονικότητας και χ2
Τα Q-Q διαγράμματα (συν.) Όπως το διάγραμμα κανονικότητας, έτσι και το Q-Q διάγραμμα έχει τρία γραφικά στοιχεία: Τα “+” είναι τα εκατοστημόρια κάθε δείγματος. Εξορισμού το πλήθος των “+” είναι το πλήθος των δεδομένων του μικρότερου δείγματος. Η συμπαγής γραμμή συνδέει το 25ο και το 75ο εκατοστημόριο των δεδομένων. Η διακεκομμένη γραμμή επεκτείνει τη συμπαγή γραμμή στα άκρα του δείγματος. Το διάγραμμα παρουσιάζει γραμμική σχέση εάν τα δύο δείγματα προέρχονται από την ίδια κατανομή.
24
2. Διαγράμματα κανονικότητας και χ2
Τα Q-Q διαγράμματα (συν.) Παραδείγματα : x=normrnd(1,1,500,1); y=exprnd(5,100,1); qqplot(x,y) Επομένως, τα δείγματα δεν προέρχονται από την ίδια κατανομή. Σημείωση 1 : Είναι εσφαλμένη η ερμηνεία ενός γραμμικού διαγράμματος ως απόδειξη ότι τα δύο δείγματα προέρχονται από την ίδια κατανομή. Σημείωση 2 : Ωστόσο, για την αποτίμηση της εγκυρότητας μιας στατιστικής διαδικασίας που εξαρτάται από δύο δείγματα τα οποία προέρχονται από την ίδια κατανομή, το Q-Q διάγραμμα είναι επαρκές.
25
Έλεγχοι υποθέσεων κανονικότητας και χ-τετράγωνο
Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή Διαγράμματα κανονικότητας και Q-Q Έλεγχοι υποθέσεων κανονικότητας Έλεγχοι υποθέσεων χ2
26
3. Έλεγχοι υποθέσεων κανονικότητας
Πολλές φορές χρειάζεται να ελέγξουμε πόσο καλά ταιριάζουν τα δεδομένα μας στην υπόθεση ότι προέρχονται από κανονική (ή άλλη) κατανομή. Άλλες φορές χρειάζεται να ελέγξουμε ότι δύο δείγματα ακολουθούν την ίδια κατανομή. Οι έλεγχοι που μας βοηθούν να πραγματοποιήσουμε τα παραπάνω είναι : Το Jarque-Bera τεστ για το πόσο καλά ταιριάζουν τα δεδομένα στην κανονική κατανομή Το Lilliefors τεστ για το πόσο καλά ταιριάζουν τα δεδομένα στην κανονική κατανομή Το Kolmogorov-Smirnov τεστ για το πόσο καλά ταιριάζουν τα δεδομένα στην κανονική κατανομή ή σε άλλη κατανομή αναφοράς Tο Kolmogorov-Smirnov τεστ για τη σύγκριση των κατανομών δύο δειγμάτων
27
3. Έλεγχοι υποθέσεων κανονικότητας
Το Kolmogorov-Smirnov τεστ για κατανομή αναφοράς Το τεστ ελέγχει (στην περίπτωση αμφίπλευρου ελέγχου) : τη μηδενική υπόθεση ότι «το υπό εξέταση δείγμα προέρχεται από συγκεκριμένη κατανομή αναφοράς» (δηλαδή, η συνάρτηση κατανομής του δείγματος συμπίπτει με τη συνάρτηση της κατανομής αναφοράς) έναντι της εναλλακτικής υπόθεσης ότι «το δείγμα δεν προέρχεται από τη συγκεκριμένη κατανομή αναφοράς» (δηλαδή, η συνάρτηση κατανομής του δείγματος διαφέρει από τη συνάρτηση της κατανομής σε τουλάχιστον ένα σημείο). Το τεστ συγκρίνει την εμπειρική αθροιστική κατανομή του δείγματος με την αθροιστική κατανομή αναφοράς. Με άλλα λόγια, το Kolmogorov-Smirnov τεστ συγκρίνει την αναλογία τιμών που είναι μικρότερες από x με την αντίστοιχη αναμενόμενη αναλογία τιμών με βάση την κατανομή αναφοράς.
28
3. Έλεγχοι υποθέσεων κανονικότητας
Το Kolmogorov-Smirnov τεστ για κατανομή αναφοράς (συν.) Η Kolmogorov-Smirnov στατιστική είναι η μέγιστη διαφορά ως προς όλες τις x τιμές και η κατανομή που ακολουθεί ονομάζεται Kolmogorov-Smirnov κατανομή.
29
3. Έλεγχοι υποθέσεων κανονικότητας
Το Kolmogorov-Smirnov τεστ για κατανομή αναφοράς (συν.) MATLAB : Η συνάρτηση kstest Πραγματοποιεί το Kolmogorov-Smirnov τεστ με μηδενική υπόθεση ότι το δείγμα x προέρχεται από συγκεκριμένη κατανομή αναφοράς. [h,p,ksstat,cv]=kstest(x) όταν η κατανομή αναφοράς είναι η τυποποιημένη κανονική κατανομή Περιγραφή Τιμές Εξ’ ορισμού x Δείγμα h Το αποτέλεσμα του τεστ 0 (μη απόρριψη της μηδενικής υπόθεσης) ή 1 (απόρριψη της μηδενικής υπόθεσης) p Η p-τιμή ksstat Η Kolmogorov-Smirnov στατιστική cv Η κρίσιμη τιμή για την απόρριψη της μηδενικής υπόθεσης
30
[]: τυποποι-ημένη κανονική
3. Έλεγχοι υποθέσεων κανονικότητας Το Kolmogorov-Smirnov τεστ για κατανομή αναφοράς (συν.) ή γενικότερα [h,p,ksstat,cv] = kstest(x,cdf,alpha,tail) Περιγραφή Τιμές Εξ’ ορισμού x Δείγμα cdf Κατανομή αναφοράς Πίνακας δύο στηλών που περιέχει τη cdf : Η πρώτη στήλη περιέχει τις τιμές του x και η δεύτερη στήλη περιέχει τις αντίστοιχες τιμές της cdf αναφοράς []: τυποποι-ημένη κανονική alpha Το επίπεδο σημαντικότητας 0,05 tail Αμφίπλευρος ή μονόπλευρος έλεγχος; 0 : αμφίπλευρος -1 : μονόπλευρος προς τα αριστερά 1 : μονόπλευρος προς τα δεξιά h Το αποτέλεσμα του ελέγχου 0 (μη απόρριψη της μηδενικής υπόθεσης) ή 1 (απόρριψης της μηδενικής υπόθεσης) p Η p-τιμή ksstat Η Kolmogorov-Smirnov στατιστική cv Η κρίσιμη τιμή για την απόρριψη της μηδενικής υπόθεσης
31
3. Έλεγχοι υποθέσεων κανονικότητας
Το Kolmogorov-Smirnov τεστ για κατανομή αναφοράς (συν.) Παράδειγμα : x=normrnd(0,1,1000,1); % Μηδενική Υπόθεση : Το x προέρχεται από την τυποποιημένη κανονική % Εναλλακτική Υπόθεση : Η κατανομή του x διαφέρει από την %τυποποιημένη κανονική [h,p,ksstat,cv] = kstest(x) h = 0 p = ksstat = cv = Επομένως, η μηδενική υπόθεση ότι το δείγμα x προέρχεται από την τυποποιημένη κανονική κατανομή δεν μπορεί να απορριφθεί.
32
3. Έλεγχοι υποθέσεων κανονικότητας
Το Kolmogorov-Smirnov τεστ για κατανομή αναφοράς (συν.) Παράδειγμα : x=betarnd(2,1,1000,1); % Μηδενική Υπόθεση : Το x προέρχεται από την τυποποιημένη κανονική % Εναλλακτική Υπόθεση : Η κατανομή του x διαφέρει από την % τυποποιημένη κανονική [h,p,ksstat,cv] = kstest(x) h = 1 p = e-250 ksstat = cv = Επομένως, η μηδενική υπόθεση ότι το δείγμα x προέρχεται από την τυποποιημένη κανονική κατανομή πρέπει να απορριφθεί.
33
3. Έλεγχοι υποθέσεων κανονικότητας
Το Kolmogorov-Smirnov τεστ για τη σύγκριση των κατανομών δύο δειγμάτων Ελέγχει τη μηδενική υπόθεση ότι «τα υπό εξέταση δύο δείγματα προέρχονται από την ίδια κατανομή» έναντι της εναλλακτικής υπόθεσης ότι «τα δύο υπό εξέταση δείγματα δεν προέρχονται από την ίδια κατανομή». Συγκρίνει την αναλογία των τιμών του πρώτου δείγματος που είναι μικρότερα από x με την αναλογία τιμών του δεύτερου δείγματος που είναι μικρότερα από x. Η Kolmogorov-Smirnov στατιστική είναι η μέγιστη διαφορά ως προς όλες τις x τιμές και ακολουθεί την Kolmogorov-Smirnov κατανομή.
34
3. Έλεγχοι υποθέσεων κανονικότητας
Το Kolmogorov-Smirnov τεστ για τη σύγκριση των κατανομών δύο δειγμάτων (συν.) MATLAB : Η συνάρτηση kstest2 Πραγματοποιεί το Kolmogorov-Smirnov τεστ για τη μηδενική υπόθεση ότι τα δύο δείγματα x1 και x2 προέρχονται από την ίδια κατανομή. [h,p,ksstat]=kstest2(x1,x2,alpha) Περιγραφή Τιμές Εξ’ ορισμού x1 Το πρώτο δείγμα x2 Το δεύτερο δείγμα alpha Το επίπεδο σημαντικότητας 0.05 h Το αποτέλεσμα του τεστ 0 (μη απόρριψη της μηδενικής υπόθεσης) ή 1 (απόρριψη της μηδενικής υπόθεσης) p H p-τιμή ksstat H Kolmogorov-Smirnov στατιστική
35
3. Έλεγχοι υποθέσεων κανονικότητας
Το Kolmogorov-Smirnov τεστ για τη σύγκριση των κατανομών δύο δειγμάτων (συν.) Παράδειγμα : x1=normrnd(0,1,1000,1); x2=normrnd(0,1,1000,1); % Μηδενική Υπόθεση : Τα x1 και x2 προέρχονται από την ίδια κατανομή % Εναλλακτική Υπόθεση : Οι κατανομές των x1 και x2 διαφέρουν [h,p,ksstat] = kstest2(x1,x2) % a=0.05 h = 0 p = ksstat = Επομένως, η μηδενική υπόθεση ότι τα δύο δείγματα x1 και x2 προέρχονται από την ίδια κατανομή δεν μπορεί να απορριφθεί.
36
3. Έλεγχοι υποθέσεων κανονικότητας
Το Kolmogorov-Smirnov τεστ για τη σύγκριση των κατανομών δύο δειγμάτων (συν.) Παράδειγμα : x1=normrnd(0,1,1000,1); x2=normrnd(1,1,1000,1); % Μηδενική Υπόθεση : Τα x1 και x2 προέρχονται από την ίδια κατανομή % Εναλλακτική Υπόθεση : Οι κατανομές των x1 και x2 διαφέρουν [h,p,ksstat] = kstest2(x1,x2) % a=0.05 h = 1 p = e-080 ksstat = Επομένως, η μηδενική υπόθεση ότι τα δύο δείγματα x1 και x2 προέρχονται από την ίδια κατανομή απορρίπτεται.
37
3. Έλεγχοι υποθέσεων κανονικότητας
Το Kolmogorov-Smirnov τεστ για τη σύγκριση των κατανομών δύο δειγμάτων (συν.) Παράδειγμα : x1=normrnd(0,1,100,1); x2=betarnd(2,1,1000,1); % Μηδενική Υπόθεση : Τα x1 και x2 προέρχονται από την ίδια κατανομή % Εναλλακτική Υπόθεση : Οι κατανομές των x1 και x2 διαφέρουν [h,p,ksstat] = kstest2(x1,x2) % a=0.05 h = 1 p = e-035 ksstat = Επομένως, η μηδενική υπόθεση ότι τα δύο δείγματα x1 και x2 προέρχονται από την ίδια κατανομή απορρίπτεται.
38
3. Έλεγχοι υποθέσεων κανονικότητας
Το Jarque-Bera τεστ για έλεγχο κανονικότητας Το Jarque-Bera τεστ ελέγχει τη μηδενική υπόθεση ότι «το υπό εξέταση δείγμα προέρχεται από κανονική κατανομή με απροσδιόριστη μέση τιμή και διασπορά» έναντι της εναλλακτικής υπόθεσης ότι «το δείγμα δεν προέρχεται από κανονική κατανομή». Το τεστ βασίζεται στη σύγκριση της λοξότητας και της κύρτωσης του δείγματος με τις αντίστοιχες ποσότητες της κανονικής κατανομής.
39
3. Έλεγχοι υποθέσεων κανονικότητας
Το Jarque-Bera τεστ για έλεγχο κανονικότητας (συν.) Για την περίπτωση της κανονικής κατανομής, η λοξότητα είναι ίση με 0 και η κύρτωση, επίσης, είναι ίση με 0. Το Jarque-Bera τεστ αποφασίζει εάν η λοξότητα του δείγματος και η κύρτωση είναι πολύ διαφορετικές από ό,τι αναμένεται σύμφωνα με τη μηδενική υπόθεση. Η Jarque-Bera στατιστική ορίζεται ως : όπου n είναι το πλήθος των παρατηρήσεων. Όπως δείχνει ο ορισμός της JB στατιστικής, οποιαδήποτε απόκλιση από την κανονικότητα αυξάνει την JB στατιστική.
40
3. Έλεγχοι υποθέσεων κανονικότητας
Το Jarque-Bera τεστ για έλεγχο κανονικότητας (συν.) Η Jarque-Bera στατιστική ακολουθεί μία ασυμπτωτική x2 κατανομή με δύο (ν=2) βαθμούς ελευθερίας. Το Jarque-Bera τεστ είναι ένα ασυμπτωτικό τεστ και δεν θα πρέπει να χρησιμοποιείται για μικρά δείγματα. Για μικρά δείγματα (n<30) χρησιμοποιείται το Lilliefors τεστ που θα δούμε στη συνέχεια.
41
3. Έλεγχοι υποθέσεων κανονικότητας
Το Jarque-Bera τεστ για έλεγχο κανονικότητας (συν.) MATLAB : Η jbtest συνάρτηση Πραγματοποιεί το Jarque-Bera τεστ με μηδενική υπόθεση ότι το δείγμα x προέρχεται από κανονική κατανομή. [h,p,jbstat,cv] = jbtest(x,alpha) Περιγραφή Τιμές Εξ’ ορισμού x Δείγμα alpha Το επίπεδο σημαντικότητας 0,05 h Το αποτέλεσμα του τεστ 0 (μη απόρριψη της μηδενικής υπόθεσης) ή 1 (απόρριψη της μηδενικής υπόθεσης) p Η p-τιμή jbstat Η Jarque-Bera στατιστική cv Η κρίσιμη τιμή για την απόρριψη της μηδενικής υπόθεσης
42
3. Έλεγχοι υποθέσεων κανονικότητας
Το Jarque-Bera τεστ για έλεγχο κανονικότητας (συν.) Παράδειγμα : x=normrnd(2,1,1000,1); % Μηδενική Υπόθεση : Το x προέρχεται από κανονική κανονική % Εναλλακτική Υπόθεση : Η κατανομή του x διαφέρει από την κανονική [h,p,jbstat,cv] = jbtest(x) % a=0.05 h = 0 p = jbstat = cv = Επομένως, η μηδενική υπόθεση ότι το δείγμα x προέρχεται από κανονική κατανομή δεν μπορεί να απορριφθεί.
43
3. Έλεγχοι υποθέσεων κανονικότητας
Το Jarque-Bera τεστ για έλεγχο κανονικότητας (συν.) Παράδειγμα : x=betarnd(2,1,1000,1); % Μηδενική Υπόθεση : Το x προέρχεται από κανονική κανονική % Εναλλακτική Υπόθεση : Η κατανομή του x διαφέρει από την κανονική [h,p,jbstat,cv] = jbtest(x) % a=0.05 h = 1 p = e-016 jbstat = cv = Επομένως, η μηδενική υπόθεση ότι το δείγμα x προέρχεται από κανονική κατανομή απορρίπτεται.
44
3. Έλεγχοι υποθέσεων κανονικότητας
Το Lilliefors τεστ για έλεγχο κανονικότητας Το Lilliefors τεστ ελέγχει τη μηδενική υπόθεση ότι «το υπό εξέταση δείγμα προέρχεται από κανονική κατανομή με απροσδιόριστη μέση τιμή και διασπορά» έναντι της εναλλακτικής υπόθεσης ότι «το δείγμα δεν προέρχεται από κανονική κατανομή». Το Lilliefors τεστ συγκρίνει την πειραματική αθροιστική κατανομή με μια κανονική αθροιστική κατανομή που έχει την ίδια μέση τιμή και διασπορά με τις αντίστοιχες δειγματικές τιμές. Είναι παρόμοιο με το Kolmogorov-Smirnov τεστ, ωστόσο οι παράμετροι της κανονικής κατανομής εκτιμώνται από το δείγμα και δεν προσδιορίζονται εκ των προτέρων.
45
3. Έλεγχοι υποθέσεων κανονικότητας
Το Lilliefors τεστ για έλεγχο κανονικότητας (συν.) Η εφαρμογή του τεστ περιλαμβάνει τα εξής βήματα: Πρώτα υπολογίζεται η μέση τιμή και διασπορά με βάση τα δεδομένα. Στη συνέχεια βρίσκεται η μέγιστη απόκλιση μεταξύ της πειραματικής αθροιστικής συνάρτησης κατανομής και της κανονικής αθροιστικής συνάρτησης κατανομής με μέση τιμή και διασπορά αυτές που υπολογίστηκαν στο βήμα 1. Όπως και στο Kolmogorov-Smirnov τεστ, αυτή είναι η στατιστική του τεστ. Στη συνέχεια, εξετάζεται εάν η μέγιστη απόκλιση είναι τόσο μεγάλη ώστε να θεωρείται στατιστικά σημαντική και να οδηγεί σε απόρριψη της μηδενικής υπόθεσης.
46
3. Έλεγχοι υποθέσεων κανονικότητας
Το Lilliefors τεστ για έλεγχο κανονικότητας (συν.) Η στατιστική ακολουθεί τη Lilliefors κατανομή, της οποίας οι πίνακες υπολογίζονται χρησιμοποιώντας μεθόδους Monte Carlo. Το τεστ δεν επηρεάζεται σημαντικά από τις απομονωμένες τιμές σε αντίθεση με το Jarque-Bera τεστ που επηρεάζεται σημαντικά από τις απομονωμένες τιμές.
47
3. Έλεγχοι υποθέσεων κανονικότητας
Το Lilliefors τεστ για έλεγχο κανονικότητας (συν.) MATLAB : Η lillietest συνάρτηση Πραγματοποιεί το Lilliefors τεστ με τη μηδενική υπόθεση ότι το δείγμα x προέρχεται από κανονική κατανομή. [h,p,lstat,cv] = lillietest(x,alpha) Περιγραφή Τιμές Εξ΄ ορισμού x Δείγμα alpha Το επίπεδο σημαντικότητας 0,05 h Το αποτέλεσμα του τεστ 0 (μη απόρριψη της μηδενικής υπόθεσης) ή 1 (απόρριψη της μηδενικής υπόθεσης) p Η p-τιμή lstat Η Lilliefors στατιστική cv Η κρίσιμη τιμή για την απόρριψη της μηδενικής υπόθεσης
48
3. Έλεγχοι υποθέσεων κανονικότητας
Το Lilliefors τεστ για έλεγχο κανονικότητας (συν.) Παράδειγμα : x=normrnd(2,1,10,1); % Μηδενική Υπόθεση : Το x προέρχεται από κανονική κανονική % Εναλλακτική Υπόθεση : Η κατανομή του x διαφέρει από την κανονική [h,p,lstat,cv] = lillietest(x) % a=0.05 h = 0 p = lstat = cv = Επομένως, η μηδενική υπόθεση ότι το δείγμα x προέρχεται από κανονική κατανομή δεν μπορεί να απορριφθεί.
49
3. Έλεγχοι υποθέσεων κανονικότητας
Το Lilliefors τεστ για έλεγχο κανονικότητας (συν.) Παράδειγμα : x=betarnd(2,1,10,1); % Μηδενική Υπόθεση : Το x προέρχεται από κανονική κανονική % Εναλλακτική Υπόθεση : Η κατανομή του x διαφέρει από την κανονική [h,p,lstat,cv] = lillietest(x) % a=0.05 h = 1 p = lstat = cv = Επομένως, η μηδενική υπόθεση ότι το δείγμα x προέρχεται από κανονική κατανομή απορρίπτεται.
50
3. Έλεγχοι υποθέσεων κανονικότητας
Παράδειγμα A (συνέχεια από διαφάνεια 11) Στη συνέχεια, σκέφτεται να επιβεβαιώσει πάλι ότι ισχύουν όλες οι παραδοχές σχετικά με το τεστ που εφάρμοσε. Αναρωτιέται εάν πραγματικά η διαφορά x-y προέρχεται από κανονική κατανομή με άγνωστη διασπορά; Πώς μπορεί να ελέγξει εάν αυτό ισχύει ? Δρομέας 1 2 3 4 5 6 7 8 9 10 11 Πριν τον αγώνα 4,3 4,6 5,2 6,6 7,2 8,4 9,0 10,4 14,0 17,8 Μετά τον αγώνα 29,6 25,1 15,5 24,1 37,8 20,2 21,9 14,2 34,6 46,2
51
Έλεγχοι υποθέσεων κανονικότητας και χ-τετράγωνο
Παραδείγματα ελέγχου υποθέσεων για τη μέση τιμή Διαγράμματα κανονικότητας και Q-Q Έλεγχοι υποθέσεων κανονικότητας Έλεγχοι υποθέσεων χ2
52
4. Έλεγχοι υποθέσεων χ2 Μέχρι τώρα έχουμε μιλήσει για ελέγχους υποθέσεων στις περιπτώσεις που έχουμε ποσοτικές μεταβλητές. Ωστόσο, πολλές φορές χρειάζεται να συγκρίνουμε ομάδες παρατηρήσεων με ποιοτικά χαρακτηριστικά. Τα z-τεστ και t-τεστ δεν εφαρμόζονται σε αυτές τις περιπτώσεις. Τα εργαλεία που χρησιμοποιούνται για αυτές τις περιπτώσεις είναι τα τεστ x-τετράγωνο (ή αλλιώς τεστ του Pearson). Τα τεστ x-τετράγωνο είναι πολύ χρήσιμα όταν επιθυμούμε να συγκρίνουμε ή να ελέγξουμε την παρουσία (ή απουσία) συσχέτισης μεταξύ μεγεθών, τα οποία δεν είναι ποσοτικά αλλά ποιοτικά. Το θεωρητικό υπόβαθρο των χ-τετράγωνο τεστ είναι παρόμοιο με το υπόβαθρο των τεστ για ποσοτικές μεταβλητές.
53
4. Έλεγχοι υποθέσεων χ2 Οι υπό μελέτη ομάδες είναι επίσης δείγματα από τον πληθυσμό. Το ερώτημα είναι : Διαφέρουν οι συχνότητες των ποιοτικών χαρακτηριστικών των δειγμάτων σημαντικά μεταξύ τους ή ως προς τον πληθυσμό από τον οποίο προέρχονται; Το χ-τετράγωνο τεστ χρησιμοποιείται για την εκτίμηση εάν ποιοτικές μεταβλητές (π.χ. το φύλο, η παρουσία ή απουσία μιας ασθένειας κλπ) διαφέρουν σημαντικά. Οι παρατηρήσεις είναι ανεξάρτητες. Το χ-τετράγωνο τεστ συγκρίνει τις παρατηρούμενες συχνότητες έναντι των θεωρητικά αναμενόμενων συχνοτήτων υπό την παραδοχή ότι η μηδενική υπόθεση είναι αληθής. Η μηδενική υπόθεση είναι ότι ΔΕΝ υπάρχει καμία διαφορά στις κατανομές μεταξύ των υπό μελέτη ομάδων.
54
4. Έλεγχοι υποθέσεων χ2 Εάν η διαφορά μεταξύ παρατηρούμενων και θεωρητικά αναμενόμενων συχνοτήτων είναι σημαντική τότε η μηδενική υπόθεση απορρίπτεται. Αναφορικά με τις εφαρμογές τους, τα χ-τετράγωνο τεστ διακρίνονται σε : Έλεγχοι συσχέτισης (ή εξάρτησης) μεταξύ μεταβλητών Αυτές είναι οι περιπτώσεις στις οποίες ελέγχουμε την ύπαρξη συσχέτισης (ή εξάρτησης) μεταξύ μεταβλητών. Έλεγχοι ομοιογένειας (έλεγχοι ταιριάσματος) Αυτές είναι οι περιπτώσεις στις οποίες ελέγχουμε εάν η κατανομή των (ποιοτικών) δεδομένων ταιριάζει σε μια κατανομή αναφοράς.
55
4. Έλεγχοι υποθέσεων χ2 Πίνακες Συνάφειας (Contingency Tables)
Οι πίνακες συνάφειας περιέχουν τις συχνότητες που αντιστοιχούν σε οποιονδήποτε συνδυασμό των κατηγοριών των υπό μελέτη μεταβλητών. Συνήθως, οι μεταβλητές έχουν ένα μικρό πλήθος κατηγοριών. Ένας πίνακας συνάφειας μπορεί να περιέχει τα αντίστοιχα ποσοστά αντί για τις συχνότητες.
56
Κανένα καρδιακό επεισόδιο
4. Έλεγχοι υποθέσεων χ2 Πίνακες Συνάφειας (συν.) Παράδειγμα 1 Επιθυμούμε να βρούμε εάν υπάρχει κάποια συσχέτιση μεταξύ των μεταβλητών ‘Καρδιακό Επεισόδιο’ και ‘Κάπνισμα’. Πραγματοποιήσαμε συνεντεύξεις με 119 άτομα που είχαν καρδιακό επεισόδιο και 120 άτομα που δεν είχαν κανένα καρδιακό επεισόδιο. Ρωτήσαμε τα άτομα αυτά εάν ήταν καπνιστές ή όχι. Από τις απαντήσεις διαμορφώθηκε ο ακόλουθος πίνακας συνάφειας : Κάπνισμα Όχι κάπνισμα Σύνολο Καρδιακό επεισόδιο 60 59 119 Κανένα καρδιακό επεισόδιο 42 78 120 102 137 239
57
Κανένα καρδιακό επεισόδιο
4. Έλεγχοι υποθέσεων χ2 Πίνακες Συνάφειας (συν.) Παράδειγμα 1 (συν.) Οι στήλες του πίνακα συνάφειας περιέχουν τις κατηγορίες (c=2) της μεταβλητής “Κάπνισμα”. Οι γραμμές του πίνακα συνάφειας περιέχουν τις κατηγορίες (r=2) της μεταβλητής “Καρδιακό επεισόδιο”. Τα κελιά του πίνακα συνάφειας περιέχουν τις συχνότητες όλων των δυνατών συνδυασμών των κατηγοριών των μεταβλητών. Κάπνισμα Όχι κάπνισμα Σύνολο Καρδιακό επεισόδιο 60 59 119 Κανένα καρδιακό επεισόδιο 42 78 120 102 137 239
58
Κανένα καρδιακό επεισόδιο
4. Έλεγχοι υποθέσεων χ2 Πίνακες Συνάφειας (συν.) Παράδειγμα 1 (συν.) Η στήλη “Σύνολο” περιέχει τα συνολικά αθροίσματα των αντίστοιχων γραμμών. Η γραμμή “Σύνολο” περιέχει τα συνολικά αθροίσματα των αντίστοιχων στηλών. Το κοινό κελί της στήλης “σύνολο” και της γραμμής “σύνολο” περιέχει το συνολικό άθροισμα των δειγμάτων. Κάπνισμα Όχι κάπνισμα Σύνολο Καρδιακό επεισόδιο 60 59 119 Κανένα καρδιακό επεισόδιο 42 78 120 102 137 239
59
4. Έλεγχοι υποθέσεων χ2 Πίνακες Συνάφειας (συν.) Παράδειγμα 2
Ένας ερευνητής επιθυμεί να βρει εάν υπάρχει συσχέτιση μεταξύ των μεταβλητών ‘Απόπειρα αυτοκτονίας’ και ‘Οικογενειακή κατάσταση’ των γυναικών. Μελέτησε 180 περιπτώσεις γυναικών που έχουν νοσηλευθεί στην ψυχιατρική κλινική ενός νοσοκομείου, οι οποίες προσπάθησαν να αυτοκτονήσουν λαμβάνοντας φάρμακα. Για να συγκρίνει τα αποτελέσματα, ο ερευνητής χρησιμοποίησε μια άλλη ομάδα 160 γυναικών, οι οποίες νοσηλεύθηκαν στην παθολογική κλινική του ίδιου νοσοκομείου για κάποια νόσο του στομάχου. Η ομάδα των 160 γυναικών επιλέχθηκε με βάση τους κανόνες δειγματοληψίας για την αντιπροσωπευτικότητα του δείγματος. Στη συνέχεια κατασκεύασε τον ακόλουθο πίνακα συνάφειας :
60
Οικογενειακή κατάσταση (Απόπειρα αυτοκτονίας)
4. Έλεγχοι υποθέσεων χ2 Πίνακες Συνάφειας (συν.) Παράδειγμα 2 (συν.) Οι στήλες του πίνακα συνάφειας περιέχουν τις κατηγορίες (c=2) της μεταβλητής “Απόπειρα αυτοκτονίας”. Οι γραμμές του πίνακα συνάφειας περιέχουν τις κατηγορίες (r=3) της μεταβλητής “Οικογενειακή κατάσταση”. Οικογενειακή κατάσταση Ομάδα A (Απόπειρα αυτοκτονίας) Ομάδα B (Ομάδα ελέγχου) Σύνολο Παντρεμένες 64 69 133 Ανύπαντρες 96 63 159 Διαζευγμένες- Χήρες 20 28 48 180 160 340
61
4. Έλεγχοι υποθέσεων χ2 Το χ-τετράγωνο τεστ για ανεξαρτησία μεταβλητών
Βήμα 1 : Θέτουμε τη μηδενική υπόθεση H0: “Δεν υπάρχει εξάρτηση μεταξύ των υπό μελέτη μεταβλητών” Βήμα 2 : Η εναλλακτική υπόθεση H1 είναι: “Υπάρχει εξάρτηση μεταξύ των υπό μελέτη μεταβλητών”. Βήμα 3 : Εκτιμούμε τις θεωρητικά αναμενόμενες συχνότητες Ei σύμφωνα με τη μηδενική υπόθεση. Βήμα 4 : Θέτουμε (το οποίο ακολουθεί τη χ-τετράγωνο κατανομή με df=(c-1)(r-1) βαθμούς ελευθερίας), όπου Oi είναι οι παρατηρηθείσες συχνότητες. Βήμα 5a : Υπολογίζουμε την τιμή του x2 και (από τη χ-τετράγωνο cdf υπολογίζουμε) την πιθανότητα P που αντιστοιχεί στο x2. Βήμα 5b : Επιλέγουμε το επίπεδο σημαντικότητας a (π.χ. 5%). Βήμα 6 : Απορρίπτουμε τη μηδενική υπόθεση H0 υπέρ της εναλλακτικής H1 εάν P>1-a.
62
4. Έλεγχοι υποθέσεων χ2 Το χ-τετράγωνο τεστ για ανεξαρτησία μεταβλητών (συν.)
63
4. Έλεγχοι υποθέσεων χ2 Τι πρέπει να προσέχουμε όταν εφαρμόζουμε τα x2 τεστ; Το χ-τετράγωνο τεστ παρέχει αναξιόπιστα αποτελέσματα όταν Η ελάχιστη θεωρητικά αναμενόμενη τιμή είναι μικρότερη από 1. Περισσότερες από το 20% των θεωρητικά αναμενόμενων συχνοτήτων είναι μικρότερες από 5. Έχουμε λιγότερες από 20 παρατηρήσεις. Στις περιπτώσεις των 2x2 πινάκων συνάφειας με παρατηρήσεις, έχουμε τουλάχιστον μία από τις θεωρητικά αναμενόμενες τιμές μικρότερη από 5. Όταν ισχύει κάτι από τα παραπάνω, δεν εφαρμόζουμε το χ-τετράγωνο τεστ. Τονίζεται επίσης ότι τα x2 τεστ εφαρμόζονται στις αρχικές συχνότητες και όχι σε λόγους ή ποσοστά που προκύπτουν από τις αρχικές συχνότητες.
64
Κανένα καρδιακό επεισόδιο
4. Έλεγχοι υποθέσεων χ2 Πίνακες Συνάφειας (συν.) Παράδειγμα 1 (συν.) Επιθυμούμε να βρούμε εάν υπάρχει κάποια συσχέτιση μεταξύ των μεταβλητών ‘Καρδιακό Επεισόδιο’ και ‘Κάπνισμα’. Πραγματοποιήσαμε συνεντεύξεις με 119 άτομα που είχαν καρδιακό επεισόδιο και 120 άτομα που δεν είχαν κανένα καρδιακό επεισόδιο. Ρωτήσαμε τα άτομα αυτά εάν ήταν καπνιστές ή όχι. Από τις απαντήσεις διαμορφώθηκε ο ακόλουθος πίνακας συνάφειας : Κάπνισμα Όχι κάπνισμα Σύνολο Καρδιακό επεισόδιο 60 59 119 Κανένα καρδιακό επεισόδιο 42 78 120 102 137 239
65
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 1 (συν.)
Μηδενική υπόθεση : ΔΕΝ ΥΠΑΡΧΕΙ ΣΥΣΧΕΤΙΣΗ μεταξύ των μεταβλητών “Καρδιακό επεισόδιο” και “Κάπνισμα”. Εναλλακτική υπόθεση : Υπάρχει συσχέτιση μεταξύ των μεταβλητών “Καρδιακό επεισόδιο” και “Κάπνισμα”. Λαμβάνουμε a=0.05. Για να υπολογίσουμε το x2 κατασκευάζουμε ένα νέο πίνακα που περιέχει τις θεωρητικά αναμενόμενες συχνότητες με βάση την παραδοχή ότι η μηδενική υπόθεση είναι αληθής. Κάθε κελί του πίνακα αυτού είναι το γινόμενο της οριζόντιας τιμής συνόλου με την κάθετη τιμή συνόλου διαιρεμένο με την τιμή του γενικού συνόλου.
66
Κανένα καρδιακό επεισόδιο Κανένα καρδιακό επεισόδιο
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 1 (συν.) Παρατηρηθείσες συχνότητες : Κάπνισμα Όχι κάπνισμα Σύνολο Καρδιακό επεισόδιο 60 59 119 Κανένα καρδιακό επεισόδιο 42 78 120 102 137 239 Αναμενόμενες συχνότητες : Κάπνισμα Όχι κάπνισμα Σύνολο Καρδιακό επεισόδιο =102*119/239 =137*119/239 119 Κανένα καρδιακό επεισόδιο =102*120/239 =137*120/239 120 102 137 239
67
Αναμενόμενες Συχνότητες Κανένα καρδιακό επεισόδιο
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 1 (συν.) Ωστόσο, δεν προχωρούμε πριν εξετάσουμε την ισχύ των απαραίτητων συνθηκών για την αξιοπιστία των αποτελεσμάτων. Αναμενόμενες Συχνότητες Κάπνισμα Όχι κάπνισμα Σύνολο Καρδιακό επεισόδιο 50,79 68,21 119 Κανένα καρδιακό επεισόδιο 51,21 68,79 120 102 137 239 Η ελάχιστη θεωρητικά αναμενόμενη συχνότητα είναι 50,79>1. Καμία από τις θεωρητικά αναμενόμενες συχνότητες δεν είναι μικρότερη του 5. Έχουμε 239>40 παρατηρήσεις. Επομένως, δεν ικανοποιείται καμία από τις συνθήκες που οδηγούν σε μη αξιόπιστα αποτελέσματα.
68
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 1 (συν.)
Στη συνέχεια υπολογίζουμε το x2 από τον ακόλουθο πίνακα: Παρατηρηθείσες συχνότητες(O) Αναμενόμενες συχνότητες (E) O - E (O-E)2/E Κάπνισμα Όχι κάπνισμα Καρδιακό επεισόδιο 60 59 50,79 68,21 9,21 -9,21 1,67 1,24 Κανένα καρδιακό επεισόδιο 42 78 51,21 68,79 1,66 1,23 Σύνολο 102 137 3,33 2,47 Έτσι, Οι βαθμοί ελευθερίας είναι : df=(c-1)*(r-1)=(2-1)*(2-1)=1.
69
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 1 (συν.)
Για x2=5,80 και 1 βαθμό ελευθερίας έχουμε P=0.984: Η πιθανότητα P είναι >95%. Επομένως, η μηδενική υπόθεση απορρίπτεται. Υπάρχει στατιστικά σημαντικά συσχέτιση μεταξύ των μεταβλητών ‘Καρδιακό επεισόδιο’ και ‘Κάπνισμα’.
70
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 2 (συνέχεια από διαφάνεια 62)
Μηδενική υπόθεση : Η οικογενειακή κατάσταση των γυναικών που προσπάθησαν να αυτοκτονήσουν ΔΕΝ ΔΙΑΦΕΡΕΙ από την οικογενειακή κατάσταση της ομάδας ελέγχου. Εναλλακτική υπόθεση : Η οικογενειακή κατάσταση των γυναικών που προσπάθησαν να αυτοκτονήσουν είναι διαφορετική από την οικογενειακή κατάσταση της ομάδας ελέγχου. Λαμβάνουμε a=0.05. Για να υπολογίσουμε το x2 κατασκευάζουμε ένα νέο πίνακα που περιέχει τις θεωρητικά αναμενόμενες συχνότητες υπό την παραδοχή ότι η μηδενική υπόθεση είναι αληθής.
71
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 2 (συν.)
Παρατηρηθείσες συχνότητες : Οικογενειακή κατάσταση Ομάδα A (Απόπειρα αυτοκτονίας) Ομάδα B (Ομάδα ελέγχου) Σύνολο Παντρεμένες 64 69 133 Ανύπαντρες 96 63 159 Διαζευγμένες- Χήρες 20 28 48 180 160 340 Αναμενόμενες συχνότητες : Οικογενειακή κατάσταση Ομάδα A (Απόπειρα αυτοκτονίας) Ομάδα B (Ομάδα ελέγχου) Σύνολο Παντρεμένες =133*180/340 =133*160/340 133 Ανύπαντρες =159*180/340 =159*160/340 159 Διαζευγμένες- Χήρες =48*180/340 =48*160/340 48 180 160 340
72
Οικογενειακή κατάσταση (Απόπειρα αυτοκτονίας)
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 2 (συν.) Αναμενόμενες συχνότητες : Οικογενειακή κατάσταση Ομάδα A (Απόπειρα αυτοκτονίας) Ομάδα B (Ομάδα ελέγχου) Σύνολο Παντρεμένες 70,4 62,6 133 Ανύπαντρες 84,2 74,8 159 Διαζευγμένες- Χήρες 25,4 22,6 48 180 160 340 Η ελάχιστη θεωρητικά αναμενόμενη συχνότητα είναι 22,6>1. Καμία από τις θεωρητικά αναμενόμενες συχνότητες δεν είναι μικρότερη του 5. Έχουμε 340>20 παρατηρήσεις. Επομένως, δεν ισχύει καμία από τις συνθήκες που οδηγούν σε αναξιόπιστα αποτελέσματα.
73
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 2 (συν.) Έτσι,
Παρατηρηθείσες συχνότητες (O) Αναμενόμενες συχνότητες (E) Ε - Ο (O-E)2/E Οικογενειακή κατάσταση Ομάδα A Ομάδα B Ομάδα A Παντρεμένες 64 69 70,4 62,6 6,4 -6,4 0,58 0,65 Ανύπαντρες 96 63 84,2 74,8 -11,8 11,8 1,65 1,86 Διαζευγμένες- Χήρες 20 28 25,4 22,6 5,4 -5,4 1,14 1,29 Σύνολο 180 160 3,37 3,80 Έτσι, Οι βαθμοί ελευθερίας είναι : df=(c-1)*(r-1)=(2-1)*(3-1)=2.
74
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 2 (συν.)
Για x2=7.17 και 2 βαθμούς ελευθερίας έχουμε P=0.97: Η πιθανότητα P είναι >95%. Επομένως, η μηδενική υπόθεση απορρίπτεται. Η οικογενειακή κατάσταση μεταξύ των δύο ομάδων διαφέρει.
75
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 3
Σε μια νευροχειρουργική κλινική οι ερευνητές σύγκριναν τα διάφορα χαρακτηριστικά μιας ομάδας ασθενών με “μηνιγγιώματα” με τα αντίστοιχα χαρακτηριστικά μιας ομάδας ασθενών με “γλοιώματα”. Σχετικά με το φύλο των ασθενών διαμορφώθηκε ο ακόλουθος πίνακας συνάφειας : Υπάρχει εξάρτηση από το φύλο μεταξύ “μηνιγγιωμάτων” και “γλοιωμάτων”; Δίνεται a=0.05 Μηνιγγίωμα Γλοίωμα Σύνολο Άρρεν 73 53 126 Θήλυ 48 44 92 121 97 218
76
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 3 (συν.)
Μηδενική υπόθεση : Οι κατανομές των “μινιγγιωμάτων” και των “γλοιωμάτων” ΔΕΝ ΔΙΑΦΕΡΟΥΝ μεταξύ ανδρών και γυναικών. Εναλλακτική υπόθεση : Οι κατανομές των “μινιγγιωμάτων” και των “γλοιωματών” διαφέρουν μεταξύ ανδρών και γυναικών. Για να υπολογίσουμε το x2 κατασκευάζουμε τον πίνακα των θεωρητικά αναμενόμενων τιμών υπό την παραδοχή ότι η μηδενική υπόθεση αληθεύει.
77
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 3 (συν.)
Παρατηρηθείσες συχνότητες : Μηνιγγίωμα Γλοίωμα Σύνολο Άρρεν 73 53 126 Θήλυ 48 44 92 121 97 218 Αναμενόμενες συχνότητες : Μηνιγγίωμα Γλοίωμα Σύνολο Άρρεν =121*126/218 =97*126/218 126 Θήλυ =121*92/218 =97*92/218 92 121 97 218
78
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 3 (συν.) Αναμενόμενες Συχνότητες :
Μηνιγγίωμα Γλοίωμα Σύνολο Άρρεν 69,9 56,1 126 Θήλυ 51,1 40,9 92 121 97 218 Η ελάχιστη θεωρητικά αναμενόμενη συχνότητα είναι 40,9>1. Καμία από τις θεωρητικά αναμενόμενες συχνότητες δεν έχουν τιμή μικρότερη από 5. Έχουμε 218>40 παρατηρήσεις. Επομένως, δεν ισχύει καμία από τις συνθήκες που οδηγεί σε αναξιόπιστα αποτελέσματα.
79
Παρατηρηθείσες συχνότητες (O) Αναμενόμενες συχνότητες (E)
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 3 (συν.) Παρατηρηθείσες συχνότητες (O) Αναμενόμενες συχνότητες (E) O - E (O-E)2/E Μηνιγγίωμα Γλοίωμα Άρρεν 73 53 69,9 56,1 3,1 -3,1 0,137 0,177 Θήλυ 48 44 51,1 40,9 0,188 0,235 Σύνολο 121 97 0,325 0,412 Έτσι, Οι βαθμοί ελευθερίας είναι : df=(c-1)*(r-1)=(2-1)*(2-1)=1.
80
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 3 (συν.)
Για x2=0,737 και 1 βαθμό ελευθερίας έχουμε P=0.60<0.95(=1-a): Επομένως, η διαφορά δεν είναι σημαντική και η μηδενική υπόθεση δεν μπορεί να απορριφθεί. Αποδεχόμαστε ότι οι κατανομές των μεταβλητών “Μινιγγιώματα” και “Γλοιώματα” ΔΕΝ ΔΙΑΦΕΡΟΥΝ μεταξύ ανδρών και γυναικών.
81
4. Έλεγχοι υποθέσεων χ2 Το χ-τετράγωνο τεστ για έλεγχο ταιριάσματος με κατανομή Επιθυμούμε να ελέγξουμε εάν οι παρατηρηθείσες συχνότητες των κατηγοριών μιας μεταβλητής διαφέρουν σημαντικά από τις θεωρητικά αναμενόμενες τιμές μιας γνωστής κατανομής (δηλαδή της κατανομής της οποίας οι τιμές στις διάφορες κατηγορίες είναι εκ των προτέρων γνωστή). Όταν ένα χ-τετράγωνο τεστ χρησιμοποιείται για το σκοπό αυτό, πρέπει να ορίζουμε τις θεωρητικά αναμενόμενες συχνότητες που σχετίζονται με τις κατηγορίες της υπό μελέτη μεταβλητής. Ο ορισμός αυτός βασίζεται σε προηγούμενες μελέτες, στη θεωρία ή σε κάποιες παραδοχές.
82
4. Έλεγχοι υποθέσεων χ2 Το χ-τετράγωνο τεστ για έλεγχο ταιριάσματος με κατανομή Βήμα 1 : Θέτουμε τη μηδενική υπόθεση H0: “Τα δεδομένα του δείγματος ΑΚΟΛΟΥΘΟΥΝ μία θεωρητική κατανομή με γνωστές αναμενόμενες συχνότητες Ei των n κατηγοριών της μεταβλητής.” Βήμα 2 : Η εναλλακτική υπόθεση H1 είναι: “Τα δεδομένα του δείγματος δεν ακολουθούν τη θεωρητική κατανομή με γνωστές αναμενόμενες συχνότητες Ei των n κατηγοριών της μεταβλητής.” Βήμα 3 : Θέτουμε (που ακολουθεί τη χ-τετράγωνο κατανομή με df=n-1 βαθμούς ελευθερίας), όπου Oi είναι οι παρατηρηθείσες συχνότητες. Βήμα 4a : Υπολογίζουμε την τιμή του x2 και (από τη χ-τετράγωνο cdf υπολογίζουμε) την πιθανότητα P που αντιστοιχεί στο x2. Βήμα 4b : Επιλέγουμε το επίπεδο σημαντικότητας a (π.χ. 5%). Βήμα 5 : Απορρίπτουμε την H0 υπέρ της H1 εάν P>1-a.
83
4. Έλεγχοι υποθέσεων χ2 Τι πρέπει να προσέχουμε όταν εφαρμόζουμε τα x2 τεστ; Το χ-τετράγωνο τεστ παρέχει αναξιόπιστα αποτελέσματα όταν Η ελάχιστη θεωρητικά αναμενόμενη τιμή είναι μικρότερη από 1. Περισσότερες από το 20% των θεωρητικά αναμενόμενων συχνοτήτων είναι μικρότερες από 5. Έχουμε λιγότερες από 20 παρατηρήσεις. Στις περιπτώσεις των 2x2 πινάκων συνάφειας με παρατηρήσεις, έχουμε τουλάχιστον μία από τις θεωρητικά αναμενόμενες τιμές μικρότερη από 5. Όταν ισχύει κάτι από τα παραπάνω, δεν εφαρμόζουμε το χ-τετράγωνο τεστ. Τονίζεται επίσης ότι τα x2 τεστ εφαρμόζονται στις αρχικές συχνότητες και όχι σε λόγους ή ποσοστά που προκύπτουν από τις αρχικές συχνότητες.
84
Παρατηρηθείσες συχνότητες
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 4 Σε μια μελέτη της μεσογειακής αναιμίας, οι γονείς είναι φορείς (ετεροζυγώτες). Θεωρητικά, αναμένεται ότι το 25% των παιδιών τους θα έχουν μεσογειακή αναιμία, το 50% των παιδιών τους θα είναι φορείς (ετεροζυγώτες) και το 25% των παιδιών τους θα είναι φυσιολογικά. Στη μελέτη αυτή συμμετείχαν 80 οικογένειες που είχαν 212 παιδιά. Τα αιματολογικά τεστ έδειξαν ότι 47 παιδιά είχαν μεσογειακή αναιμία, 110 παιδιά ήταν φορείς και 55 παιδιά ήταν φυσιολογικά. Το ερώτημα είναι : Αποκλίνουν τα δεδομένα από τη θεωρητικά αναμενόμενη κατανομή; Δίνεται a=0.05. Μεσογειακή αναιμία Φορείς Φυσιολογικά Σύνολο Παρατηρηθείσες συχνότητες 47 110 55 212
85
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 4 (συν.)
Μηδενική υπόθεση : Τα δεδομένα της μελέτης ΔΕΝ ΑΠΟΚΛΙΝΟΥΝ από τη θεωρητικά αναμενόμενη κατανομή (25%-50%-25% για μεσογειακή αναιμία-φορείς-φυσιολογικά, αντίστοιχα). Εναλλακτική υπόθεση : Τα δεδομένα της μελέτης αποκλίνουν από τη θεωρητικά αναμενόμενη κατανομή (25%-50%-25% για μεσογειακή αναιμία-φορείς-φυσιολογικά, αντίστοιχα). Για να υπολογιστεί το x2 υπολογίζουμε τις θεωρητικά αναμενόμενες τιμές.
86
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 4 (συν.)
Παρατηρηθείσες/Θεωρητικά Αναμενόμενες συχνότητες : Μεσογειακή αναιμία Φορείς Φυσιολογικά Σύνολο Παρατηρηθείσες συχνότητες 47 110 55 212 Θεωρητικά αναμενόμενες συχνότητες =212*25% =212*50% Έτσι έχουμε : Μεσογειακή αναιμία Φορείς Φυσιολογικά Σύνολο Παρατηρηθείσες συχνότητες 47 110 55 212 Θεωρητικά αναμενόμενες συχνότητες 53 106 Η ελάχιστη θεωρητικά αναμενόμενη συχνότητα είναι 53>1. Καμία από τις θεωρητικά αναμενόμενες συχνότητες δεν είναι μικρότερη του 5. Έχουμε 212>40 παρατηρήσεις. Επομένως, δεν ισχύει καμία συνθήκη που οδηγεί σε αναξιόπιστα αποτελέσματα.
87
4. Έλεγχοι υποθέσεων χ2 Παράδειγμα 4 (συν.)
Στη συνέχεια υπολογίζουμε το x2 : Οι βαθμοί ελευθερίας είναι : df=n-1=3-1=2. Έχουμε P=0.36<0.95 Επομένως, η μηδενική υπόθεση δεν μπορεί να απορριφθεί. Τα δεδομένα της μελέτης ΔΕΝ ΑΠΟΚΛΙΝΟΥΝ από τη θεωρητικά αναμενόμενη κατανομή.
88
4. Έλεγχοι υποθέσεων χ2 Σχετικά με την εξαγωγή συμπερασμάτων
Ένα πολύ σημαντικό θέμα είναι η προσεκτική εξαγωγή συμπερασμάτων από τα αποτελέσματα της εφαρμογής των χ-τετράγωνο τεστ. Πολλές φορές τα συμπεράσματα δεν βασίζονται σε λογικά επιχειρήματα. Πρέπει να είμαστε πολύ προσεκτικοί θεωρώντας τα ακόλουθα : Τα χ-τετράγωνο τεστ δεν παρέχουν πληροφορία για την έννοια των ευρημάτων μας. Για παράδειγμα, στην περίπτωση που βρίσκουμε σημαντικότητα στη σχέση μεταξύ των μεταβλητών ‘εισόδημα’ και ‘απόπειρα αυτοκτονίας’, αυτό δεν σημαίνει ότι η φτώχεια από κακές κοινωνικο-οικονομικές καταστάσεις προκαλεί απόπειρες αυτοκτονιών. Τα χ-τετράγωνο τεστ είναι χρήσιμα για τη διαπίστωση εάν υπάρχει συσχέτιση μεταξύ δύο παραγόντων (μεταβλητών). Ωστόσο, δεν μας δίνει πληροφορίες για τη φύση αυτής της συσχέτισης. Η τιμή της στατιστικής χ-τετράγωνο δεν μετρά τη δύναμη της συσχέτισης μεταξύ των δύο παραγόντων.
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.