Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ"— Μεταγράφημα παρουσίασης:

1 ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ
ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΤΕΧΝΟΛΟΓΙΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗΝ ΙΑΤΡΙΚΗ ΚΑΙ ΤΗ ΒΙΟΛΟΓΙΑ ΜΑΘΗΜΑ : ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΕΛΕΓΧΟI ΥΠΟΘΕΣΕΩΝ ΓΙΑ ΤΗ ΜΕΣΗ ΤΙΜΗ (Β’ ΜΕΡΟΣ) – ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ ΓΙΑ ΤΗ ΔΙΑΣΠΟΡΑ ΔΙΟΝΥΣΗΣ ΛΙΝΑΡΔΑΤΟΣ 26 ΟΚΤΩΒΡΙΟΥ 2017

2 Έλεγχοι υποθέσεων για τη μέση τιμή
Σημεία προς διευκρίνιση Ανάλυση Διασποράς (One way ANOVA) Διαστήματα εμπιστοσύνης για τη διασπορά Έλεγχοι υποθέσεων για τη διασπορά Έλεγχοι υποθέσεων για τη διασπορά με το MATLAB Κεντρικό Οριακό Θεώρημα

3 1. Σημεία προς διευκρίνιση
Περιπτώσεις ελέγχου υποθέσεων για τη μέση τιμή ενός ή δύο δειγμάτων Πλήθος δειγμάτων που ακολουθούν την κανονική κατανομή Διασπορά Ανεξαρτησία δειγμάτων H0 H1 (αμφίπλευρος έλεγχος) Στατιστική Κατανομή στατιστικής 1 σύνολο n δειγμάτων γνωστή : σ - μ=μ0 μ≠μ0 Τυποποιημένη κανονική άγνωστη Student’s t με n-1 β.ε. 1 σύνολο n1 δειγμάτων και 1 σύνολο n2 δειγμάτων γνωστές : σ1, σ2 Ναι μ1=μ2 μ1≠μ2 1 σύνολο n1 δειγμάτων και άγνωστες αλλά ίσες Student’s t με n1 + n2 -2 β.ε. άγνωστες αλλά άνισες Student’s t με ν=ν(s1,s2,n1,n2) β.ε. Όχι μD=0 μD≠0 Σχηματίζουμε ένα νέο δείγμα από τις διαφορές των παρατηρήσεων. Ακολουθούμε την περίπτωση ενός συνόλου n δειγμάτων με άγνωστη διασπορά.

4 1. Σημεία προς διευκρίνιση
Παράδειγμα 1 Πόσο πρέπει να είναι το πλήθος n των δειγμάτων που λαμβάνουμε από πληθυσμό που ακολουθεί την κανονική κατανομή με διασπορά σ=2, ώστε να εκτιμήσουμε τη μέση τιμή με διάστημα εμπιστοσύνης εύρους το πολύ ίσο με 2; Δίνεται το επίπεδο σημαντικότητας 5%. Ξέρουμε ότι το διάστημα εμπιστοσύνης στην περίπτωση αυτή είναι: Άρα πρέπει :

5 1. Σημεία προς διευκρίνιση
Επίπεδο σημαντικότητας a Είναι η μέγιστη αποδεκτή πιθανότητα εσφαλμένης απόρριψης της μηδενικής υπόθεσης (Σφάλμα Τύπου Ι). Απόρριψη της μηδενικής υπόθεσης σε επίπεδο σημαντικότητας a σημαίνει κατά τουλάχιστον 100*(1 − α)% βεβαιότητα ότι δεν ισχύει η μηδενική υπόθεση (και ισχύει η εναλλακτική). Αποδοχή της μηδενικής υπόθεσης δεν σημαίνει ότι αποδείχθηκε η ισχύς της αλλά σημαίνει ότι δεν αποδείχθηκε η αντίθετή της. Εάν μικρύνει το επίπεδο σημαντικότητας a, τότε η απόρριψη της μηδενικής υπόθεσης σημαίνει μεγαλύτερη βεβαιότητα ότι δεν ισχύει η μηδενική υπόθεση.

6 1. Σημεία προς διευκρίνιση
Επίπεδο σημαντικότητας a (συν.) Όσο μικραίνει το επίπεδο σημαντικότητας a, τόσο πιο πολύ δυσκολεύει η απόρριψη της μηδενικής υπόθεσης (αφού ζητείται μεγαλύτερη βεβαιότητα ότι δεν ισχύει) . Η μικρότερη τιμή του a για την οποία απορρίπτεται η μηδενική υπόθεση λέγεται p-value (p-τιμή) του ελέγχου. Η p-value εκφράζει την πιθανότητα ότι η παρατηρούμενη τιμή της στατιστικής θα μπορούσε να είναι τόσο ακραία κατά τύχη, κάτω από την υπόθεση ότι η μηδενική υπόθεση είναι αληθής. Εάν η p-value είναι μικρότερη από το τιθέμενο επίπεδο σημαντικότητας a, τότε η μηδενική υπόθεση απορρίπτεται. Τέλος, όσο μικραίνει το a τόσο μεγαλώνει το διάστημα εμπιστοσύνης για τη μέση τιμή.

7 1. Σημεία προς διευκρίνιση
Παράδειγμα 2 Μετρήθηκε η συγκέντρωση του ενζύμου “κρεατίνη-κινάση” σε 28 ασθενείς με πρόσφατο καρδιακό επεισόδιο. Έγινε σύγκριση των αποτελεσμάτων με τα αντίστοιχα αποτελέσματα 35 υγιών ίδιου φύλου και ηλικίας. Η δειγματική μέση τιμή και τυπική απόκλιση του ενζύμου για τις δύο ομάδες είναι : Ομάδα 1 : Ασθενείς με καρδιακό επεισόδιο: 79,30±23,80 Ομάδα 2 : Υγιείς : 61,40±20,20. Παρουσιάζουν οι ασθενείς με καρδιακό επεισόδιο μεγαλύτερη συγκέντρωση του ενζύμου “κρεατίνη-κινάση” συγκριτικά με τους υγιείς ? Υποθέστε ότι και οι δύο πληθυσμοί ακολουθούν την κανονική κατανομή με άγνωστες αλλά ίσες διασπορές.

8 1. Σημεία προς διευκρίνιση
Βήμα 1 : Θέτουμε τη μηδενική υπόθεση H0: μ1=μ2. Βήμα 2 : Θέτουμε την εναλλακτική υπόθεση : H1: μ1>μ2, Βήμα 3 : Θέτουμε (που ακολουθεί την κατανομή του Student t με 61 βαθμούς ελευθερίας) όπου s είναι η δειγματική τυπική απόκλιση:

9 1. Σημεία προς διευκρίνιση
Βήμα 4 : Επιλέγουμε το επίπεδο σημαντικότητας a=5% και υπολογίζουμε το αντίστοιχο σημείο t0.05,61=1,67 Βήμα 5 : Υπολογίζουμε την τιμή του t Βήμα 6 : Επειδή t>t0.05,61 απορρίπτουμε τη μηδενική υπόθεση υπέρ της H1 : μ1>μ2

10 1. Σημεία προς διευκρίνιση
Επομένως, οι ασθενείς με καρδιακό επεισόδιο παρουσιάζουν μεγαλύτερη συγκέντρωση του ενζύμου “κρεατίνη-κινάση” Η p-value (η μικρότερη τιμή του a που οδηγεί σε απόρριψη της Η0) είναι : p-value= =

11 1. Σημεία προς διευκρίνιση
Παράδειγμα 3 Μετρήθηκε η συγκέντρωση του ενζύμου “κρεατίνη-κινάση” σε 28 ασθενείς με πρόσφατο καρδιακό επεισόδιο. Έγινε σύγκριση των αποτελεσμάτων με τα αντίστοιχα αποτελέσματα 35 υγιών ίδιου φύλου και ηλικίας. Η δειγματική μέση τιμή και τυπική απόκλιση του ενζύμου για τις δύο ομάδες είναι : Ομάδα 1 : Ασθενείς με καρδιακό επεισόδιο: 79,30±23,80 Ομάδα 2 : Υγιείς : 61,40±20,20. Παρουσιάζουν οι ασθενείς με καρδιακό επεισόδιο διαφορετική συγκέντρωση του ενζύμου “κρεατίνη-κινάση” συγκριτικά με τους υγιείς ? Υποθέστε ότι και οι δύο πληθυσμοί ακολουθούν την κανονική κατανομή με άγνωστες αλλά ίσες διασπορές.

12 1. Σημεία προς διευκρίνιση
Είναι το παράδειγμα ίδιο με το προηγούμενο; Όχι, αλλάζει το ζητούμενο ερώτημα. Στο παράδειγμα 2 Παρουσιάζουν οι ασθενείς με καρδιακό επεισόδιο μεγαλύτερη συγκέντρωση του ενζύμου “κρεατίνη-κινάση” συγκριτικά με τους υγιείς ? Στο παράδειγμα 3 Παρουσιάζουν οι ασθενείς με καρδιακό επεισόδιο διαφορετική συγκέντρωση του ενζύμου “κρεατίνη-κινάση” συγκριτικά με τους υγιείς ?

13 1. Σημεία προς διευκρίνιση
Χρειάζεται προσεκτική διατύπωση της εναλλακτικής υπόθεσης ώστε να απαντηθεί το τιθέμενο ερώτημα. Παράδειγμα 2 Παρουσιάζουν οι ασθενείς με καρδιακό επεισόδιο μεγαλύτερη συγκέντρωση του ενζύμου “κρεατίνη-κινάση” συγκριτικά με τους υγιείς ? Η1: μ1>μ2 Παράδειγμα 3 Παρουσιάζουν οι ασθενείς με καρδιακό επεισόδιο διαφορετική συγκέντρωση του ενζύμου “κρεατίνη-κινάση” συγκριτικά με τους υγιείς ? Η1: μ1≠μ2

14 Έλεγχοι υποθέσεων για τη μέση τιμή
Σημεία προς διευκρίνιση Ανάλυση Διασποράς (One way ANOVA) Διαστήματα εμπιστοσύνης για τη διασπορά Έλεγχοι υποθέσεων για τη διασπορά Έλεγχοι υποθέσεων για τη διασπορά με το MATLAB Κεντρικό Οριακό Θεώρημα

15 2. One-way ANOVA Πολλές φορές χρειάζεται να συγκρίνουμε τις μέσες τιμές περισσότερων των δύο πληθυσμών. Για παράδειγμα, επιθυμούμε να συγκρίνουμε τα αποτελέσματα τεσσάρων διαφορετικών θεραπειών που μειώνουν τα επίπεδα της χοληστερόλης συγκρίνοντας τις μέσες τιμές των τεσσάρων θεραπειών. Με άλλα λόγια, επιθυμούμε να εφαρμόσουμε έναν έλεγχο μηδενικής υπόθεσης ότι k, k>2, ανεξάρτητοι πληθυσμοί έχουν ίσες μέσες τιμές λαμβάνοντας μία ομάδα παρατηρήσεων (δείγμα) από κάθε πληθυσμό. Η μέθοδος που χρησιμοποιούμε για το σκοπό αυτό είναι η Ανάλυση Διασποράς (ANOVA - ANalysis Of Variance). Η μέθοδος εξετάζει τη μεταβλητότητα των παρατηρήσεων εντός των ομάδων και τη μεταβλητότητα των δειγματικών μέσων τιμών και καταλήγει σε συμπεράσματα για την ισότητα των πληθυσμιακών μέσων τιμών.

16 2. One-way ANOVA Εάν οι δειγματικές μέσες τιμές διαφέρουν περισσότερο από ό,τι αναμένεται με βάση τη μεταβλητότητα των παρατηρήσεων εντός των ομάδων, το συμπέρασμα είναι ότι οι πληθυσμιακές μέσες τιμές δεν είναι ίσες. Η One-way ANOVA είναι η περίπτωση της ANOVA που χρησιμοποιεί τις τιμές μιας μεταβλητής για το διαχωρισμό των ομάδων. Η μεταβλητή που χρησιμοποιείται για το διαχωρισμό των ομάδων ονομάζεται παράγοντας (factor).

17 2. One-way ANOVA Παραδοχές για την εφαρμογή της One-way ANOVA
Ανεξαρτησία : Τα δείγματα των πληθυσμών πρέπει να είναι ανεξάρτητα. Ανεξαρτησία σημαίνει ότι δεν υπάρχει καμία σχέση ούτε μεταξύ των παρατηρήσεων των διαφορετικών ομάδων ούτε μεταξύ των παρατηρήσεων εντός της ίδιας ομάδας. Για παράδειγμα, εάν τέσσερις διαφορετικές θεραπείες ακολουθούνται όλες σε 10 ασθενείς, δεν μπορούμε να χρησιμοποιήσουμε την ANOVA στις τέσσερις ομάδες δειγμάτων, αφού οι παρατηρήσεις των ίδιων ασθενών δεν είναι ανεξάρτητες μεταξύ τους. Κανονικότητα : Οι πληθυσμοί πρέπει να ακολουθούν την κανονική κατανομή. Ισότητα διασπορών : Οι πληθυσμιακές διασπορές είναι ίσες.

18 2. One-way ANOVA Γιατί η ANOVA εξετάζει τη διασπορά;
Τα συμπεράσματα για την πληθυσμιακή μέση τιμή βασίζονται στην εξέταση της διασποράς των δειγματικών μέσων τιμών. Με την ANOVA συγκρίνουμε την παρατηρούμενη διασπορά των δειγματικών μέσων τιμών ως προς την αναμενόμενη διασπορά με βάση τη μηδενική υπόθεση ότι: «Όλες οι k πληθυσμιακές μέσες τιμές είναι ίσες.» Εάν η διασπορά των δειγματικών μέσων τιμών διαφέρει από ό,τι αναμένεται με βάση τη μηδενική υπόθεση, έχουμε μία ένδειξη ότι αυτή η διαφορά οφείλεται στο γεγονός ότι μερικές (τουλάχιστον δύο) από τις ομάδες δεν έχουν την ίδια πληθυσμιακή μέση τιμή.

19 2. One-way ANOVA Πώς λειτουργεί η ANOVA;
Στη συνέχεια, εξετάζει πόσο διαφέρουν μεταξύ τους οι δειγματικές μέσες τιμές των ομάδων. Εάν οι δειγματικές μέσες τιμές διαφέρουν μεταξύ τους περισσότερο από ό,τι αναμένεται, η μηδενική υπόθεση απορρίπτεται.

20 2. One-way ANOVA Μεταβλητότητα εντός των ομάδων (within groups)
Η εντός των ομάδων μεταβλητότητα δείχνει πόσο διαφέρουν οι παρατηρήσεις εντός των k ομάδων. Μία από τις παραδοχές της μεθόδου ANOVA είναι ότι όλες οι ομάδες προέρχονται από πληθυσμούς με ίσες πληθυσμιακές διασπορές. Αυτή η υπόθεση οδηγεί στην εκτίμηση της μέσης διασποράς κάθε ομάδας και στη συνέχεια στην εκτίμηση μιας μέσης τιμής των τιμών αυτών, η οποία αποτελεί τη μεταβλητότητα εντός των ομάδων.

21 2. One-way ANOVA Μεταβλητότητα μεταξύ ομάδων (between groups)
Καθεμία από τις ομάδες έχει μία δειγματική μέση τιμή (δηλαδή, έχουμε k δειγματικές μέσες τιμές). Υπολογίζουμε την τυπική απόκλιση των δειγματικών μέσων τιμών. Με βάση τη μηδενική υπόθεση ότι «όλες οι ομάδες προέρχονται από πληθυσμούς που έχουν ίσες πληθυσμιακές μέσες τιμές», η τυπική απόκλιση των δειγματικών μέσων τιμών μας δείχνει πώς ποικίλουν οι δειγματικές μέσες τιμές του ίδιου πληθυσμού. Η τυπική απόκλιση των δειγματικών μέσων τιμών αποτελεί μια εκτίμηση του τυπικού σφάλματος της μέσης τιμής. Το τετράγωνο της τυπικής απόκλισης είναι η εκτίμηση της μεταβλητότητας μεταξύ των ομάδων.

22 2. One-way ANOVA Ανάλυση μεταβλητότητας
Η μεταβλητότητα μεταξύ ομάδων είναι το αποτέλεσμα : της μεταβλητότητας των παρατηρήσεων εντός των ομάδων και της μεταβλητότητας των μέσων τιμών των πληθυσμών. Η μεταβλητότητα εντός των ομάδων δεν εξαρτάται από το εάν η μηδενική υπόθεση είναι αληθής. Η μεταβλητότητα μεταξύ ομάδων αποτελεί εκτίμηση της μεταβλητότητας εντός των ομάδων μόνο όταν η μηδενική υπόθεση είναι αληθής. Εάν η μηδενική υπόθεση δεν είναι αληθής, τότε η μεταβλητότητα μεταξύ των ομάδων διαφέρει σημαντικά από τη μεταβλητότητα εντός των ομάδων.

23 2. One-way ANOVA Απόφαση Η απόφαση για τη μηδενική υπόθεση βασίζεται στη σύγκριση της μεταβλητότητας μεταξύ των ομάδων και της μεταβλητότητας εντός των ομάδων. Ο λόγος ακολουθεί την F-κατανομή : όπου ν1 και ν2 είναι οι βαθμοί ελευθερίας του αριθμητή και του παρονομαστή.

24 2. One-way ANOVA Απόφαση (συν.)
Εάν η μηδενική υπόθεση είναι αληθής, αναμένεται ότι ο λόγος F θα είναι κοντά στο 1, αφού τόσο ο αριθμητής όσο και ο παρονομαστής είναι εκτιμήσεις της πληθυσμιακής διασποράς.

25 2. One-way ANOVA Matlab Το Statistics Toolbox διαθέτει την ακόλουθη συνάρτηση για την πραγματοποίηση της One-way ANOVA για τη μέση τιμή δύο ή περισσοτέρων δειγμάτων : Συνάρτηση Matlab Έλεγχος υπόθεσης anova1 One-way analysis of variance (ANOVA)

26 2. One-way ANOVA Η συνάρτηση anova1
Πραγματοποιεί την one-way ANOVA για τη σύγκριση δύο ή περισσότερων δειγμάτων. Η συνάρτηση επιστρέφει την p-τιμή για τη μηδενική υπόθεση ότι όλα τα δείγματα προέρχονται από το ίδιο πληθυσμό (ή από διαφορετικούς πληθυσμούς με την ίδια μέση τιμή). [p,table,stats]= anova1(X,group,'displayopt') Περιγραφή Τιμές Εξ’ ορισμού X m×n πίνακας. Κάθε στήλη αναπαριστά ένα ανεξάρτητο δείγμα που περιέχει m αμοιβαία ανεξάρτητες παρατηρήσεις. group Ένας πίνακας χαρακτήρων που περιλαμβάνει τις ετικέτες (labels) των δειγμάτων του Χ ‘displayopt’ ενεργοποιεί την εμφάνιση του πίνακα και των box plot της ANOVA ‘on’ ή ‘off’ ‘on’ p η p-τιμή για τη μηδενική υπόθεση (όλα τα δείγματα του X προέρχονται από τον ίδιο πληθυσμό) table Ο πίνακας ANOVA (περιλαμβανομένων των ετικετών των γραμμών και στηλών) stats δομή που χρησιμοποιείται για την εκτέλεση ενός ελέγχου πολλαπλών συγκρίσεων (συνάρτηση multicompare)

27 2. One-way ANOVA Η συνάρτηση anova1 ή
Περιγραφή Τιμές Εξ’ ορισμού X Διάνυσμα που περιέχει αμοιβαία ανεξάρτητες παρατηρήσεις group Προσδιορίζει την ομάδα στην οποία ανήκει το αντίστοιχο στοιχείο του Χ (η group πρέπει να έχει το ίδιο μήκος με το X) ‘displayopt’ ενεργοποιεί την εμφάνιση του πίνακα και των box plot της ANOVA ‘on’ ΄ή ‘off’ ‘on’ p η p-τιμή για τη μηδενική υπόθεση (όλα τα δείγματα του X προέρχονται από τον ίδιο πληθυσμό) table Ο πίνακας ANOVA (περιλαμβανομένων των ετικετών των γραμμών και στηλών) stats δομή που χρησιμοποιείται για την εκτέλεση ενός ελέγχου πολλαπλών συγκρίσεων (συνάρτηση multicompare) p = anova1(X) ή p = anova1(X,group) ή [p,table] = anova1(X) επίσης λειτουργούν. Εάν η p-τιμή είναι μικρότερη από το επίπεδο σημαντικότητας a, τουλάχιστον μία (πληθυσμιακή) μέση τιμή είναι σημαντικά διαφορετική από τις άλλες. Επομένως, η μηδενική υπόθεση πρέπει να απορριφθεί.

28 2. One-way ANOVA Η συνάρτηση anova1
Τον τυπικό πίνακα ANOVA, ο οποίος περιλαμβάνει το διαχωρισμό της μεταβλητότητας των δεδομένων στο X σε δύο μέρη: Μεταβλητότητα λόγω των διαφορών μεταξύ των μέσων τιμών των στηλών (μεταβλητότητα μεταξύ ομάδων) Μεταβλητότητα λόγω των διαφορών των δεδομένων σε κάθε στήλη με τη μέση τιμή της στήλης (μεταβλητότητα εντός ομάδων) Τα box plots κάθε στήλης του X.

29 2. One-way ANOVA Η συνάρτηση anova1 Ο πίνακας ANOVA έχει 6 στήλες :
Η πρώτη δείχνει την πηγή της μεταβλητότητας. Η δεύτερη δείχνει το άθροισμα τετραγώνων (SS) κάθε πηγής. Η τρίτη δείχνει τους βαθμούς ελευθερίας (df) κάθε πηγής. Η τέταρτη δείχνει τα μέσα τετράγωνα (MS-Mean Squares) κάθε πηγής, που είναι ο λόγος SS/df. Η πέμπτη δείχνει την F στατιστική, που είναι ο λόγος των MS. Η έκτη δείχνει την p-τιμή, που προκύπτει από την cdf της F.

30 2. One-way ANOVA Το άθροισμα των Τετραγώνων για τις στήλες (SS) υπολογίζεται ως εξής : όπου Χi είναι το άθροισμα της i-οστής στήλης του Χ, n είναι το πλήθος των δειγμάτων (δηλαδή το πλήθος των στηλών του Χ) και m είναι το πλήθος των παρατηρήσεων κάθε δείγματος. Το άθροισμα τετραγώνων (SS) των Σφαλμάτων (Errors) υπολογίζεται ως εξής: Οι βαθμοί ελευθερίας είναι : Ο μέσοι τετραγωνικοί όροι και ο λόγος F υπολογίζονται ως εξής:

31 2. One-way ANOVA Η συνάρτηση annova1 Παράδειγμα 2.1
x=normrnd(1,2,100,5); p=anova1(x) p =  p = > a(=0.05) σημαίνει ότι η μηδενική υπόθεση δεν μπορεί να απορριφθεί

32 2. One-way ANOVA Η συνάρτηση annova1 Παράδειγμα 2.1 (συν.)

33 2. One-way ANOVA Η συνάρτηση annova1 Παράδειγμα 2.2
x=[normrnd(1,2,100,5) normrnd(2,2,100,2)]; p=anova1(x) p =1.9555e-006  p = 2e-006 < a (=0.05) σημαίνει ότι η μηδενική υπόθεση απορρίπτεται. Επομένως, όλα τα δείγματα δεν προέρχονται από τον ίδιο πληθυσμό.

34 2. One-way ANOVA Η συνάρτηση annova1 Παράδειγμα 2.2 (συν.)

35 c = multcompare(stats,alpha)
2. One-way ANOVA Η συνάρτηση annova1 Παράδειγμα 2.2 (συν.) Το ερώτημα είναι : ποια ζεύγη μέσων τιμών είναι σημαντικά διαφορετικές και ποια όχι; Η απάντηση δίνεται χρησιμοποιώντας τη συνάρτηση multcompare του MATLAB : c = multcompare(stats,alpha) Αυτή πραγματοποιεί έναν έλεγχο πολλαπλών συγκρίσεων χρησιμοποιώντας τις πληροφορίες που περιέχονται στη δομή ‘stats’ και επιστρέφει ένα πίνακα με τα αποτελέσματα συγκρίσεων κατά ζεύγη. Επίσης, παρέχει ένα αλληλεπιδραστικό σχήμα που αναπαριστά γραφικά τον έλεγχο.

36 2. One-way ANOVA Η συνάρτηση annova1 Παράδειγμα 2.2 (συν.)
Το αποτέλεσμα c της συνάρτησης περιέχει τα αποτελέσματα του ελέγχου με τη μορφή ενός πίνακα πέντε στηλών. Κάθε γραμμή του πίνακα αναπαριστά έναν έλεγχο και υπάρχει μια γραμμή για κάθε ζεύγος ομάδων. Τα στοιχεία της γραμμής δείχνουν τις μέσες τιμές που συγκρίνονται, την εκτιμώμενη διαφορά τους και ένα διάστημα εμπιστοσύνης για τη διαφορά. [p,table,stat]=anova1(x); c=multcompare(stat)

37 2. One-way ANOVA Η συνάρτηση annova1 Παράδειγμα 2.2 (συν.)
c =

38 2. One-way ANOVA Η συνάρτηση annova1 Παράδειγμα 2.2 (συν.) Η γραμμή
δείχνει ότι η μέση τιμή της ομάδας 1 μείον τη μέση τιμή της ομάδας 2 είναι και το 95% διάστημα εμπιστοσύνης για τη διαφορά των πληθυσμιακών μέσων τιμών τους είναι [ , ]. Το διάστημα περιέχει την τιμή 0. Συνεπώς, η διαφορά δεν είναι σημαντική σε επίπεδο 0.05. δείχνει ότι η μέση τιμή της ομάδας 1 μείον τη μέση τιμή της ομάδας 6 εκτιμάται ότι είναι και το 95% διάστημα εμπιστοσύνης για τη διαφορά των πληθυσμιακών μέσων τιμών τους είναι [ , ]. Το διάστημα εμπιστοσύνης δεν περιέχει την τιμή 0. Συνεπώς, η διαφορά είναι σημαντική σε επίπεδο 0.05.

39 2. One-way ANOVA Η συνάρτηση annova1 Παράδειγμα 2.2 (συν.)
Η συνάρτηση multcompare παρουσιάζει επίσης ένα γράφημα στο οποίο η μέση τιμή ομάδας αναπαρίσταται με ένα σύμβολο και με ένα διάστημα γύρω από το σύμβολο. Δύο μέσες τιμές είναι σημαντικά διαφορετικές εάν τα διαστήματα δεν έχουν κοινά σημεία και δεν είναι σημαντικά διαφορετικές εάν τα διαστήματα επικαλύπτονται. Μπορεί να επιλεχθεί οποιαδήποτε ομάδα και να εμφανιστούν οι υπόλοιπες ομάδες που διαφέρουν σημαντικά από αυτή.

40 2. One-way ANOVA Η συνάρτηση annova1 Παράδειγμα 2.2 (συν.)

41 2. One-way ANOVA Παράδειγμα 2.3
Ένας ερευνητής ενδιαφέρεται να εξετάσει εάν η βιταμίνη C αποτελεί αποτελεσματική θεραπεία για να μην αρρωστήσει κανείς από κρυολόγημα. Για να ελέγξει την υπόθεση αυτή, ο ερευνητής αποφασίζει να πραγματοποιήσει μια πειραματική μελέτη διάρκειας δύο ετών. Το δείγμα αποτελείται από 30 εθελοντές που δε λαμβάνουν καμία αγωγή κατά το πρώτο έτος. Το δεύτερο έτος χωρίζονται σε τρεις ομάδες από 10 άτομα η καθεμία. Η πρώτη ομάδα λαμβάνει ένα placebo για ψυχολογικούς λόγους. Η δεύτερη ομάδα λαμβάνει μια χαμηλή δόση βιταμίνης C. Η τρίτη ομάδα λαμβάνει μια υψηλή δόση βιταμίνης C. Ο ερευνητής μετρά για καθέναν από τους εθελοντές τις διαφορές μεταξύ του πλήθους των ημερών με συμπτώματα κρυολογήματος στο δεύτερο έτος μείον το πλήθος των ημερών με συμπτώματα κρυολογήματος στο πρώτο έτος.

42 2. One-way ANOVA Παράδειγμα 2.3 (συν.)
Τα αποτελέσματα της μετρήσεων παρουσιάζονται στον επόμενο πίνακα : Ομάδα 1 Ομάδα 2 Ομάδα 3 12 -2 6 -3 -7 9 3 -6 -4 2 5 4 -9 1

43 2. One-way ANOVA Παράδειγμα 2.3 (συν.)
Μηδενική υπόθεση : Και οι τρεις πληθυσμοί έχουν τις ίδιες μέσες τιμές του μετρούμενου μεγέθους Εναλλακτική υπόθεση : Τουλάχιστον ένας πληθυσμός έχει μέση τιμή του μετρούμενου μεγέθους διαφορετική από τους υπόλοιπους πληθυσμούς. Χ=[ ; ; ; ; ; ; ; ; 4 -9 6; ] [p,table,stat]=anova1(Χ); c=multcompare(stat)

44 2. One-way ANOVA Παράδειγμα 2.3 (συν.) .
Επομένως, η μηδενική υπόθεση απορρίπτεται. Η μέση τιμή της διαφοράς των ημερών με συμπτώματα κρυολογήματος είναι διαφορετική στις τρεις ομάδες.

45 2. One-way ANOVA Παράδειγμα 2.3 (συν.) .
Άρα, η βιταμίνη C αποτελεί αποτελεσματική θεραπεία για να μην αρρωστήσει κανείς από κρυολόγημα.

46 Έλεγχοι υποθέσεων για τη διασπορά
Σημεία προς διευκρίνιση Ανάλυση Διασποράς (One way ANOVA) Διαστήματα εμπιστοσύνης για τη διασπορά Έλεγχοι υποθέσεων για τη διασπορά Έλεγχοι υποθέσεων για τη διασπορά με το MATLAB Κεντρικό Οριακό Θεώρημα

47 3. Διαστήματα Εμπιστοσύνης για τη διασπορά
Θα μελετήσουμε τις ακόλουθες περιπτώσεις : Διάστημα εμπιστοσύνης για τη διασπορά ενός πληθυσμού που ακολουθεί την κανονική κατανομή Διάστημα εμπιστοσύνης για το πηλίκο των διασπορών δύο πληθυσμών που ακολουθούν την κανονική κατανομή Διάστημα εμπιστοσύνης για τη διασπορά ενός πληθυσμού που ακολουθεί την κανονική κατανομή Έστω ότι θέλουμε να υπολογίσουμε δ.ε. της διασποράς σ2 της μεταβλητής X που ακολουθεί την κανονική κατανομή. Διαθέτουμε n παρατηρήσεις της X. Υπολογίζουμε τη δειγματική διασπορά S2. Εφαρμόζουμε τον ακόλουθο μετασχηματισμό :

48 3. Διαστήματα Εμπιστοσύνης για τη διασπορά
Διάστημα εμπιστοσύνης για τη διασπορά ενός πληθυσμού που ακολουθεί την κανονική κατανομή (συν.) Η μεταβλητή Q ακολουθεί την κατανομή χ-τετράγωνο με n-1 βαθμούς ελευθερίας [Q ~ χ2(n-1)]. Για ένα δεδομένο επίπεδο σημαντικότητας a και αμφίπλευρο έλεγχο, επιθυμούμε να βρούμε ένα διάστημα εμπιστοσύνης τέτοιο ώστε : Έτσι ένα 100(1-a)% διάστημα εμπιστοσύνης για τη διασπορά σ2 είναι το :

49 3. Διαστήματα Εμπιστοσύνης για τη διασπορά
Διάστημα εμπιστοσύνης για τη διασπορά ενός πληθυσμού που ακολουθεί την κανονική κατανομή (συν.)

50 3. Διαστήματα Εμπιστοσύνης για τη διασπορά
2. Διάστημα εμπιστοσύνης για το πηλίκο των διασπορών δύο πληθυσμών που ακολουθούν την κανονική κατανομή Έστω ότι θέλουμε να υπολογίσουμε δ.ε. του πηλίκου των διασπορών δύο μεταβλητών X και Y που ακολουθούν την κανονική κατανομή. Διαθέτουμε n1 παρατηρήσεις της X και n2 παρατηρήσεις της Υ. Υπολογίζουμε τις δειγματικές τυπικές αποκλίσεις S1 και S2. Αποδεικνύεται ότι ένα 100(1-a)% διάστημα εμπιστοσύνης για το πηλίκο των διασπορών είναι το : όπου F είναι η κατανομή-F.

51 Έλεγχοι υποθέσεων για τη διασπορά
Σημεία προς διευκρίνιση Ανάλυση Διασποράς (One way ANOVA) Διαστήματα εμπιστοσύνης για τη διασπορά Έλεγχοι υποθέσεων για τη διασπορά Έλεγχοι υποθέσεων για τη διασπορά με το MATLAB

52 4. Έλεγχοι υποθέσεων για τη διασπορά
Στη συνέχεια, περιγράφουμε τη διαδικασία ελέγχου εάν πληθυσμός με κανονική κατανομή έχει (πληθυσμιακή) τυπική απόκλιση σ=σ0 (την τιμή σ0 ορίζει ο ερευνητής), χρησιμοποιώντας ένα τυχαίο δείγμα από τον πληθυσμό [ή αλλιώς ελέγχουμε εάν το τυχαίο δείγμα προέρχεται από πληθυσμό με πληθυσμιακή τυπική απόκλιση σ=σ0].

53 4. Έλεγχοι υποθέσεων για τη διασπορά
Βήμα 1 : Θέτουμε τη μηδενική υπόθεση H0: (όπου η σ0 είναι προκαθορισμένη). Βήμα 2 : Θέτουμε την εναλλακτική υπόθεση H1: , (ή H1: ή H1: ). Βήμα 3 : Θέτουμε (το οποίο ακολουθεί την κατανομή x-τετράγωνο). Βήμα 4 : Επιλέγουμε το επίπεδο σημαντικότητας a και υπολογίζουμε τα σημεία και (ή ή ). Βήμα 5 : Υπολογίζουμε την τιμή του για το δείγμα. Βήμα 6 : Απορρίπτουμε τη μηδενική υπόθεση υπέρ της : 1. H1 : εάν ή (αμφίπλευρος) 2. H1 : εάν (μονόπλευρος προς τα δεξιά) 3. H1 : εάν (μονόπλευρος προς τα αριστερά)

54 4. Έλεγχοι υποθέσεων για τη διασπορά
Στη συνέχεια περιγράφουμε τη διαδικασία ελέγχου της διαφοράς των (πληθυσμιακών) διασπορών δύο ανεξάρτητων κανονικών πληθυσμών χρησιμοποιώντας δύο τυχαία δείγματα, ένα από κάθε πληθυσμό.

55 4. Έλεγχοι υποθέσεων για τη διασπορά
Βήμα 1 : Θέτουμε τη μηδενική υπόθεση H0: Βήμα 2 : Θέτουμε την εναλλακτική υπόθεση H1: , (ή H1: ή H1: ). Βήμα 3 : Θέτουμε (το οποίο ακολουθεί την κατανομή F). Βήμα 4 : Επιλέγουμε το επίπεδο σημαντικότητας a και υπολογίζουμε τα σημεία και (ή ή ). Βήμα 5 : Υπολογίζουμε την τιμή του για το δείγμα. Βήμα 6 : Απορρίπτουμε τη μηδενική υπόθεση υπέρ της : 1. H1 : εάν ή (αμφίπλευρος) 2. H1 : εάν (μονόπλευρος προς τα δεξιά) 3. H1 : εάν (μονόπλευρος προς τα αριστερά)

56 Έλεγχοι υποθέσεων για τη διασπορά
Σημεία προς διευκρίνιση Ανάλυση Διασποράς (One way ANOVA) Διαστήματα εμπιστοσύνης για τη διασπορά Έλεγχοι υποθέσεων για τη διασπορά Έλεγχοι υποθέσεων για τη διασπορά με το MATLAB Κεντρικό Οριακό Θεώρημα

57 5. Έλεγχοι με το MATLAB Matlab
Το Statistics Toolbox διαθέτει τις ακόλουθες συναρτήσεις για την πραγματοποίηση ελέγχου υποθέσεων για τη διασπορά ενός ή δύο ή περισσοτέρων δειγμάτων : Συνάρτηση Matlab Έλεγχος υποθέσεων vartest Έλεγχος εάν ένα δείγμα προέρχεται από κανονική κατανομή με συγκεκριμένη διασπορά vartest2 Έλεγχος εάν δύο ανεξάρτητα δείγματα προέρχονται από κανονικές κατανομές με την ίδια διασπορά vartestn Έλεγχος εάν πολλαπλά δείγματα προέρχονται από κανονικές κατανομές με την ίδια διασπορά

58 5. Έλεγχοι με το MATLAB Η συνάρτηση vartest
Πραγματοποιεί τον έλεγχο της μηδενικής υπόθεσης ότι το δείγμα x προέρχεται από κανονική κατανομή με διασπορά V έναντι της εναλλακτικής ότι προέρχεται από κανονική κατανομή με διασπορά διάφορη (ή μεγαλύτερη ή μικρότερη) της V. [h,p,ci,stats] = vartest(x,V,alpha,tail) Περιγραφή Τιμές Εξ’ ορισμού x Δείγμα V Η συγκεκριμένη διασπορά alpha Το επίπεδο σημαντικότητας 0,05 tail Αμφίπλευρος ή μονόπλευρος έλεγχος ‘both’ ή ‘right’ ή ‘left’ ‘both’ h Το αποτέλεσμα του ελέγχου 0 (όχι απόρριψη της μηδενικής υπόθεσης) 1 (απόρριψη της μηδενικής υπόθεσης) p Η p-τιμή ci Το διάστημα εμπιστοσύνης για την εκτίμηση της (πληθυσμιακής) διασποράς από το δείγμα stats chisqstat – Η τιμή της στατιστικής του ελέγχου df – οι βαθμοί ελευθερίας

59 5. Έλεγχοι με το MATLAB Η συνάρτηση vartest
Η p-τιμή είναι η πιθανότητα ότι η παρατηρούμενη τιμή του chisqstat θα μπορούσε να είναι τόσο ακραία ή πιο ακραία κατά τύχη, κάτω από την υπόθεση ότι η μηδενική υπόθεση είναι αληθής (η διασπορά είναι ίση με V). Εάν η p-τιμή είναι μικρότερη από το επίπεδο σημαντικότητας a, τότε η μηδενική υπόθεση απορρίπτεται. h = vartest(x,V) ή [h,p] = vartest(x,V) επίσης λειτουργούν.

60 5. Έλεγχοι με το MATLAB Η συνάρτηση vartest Παράδειγμα
x=normrnd(1,2,100,1); [h,p,ci,stats]=vartest(x,2) % Μηδενική υπόθεση : V=2 / αμφίπλευρος h = 1 p = e-009 ci = stats = chisqstat: df: 99 var(x) ans = h = 1 σημαίνει ότι η μηδενική υπόθεση απορρίπτεται. Η p=4.9675e-009 σημαίνει ότι κατά τύχη θα μπορούσαμε να είχαμε παρατηρήσει τιμές του chisqstat περισσότερο ακραίες από αυτή του παραδείγματος σε περίπου 0 στα 100 παρόμοια πειράματα. Το 95% διάστημα εμπιστοσύνης της (πληθυσμιακής) διασποράς είναι [ ], το οποίο περιλαμβάνει τη θεωρητική μέση τιμή του ‘4’.

61 5. Έλεγχοι με το MATLAB Η συνάρτηση vartest Παράδειγμα (συν.)
x=normrnd(1,2,100,1); [h,p,ci,stats]=vartest(x,4) % Μηδενική υπόθεση : V=4 / αμφίπλευρος h = 0 p = ci = stats = chisqstat: df : 99 h = 0 σημαίνει ότι η μηδενική υπόθεση δεν μπορεί να απορριφθεί. Η p= είναι μεγαλύτερη του επιπέδου σημαντικότητας a.

62 5. Έλεγχοι με το MATLAB Η συνάρτηση vartest2
χρησιμοποιείται για τον προσδιορισμό του εάν δύο δείγματα από κανονικές κατανομές (τα x και y) θα μπορούσαν να προέρχονται από πληθυσμούς με την ίδια διασπορά [h,p,ci,stats] = vartest2(x,y,alpha,tail) Περιγραφή Τιμές Εξ’ ορισμού x Δείγμα (μήκους n) y Δείγμα (μήκους m) alpha Το επίπεδο σημαντικότητας 0,05 tail Αμφίπλευρος ή μονόπλευρος έλεγχος ‘both’ ή ‘right’ ή ‘left’ ‘both’ h Το αποτέλεσμα του ελέγχου 0 (όχι απόρριψη της μηδενικής υπόθεσης) ή 1 (απόρριψη της μηδενικής υπόθεσης) p η p-τιμή ci Το διάστημα εμπιστοσύνης για το λόγο των (πληθυσμιακών) διασπορών stats f-stat: η τιμή της f-στατιστικής df1: οι df1 βαθμοί ελευθερίας (του αριθμητή) df2 :οι df2 βαθμοί ελευθερίας (του παρονομαστή) df1=n-1 Df2=m-1

63 5. Έλεγχοι με το MATLAB Η συνάρτηση vartest2 Παράδειγμα 1
x=normrnd(1,3,100,1); y=normrnd(2,3,90,1); [h,p,ci,stats] = vartest2(x,y) % Μηδενική υπόθεση : Vx=Vy /αμφίπλευρος h = 0 p = ci = stats = fstat: df1: 99 df2: 89 var(x)= var(y)=  h = 0 σημαίνει ότι η μηδενική υπόθεση δεν μπορεί να απορριφθεί.  Η p= είναι μεγαλύτερη από το επίπεδο σημαντικότητας a=0.05.  Το 95% διάστημα εμπιστοσύνης για το λόγο των (πληθυσμιακών) διασπορών είναι [ ], το οποίο περιλαμβάνει την τιμή του λόγου 1 (ισότητα διασπορών).

64 5. Έλεγχοι με το MATLAB Η συνάρτηση vartest2 Παράδειγμα 2
x=normrnd(0,2,50,1); y=normrnd(2,3,60,1); [h,p,ci,stats] = vartest2(x,y) % Μηδενική υπόθεση : Vx=Vy /αμφίπλευρος h = 1 p = ci = stats = fstat: df1: 49 df2: 59 var(x)= var(y)=  h = 1 σημαίνει ότι η μηδενική υπόθεση απορρίπτεται.  Η p= είναι μικρότερη από το επίπεδο σημαντικότητας a=0.05.  Το 95% διάστημα εμπιστοσύνης για το λόγο των (πληθυσμιακών) διασπορών είναι [ ], το οποίο δεν περιλαμβάνει την τιμή του λόγου 1 (ισότητα διασπορών).

65 5. Έλεγχοι με το MATLAB Η συνάρτηση vartest2 Παράδειγμα 2 (συν.)
[h,p,ci,stats] = vartest2(y,x) % Μηδενική υπόθεση : Vx=Vy /αμφίπλευρος h = 1 p = ci = stats = fstat: df1: 59 df2: 49 var(x)= var(y)=  h = 1 σημαίνει ότι η μηδενική υπόθεση απορρίπτεται.  Η p= είναι μεγαλύτερη από το επίπεδο σημαντικότητας a=0.05.  Το 95% διάστημα εμπιστοσύνης για το λόγο των (πληθυσμιακών) διασπορών είναι [ ], το οποίο δεν περιλαμβάνει την τιμή του λόγου 1 (ισότητα διασπορών).

66 5. Έλεγχοι με το MATLAB Η συνάρτηση vartestn
χρησιμοποιείται για την υλοποίηση του Bartlett τεστ για τον προσδιορισμό του εάν πολλαπλά δείγματα από κανονικές κατανομές θα μπορούσαν να προέρχονται από πληθυσμούς με την ίδια διασπορά Μηδενική υπόθεση : Ισότητα διασπορών όλων των πληθυσμών Εναλλακτική υπόθεση : Τουλάχιστον ενός πληθυσμού η διασπορά διαφέρει Η συνάρτηση παρέχει το θηκόγραμμα των δειγμάτων και πίνακα σύνοψης των αποτελεσμάτων. [p,stats] = vartestn(X) Περιγραφή Τιμές Εξ’ ορισμού X Πίνακας (nxm) του οποίου οι στήλες είναι τα δείγματα p η p-τιμή του ελέγχου stats chi-stat: η τιμή της στατιστικής του ελέγχου df: οι βαθμοί ελευθερίας του ελέγχου df=m-1

67 5. Έλεγχοι με το MATLAB Η συνάρτηση vartestn Παράδειγμα 3
x=normrnd(2,3,100,3); [p,stats] = vartestn(x) % Μηδενική υπόθεση : V1=V2=V3 p = stat = chisqstat: df: 2  Η p= είναι μεγαλύτερη από το επίπεδο σημαντικότητας a=0.05. Άρα, η μηδενική υπόθεση για ισότητα διασπορών δεν μπορεί να απορριφθεί.

68 5. Έλεγχοι με το MATLAB Η συνάρτηση vartestn Παράδειγμα 3 (συν.)
x=[normrnd(1.5,3,100,3) normrnd(1.5,5,100,2)]; [p,stats] = vartestn(x) % Μηδενική υπόθεση : V1=V2=V3 =V4=V5 p = e-017 stats = chisqstat: df:  Η p=4.5508e-017 είναι μικρότερη από το επίπεδο σημαντικότητας a=0.05. Άρα, η μηδενική υπόθεση για ισότητα διασπορών απορρίπτεται. Τουλάχιστον ένας πληθυσμός έχει διαφορετική διασπορά από τους υπόλοιπους.

69 5. Έλεγχοι με το MATLAB Η συνάρτηση vartestn Παράδειγμα 3 (συν.)

70 Έλεγχοι υποθέσεων για τη διασπορά
Σημεία προς διευκρίνιση Ανάλυση Διασποράς (One way ANOVA) Διαστήματα εμπιστοσύνης για τη διασπορά Έλεγχοι υποθέσεων για τη διασπορά Έλεγχοι υποθέσεων για τη διασπορά με το MATLAB Κεντρικό Οριακό Θεώρημα

71 6. Κεντρικό Οριακό Θεώρημα
Αν η μεταβλητή Χ ακολουθεί οποιαδήποτε κατανομή Κ με μέση τιμή μ και διασπορά σ2, τότε, καθώς το πλήθος n των παρατηρήσεων του δείγματος τείνει στο άπειρο, ισχύει: Δηλαδή, οι και ακολουθούν ασυμπτωτικά την τυποποιημένη κανονική κατανομή. Στην πράξη μεγάλο n θεωρείται όταν Έτσι, με βάση το Κεντρικό Οριακό Θεώρημα μπορούμε να υπολογίζουμε προσεγγιστικά το διάστημα εμπιστοσύνης για την πληθυσμιακή μέση τιμή χρησιμοποιώντας τη δειγματική μέση τιμή και τη δειγματική διασπορά δείγματος από οποιαδήποτε κατανομή ως εξής :

72 6. Κεντρικό Οριακό Θεώρημα
Ομοίως, με βάση το Κεντρικό Οριακό Θεώρημα μπορούμε να υπολογίζουμε προσεγγιστικά το διάστημα εμπιστοσύνης για τη διαφορά των πληθυσμιακών μέσων τιμών χρησιμοποιώντας τις δειγματικές μέσες τιμές και τις δειγματικές διασπορές δύο δειγμάτων από οποιαδήποτε κατανομή ως εξής :


Κατέβασμα ppt "ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google