Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ – ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ – ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ"— Μεταγράφημα παρουσίασης:

1 ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ – ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΕΠΙΣΤΗΜΗ ΔΕΔΟΜΕΝΩΝ ΚΑΙ ΤΕΧΝΟΛΟΓΙΕΣ ΠΛΗΡΟΦΟΡΙΑΣ  ΤΕΧΝΟΛΟΓΙΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗΝ ΙΑΤΡΙΚΗ ΚΑΙ ΤΗ ΒΙΟΛΟΓΙΑ ΜΑΘΗΜΑ : ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ – ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ ΔΙΟΝΥΣΗΣ ΛΙΝΑΡΔΑΤΟΣ 11 ΟΚΤΩΒΡΙΟΥ 2018

2 Εκτίμηση παραμέτρων - Έλεγχος υποθέσεων
Σύντομη επανάληψη Ομαδοποίηση Εκτίμηση παραμέτρων Διαστήματα εμπιστοσύνης Έλεγχος υποθέσεων και σημαντικότητας

3 1. Σύντομη επανάληψη Ποιες από τις παρακάτω μεταβλητές είναι ποσοτικές;  Ομάδα αίματος  Παρουσία κάποιου χαρακτηριστικού  Φύλο  Ουρία αίματος  Αριθμός δακτύλων  Αριθμός τερηδονισμένων δοντιών  Ηλικία (σε έτη)  Επίπεδο ΙQ  Επάγγελμα  Ύψος

4 1. Σύντομη επανάληψη Ποιες από τις παρακάτω μεταβλητές είναι διακριτές;  Ομάδα αίματος  Παρουσία κάποιου χαρακτηριστικού  Φύλο  Ουρία αίματος  Αριθμός δακτύλων  Αριθμός τερηδονισμένων δοντιών  Ηλικία (σε έτη)  Επίπεδο ΙQ  Επάγγελμα  Ύψος

5 1. Σύντομη επανάληψη Στα αποτελέσματα μιας έρευνας για τη συχνότητα εμφάνισης μιας νόσου παρουσιάζεται και η μεταβλητή «φύλο», η οποία λαμβάνει τιμές «άρρεν» και «θήλυ». Οι εν λόγω τιμές κωδικοποιούνται σε 0 και 1, αντίστοιχα. Στο δείγμα συμμετείχαν 60 άνδρες και 40 γυναίκες. Ποιες από τις παρακάτω προτάσεις είναι αληθείς;  Η μεταβλητή «φύλο» είναι ποσοτική μεταβλητή.  Η μεταβλητή «φύλο» είναι ποιοτική μεταβλητή.  Η μέση δειγματική τιμή της μεταβλητής «φύλο» είναι 0,6.  Η μέση δειγματική τιμή της μεταβλητής «φύλο» είναι 0,4.  Δεν ορίζεται μέση τιμή για τη μεταβλητή «φύλο».

6 1. Σύντομη επανάληψη Το σκοτάδι κάνει καλό στην υγεία*
Με τα ρολόγια να έχουν γυρίσει μία ώρα πίσω και τις λιγότερες ώρες φωτός να προκαλούν σε τουλάχιστον έναν στους 15 ανθρώπους τη λεγόμενη Εποχιακή Συναισθηματική Διαταραχή, σειρά επιστημονικών ερευνών έρχεται για να μας αποκαλύψει τη φωτεινή πλευρά του σκοταδιού! Μπορεί το κρύο, η συννεφιά και η βροχή να προκαλούν αρνητικά συναισθήματα στους περισσότερους ανθρώπους - το 77% των Βρετανών δήλωσε σε πρόσφατη έρευνα ότι επηρεάζεται αρνητικά από το κρύο και τα σκοτεινά χειμωνιάτικα πρωινά - ειδικοί όμως επισημαίνουν ότι η έκθεση στο σκοτάδι είναι εξίσου σημαντική για τον οργανισμό και την υγεία μας όσο με την έκθεσή μας στο φως. Συγκεκριμένα, η εξάρτησή μας από το τεχνητό φως στο σπίτι και το γραφείο μπορεί να έχει αρνητικά αποτελέσματα στο σώμα αλλά και στη διάθεσή μας. Σύμφωνα με τον σύμβουλο σε θέματα ύπνου δρ. Νιλ Στάνλεϊ, ο ανθρώπινος οργανισμός έχει μία εγγενή ανάγκη για καθημερινή έκθεση σε συνθήκες σκότους. «Δεν εκτιμούμε το σκοτάδι όπως οι πρόγονοί μας και το αποτέλεσμα είναι πολλά προβλήματα υγείας» σχολίασε. Με ποιους τρόπους όμως το σκοτάδι μας βοηθάει να διατηρήσουμε την υγεία μας; 1. Μειώνει τον κίνδυνο εμφάνισης καρκίνου Οι επιστήμονες έχουν συνδέσει το υπερβολικό φως στη διάρκεια της νύχτας με τον καρκίνο του μαστού. Σύμφωνα με μελέτη του Εθνικού Ινστιτούτου για τον Καρκίνο των ΗΠΑ (NCI), ως σημαντικός παράγοντας κινδύνου για την εμφάνιση καρκίνου του μαστού - εκτός από το οικογενειακό ιστορικό, το κάπνισμα, το αλκοόλ και τη διατροφή - είναι η υπερβολική έκθεση σε τεχνητό φως στη διάρκεια της νύχτας. Αυτό συμβαίνει επειδή το φως εμποδίζει την παραγωγή της μελατονίνης, της «ορμόνης του σκοταδιού», η οποία αποτελεί έναν από τους φυσικούς τρόπους άμυνας του οργανισμού απέναντι στον καρκίνο. Επιπλέον η μελατονίνη ενεργοποιεί έναν συγκεκριμένο τύπο φυσικών κυτταροκτόνων κυττάρων, τα οποία επιτίθενται στους καρκινικούς όγκους.

7 1. Σύντομη επανάληψη Το σκοτάδι κάνει καλό στην υγεία* (συνέχεια)
…. 2. Προστατεύει το δέρμα από τις βλαβερές ακτίνες του ήλιου …. 3. Ενισχύει τη διάθεση Ενώ η έλλειψη επαρκούς ηλιακού φωτός με την έλευση του χειμερινού ωραρίου μπορεί να προκαλέσει μελαγχολική διάθεση ακόμη και κατάθλιψη (Εποχιακή Συναισθηματική Διαταραχή), οι ειδικοί υποστηρίζουν ότι το ίδιο αποτέλεσμα μπορεί να έχει και η έλλειψη έκθεσης στο σκοτάδι. Ψυχολόγοι από το πανεπιστήμιο του Οχάιο διαπίστωσαν ότι η παρακολούθηση τηλεόρασης αργά το βράδυ μπορεί να προκαλέσει κατάθλιψη εξαιτίας της ακτινοβολίας που εκπέμπει η οθόνη. Ο καθηγητής Ράντι Νέλσον, επικεφαλής της έρευνας, δήλωσε ότι η μπλε ακτινοβολία που εκπέμπει η οθόνη της τηλεόρασης εμποδίζει την παραγωγή της μελατονίνης με επιπτώσεις στην ψυχική μας διάθεση. «Τα αυξανόμενα ποσοστά καταθλιπτικών διαταραχών συνδέονται με την αυξανόμενη χρήση τεχνητού φωτός το βράδυ στη σύγχρονη κοινωνία» σχολίασε ο καθηγητής Νέλσον. 4. Βοηθάει στην ποιότητα του ύπνου Έρευνες έχουν δείξει ότι το φως - φυσικό ή τεχνητό - βρίσκεται μεταξύ των πλέον σημαντικών παραγόντων που παρεμποδίζουν το σωστό βραδινό ύπνο. Μελέτη του πανεπιστημίου της Πενσιλβάνια έδειξε ότι νυχτερινοί υπάλληλοι που κοιμόντουσαν σε συνθήκες συσκότισης κοιμόντουσαν καλύτερα από εκείνους που βρίσκονταν σε δωμάτια με λίγο φως. * Πηγή : (1/11/2011)

8 1. Σύντομη επανάληψη Το σκοτάδι κάνει καλό στην υγεία (συνέχεια)
Ποιες μεταβλητές πιστεύετε ότι χρησιμοποιήθηκαν στη μελέτη του Εθνικού Ινστιτούτου για τον Καρκίνο των ΗΠΑ (NCI) για την εμφάνιση καρκίνου του μαστού (κ.μ.). Ποιες από αυτές είναι ποιοτικές και ποιες ποσοτικές; Οι μεταβλητές που (ενδεχομένως) χρησιμοποιήθηκαν αφορούν : το οικογενειακό ιστορικό Εμφάνιση κ.μ. στη μητέρα – Ποιοτική μεταβλητή Ηλικία εμφάνισης κ.μ. στη μητέρα – Ποσοτική μεταβλητή Εμφάνιση κ.μ. σε αδελφή – Ποιοτική μεταβλητή Πλήθος αδελφών – Ποσοτική μεταβλητή Ηλικία εμφάνισης κ.μ. σε κάθε μία από τις αδελφές – Ποσοτική μεταβλητή Εμφάνιση κ.μ. στη γιαγιά - Ποιοτική μεταβλητή

9 1. Σύντομη επανάληψη Το σκοτάδι κάνει καλό στην υγεία (συνέχεια)
το κάπνισμα Καπνίστρια τώρα – Ποιοτική μεταβλητή Καπνίστρια παλαιότερα - Ποιοτική μεταβλητή Πλήθος τσιγάρων ημερησίως - Ποσοτική μεταβλητή Ημερομηνία διακοπής καπνίσματος - Ποσοτική μεταβλητή Χρόνος από τότε που διακόπηκε το κάπνισμα (σε μήνες) – Ποσοτική μεταβλητή …. το αλκοόλ τη διατροφή την έκθεση σε τεχνητό φως στη διάρκεια της νύχτας

10 1. Σύντομη επανάληψη Αντιστοιχείστε τις συναρτήσεις του MATLAB με το μέτρο που καθεμία παρέχει :  τη διάμεσο  std(x)  την τυπική απόκλιση  var(x)  τη διασπορά  mean(x)  τη μέση τιμή  median(x)

11 1. Σύντομη επανάληψη Η κανονική κατανομή έχει τις ακόλουθες ιδιότητες
 η μέση τιμή, η διάμεσος και η επικρατούσα τιμή συμπίπτουν.  η διάμεσος βρίσκεται ανάμεσα στην επικρατούσα τιμή και τη μέση τιμή.  έχει συμμετρική καμπύλη.  δεν έχει συμμετρική καμπύλη.  έχει λοξότητα (skewness) > 0  έχει κύρτωση < 0

12 1. Σύντομη επανάληψη Μετρήθηκε η διαστολική αρτηριακή πίεση των μαθητών ενός σχολείου και βρέθηκε κατά μέσο όρο ίση με 75mmHg και με τυπική απόκλιση 5mmHg. Πόσο σπάνιο είναι να βρεθεί παιδί με διαστολική πίεση πάνω από 90mmHg ή κάτω από 60mmHg εάν το μέγεθος αυτό ακολουθεί την κανονική κατανομή;  Πιθανότητα 100%  Πιθανότητα 27%  Πιθανότητα 0,27%

13 R = normrnd(2,3,100,1) [normrnd(MU,SIGMA,M,N)]
1. Σύντομη επανάληψη Εάν δώσουμε την ακόλουθη εντολή : R = normrnd(2,3,100,1) [normrnd(MU,SIGMA,M,N)] στο Matlab, λαμβάνουμε :  έναν 2x3 πίνακα τυχαίων αριθμών που προκύπτουν από την κανονική κατανομή  μία γραμμή με 100 τυχαίους αριθμούς που προκύπτουν από την κανονική κατανομή με μέση τιμή ίση με 2 και διασπορά ίση με 3  μία στήλη με 100 τυχαίους αριθμούς που προκύπτουν από την κανονική κατανομή με μέση τιμή ίση με 2 και διασπορά ίση με 3  μία στήλη με 100 τυχαίους αριθμούς που προκύπτουν από την κανονική κατανομή με μέση τιμή ίση με 2 και τυπική απόκλιση ίση με 3

14 R = normrnd(2,3,100,1); mR=mean(R); stdR=std(R)
1. Σύντομη επανάληψη Εάν πληκτρολογήσουμε τις ακόλουθες εντολές : R = normrnd(2,3,100,1); mR=mean(R); stdR=std(R) στο Matlab, λαμβάνουμε : mR=2,01 and stdR=3,27 Ποιο ή ποια από τα παρακάτω είναι αληθή :  Η τιμή mR είναι πάντοτε ένα από τα 100 στοιχεία του R.  Η τιμή std είναι πάντοτε ένα από τα 100 στοιχεία του R.  Η τιμή mR μπορεί να είναι ένα από τα 100 στοιχεία του R.  Η τιμή mR+std μπορεί να είναι ένα από τα 100 στοιχεία του R.  Η τιμή mR-std μπορεί να είναι ένα από τα 100 στοιχεία του R.

15 1. Σύντομη επανάληψη Το διάγραμμα boxplot Matlab : boxplot(x),
μέγιστη τιμή δείγματος (εκτός outliers) 75ο τεταρτημόριο διάμεσος ενδοτεταρτομοριακό εύρος 25ο τεταρτημόριο ελάχιστη τιμή δείγματος (εκτός outliers) απομονωμένες τιμές (outliers)

16 1. Σύντομη επανάληψη Εκτελώντας την ακόλουθη εντολή: boxplot(x)
στο Matlab, λαμβάνουμε το διπλανό σχήμα : Ποια από τα παρακάτω είναι αληθή ;  Ο x είναι ένας πίνακας με 2 στήλες.  Ο x είναι ένας πίνακας με 2 γραμμές.  Η συνάρτηση πυκνότητας πιθανότητας (σππ) του δείγματος της 1ης στήλης είναι συμμετρική, ενώ η σππ του δείγματος της δεύτερης στήλης είναι ασυμμετρική.  Οι σππ και των δύο στηλών είναι συμμετρικές.  Το εύρος των σππ και των δύο στηλών είναι το ίδιο.

17 1. Σύντομη επανάληψη Με βάση τα κατωτέρω σχήματα, ποια από τα παρακάτω είναι αληθή;  Η τιμή 5 διαφέρει 2 τυπικές αποκλίσεις από τη μέση τιμή.  Η τιμή 5 διαφέρει 1 τυπική απόκλιση από τη μέση τιμή.  Η πιθανότητα η απόσταση της x από τη μέση τιμή να είναι μεγαλύτερη από 1 τυπική απόκλιση είναι περίπου 15,9%.  Η πιθανότητα η απόσταση της x από τη μέση τιμή να είναι μεγαλύτερη από 1 τυπική απόκλιση είναι περίπου 31,8%.  Η πιθανότητα η x να είναι μεγαλύτερη από τη μέση τιμή περισσότερο από μία τυπική απόκλιση είναι περίπου 15,9%.

18 Εκτίμηση παραμέτρων - Έλεγχος υποθέσεων
Σύντομη επανάληψη Ομαδοποίηση Εκτίμηση παραμέτρων Διαστήματα επιστοσύνης Έλεγχος υποθέσεων και σημαντικότητας

19 q = 1+ 3.32 * log10 n, όπου n το μέγεθος του δείγματος
2. Ομαδοποίηση Ομαδοποίηση δεδομένων Όταν ο αριθμός των παρατηρήσεων είναι μεγάλος συνηθίζεται τα δεδομένα να ταξινομούνται σε μικρό πλήθος ομάδων. Όλες οι παρατηρήσεις που ανήκουν στην ίδια ομάδα θεωρούνται όμοιες. Λαμβάνουμε τις συχνότητες (απόλυτες ή σχετικές) των διαφόρων ομάδων και προχωρούμε την περιγραφική στατιστική με αυτές. Το πρώτο βήμα της ομαδοποίησης είναι η εκλογή του πλήθους q των ομάδων (ή διαστημάτων ή κλάσεων). Το q συνήθως ορίζεται αυθαίρετα από τον ερευνητή σύμφωνα με την πείρα του ή με βάση τον τύπο του Sturges : q = * log10 n, όπου n το μέγεθος του δείγματος

20 2. Ομαδοποίηση Ομαδοποίηση δεδομένων (συνέχεια)
Το δεύτερο βήμα είναι ο προσδιορισμός του πλάτους c των κλάσεων, ίδιο για όλες τις κλάσεις : c=R/q, όπου R είναι το εύρος του δείγματος (μέγιστη μείον ελάχιστη τιμή). Τα q και c στρογγυλοποιούνται προς τα πάνω ώστε τα q διαστήματα πλάτους c να καλύψουν όλες τις διαθέσιμες παρατηρήσεις. Το τρίτο βήμα είναι ο καθορισμός των διαστημάτων: Το πρώτο επιλέγεται έτσι ώστε να περιέχει τη μικρότερη παρατήρηση και το τελευταίο τη μεγαλύτερη. Η επιλογή του σημείου αρχής του πρώτου διαστήματος γίνεται έτσι ώστε καμιά από τις παρατηρήσεις να μη συμπίπτει με άκρο του διαστήματος για να αποφεύγονται αμφισβητήσεις σχετικά με το διάστημα στο οποίο βρίσκεται κάθε παρατήρηση.

21 2. Ομαδοποίηση Παράδειγμα 1
Δίνονται οι ακόλουθες μετρήσεις της ποσότητας D.N.A. που βρέθηκε στο συκώτι 52 ποντικών διατεταγμένες κατά αύξουσα σειρά : [ …… ] Να γίνει ομαδοποίηση των ανωτέρω μετρήσεων. q = * log10 52=6,70 Άρα το πλήθος διαστημάτων επιλέγεται ίσο με 7. R= =6.7 c=R/q=6.7/7=0.96 Άρα το πλάτος των διαστημάτων επιλέγεται ίσο με 1. Εάν επιλέξουμε ως αρχή του πρώτου διαστήματος το 1.7 έχουμε τα ακόλουθα διαστήματα : ( ), ( ), ( ), ( ), ( ), ( ), ( ).

22 2. Ομαδοποίηση Παράδειγμα 2
Έγινε μέτρηση του ουρικού οξέος (σε mg/100ml) σε 267 υγιείς άρρενες. Οι μετρήσεις ομαδοποιήθηκαν στον ακόλουθο πίνακα: Να υπολογιστεί η μέση τιμή του ουρικού οξέος. Κάθε διάστημα αντιπροσωπεύεται από τη μέση τιμή του, την οποία και χρησιμοποιούμε στους υπολογισμούς.

23 2. Ομαδοποίηση Παράδειγμα 2 (συνέχεια)
x=[ ]; f=[ ]; my=sum(x.*f)/sum(f) my = Προσοχή : Είναι λάθος mx=mean(x) !!! Εναλλακτικά : y=[]; n=length(x); for i=1:n y=[y x(i)*ones(1,f(i))]; end; my=mean(y) Ουρικό Οξύ χ Συχνότητα 3.2 2 3.5 – 3.9 3.7 15 4.0 – 4.4 4.2 33 4.5 – 4.9 4.7 40 5.0 – 5.4 5.2 54 5.7 47 6.0 – 6.4 6.2 38 6.5 – 6.9 6.7 16 7.0 – 7.4 7.2 7.5 – 7.9 7.7 3 8.0 – 8.4 8.2 1 8.5 – 8.9 8.7

24 Εκτίμηση παραμέτρων - Έλεγχος υποθέσεων
Σύντομη επανάληψη Ομαδοποίηση Εκτίμηση παραμέτρων Διαστήματα εμπιστοσύνης Έλεγχος υποθέσεων και σημαντικότητας

25 3. Εκτίμηση παραμέτρων Πρόβλημα προς αντιμετώπιση : «Πώς από τα δεδομένα ενός (ή περισσοτέρων δειγμάτων) μπορεί να υπολογιστεί η τιμή μιας ή περισσοτέρων άγνωστων παραμέτρων του υπό μελέτη πληθυσμού;» Παράμετροι : ονομάζονται οι άγνωστες τιμές που χαρακτηρίζουν τον υπό μελέτη πληθυσμό. Παραδείγματα : Η μέση τιμή και η διασπορά της χοληστερόλης σε ασθενείς με έμφραγμα του μυοκαρδίου είναι δύο παράμετροι που χαρακτηρίζουν τον πληθυσμό των «ασθενών με έμφραγμα του μυοκαρδίου». Η μέση τιμή και η διασπορά της διαστολικής αρτηριακής πίεσης σε ασθενείς με έμφραγμα του μυοκαρδίου είναι δύο παράμετροι που χαρακτηρίζουν τον πληθυσμό των «ασθενών με έμφραγμα του μυοκαρδίου».

26 3. Εκτίμηση παραμέτρων Μπορεί να γίνει εκτίμηση της μέσης τιμής από δείγμα κανονικής κατανομής; x=normrnd(4,1,1,100); xm=mean(x) xm = Ερωτήματα που προκύπτουν (μεταξύ άλλων) : Τελικά η μέση τιμή του πληθυσμού είναι 4,0337 ή 4; Εδώ ξέρω εκ κατασκευής ότι η μέση τιμή είναι 4. Τι κάνω όταν η μέση τιμή της κατανομής είναι άγνωστη; Πόσο καλή εκτίμηση της μέσης τιμής αποτελεί το 4,0337; Γενικά πώς μπορώ να πετύχω μια καλή εκτίμηση της μέσης τιμής; 5. Τι είναι τελικά η ποσότητα mean(x);

27 3. Εκτίμηση παραμέτρων Επαγωγική Στατιστική
Έχει ως αντικείμενο τη γενίκευση των συμπερασμάτων που προκύπτουν από τις περιγραφικές στατιστικές αναλύσεις για όλο το σύνολο. Η επαγωγική διαδικασία περιλαμβάνει : Έλεγχο υποθέσεων Εκτίμηση παραμέτρων ΔΕΙΓΜΑ ΔΙΑΔΙΚΑΣΙΕΣ ΕΠΑΓΩΓΗΣ ΠΛΗΘΥΣΜΟΣ

28 3. Εκτίμηση παραμέτρων Βήματα εκτίμησης παραμέτρων
Έχουμε τις παρατηρήσεις (το δείγμα) και τα περιγραφικά στατιστικά μέτρα του δείγματος (μέση τιμή, διασπορά, κτλ). Προσδιορίζεται κάποια κατάλληλη συνάρτηση για την εκτίμηση της παραμέτρου ενδιαφέροντος (έστω θ). Εκτιμήτρια συνάρτηση : η συνάρτηση Θ που χρησιμοποιείται για την εκτίμηση της παραμέτρου ενδιαφέροντος θ. Προσδιορίζεται η κατανομή της εκτιμήτριας. Εκτιμώνται οι παράμετροι του πληθυσμού.

29 3. Εκτίμηση παραμέτρων Είδη εκτιμήσεων
Μονότιμες (ή Σημειακές) εκτιμήσεις Εκτιμήσεις διαστημάτων Σημειακές εκτιμήσεις Οι εκτιμήσεις που προσδιορίζουν συγκεκριμένη τιμή για την παράμετρο θ του πληθυσμού. Η τιμή αυτή είναι ένας απλός αριθμός που υπολογίζεται από το δείγμα. Από τις εκτιμήτριες συναρτήσεις πρέπει να επιλεγεί εκείνη που προσεγγίζει όσο το δυνατόν καλύτερα την άγνωστη παράμετρο.

30 3. Εκτίμηση παραμέτρων Εκτιμήσεις διαστημάτων
Καθορίζεται ένα διάστημα τιμών μέσα στο οποίο περιλαμβάνεται η άγνωστη παράμετρος θ με ορισμένη πιθανότητα. Βρίσκεται ένα διάστημα εμπιστοσύνης (Α, Β), τέτοιο ώστε η πιθανότητα η παράμετρος να βρίσκεται μέσα σε αυτό το διάστημα να ισούται με (1-α), όπου α είναι το επίπεδο σημαντικότητας. Το επίπεδο σημαντικότητας α είναι μια μικρή πιθανότητα την οποία επιλέγει ο ερευνητής και εκφράζει την πιθανότητα εσφαλμένου προσδιορισμού της παραμέτρου.

31 3. Εκτίμηση παραμέτρων Η εκτιμήτρια συνάρτηση Θ
είναι συνάρτηση των παρατηρήσεων του δείγματος και δεν περιέχει άγνωστες παραμέτρους, Θ=Θ(x1,x2,…,xn) είναι τυχαία μεταβλητή (ως συνάρτηση τυχαίων μεταβλητών) ακολουθεί κάποια κατανομή Υπάρχουν πολλές εκτιμήτριες συναρτήσεις για μια παράμετρο, π.χ. Θ=(x1+xn)/2, Θ=x1, Θ=x1*x2, Θ=(x1+x2+….+xn)/n κ.ο.κ. Ωστόσο, δεν μπορεί να είναι εκτιμήτριες συναρτήσεις οι : Θ=θ*x1, Θ=xn/θ κ.ο.κ.

32 3. Εκτίμηση παραμέτρων Για παράδειγμα, έστω ότι μας ενδιαφέρει να βρούμε εκτιμήτρια συνάρτηση της μέσης τιμής θ μιας διακριτής μεταβλητής Χ με βάση τις παρατηρήσεις (x1,x2,x3,…,xn). Ας θεωρήσουμε ότι η μεταβλητή Χ έχει δυνατές τιμές (x1,x2,x3, …,xn), σε κάθε μία από τις οποίες αντιστοιχεί η ίδια πιθανότητα P(X=xi)=1/n. Η συνάρτηση αποτελεί εκτιμήτρια συνάρτηση της μέσης τιμής θ της μεταβλητής Χ.

33 3. Εκτίμηση παραμέτρων Τύποι εκτιμητριών συναρτήσεων
αμερόληπτος εκτιμήτρια συνεπής εκτιμήτρια βέλτιστη εκτιμήτρια (ή εκτιμήτρια ελαχίστων τετραγώνων) η πιο αποτελεσματική εκτιμήτρια

34 3. Εκτίμηση παραμέτρων Αμερόληπτος εκτιμήτρια
Μια εκτιμήτρια συνάρτηση λέγεται αμερόληπτος όταν η μέση τιμή της εκτιμήτριας ισούται με την παράμετρο: Διαφορετικά είναι μεροληπτική εκτιμήτρια και η διαφορά λέγεται μεροληψία. Από πολλές αμερόληπτες εκτιμήτριες καλύτερη είναι εκείνη που παρουσιάζει τη μικρότερη διασπορά Ε[(Θ-θ)2].

35 3. Εκτίμηση παραμέτρων Συνεπής εκτιμήτρια
Μια εκτιμήτρια συνάρτηση λέγεται συνεπής όταν μεγαλώνοντας απεριόριστα το μέγεθος του δείγματος, η τιμή της εκτιμήτριας συνάρτησης όλο και περισσότερο πλησιάζει την τιμή της παραμέτρου, δηλαδή Διαφορετικά η εκτιμήτρια συνάρτηση αποτελεί ασυνεπή εκτιμήτρια.

36 3. Εκτίμηση παραμέτρων Βέλτιστη εκτιμήτρια
Μια εκτιμήτρια συνάρτηση λέγεται βέλτιστη εάν δίνει την ελάχιστη μέση τετραγωνική απόκλιση από την πραγματική τιμή, δηλαδή εάν το μέσο τετραγωνικό σφάλμα εκτίμησης είναι ελάχιστο : Η πιο αποτελεσματική εκτιμήτρια Μια εκτιμήτρια συνάρτηση λέμε ότι είναι η πιο αποτελεσματική εάν είναι αμερόληπτη και έχει την ελάχιστη διασπορά.

37 3. Εκτίμηση παραμέτρων Παραδείγματα εκτιμητριών συναρτήσεων
Η εκτιμήτρια συνάρτηση της πληθυσμιακής μέσης τιμής θ είναι αμερόληπτη και συνεπής εκτιμήτρια της θ για οποιαδήποτε κατανομή. Για ορισμένες κατανομές είναι ταυτόχρονα και βέλτιστη και η πιο αποτελεσματική. Η εκτιμήτρια συνάρτηση της πληθυσμιακής διασποράς σ2 είναι αμερόληπτη και συνεπής εκτιμήτρια της σ2 για οποιαδήποτε κατανομή.

38 3. Εκτίμηση παραμέτρων Η μέση τιμή της εκτιμήτριας
Παράδειγμα 3 : Εκτίμηση της μέσης τιμής από δείγματα κανονικής κατανομής xm=[]; x=normrnd(4,1,1,100);xm=[xm mean(x)]; x=normrnd(4,1,1,100);xm=[xm mean(x)] xm = mean(xm) ans = Η μέση τιμή της εκτιμήτριας [δηλαδή της mean(x)] ισούται με την παράμετρο. Η mean(x) αποτελεί αμερόληπτη εκτιμήτρια.

39 3. Εκτίμηση παραμέτρων Παράδειγμα 3 : Εκτίμηση της μέσης τιμής από δείγματα κανονικής κατανομής (συνέχεια) xm=[]; x=normrnd(4,1,1,100);xm=[xm mean(x)]; x=normrnd(4,1,1,100);xm=[xm mean(x)]; x=normrnd(4,1,1,100);xm=[xm mean(x)]; x=normrnd(4,1,1,100);xm=[xm mean(x)] xm = xm=[]; x=normrnd(4,1,1, );xm=[xm mean(x)]; x=normrnd(4,1,1, );xm=[xm mean(x)]; x=normrnd(4,1,1, );xm=[xm mean(x)]; x=normrnd(4,1,1, );xm=[xm mean(x)] xm = Όσο μεγαλώνει το δείγμα, η τιμή της εκτιμήτριας συνάρτησης mean(x) πλησιάζει όλο και περισσότερο την τιμή της παραμέτρου. Η mean(x) είναι μια συνεπής εκτιμήτρια.

40 3. Εκτίμηση παραμέτρων Στην πράξη:
Χρησιμοποιούνται αμερόληπτες και συνεπείς εκτιμήτριες. Ο υπολογισμός της βέλτιστης και της πιο αποτελεσματικής εκτιμήτριας έχει περισσότερο θεωρητικό ενδιαφέρον. Για κάθε παράμετρο μπορεί να υπάρχουν περισσότερες από μία αμερόληπτες ή συνεπείς εκτιμήτριες. Συχνά ο προσδιορισμός αμερόληπτων εκτιμητριών είναι αρκετά δύσκολος, οπότε αναγκαστικά χρησιμοποιούμε μεροληπτικές εκτιμήτριες.

41 3. Εκτίμηση παραμέτρων Εκτιμήτρια Μεγίστης Πιθανοφάνειας (Maximum Likelihood Estimator - MLE) Ας θεωρήσουμε μία κατανομή πιθανοτήτων fθ που χαρακτηρίζεται από μία άγνωστη παράμετρο θ. Εξάγουμε ένα δείγμα n τιμών από αυτή την κατανομή και στη συνέχεια χρησιμοποιώντας την fθ υπολογίζουμε την πολυμεταβλητή πυκνότητα πιθανότητας που σχετίζεται με τα δεδομένα μας : Ως συνάρτηση του θ με σταθερές τις x1,..., xn, η ανωτέρω συνάρτηση είναι η συνάρτηση πιθανοφάνειας (likelihood function): Η μέθοδος της μεγίστης πιθανοφάνειας υπολογίζει την τιμή της παραμέτρου θ ως αυτή που μεγιστοποιεί την L(θ). Αυτή είναι η εκτιμήτρια μεγίστης πιθανοφάνειας του θ:

42 3. Εκτίμηση παραμέτρων Εκτιμήτρια Μεγίστης Πιθανοφάνειας (MLE) (συν.)
Παρατήρηση : Συνήθως υποθέτουμε ότι τα δεδομένα που εξάγονται από μία συγκεκριμένη κατανομή είναι ανεξάρτητα, ιδανικά κατανεμημένα (independent, identically distributed - iid) με άγνωστες παραμέτρους. Αυτό απλοποιεί σημαντικά το πρόβλημα καθώς τότε η συνάρτηση πιθανοφάνειας μπορεί να γραφεί ως γινόμενο n μονομεταβλητών κατανομών πιθανοτήτων :

43 3. Εκτίμηση παραμέτρων Εκτιμήτρια Μεγίστης Πιθανοφάνειας (MLE) (συν.)
Παράδειγμα : Για την κανονική κατανομή, η οποία έχει συνάρτηση πυκνότητας πιθανότητας η αντίστοιχη συνάρτηση πιθανοφάνειας είναι : Η μεγιστοποίηση της συνάρτησης πιθανοφάνειας (στην πραγματικότητα του λογαρίθμου της) ως προς τις παραμέτρους μ και σ2 δίνει τα εξής :

44 3. Εκτίμηση παραμέτρων Η συνάρτηση mle (Maximum likelihood estimates)
Η συνάρτηση paramhat= mle(data,'distribution',dist) υπολογίζει με τη μέθοδο μεγίστης πιθανοφάνειας τις παραμέτρους της κατανομής που προσδιορίζεται από την dist. (π.χ. Dist = 'beta' , 'normal‘, ‘poisson‘, κλπ ) για το δείγμα x. Παράδειγμα x=normrnd(3,1,200,1); param = mle(x,'distribution','normal') param =

45 Εκτίμηση παραμέτρων - Έλεγχος υποθέσεων
Σύντομη επανάληψη Ομαδοποίηση Εκτίμηση παραμέτρων Διαστήματα εμπιστοσύνης Έλεγχος υποθέσεων και σημαντικότητας

46 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Θεωρούμε ένα τυχαίο δείγμα Χ1, Χ2, … Χν με κατανομή F(x;θ), όπου θ άγνωστη παράμετρος και a αριθμό στο διάστημα (0,1) [συνήθως το a μικρό π.χ. a=1% ή 5% ή 10% κλπ] Υποθέτουμε ότι υπάρχουν δύο εκτιμήτριες συναρτήσεις L=θ1(Χ1,Χ2,…, Χν) U=θ2(Χ1,Χ2,…, Χν) για τις οποίες : P(L≤U)=1 και P(L≤θ≤U)=1-a. Το διάστημα [L,U] ονομάζεται διάστημα εμπιστοσύνης για το θ και η πιθανότητα 1-a ονομάζεται συντελεστής εμπιστοσύνης του διαστήματος. Το a είναι το επίπεδο σημαντικότητας. Συνήθως λέμε ότι το διάστημα [L,U] είναι ένα 100*(1-a)% διάστημα εμπιστοσύνης για το θ.

47 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Η συνάρτηση boxplot και τα διαστήματα της διαμέσου boxplot(...,‘notch',value) Οι πιθανές τιμές της value είναι : 'on' : Σχεδιάζεται το διάστημα της διαμέσου σε σχήμα v 'marker‘ : Σχεδιάζεται το διάστημα της διαμέσου χρησιμοποιώντας τρίγωνα 'off' : Παραλείπεται η ανωτέρω σχεδίαση (η εξορισμού τιμή). Δύο διάμεσοι είναι σημαντικά διαφορετικές σε επίπεδο σημαντικότητας 5% εάν τα διαστήματά τους δεν επικαλύπτονται. Παράδειγμα : x=normrnd(3,2,100,1); y=normrnd(5,2,100,1); boxplot([x y]) boxplot([x y],'notch','on') boxplot([x y],'notch','marker')

48 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)

49 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Για το διάστημα [L,U] διακρίνουμε τις περιπτώσεις: L, U πραγματικοί αριθμοί  αμφίπλευρος έλεγχος L πραγματικός αριθμός, U=+∞  μονόπλευρος έλεγχος προς τα δεξιά U πραγματικός αριθμός, L=-∞  μονόπλευρος έλεγχος προς τα αριστερά

50 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Θα μελετήσουμε τις ακόλουθες περιπτώσεις : Διαστήματα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού που ακολουθεί την κανονική κατανομή με γνωστή διασπορά Διαστήματα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού που ακολουθεί την κανονική κατανομή με άγνωστη διασπορά Διαστήματα εμπιστοσύνης για τη διαφορά μεταξύ των μέσων τιμών δύο πληθυσμών που ακολουθούν την κανονική κατανομή με γνωστές διασπορές με άγνωστες αλλά ίσες διασπορές με άγνωστες αλλά διαφορετικές διασπορές με μη ανεξάρτητα δείγματα

51 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Διαστήματα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού που ακολουθεί την κανονική κατανομή με γνωστή διασπορά Έστω ότι πρέπει να υπολογίσουμε τη μέση τιμή μ μιας μεταβλητής X που ακολουθεί την κανονική κατανομή. Η διασπορά σ2 της κανονικής κατανομής είναι γνωστή. Η δειγματική μέση τιμή ακολουθεί επίσης την κανονική κατανομή. Η μέση τιμή της κανονικής κατανομής της E(X) είναι μ. Η διασπορά αυτής της κανονικής κατανομής είναι Εφαρμόζουμε τον ακόλουθο μετ/σμό για τη μεταβλητή E(X):

52 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Διαστήματα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού που ακολουθεί την κανονική κατανομή με γνωστή διασπορά (συν.) Η μεταβλητή Q ακολουθεί την κανονική* κατανομή με μέση τιμή μQ=0 and variance σQ2=1 [Q~N(0,1)]. Για ένα δεδομένο επίπεδο σημαντικότητας a και αμφίπλευρο έλεγχο, επιθυμούμε να βρούμε ένα διάστημα εμπιστοσύνης (qL,qU) τέτοιο ώστε : Λόγω της συμμετρίας γύρω από το 0, έχουμε –qL=qU. *Η N(0,1) καλείται Τυποποιημένη Κανονική Κατανομή (standard normal distribution).

53 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Διαστήματα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού που ακολουθεί την κανονική κατανομή με γνωστή διασπορά (συν.) Από την κανονική κατανομή N(0,1) έχουμε ότι qU=qa/2, όπου ισχύει ότι P(q>qa/2)=a/2. Έτσι έχουμε Το 100(1-a)% διάστημα εμπιστοσύνης για τη μέση τιμή μ είναι :

54 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Διαστήματα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού που ακολουθεί την κανονική κατανομή με γνωστή διασπορά (συν.) Για παράδειγμα, εάν a=5%=0,05, έχουμε qa/2=q0,025=1,96.

55 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Διαστήματα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού που ακολουθεί την κανονική κατανομή με γνωστή διασπορά (συν.) Επομένως, το 95% διάστημα εμπιστοσύνης για τη μέση τιμή είναι :

56 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Διαστήματα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού που ακολουθεί την κανονική κατανομή με γνωστή διασπορά (συν.) Στην περίπτωση μονόπλευρου ελέγχου προς τα δεξιά, είναι εύκολο να δειχθεί ότι το διάστημα εμπιστοσύνης για τη μέση τιμή μ είναι : Για παράδειγμα, εάν a=5%=0,05, έχουμε qa=q0,05=1,65. Επομένως, το 95% διάστημα εμπιστοσύνης για τη μέση τιμή είναι :

57 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Διαστήματα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού που ακολουθεί την κανονική κατανομή με γνωστή διασπορά (συν.) Στην περίπτωση μονόπλευρου ελέγχου προς τα αριστερά, είναι εύκολο να δειχθεί ότι το διάστημα εμπιστοσύνης για τη μέση τιμή μ είναι : Για παράδειγμα, εάν a=5%=0,05, έχουμε qa=q0,05=-1,65. Επομένως, το 95% διάστημα εμπιστοσύνης για τη μέση τιμή είναι :

58 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
2. Διαστήματα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού που ακολουθεί την κανονική κατανομή με άγνωστη διασπορά Έστω ότι πρέπει να υπολογίσουμε τη μέση τιμή μ μιας μεταβλητής X που ακολουθεί την κανονική κατανομή. Η διασπορά σ2 της κανονικής κατανομής είναι άγνωστη. Η δειγματική μέση τιμή ακολουθεί επίσης την κανονική κατανομή. Η μέση τιμή της κανονικής κατανομής του E(X) είναι μ. Στην περίπτωση αυτή, υπολογίζουμε τη δειγματική διασπορά:

59 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
2. Διαστήματα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού που ακολουθεί την κανονική κατανομή με άγνωστη διασπορά (συν.) Εφαρμόζουμε τον ακόλουθο μετασχηματισμό για τη μεταβλητή E(X): Η μεταβλητή t δεν ακολουθεί την κανονική κατανομή καθώς η τυπική απόκλιση s είναι επίσης μια τυχαία μεταβλητή (και όχι μια γνωστή παράμετρος όπως στην προηγούμενη περίπτωση). Η μεταβλητή t ακολουθεί την Student’s t κατανομή με n-1 βαθμούς ελευθερίας.

60 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
2. Διαστήματα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού που ακολουθεί την κανονική κατανομή με άγνωστη διασπορά (συν.) Η pdf* της Student’s t κατανομή με ν βαθμούς ελευθερίας είναι: όπου Γ(.) είναι η συνάρτηση Γάμμα. Καθώς ο αριθμός των βαθμών ελευθερίας πηγαίνει προς το άπειρο, η κατανομή του Student t συγκλίνει προς την τυποποιημένη κανονική κατανομή. * pdf = probability distribution function

61 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
2. Διαστήματα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού που ακολουθεί την κανονική κατανομή με άγνωστη διασπορά (συν.) Για παράδειγμα, η pdf και η cdf* της Student’s t κατανομής με 5 βαθμούς ελευθερίας είναι : *cdf = cumulative distribution function

62 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
2. Διαστήματα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού που ακολουθεί την κανονική κατανομή με άγνωστη διασπορά (συν.) Για ένα δεδομένο επίπεδο σημαντικότητας a και αμφίπλευρο έλεγχο υποθέσεων, επιθυμούμε να βρούμε ένα διάστημα εμπιστοσύνης (tL,n-1,tU,n-1) τέτοιο ώστε : Λόγω της συμμετρίας γύρω από το 0, έχουμε –tL,n-1=tU,n-1. Από την κατανομή του Student t έχουμε ότι tU,n-1=ta/2,n-1, όπου ισχύει ότι P(t>ta/2,n-1)=a/2. Έτσι, το 100(1-a)% διάστημα εμπιστοσύνης γα τη μέση τιμή μ είναι: Ομοίως, υπολογίζονται τα δ.ε. για τους μονόπλευρους ελέγχους.

63 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
2. Διαστήματα εμπιστοσύνης για τη μέση τιμή ενός πληθυσμού που ακολουθεί την κανονική κατανομή με άγνωστη διασπορά (συν.) Για παράδειγμα, εάν a=5%=0,05 και n=6, είναι ta/2,5=t0.025,5=2,57 Επομένως, το 95% διάστημα εμπιστοσύνης για τη μέση τιμή είναι :

64 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Έστω ότι έχουμε δύο ανεξάρτητους πληθυσμούς που ακολουθούν κανονικές κατανομές με γνωστές διασπορές. Η πρώτη μεταβλητή X1 ακολουθεί την κατανομή Η δεύτερη μεταβλητή X2 ακολουθεί την κατανομή* Το ζητούμενο είναι η σύγκριση των μέσων τιμών τους με την κατασκευή διαστημάτων εμπιστοσύνης για τη διαφορά των μέσων τιμών τους μ1-μ2. * Δεν ισχύει απαραίτητα σ1=σ2. Στη γενική περίπτωση σ1≠σ2.

65 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Όπως έχει αναφερθεί, οι δειγματικές μέσες τιμές των δύο μεταβλητών* ακολουθούν κανονικές κατανομές. Η μέση τιμή της κανονικής κατανομής του E(X1) είναι μ1. Η διασπορά αυτής της κανονικής κατανομής είναι Η μέση τιμή της κανονικής κατανομής του E(X2) είναι μ2. * Δεν ισχύει απαραίτητα ότι n1=n2. Στη γενική περίπτωση n1≠n2.

66 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Λόγω της ανεξαρτησίας των δύο μεταβλητών, η διαφορά τους E(X1)-E(X2) ακολουθεί την κανονική κατανομή. Η μέση τιμή της κανονικής κατανομής της διαφοράς E(X1)-E(X2) ισούται με μ1-μ2. Η διασπορά αυτής της κανονικής κατανομής είναι : Εφαρμόζουμε τον ακόλουθο μετασχηματισμό :

67 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Η μεταβλητή Q ακολουθεί την κανονική κατανομή με μέση τιμή μ=0 και διασπορά σ2=1 [Q~N(0,1)]. Εύκολα δείχνεται ότι, για ένα δεδομένο επίπεδο σημαντικότητας a και αμφίπλευρο έλεγχο, το 100(1-a)% διάστημα εμπιστοσύνης για τη διαφορά μ1 –μ2 είναι : Ομοίως, υπολογίζονται τα διαστήματα εμπιστοσύνης για τους μονόπλευρους ελέγχους.

68 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
3b. Διαστήματα εμπιστοσύνης για τη διαφορά των μέσων τιμών δύο πληθυσμών που ακολουθούν την κανονική κατανομή με άγνωστες αλλά ίσες διασπορές Έστω ότι έχουμε δύο ανεξάρτητους πληθυσμούς που ακολουθούν κανονικές κατανομές με άγνωστες αλλά ίσες διασπορές. Η πρώτη μεταβλητή X1 ακολουθεί την κατανομή Η δεύτερη μεταβλητή X2 ακολουθεί την κατανομή Το ζητούμενο είναι η σύγκριση των μέσων τιμών τους με την κατασκευή διαστημάτων εμπιστοσύνης για τη διαφορά μ1-μ2.

69 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
3b. Διαστήματα εμπιστοσύνης για τη διαφορά των μέσων τιμών δύο πληθυσμών που ακολουθούν την κανονική κατανομή με άγνωστες αλλά ίσες διασπορές (συν.) Όπως έχει ήδη αναφερθεί, οι δειγματικές μέσες τιμές των δύο μεταβλητών* ακολουθούν την κανονική κατανομή. Η μέση τιμή της κανονικής κατανομής του E(X1) είναι : μ1. Η μέση τιμή της κανονικής κατανομής του E(X2) είναι : μ2. * Δεν είναι απαραίτητο να ισχύει n1=n2. Στη γενική περίπτωση, n1≠n2.

70 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
3b. Διαστήματα εμπιστοσύνης για τη διαφορά των μέσων τιμών δύο πληθυσμών που ακολουθούν την κανονική κατανομή με άγνωστες αλλά ίσες διασπορές (συν.) Στην περίπτωση αυτή, υπολογίζουμε τη δειγματική (κοινή) διασπορά των δύο πληθυσμών : Λόγω της ανεξαρτησίας των δύο μεταβλητών, η διαφορά τους E(X1)-E(X2) ακολουθεί την κανονική κατανομή. Η μέση τιμή της κανονικής κατανομής του E(X1)-E(X2) ισούται με μ1-μ2. Εφαρμόζουμε τον ακόλουθο μετασχηματισμό :

71 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
3b. Διαστήματα εμπιστοσύνης για τη διαφορά των μέσων τιμών δύο πληθυσμών που ακολουθούν την κανονική κατανομή με άγνωστες αλλά ίσες διασπορές (συν.) Η μεταβλητή t ακολουθεί την κατανομή του Student t με n1+n2-2 βαθμούς ελευθερίας. Έτσι στην περίπτωση αυτή, για ένα δεδομένο επίπεδο σημαντικότητας a και αμφίπλευρο έλεγχο, το 100(1-a)% διάστημα εμπιστοσύνης για τη διαφορά μ1 –μ2 είναι : Ομοίως, υπολογίζονται τα δ.ε. για τους μονόπλευρους ελέγχους.

72 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Έστω ότι έχουμε δύο ανεξάρτητους πληθυσμούς που ακολουθούν κανονικές κατανομές με άγνωστες αλλά διαφορετικές διασπορές. Η πρώτη μεταβλητή X1 ακολουθεί την κατανομή Η δεύτερη μεταβλητή X2 ακολουθεί την κατανομή Το ζητούμενο είναι η σύγκριση των μέσων τιμών τους με την κατασκευή διαστημάτων εμπιστοσύνης για τη διαφορά μ1-μ2.

73 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Όπως έχει αναφερθεί, οι δειγματικές μέσες τιμές των δύο μεταβλητών* ακολουθούν κανονικές κατανομές. Η μέση τιμή της κανονικής κατανομής του E(X1) είναι μ1. Η μέση τιμή της κανονικής κατανομής του E(X2) είναι μ2. * Δεν είναι απαραίτητο να έχουμε n1=n2. Στη γενική περίπτωση, n1≠n2.

74 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Στην περίπτωση αυτή, υπολογίζουμε τη δειγματική διασπορά καθενός από τους δύο πληθυσμούς : Λόγω της ανεξαρτησίας των δύο μεταβλητών, η διαφορά τους E(X1)-E(X2) ακολουθεί την κανονική κατανομή. Η μέση τιμή της κανονικής κατανομής του E(X1)-E(X2) ισούται με μ1-μ2. Εφαρμόζουμε τον ακόλουθο μετασχηματισμό :

75 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Η μεταβλητή t ακολουθεί την κατανομή του Student t με ν βαθμούς ελευθερίας, όπου

76 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Στην περίπτωση αυτή, για ένα δεδομένο επίπεδο σημαντικότητας a και αμφίπλευρο έλεγχο, το 100(1-a)% διάστημα εμπιστοσύνης για τη διαφορά μ1 –μ2 είναι : Ομοίως υπολογίζονται τα δ.ε. για τους μονόπλευρους ελέγχους.

77 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Πολλές φορές δύο δείγματα δεν είναι ανεξάρτητα. Η μεταξύ τους εξάρτηση μπορεί να οφείλεται στο ότι τα δύο δείγματα : έχουν ληφθεί σε ζεύγη ως προς ένα χαρακτηριστικό ή αναπαριστούν διαδοχικές μετρήσεις του χαρακτηριστικού των ίδιων προσώπων ή αντικειμένων. Στην περίπτωση αυτή, χρησιμοποιούμε ως μεταβλητή τη διαφορά των τιμών των παρατηρήσεων των δύο δειγμάτων.

78 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
Έτσι, όταν έχουμε ένα δείγμα τυχαίων ζευγαριών (X1i,X2i) (i=1,…, n) λαμβάνουμε τις διαφορές Κατά συνέπεια, έχουμε ένα πρόβλημα n παρατηρήσεων d1, d2, …, dn. Το πρόβλημα αυτό αντιμετωπίζεται ως ένα πρόβλημα πληθυσμού που ακολουθεί την κανονική κατανομή με άγνωστη διασπορά.

79 4. Διαστήματα Εμπιστοσύνης (Confidence Intervals)
όπου Ανάλογα ισχύουν και για τις περιπτώσεις των μονόπλευρων ελέγχων.

80 Εκτίμηση παραμέτρων - Έλεγχος υποθέσεων
Σύντομη επανάληψη Ομαδοποίηση Εκτίμηση παραμέτρων Διαστήματα εμπιστοσύνης Έλεγχος υποθέσεων και σημαντικότητας

81 5. Έλεγχος υποθέσεων και σημαντικότητας
Διατύπωση προβλήματος Σε μία έρευνα για τη μελέτη ύπαρξης σχέσης μεταξύ του καπνίσματος και του καρκίνου του πνεύμονα χρησιμοποιήθηκαν ένα δείγμα από καπνιστές ασθενείς που εμφάνισαν καρκίνο του πνεύμονα και ένα δείγμα από το γενικό πληθυσμό των καπνιστών που δεν έχουν εμφανίσει καρκίνο του πνεύμονα. Ο μέσος ημερήσιος αριθμός τσιγάρων στο πρώτο δείγμα είναι διαφορετικός από το δεύτερο δείγμα. Το ερώτημα που προκύπτει είναι εάν η ανωτέρω διαφορά τιμών που διαπιστώνεται είναι (στατιστικά) σημαντική ή μη-σημαντική;

82 5. Έλεγχος υποθέσεων και σημαντικότητας
Εκτίμηση της σημαντικότητας της διαφοράς των μέσων τιμών από δύο δείγματα κανονικής κατανομής x1=normrnd(4,1,1,100);xm1=mean(x1) xm1 = x2=normrnd(4,1,1,100);xm2=mean(x2) xm2 = Ερωτήματα που προκύπτουν (μεταξύ άλλων) : Είναι τυχαία η διαφορά των δύο δειγμάτων; Είναι σημαντική η διαφορά των δύο δειγμάτων; Μήπως περιέχει κάποια χρήσιμη πληροφορία; Εδώ ξέρω εκ κατασκευής ότι και τα δύο δείγματα αποτελούν δείγματα από κανονική κατανομή με μέση τιμή ίση με 4. Τι γίνεται όταν δεν ξέρω ότι προέρχονται από την ίδια (άγνωστη) κατανομή;

83 5. Έλεγχος υποθέσεων και σημαντικότητας
Στατιστική υπόθεση είναι μια υπόθεση σχετικά με τις τιμές μιας ή περισσοτέρων παραμέτρων ενός στατιστικού μοντέλου, το οποίο περιγράφεται από μια συνάρτηση κατανομής. Ο έλεγχος μιας στατιστικής υποθέσεως αναφέρεται στη στατιστική διαδικασία που οδηγεί : είτε στην απόρριψη της υποθέσεως είτε στην αποδοχή (ακριβέστερα: μη απόρριψη) της υποθέσεως. Το ζητούμενο στον έλεγχο μιας στατιστικής υπόθεσης είναι εάν η διαφορά τιμών που διαπιστώνεται μεταξύ μιας εκτίμησης δείγματος και της αντίστοιχης άγνωστης παραμέτρου του πληθυσμού είναι στατιστικά σημαντική ή μη-σημαντική.

84 5. Έλεγχος υποθέσεων και σημαντικότητας
Ο έλεγχος στατιστικών υποθέσεων περιλαμβάνει τη διατύπωση δύο υποθέσεων : της μηδενικής υπόθεσης Η0 και της εναλλακτικής υπόθεσης Η1. Μηδενική Υπόθεση (null hypothesis) Είναι η υπόθεση που ελέγχεται. Συμβολίζεται με Η0. Συνήθως πρόκειται για μια υπόθεση της μορφής θ=θο, όπου θ μια παράμετρος που συνδέεται με την κατανομή δεδομένης μεταβλητής και θ0 μια συγκεκριμένη αριθμητική τιμή.

85 5. Έλεγχος υποθέσεων και σημαντικότητας
Εναλλακτική Υπόθεση (alternative hypothesis) Είναι μια δεύτερη υπόθεση, η οποία δεν πρέπει να συναληθεύει με τη μηδενική υπόθεση. Συμβολίζεται με Η1. Για κάθε μηδενική υπόθεση διατυπώνεται μια εναλλακτική. Συνήθως εκφράζει ακριβώς το αντίθετο από τη μηδενική υπόθεση. Μπορεί να είναι απλή είτε (συνηθέστερα) σύνθετη, όπως: θ≠θ0 ή θ>θ0 ή θ<θ0. Διαδραματίζει το βασικό ρόλο στον έλεγχο υποθέσεων, γιατί η εναλλακτική υπόθεση εκφράζει συνήθως το αναμενόμενο αποτέλεσμα, ανεξάρτητα εάν αυτό επιβεβαιωθεί ή απορριφθεί από τη στατιστική ανάλυση των δεδομένων.

86 5. Έλεγχος υποθέσεων και σημαντικότητας
Μονόπλευρος έλεγχος ή έλεγχος υπόθεσης μονής κατεύθυνσης (one-tail hypothesis testing) Είναι ο έλεγχος όταν η εναλλακτική υπόθεση είναι της μορφής θ>θ0 ή θ<θ0. Αμφίπλευρος έλεγχος ή έλεγχος υπόθεσης διπλής κατεύθυνσης (two-tailed hypothesis testing) Είναι ο έλεγχος όταν η εναλλακτική υπόθεση είναι της μορφής θ≠θ0.

87 5. Έλεγχος υποθέσεων και σημαντικότητας
Μονόπλευρος ή αμφίπλευρος έλεγχος ; Η απάντηση στο ερώτημα στηρίζεται στα αποτελέσματα άλλων συναφών ερευνών, στην κοινή λογική και στα χαρακτηριστικά του ερευνώμενου πληθυσμού. Για την επιλογή ελέγχου μονής κατεύθυνσης πρέπει να υπάρχει η ένδειξη ότι η διαφορά μπορεί να εμφανιστεί μόνο προς μια κατεύθυνση. Εάν δεν υπάρχει τέτοια ένδειξη, είναι προτιμότερος ο έλεγχος διπλής κατεύθυνσης.

88 5. Έλεγχος υποθέσεων και σημαντικότητας
Στατιστική συνάρτηση ελέγχου Είναι μια κατάλληλα επιλεγμένη στατιστική συνάρτηση του δείγματος, η οποία χρησιμοποιείται για τον έλεγχο. Συμβολίζεται με Q. Έχει συνάρτηση πυκνότητας πιθανότητας fQ(q,θ). Κρίσιμη περιοχή Είναι ένα διάστημα πραγματικών αριθμών που, όταν βρίσκεται σε αυτό η τιμή της στατιστικής συνάρτησης ελέγχου, τότε απορρίπτουμε τη μηδενική υπόθεση Συμβολίζεται με Rc.

89 5. Έλεγχος υποθέσεων και σημαντικότητας
Κανόνας απόφασης Είναι ο κανόνας με βάση τον οποίο απορρίπτουμε ή όχι τη μηδενική υπόθεση. Εκφράζεται ως εξής : «απορρίπτουμε την H0 εάν q ανήκει στην Rc». Στατιστικά σημαντική διαφορά Μια στατιστικά σημαντική διαφορά σημαίνει ότι υπάρχει μικρή πιθανότητα η διαφορά μεταξύ της τιμής του δείγματος και της αντίστοιχης τιμής του πληθυσμού να οφείλεται στην τύχη και αντίστροφα. Επισημαίνεται ότι η διαφορά είναι σε όρους στατιστικούς.

90 5. Έλεγχος υποθέσεων και σημαντικότητας
(α) αμφίπλευρος έλεγχος (β) μονόπλευρος έλεγχος

91 Η μηδενική υπόθεση είναι :
5. Έλεγχος υποθέσεων και σημαντικότητας Οι δυνατές περιπτώσεις λήψης μιας απόφασης σε δοσμένο επίπεδο σημαντικότητας α, σε σχέση με το τι ισχύει πραγματικά στον πληθυσμό, είναι : Η μηδενική υπόθεση είναι : Απόφαση αποδοχής Αληθής Ψευδής Μηδενικής υπόθεσης Σωστή Απόφαση Σφάλμα τύπου ΙΙ Εναλλακτικής υπόθεσης Σφάλμα τύπου Ι Σφάλμα τύπου Ι Είναι η απόρριψη μιας αληθούς μηδενικής υπόθεσης. Σφάλμα τύπου ΙΙ Είναι η μη απόρριψη μιας ψευδούς μηδενικής υπόθεσης.

92 5. Έλεγχος υποθέσεων και σημαντικότητας
Επίπεδο σημαντικότητας του ελέγχου α Είναι η πιθανότητα σφάλματος τύπου Ι, δηλαδή η πιθανότητα απόρριψης αληθούς μηδενικής υπόθεσης ή αλλιώς η πιθανότητα αποδοχής της εναλλακτικής υπόθεσης ενώ ισχύει η μηδενική υπόθεση. Μια διαφορά λέγεται στατιστικά σημαντική σε επίπεδο σημαντικότητας 5%, αν μπορεί να συμβεί τυχαία λιγότερες από πέντε φορές στις εκατό (α=0,05). Επομένως, για επίπεδο σημαντικότητας α=0,05 η πιθανότητα να συμβεί σφάλμα τύπου Ι είναι 5%. Η προσπάθεια σε κάθε στατιστικό έλεγχο είναι να μειωθεί η πιθανότητα του σφάλματος τύπου Ι.

93 5. Έλεγχος υποθέσεων και σημαντικότητας
Διαδικασία ελέγχου υποθέσεων Βήμα 1ο : Ως εναλλακτική υπόθεση τίθεται η υπόθεση που θεωρείται ότι ισχύει στον πληθυσμό. Βήμα 2ο : Σχηματοποιείται η μηδενική υπόθεση. Βήμα 3ο : Επιλέγεται η στατιστική συνάρτηση ελέγχου και καθορίζεται η συνάρτηση πυκνότητας πιθανότητας αυτής. Βήμα 4ο : Επιλέγεται το επίπεδο σημαντικότητας του ελέγχου και καθορίζεται η κρίσιμη περιοχή. Βήμα 5ο : Υπολογίζεται η τιμή της συνάρτησης ελέγχου από το δείγμα. Βήμα 6ο : Εφαρμόζεται ο κανόνας απόφασης και απορρίπτεται ή γίνεται αποδεκτή η μηδενική υπόθεση.


Κατέβασμα ppt "ΕΚΤΙΜΗΣΗ ΠΑΡΑΜΕΤΡΩΝ – ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google