Μεθοδολογία έρευνας και στατιστική – Δείγμα –Κατανομές Μεθοδολογία έρευνας και στατιστική – Δείγμα –Κατανομές Αν. Καθηγητής ΔΠΘ Δ. Κομίλης Κυριακή 5 Μαρτίου 16:00-19:00 Ώρα για εξ’ αποστάσεως συνεργασία Τετάρτη 13:00-14:00 Μέσο επικοινωνίας: Τηλέφωνο 25410 79391 ή skype: dkomilis
Στατιστική – Πειραματικός Σχεδιασμός 10/10/2017 Στατιστική – Πειραματικός Σχεδιασμός 6 10 14 8 12 2 4 y Var. Ave. Κατανομές
Κατανομή πιθανότητας – Πυκνότητα πιθανότητας p(y): πυκνότητα της πιθανότητας h: διάστημα στο οποίο ανήκει η τιμή y (ή εύρος των τιμών y) P (πιθανότητα να συμβεί το y) = p(y) * h
Καμπύλη πιθανότητας (ερμηνεία επιφανειών) Η πιθανότητα οτι κάποια τιμή y του πληθυσμού είναι μικρότερη κάποιας γνωστής τιμής y0 είναι ίση με την επιφάνεια κάτω από την καμπύλη και αριστερά του y0. Η πιθανότητα οτι κάποια τιμή y του πληθυσμού είναι μεγαλύτερη κάποιας γνωστής τιμής y0 είναι ίση με την επιφάνεια κάτω από την καμπύλη και δεξιά του y0. Η πιθανότητα οτι κάποια τιμή y του πληθυσμού είναι μεταξύ κάποιων γνωστών τιμών y0, y1 είναι ίση με την επιφάνεια κάτω από την καμπύλη και μεταξύ των y0 & y1
Ιστόγραμμα (κατανομή συχνότητας) προσεγγίζει καμπύλη κατανομής
Κανονική κατανομή Επαναλαμβανόμενες μετρήσεις, που διαφέρουν μεταξύ τους λόγω πειραματικού σφάλματος, συνήθως κινούνται γύρω από μία κεντρική τιμή και ακολουθούν μία κατανομή πιθανότητας με σχήμα «καμπάνας» και στην οποία μικρές αποκλίσεις από την κεντρική τιμή συμβαίνουν πιό συχνά από ότι μεγάλες αποκλίσεις. Κανονική κατανομή με μέσο μ και διασπορά σ2 είναι η Ν(μ, σ2)
Κανονική κατανομή Ιδανικά δεδομένα είναι κανονικά κατανεμημένα, τυχαία και ανεξάρτητα. Κανονική κατανομή – Σχήμα καμπάνας και συμμετρικά Μετρήσεις που επηρεάζονται από πολλαπλασιαστικά σφάλματα τείνουν να έχουν κατανομή με λοξότητα. Μη κανονικά δεδομένα μπορούν να μετατραπούν σε κανονικά. Πολλές στατιστικές μέθοδοι είναι δυνατές στη μη-κανονικότητα.
Κανονική κατανομή με πραγματική μέση τιμή το m = 8 mg/L Συμμετρική Τύπου καμπάνας Γύρω από m = 8 mg/L s s s s s s a 1 a 2 a 3 a 4 4 5 6 7 8 9 10 11 12 Νιτρικά (mg/L) Η κατανομή περιγράφεται πλήρως από τη μέση τιμή και την τυπική απόκλιση
Γεωμετρία κανονικής κατανομής Κάθετος άξονας (πυκνότητα πιθανότητας) έχει τέτοια κλίμακα ώστε η επιφάνεια κάτω της καμπύλης να είναι = 1.0. Τυπική απόκλιση s είναι η απόσταση από τη μέση τιμή ως το σημείο καμπής. Πιθανότητα ότι μία θετική απόκλιση από τη μέση τιμή θα υπερβεί τη + μία τυπική απόκλιση (s) είναι 0.1587 (ή περίπου 1/6). Επιφάνεια δεξιά του 9 mg/L Πιθανότητα ότι μία θετική απόκλιση από τη μέση τιμή θα υπερβεί τις + δύο τυπικές αποκλίσεις είναι (2s) είναι 0.0228 (περίπου 1/40) Area a3 +a4 Πιθανότητα ότι μία θετική απόκλιση από τη μέση τιμή θα υπερβεί τις + τρείς τυπικές αποκλίσεις είναι (3s) είναι 0.0013 (περίπου 1/750) Area a4
Λόγω συμμετρίας, πιθανότητας οι ίδιες και στις αρνητικές αποκλίσεις Περιοχή a1 =a4 Περιοχή a1 +a2 = a3 +a4 12 11 10 9 8 7 6 5 4 Νιτρικά (mg/L) a 1 2 3 Συνδυασμένη πιθανότητα ότι η απόκλιση και από τις 2 πλευρές θα ξεπεράσει το 2s είναι 2(0.0228) = 0.0456 (roughly 1/20). Επιφάνεια: a1 +a2 + a3 +a4
Κανονικοποίηση κανονικής κατανομής Βολική η χρήση πινάκων τύπου: z = (y - μ)/s Αδιάστατο Μία τυπική απόκλιση παίρνει την τιμή 1. Κατανομή γίνεται N(0,1) Μέσος όρος = 0 Τυπική απόκλιση = 1
Κανονικοποιημένη κανονική κατανομή Ίδια γεωμετρία Επιφάνεια a1 =a4 Επιφάνεια a1 +a2 = a3 +a4 4 3 2 1 -1 -2 -3 -4 Nitrate (mg/L) a
Τιμές πιθανότητας της τυποποιημένης κανονικής κατανομής z a z 0.0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.5 0.496 0.492 0.488 0.484 0.4801 0.4761 0.4721 0.4681 0.4641 … … … … … … … … … … … 1.5 0.0668 0.0655 0.0643 0.063 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559 1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455 1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367 1.8 0.0359 0.0351 0.0344 0.0366 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294 1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.025 0.0244 0.0239 0.0233 2 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
Έλεγχος κανονικότητας Anderson – Darling (n > 10) Shapiro – Wilk (n < 10) Kolmogorov – Smirnov Έλεγχος κυρτότητας – λοξότητας (kurtosis – Skewness) Γραφήματα πιθανοτήτων Οπτικός έλεγχος ιστογράμματος
Skewness - Λοξότητα Ιδανική 0 Μη ιδανική 0 Θετική - Δεξιά Αρνητική - Αριστερά
Kurtosis - Κύρτωση Ιδανική 0 Θετική Αρνητική
Έλεγχος κανονικότητας – Shapiro Wilk και γράφημα πιθανοτήτας 3.4 3.2 3.6 3.7 3.5 3.8 3.9 Δείκτης RJ υψηλός και p > 0.05 δείχνει κανονικότητα
Έλεγχος κανονικότητας – Anderson Darling και γράφημα πιθανοτήτας 6.9 7.8 8.9 5.2 7.7 9.6 8.7 6.7 4.8 8.0 10.1 8.5 6.5 9.2 7.4 6.3 5.6 7.3 8.3 7.2 7.5 6.1 9.4 5.4 7.6 8.1 7.9 Δείκτης AD χαμηλός και p > 0.01 δείχνει κανονικότητα
Έλεγχος κανονικότητας – Οπτικά δοκιμή «χοντρό μολύβι» Κανονικό Μη κανονικό
Έλεγχος κανονικότητας – Ιστόγραμμα – Σχήμα καμπάνας
Κατανομή t-Student Κανονικοποιώντας κανονική κατανομή απαιτεί γνώσεις των h and s. Πρακτικά, s είναι άγνωστο Βάλε s αντί για s και υπολόγισε την τιμή t t = (y - m)/s ή t = (y - y)/s Τιμή του m μπορεί να είναι γνωστή (π.χ. κάποιο πρότυπο) ή να γίνει υπόθεση. Συνθήκες y κατανέμεται κανονικά γύρω από το m με διασπορά s2 Διασπορά δεν αυξάνεται ή μειώνεται καθώς η μέση τιμή αυξάνεται ή μειώνεται Ποσότητα s2, που έχει βαθμούς ελευθερίας n , υπολογίζεται από ανεξάρτητες και κανονικά κατανεμημένες παρατηρήσεις με διασπορά s2
Κατανομή t (https://en.wikipedia.org/wiki/William_Sealy_Gosset) t-κατανομή ή κατανομή Student Σχήμα καμπάνας και συμμετρική Ουρές μεγαλύτερες από την κανονική κατανομή Το πλάτος εξαρτάται από τους βαθμούς ελευθερίας (άρα από το μέγεθος δείγματος) Σε άπειρο μέγεθος δείγματος – καμία αβεβαιότητα στο s2 - Κατανομή t γίνεται κανονική κατανομή.
t κατανομές ∞ 9 3 βαθμοί t = 1.94 ελευθερίας ν = n –1 t = 2.26 2.5 % 2.5 % βαθμοί ∞ t = 1.94 ελευθερίας ν = n –1 9 t = 2.26 3 t = 3.18
Τιμές t για πολλές διαφορετικές πιθανότητες ουράς και πολλούς βαθμούς ελευθερίας Βαθμοί Επιφάνεια (πιθανότητα) ουράς a a ελευθερίας = 0.1 0.05 0.025 0.01 0.005 ν 10 1.372 1.812 2.228 2.764 3.169 20 1.325 1.725 2.086 2.528 2.845 25 1.316 1.708 2.06 2.485 2.787 26 1.315 1.706 2.056 2.479 2.779 27 1.314 1.703 2.052 2.473 2.771 40 1.303 1.684 2.021 2.423 2.704 ∞ 1.282 1.645 1.96 2.326 2.576
Κατανομή της μέσης τιμής Ας υποθέσουμε ότι πολλά δείγματα μεγέθους n λαμβάνονται από ένα πληθυσμό με μέση τιμή h και διασπορά s2. Ποία είναι η κατανομή των πολλών μέσων τιμών που υπολογίζονται από τα δείγματα αυτά? Μέσες τιμές έχουν διακύμανση γύρω από την πραγματική μέση τιμήh (απόκλιση από το h) Διασπορά των μέσων τιμών Άπλωμα των μέσων τιμών γύρω από το h (τυπικό σφάλμα του μέσου όρου)
Τυχαία δειγματοληψία από ένα κανονικό πληθυσμό. 6 10 14 8 12 2 4 6 40 τυχαία δείγματα με n = 4 S ( y - ) 1 = Αρχική κατανομή N(10,1) Κατανομή των μέσων κανονική της διασποράς s2 =
= S y n Τυχαία δειγματοληψία από ένα κανονικό πληθυσμό t Κατανομή 2 y = S n Parent distribution N(10,1) Κατανομή του t t Sampling distribution of the mean 14 10 6 12 10 8 -2
Τυπικό σφάλμα της μέσης τιμής Τυπική απόκλιση δείγματος (άπλωμα μετρήσεων γύρω από το h) Τυπικό σφάλμα μέσης τιμής (άπλωμα μέσων τιμών γύρω από το h) (Τυπική απόκλιση μέσης τιμής)
Κατανομή χ2 (κατανομή διασποράς) (β) Επιφάνεια α, που ταυτίζεται με την πιθανότητα, για γνωστή τιμή χ2, συναρτήσει των βαθμών ελευθερίας (k). (α) Μορφές της χ2 ανάλογα με τους βαθμούς ελευθερίας k.
Παράδειγμα κατανομής χ2 Ένα μηχάνημα αυτόματου γεμίσματος χρησιμοποιείται για να γεμίσει μπουκάλια με ένα υγρό απορρυπαντικό. Ένα τυχαίο δείγμα 20 μπουκαλιών δίνει μία διασπορά του δείγματος ίση με s2 = 0.0153 lt2. Θα ορίσουμε ότι αν η διασπορά του όγκου γεμίσματος υπερβαίνει τα 0.01 lt2, ένα μη αποδεκτό ποσοστό μπουκαλιών θα είναι λιγότερο ή περισσότερο γεμάτο του κανονικού. Υπάρχουν ενδείξεις από τα δεδομένα του δείγματος που να υποδεικνύουν οτι ο παρασκευαστής έχει πρόβλημα με υπο-γεμισμένα ή υπερ-γεμισμένα μπουκάλια? Κάνετε χρήση του α=0.05 και θεωρήστε οτι οι όγκοι γεμίσματος κατανέμονται κανονικά. Λύση Καταρχάς, η πληροφορία οτι οι όγκοι γεμίσματος κατανέμονται κανονικά είναι σημαντική γιατί μας βοηθάει να συμπεράνουμε οτι η διασπορά s2 κατανέμεται ακολουθώντας την χ2 κατανομή (Υπενθυμίζεται οτι η χ2 είναι η κατανομή της διασποράς και όχι των αρχικών μετρήσεων). Συνεπώς θέλουμε να δούμε αν ισχύει:
Παράδειγμα κατανομής χ2 η μηδενική υπόθεση H0: σ2=0.01 ή η εναλλακτική υπόθεση Ηε: σ2>0.01 σε α<=0.05. Η χ2 είναι: χ2=(n-1) s2 / σ2 Για s2 = 0.0153, σ2=0.01, και n-1=19, έχω χ2=29.17. Θέλω να συγκρίνω με την τιμή χ20.05,19, που βάσει πινακίων, είναι: 30.14. Άρα το χ20.05,19 βρίσκεται δεξιότερα της τιμής 29.17, που σημαίνει οτι η πιθανότητα (εμβαδόν) που αντιστοιχεί στην περίπτωσή μας (δηλαδή για την τιμή 29.17) είναι μεγαλύτερη από 5% (π.χ. 6%). Συνεπώς, δεν υπάρχουν σημαντικές ενδείξεις (το σημαντικό βέβαια εξαρτάται από το επίπεδο σημαντικότητας 5%, που εμείς καθορίσαμε) οτι η διασπορά των όγκων γεμίσματος θα υπερβαίνει το 0.01 lt2. Μάλιστα η πιθανότητα που αντιστοιχεί στο χ2=29.17 είναι (μπορεί να βρεθεί με παλινδρόμηση από σχετικό πινάκιο του παραρτήματος) 6.5% ήτοι μεγαλύτερη του 5%.
Κατανομή F