Διαστήματα εμπιστοσύνης – δοκιμή t Δ. Κομίλης
Είναι διαφορετικές οι διεργασίες?
Στατιστική εκτίμηση – κάνε μία εκτίμηση της πραγματικής τιμής από πειραματικά δεδομένα Δύο μέθοδοι για στατιστικές εκτιμήσεις Δοκιμή σημαντικότητας (Τεστ υπόθεσης) Δοκιμή της υπόθεσης 0 Πραγματική συγκέντρωση του πληθυσμού είναι 8.00 mg/L H 0 : = 8.00 Επίπεδο σημαντικότητας = = Ρίσκο της κατά λάθος απόρριψης της υπόθεσης 0 Διάστημα εμπιστοσύνης Προτιμότερη δοκιμή
Ορισμός υποθέσεων H 0, Η ε Τα δείγματα Α και Β προέρχονται από τον ίδιο πληθυσμό (μηδενική υπόθεση H 0 ) Τα δείγματα Α και Β δεν προέρχονται από τον ίδιο πληθυσμό (εναλλακτική υπόθεση H ε ) Δηλαδή, πρακτικά κάνουμε τις δύο υποθέσεις: Η 0 : Διεργασία Α = Διεργασία Β Η ε : Διεργασία Α ≠ Διεργασία Β
Διαφοροποίηση υποθέσεων Μηδενική υπόθεση Η 0 (null hypothesis): «η πραγματική μέση τιμή του πληθυσμού είναι 8.0, δηλ. Η 0 : μ=8.0 mg/L». 1η εναλλακτική υπόθεση Η ε : μ 8.0 2η εναλλακτική υπόθεση Η ε : μ ≠ 8.0, δηλαδή μ 8.0. Επίπεδο σημαντικότητας (συνήθως ορίζεται ως α) είναι ίσο με κάποιο ποσοστό (π.χ. α = 5%) και αποτελεί την πιθανότητα της κατά λάθος απόρριψης της μηδενικής υπόθεσης ή (1-α)% είναι η πιθανότητα που ισχύει η μηδενική υπόθεση.
Τεστ σημαντικότητας (ή τεστ υπόθεσης) «Πόσο πιθανό είναι να έχουμε μία μέση τιμή δείγματος ίση με 7.51 mg/L από ένα πληθυσμό με γνωστή μέση τιμή πληθυσμού ίση με 8.0 mg/L». ή «Αν η μέση τιμή του δείγματος μας με 27 παρατηρήσεις είναι 7.51 mg/L, τότε ποία η πιθανότητα η πραγματική μέση τιμή του πληθυσμού να είναι ίση με 8.0 mg/L» Ανάλογα με την απάντησή μας, μπορούμε να αποφανθούμε αν το δείγμα όντως αντιπροσωπεύει τον πληθυσμό ή όχι.
t-statistic E(statistic) = αναμενόμενη τιμή της στατιστικής τιμής, δηλ. τιμή πληθυσμού V(statistic) = διασπορά της στατιστικής εκτίμησης. Εκτίμηση του t (t-statistic) με βαθμούς ελευθερίας και επίπεδο σημαντικότητας t
Συνάρτηση t για έλεγχο υποθέσεων Τιμή t: Χρήση στατιστικής τιμής (statistic) t γιατί χρησιμοποιούμε την κανονική κατανομή με πραγματική τιμή μ και με διασπορά ίση με τη διασπορά του μέσου όρου, που είναι η σ 2 /n
Παράδειγμα δοκιμής t Το δείγμα των 27 μετρήσεων νιτρικών έχει μέση τιμή = 7.51, και τυπική απόκλιση δείγματος ίση με s=1.38 mg/L (μη ξεχνάτε οτι οι μονάδες είναι οι ίδιες για μ και s αλλά όχι για τη διασπορά s 2 ). To τυπικό σφάλμα της μέσης τιμής είναι ίσο με s ў = 0.27 mg/L (βλέπετε οτι s ў = s / n 0.5 < s). Για τα δεδομένα των νιτρικών, η μέση τιμή του δείγματος είναι 7.51 mg/L που απέχει αρκετά από την πραγματική τιμή των 8.0 mg/L. Στόχος είναι να δούμε, ποιές είναι οι πιθανότητες μία μέση τιμή ίση με 7.51 να μετρηθεί στο εν λόγω εργαστήριο. Κάνουμε χρήση της συνάρτησης t:
Παράδειγμα δοκιμής t (συν.) είναι περίπου στο 4% (δηλ. επιφάνεια αριστερά της καμπύλης ισούται με 0.04). Μικρή ή μεγάλη πιθανότητα? Εξαρτάται από το όριο που θέτω. Ελέγχω το t 26,0.05. Είναι Συγκρίνω με < Άρα η τιμή 7.51 έχει πιθανότητα μικρότερη του 5% να ανήκει στον πληθυσμό με πραγματική μέση τιμή 8.0. Πρακτικά αυτό σημαίνει οτι από τις 100 δειγματοληψίες διαφόρων δειγμάτων από τον πληθυσμό με πραγματική μέση τιμή 8.0, οι 95 τουλάχιστον θα δίνουν μέση τιμή μεγαλύτερη του Διαφοροποίηση μεταξύ Ηα: μ < 8.0 και Ηα: μ ≠ 8.0. Όταν Ηα: μ ≠ 8.0, τότε διαιρώ α / 2, γιατί ελέγχω και αριστερά και δεξιά της καμπύλης. Δηλαδή, πρέπει εμβαδό που αντιστοιχεί στο π.χ. 5%, να κατανέμεται ομοιόμορφα και στην αριστερή και στην δεξιά «ουρά» της καμπύλης (άρα είναι 2.5% στην κάθε πλευρά).
Παράδειγμα Δεδομένα νιτρικών. Ελέγξτε την υπόθεση ότι = 8.00, σε = 0.05 επίπεδο σημαντικότητας. Μηδενική υπόθεση: H o : = 8.0 (H a : < 8.0) Δοκιμή μίας πλευράς.
Λόγω συμμετρίας, ο πίνακας αυτός ισχύει για θετικές και αρνητικές τιμές. P(t < –1.842) ≈ 0.04 Βαθμοί Πιθανότητα επιφάνειας ουράς ελευθερίας = ∞ t = = 26
Η μηδενική υπόθεση θα απορριφθεί αν το υπολογιζόμενο t είναι μικρότερο από την τιμή t που υπολογίζεται με πιθανότητα = Λάβε από τον πίνακα την τιμή του t με: = 0.05 και = 26 t 26, 0.05 = Υπολογιζόμενο: t = –1.853 που είναι μικρότερο (μεγαλύτερο σε απόλυτη τιμή) από την τιμή του t σε α = 0.05, δηλ. – Συμπέρασμα: Απέρριψε τη μηδενική υπόθεση (όταν απόλυτο t μεγαλύτερο από απόλυτο t κρίσιμο ). Ισχύει η εναλλακτική υπόθεση.
20 Τιμές: 29, 44, 12, 53, 21, 34, 39, 25, 48, 23, 17, 24, 27, 32, 34, 15, 42, 21, 28, 37 Να ελέγξετε τις παρακάτω μηδενικές υποθέσεις Ηο = 45 με Ηε < 45 (α = 10%). Ηο = 30 με Ηε ≠ 30 (α = 5%). Παράδειγμα
Διάστημα εμπιστοσύνης (ΔΕ) Ορισμός 1: «Αν μία σειρά τυχαίων δειγμάτων με n παρατηρήσεις ληφθούν από μία κανονική κατανομή με μέση τιμή μ και γνωστή τυπική απόκλιση σ, και ένα 1-α διάστημα εμπιστοσύνης κατασκευαστεί για την κάθε σειρά δειγμάτων, τότε ένα ποσοστό (1-α) των συνολικών διαστημάτων εμπιστοσύνης θα περιέχει την πραγματική μέση τιμή μ και ένα ποσοστό α δεν θα την περιέχει.» Ορισμός 2: «Υπάρχει 1-α πιθανότητα οτι η πραγματική μέση τιμή θα εμπεριέχεται στο διάστημα εμπιστοσύνης» Το διάστημα εντός του οποίου η πραγματική τιμή κάποιας παραμέτρου αναμένεται να υπάρχει.
Παράδειγμα διαστήματος εμπιστοσύνης Με βάση το παράδειγμά μας, το ανώτερο και κατώτερο 95% όριο εμπιστοσύνης είναι: 7.51 – 2.056(0.266) < μ < (0.266) 6.96 < μ < 8.05 Το διάστημα περιέχει την (πραγματική) μέση τιμή 8.0 και συνεπώς μπορούμε να πούμε οτι η διαφορά y και μ δεν είναι τόσο μεγάλη (σε επίπεδο εμπιστοσύνης 95%). Για n > 30 κάνω χρήση z αντί για t.
Παραδείγματα εντός τάξης Ερώτημα 1 Έστω ότι κατασκευάζω ένα πρότυπο διάλυμα BOD 5 στα 20 mg/L. Στη συνέχεια υλοποιώ 10 μετρήσεις BOD 5 του παραπάνω διαλύματος, οι οποίες είναι 19, 18, 14, 22, 21, 12, 11, 13, 15, 16. Ποίες οι πιθανότητες το δείγμα μου να προέρχεται από ένα πληθυσμό με πραγματική τιμή 20 mg/L. Δουλέψτε με α) λογική υπόθεσης και β) λογική Δ.Ε. Ερώτημα 2 Βρείτε τα διαστήματα εμπιστοσύνης της πραγματικής τιμής (για α = 10%, α=5%, α=1%). Άλλα παραδείγματα από βιβλίο.
Χρήση t-test για σύγκριση μέσων όρων διαφορετικών διεργασιών Στόχος του t-test για 2 πληθυσμούς: Πληθυσμοί όμοιοι ή ανόμοιοι? Στόχος του t-test για 2 δείγματα: Δείγματα προέρχονται από ίδιο ή διαφορετικό πληθυσμό? Δύο τύποι t – test: Το t-test σε ζεύγη (διαφορών) & ανεξάρτητο t-test για δύο μέσους όρους
t-test σε ζεύγη (διαφορών) – paired t Ορίζουμε δ την πραγματική μέση τιμή της διαφοράς μεταξύ των πραγματικών τιμών των μεταβλητών yΑ & yΒ, που αποτελούν τα ζευγάρια των τιμών που αντιστοιχούν σε δύο διαφορετικές τεχνικές (Α & Β), που θέλουμε να συγκρίνουμε. Αν δ = 0, τότε πληθυσμοί όμοιοι και τεχνικές Α & Β δεν διαφέρουν στο τελικό αποτέλεσμα Αν δ ≠ 0, τότε πληθυσμοί ανόμοιοι
Στατιστικές τιμές του δ Μέση τιμή: Διασπορά: Τυπικό σφάλμα: Ελέγχω το διάστημα εμπιστοσύνης της διαφοράς (αν περιέχεται το 0, τότε πληθυσμοί όμοιοι, αν δεν περιέχεται ανόμοιοι)
Παράδειγμα t-test σε ζεύγη Εργαστήριο Μέση τιμή Winkler (W) Ηλεκτρόδιο (H) Διαφορά (W-H) Υπολογίζω διάστημα εμπιστοσύνης (95% επιπ.εμπιστ.) με 13 β.ε. (-0.61 mg/L < δ < mg/L)
Επιρροή μεγέθους μετρήσεων
Παράδειγμα Σε ένα εργοστάσιο βιοξήρανσης αστικών στερεών αποβλήτων με χρόνο παραμονής 15 ημερών, λαμβάνονται δείγματα εισόδου και εξόδου που να αντιστοιχούν στο παραπάνω διάστημα. Γίνονται οι κάτωθι μετρήσεις πτητικών στερεών. Υπάρχει διαφορά? Input (d) Output (d+15) 75%72% 71%69% 71%70% 72%73%
Ανεξάρτητο t-test Έστω ότι έχουμε δύο πληθυσμούς με πραγματικές μέσες τιμές μ 1 και μ 2 και διασπορές σ 1 2 και σ 2 2. Ας ελέγξουμε ο διάστημα εμπιστοσύνης της διαφοράς των μέσων τιμών. Αναμενόμενη Τιμή Διαφοράς (y 1 -y 2 )=μ 1 -μ 2, Διασπορά πληθυσμού 1: V(y 1 )=s 1 2 /n 1 Διασπορά πληθυσμού 2: V(y 2 )=s 2 2 /n 2 Διαφορά διασπορών: V(y 1 -y 2 ) = s 1 2 /n 1 + s 2 2 /n 2
Διασπορά της διαφοράς Var(a + b) = Var(a) + Var(b) Var(a – b) = Var(a) + Var(b)
Εκτίμηση της διαφοράς 2 μέσων όρων Διασπορά της διαφοράς Λαμβάνεται μέση τιμή διασπορών αν είναι ίσες (στάθμιση με β.ε.) Η διασπορά της διαφοράς είναι:
Παράδειγμα ανεξάρτητου t-test ΠηγήΣυγκεντρώσεις υδραργύρου (ppb) Πόλη (n π =13) Ιδιωτικές πηγές (n ιδ =10) y π = ppb y ιδ = ppb s 2 π = ppb 2 s π =0.084 ppb s 2 ιδ = ppb 2 s ιδ =0.087 ppb
Μέση διασπορά Εκτίμηση της διασποράς της διαφοράς
95% διάστημα εμπιστοσύνης της διαφοράς ± (0.036) ± µg/L µg/L < µg/L µg/L a – b < µg/L Διάστημα εμπιστοσύνης περιέχει 0 Νερό πόλεων = Νερό ιδιωτικών πηγών
Σχόλια Μερικές φορές μία διαφορά είναι στατιστικά σημαντική αλλά τόσο μικρή που δεν μας ενδιαφέρει πρακτικά. Στατιστικά σημαντική, αλλά μπορεί να μην έχει πρακτική σημασία.
Έστω οτι οι συγκεντρώσεις των δύο πηγών ύδατος ήταν 0.15 mg/L και 0.17 mg/L και η διαφορά 0.02 mg/L ήταν στατιστικά σημαντική. Θα μας απασχολούσαν οι υψηλές τιμές υδραργύρου και στις 2 περιοχές. Η στατιστική σημαντικότητα της διαφοράς 0.02 mg/L είναι ανούσια. Αυτό μας υπενθυμίζει οτι η «στατιστική σημαντικότητα», που έχει στατιστική έννοια, και η «πρακτική σημαντικότητα» είναι 2 διαφορετικές έννοιες. Σχόλια
Τι θα πει ίσες ή άνισες διασπορές? Ο τρόπος για να δούμε αν οι διασπορές είναι ίσες ή άνισες είναι με χρήση του F τεστ. Αν ο λόγος F = s 1 2 / s 2 2 είναι μεγαλύτερος από την κρίσιμη τιμή F v1,v2,0,05, (με ν 1 =n 1 -1 και ν 2 =n 2 -1 να είναι οι βαθμοί ελευθερίας του δείγματος 1 και 2 αντίστοιχα), τότε θεωρούμε άνισες τις διασπορές και υπολογίζουμε το τυπικό σφάλμα της διαφοράς κάνοντας χρήση του τυπολογίου για άνισες διασπορές (περίπτωση 2, βλέπε συνέχεια).
Ίσες και άνισες διασπορές Περίπτωση 1. Ίσες διασπορές Υπολογίζω την κοινή διασπορά s 2 pool Το τυπικό σφάλμα της διαφοράς των μέσων τιμών είναι τελικά: Οι βαθμοί ελευθερίας είναι: df = (n1 – 1) + (n2 – 1).
Ίσες και άνισες διασπορές (συν.) Περίπτωση 2. Άνισες διασπορές Τυπικό σφάλμα της διαφοράς των μέσων τιμών Οι βαθμοί ελευθερίας (κοντινότερος ακέραιος) είναι: με
Παραδείγματα ανεξάρτητου t-test 1. Θέλουμε να μετρήσουμε το pH μίας μάζας στερεών αποβλήτων. Μία τεχνική που έχει προταθεί για τη μέτρηση αυτή είναι η χρήση λόγου 1:10 (υγρό βάρος στερεού / βάρος απεσταγμένου νερού), ενώ μία άλλη τεχνική αναφέρει απλά τη προσθήκη νερού ώστε να υγρανθεί το στερεό δείγμα και στη συνέχεια μέτρηση του pH. Αποφασίζετε να κάνετε πολλές μετρήσεις σε διάφορα μίγματα γρασιδιού και χαρτιού (συστατικά του οργανικού κλάσματος των αστικών στερεών αποβλήτων), και με τις δύο τεχνικές, ώστε να συγκρίνετε τις δοκιμές. Δηλαδή, ετοιμάζετε 7 δείγματα με λόγο 1:10 και 7 δείγματα με απλή προσθήκη νερού και μετράτε τις τιμές pH με το ίδιο pHμετρο. Δοκιμάστε το t-τεστ σε ζεύγη και το ανεξάρτητο t- test. Τα αποτελέσματα είναι τα εξής: Δείγματα με λόγο 1:10Δείγματα με απλή προσθήκη νερού 5,66,1 5,86,2 5,45,9 5,56,0 5,66,0 5,76,3 5,96,1
Παραδείγματα t-test 2. Μετράω το BOD 5 σε μία λίμνη και σε ένα ρυάκι δίπλα στη λίμνη. Στο τελευταίο γίνεται διάθεση επεξεργασμένων αποβλήτων από μία βιομηχανία αλουμινίου. Μπορώ να αποφανθώ αν η συγκέντρωση αλουμινίου στο ρυάκι είναι μεγαλύτερη ή ίδια με τη συγκέντρωση στη λίμνη. Άρα υπάρχουν ενδείξεις για ρύπανση του ρυακιού? Υπάρχουν διαφοροποιήσεις σε σχέση με το χρόνο? Δεκ -07 Ιαν -08 Φεβ -08 Μαρ -08 Απρ -08 Μαϊ -08 Ιου ν- 08 Ιου λ- 08 Αυγ -08 Σε π- 08 Οκτ- 08 Νοε- 08 Δεκ- 08 Lake Creek
Ανάλυση διασποράς (Analysis of Variance -ANOVA) Χρησιμοποιείται για σύγκριση άνω των 2 διεργασιών. Στόχος να εκτιμήσει αν τα δεδομένα των διεργασιών αυτών προέρχονται από τον ίδιο πληθυσμό (είναι όμοια) ή όχι (είναι ανόμοια) Δεν μας λέει αν η διεργασία Α > διεργασία Β > διεργασία Γ. Απλά μας λέει αν διεργασία Α = διεργασία Β = διεργασία Γ ή αν κάπου ισχύει η ανισότητα Στηρίζεται στη σύγκριση της διασποράς εντός των διεργασιών με τη διασπορά μεταξύ των διεργασιών Αν δεν διαφέρουν οι διεργασίες, τότε η διασπορά εντός των διεργασιών θα είναι όμοια με τη διασπορά μεταξύ των διεργασιών.
Βασικές αρχές ANOVA Διασπορά εντός των διεργασιών (πειραματικό σφάλμα) Διασπορά μεταξύ των διεργασιών Λόγος F = s 2 b / s 2 w, σύγκριση με F vb,vw,a > F vb,vw,a υπάρχουν διαφορές < F vb,vw,a δεν υπάρχουν διαφορές
Παράδειγμα ANOVA
Συγκρίνω το λόγο F (s b 2 /sw 2 ) με την τιμή F v1,v2,0.05. ν 1 = 3-1=2 ν 2 = N – k = (4-1) + (4-1) + (4-1) = 12-3=9. Βάσει του σχετικού πίνακα, F 2,9,0.05 = 4.26 Επειδή: sb 2 /sw 2 = 8.7 > F 2,9,0.05 = 4.26, συμπεραίνω οτι σε 95% επίπεδο εμπιστοσύνης (5% επίπεδο σημαντικότητας) οι διασπορές των μεταξύ με εντός διαφέρουν. Άρα οι διαφορές μεταξύ των μέσων τιμών δεν οφείλονται στο πειραματικό σφάλμα αλλά σε πραγματικές διαφορές. Τελικά, οι μέσες τιμές των 3 διεργασιών ΔΕΝ είναι ίσες. Παρόλα αυτά, δεν μπορώ να συμπεράνω ακόμα ποιά είναι η σχέση μεταξύ των 3 αυτών διεργασιών. Για αυτό το λόγο, πρέπει να κάνω χρήση των δοκιμών Tukey, Dunnett ή απλά να ελέγξω τα διαστήματα εμπιστοσύνης της κάθε διεργασίας.
Παράδειγμα εντός τάξης (συγκεντρώσεις BOD 5 σε 5 λίμνες) Lake 1Lake 2Lake 3Lake 4Clean Lake Υπάρχουν διαφορές μεταξύ των λιμνών?