Μεθοδολογία έρευνας και στατιστική – Δείγμα – Διαφορά μέσων τιμών

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Keller: Stats for Mgmt & Econ, 7th Ed
Advertisements

ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ
Εισαγωγή στην Κοινωνιογλωσσολογία
Καλώς ήρθατε στις Οικονομικές Επιστήμες
ΒΕΣ 06: Προσαρμοστικά Συστήματα στις Τηλεπικοινωνίες © 2007 Nicolas Tsapatsoulis Θεωρία Στοχαστικών Σημάτων: Στοχαστικές διεργασίες, Περιγραφή εργοδικών.
ΚΕΦΑΛΑΙΟ 7 ΔΕΙΓΜΑΤΟΛΗΨΙΑ
ΚΕΦΑΛΑΙΟ 5 ΧΩΡΙΚΗ ΔΕΙΓΜΑΤΟΛΗΨΙΑ
ΚΕΦΑΛΑΙΟ 5 ΧΩΡΙΚΗ ΔΕΙΓΜΑΤΟΛΗΨΙΑ
ΚΕΦΑΛΑΙΟ 6 ΓΕΩΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΙ ΚΑΙ ΤΕΧΝΙΚΕΣ: ΣΗΜΕΙΑ
ΚΑΤΑΝΟΜΕΣ ΠΙΘΑΝΟΤΗΤΩΝ ΔΙΑΚΡΙΤΩΝ ΚΑΙ ΣΥΝΕΧΩΝ ΤΥΧΑΙΩΝ ΜΕΤΑΒΛΗΤΩΝ
Πηγή: Βιοστατιστική [Β.Γ. Σταυρινός, Δ.Β. Παναγιωτάκος]
ΣΤΑΤΙΣΤΙΚΗ ΕΠΑΓΩΓΗ: ΣΗΜΕΙΑΚΕΣ ΕΚΤΙΜΗΣΕΙΣ & ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ
ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ
Αρχές επαγωγικής στατιστικής
Τι είναι η Κατανομή (Distribution)
Στατιστική – Πειραματικός Σχεδιασμός Βασικά. Πληθυσμός – ένα μεγάλο σετ από Ν παρατηρήσεις (πιθανά δεδομένα) από το οποίο το δείγμα λαμβάνεται. Δείγμα.
Πειραματικές Μονάδες Ένα φυτό Ένα πειραματικό τεμάχιο (plot)
Σχεδιασμός των Μεταφορών Ενότητα #5: Δειγματοληψία – Sampling. Δρ. Ναθαναήλ Ευτυχία Πολυτεχνική Σχολή Τμήμα Πολιτικών Μηχανικών.
Διαστήματα Εμπιστοσύνης α) για τη μέση τιμή β) για ένα ποσοστό.
Εργαστήριο Στατιστικής (7 ο Εργαστήριο) Συσχετίσεις μεταξύ μεταβλητών (ερωτήσεων)
 Ο Νόμος των Μεγάλων Αριθμών είναι το θεώρημα που περιγράφει τον τρόπο με τον οποίο συμπεριφέρεται ένα συγκεκριμένο πείραμα, όταν ο αριθμός των επαναλήψεων.
ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ Γ. Σιδερίδης. ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ- ΜΕΘΟΔΟΛΟΓΙΑΣ Η στατιστική ως επιστήμη.....γιατί ακριβώς τη χρειαζόμαστε; Η στατιστική ως επιστήμη.....γιατί.
Αρχές επαγωγικής στατιστικής Τμήμα :Νοσηλευτικής Πατρών Διδάσκουσα: Παναγιώταρου Αλίκη Διάλεξη 9.
Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική Ενότητα 2: Επαγωγική Στατιστική Βασίλης Γιαλαμάς Σχολή Επιστημών της Αγωγής Τμήμα Εκπαίδευσης και Αγωγής.
Έλεγχος υποθέσεων για αναλογίες. Εάν έχουμε αναλογίες σχετικά με ένα συγκεκριμένο χαρακτηριστικό σε έναν πληθυσμό τότε κάνουμε ελέγχους υποθέσεων για.
Στατιστικές Υποθέσεις (Ερευνητικά Ερωτήματα / Υποθέσεις προς επιβεβαίωση)
Διαστήματα εμπιστοσύνης – δοκιμή t Δ. Κομίλης. Είναι διαφορετικές οι διεργασίες?
ΕΛΕΓΧΟΙ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ Η πιο συνηθισμένη στατιστική υπόθεση είναι η λεγόμενη Υπόθεση Μηδέν H 0. –Υποθέτουμε ότι η εμφανιζόμενη διαφορά μεταξύ μιας.
Έλεγχος Υποθέσεων Ο έλεγχος υποθέσεων αναφέρεται στη διαδικασία αποδοχής ή απόρριψης μιας στατιστικής υπόθεσης, Κατά την εκτέλεση ενός στατιστικού ελέγχου,
Διαστήματα Εμπιστοσύνης για αναλογίες. Ποιοτικές μεταβλητές χαρακτηρίζονται εκείνες οι οποίες τα στοιχεία τους δεν έχουν μετρηθεί με κάποιον τρόπο – οι.
Διάστημα εμπιστοσύνης για τη διακύμανση. Υπολογισμός Διακυμάνσεως και Τυπικής Αποκλίσεως Όταν τα δεδομένα αφορούν πληθυσμό – μ είναι ο μέσος του πληθυσμού.
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΠΙΝΑΚΕΣ ΚΑΙ ΔΙΑΓΡΑΜΜΑΤΑ Πηγή: Βιοστατιστική [Σταυρινός / Παναγιωτάκος] Βιοστατιστική [Τριχόπουλος / Τζώνου / Κατσουγιάννη]
Στατιστική Ανάλυση. Ποιοτικές και ποσοτικές μέθοδοι Ποιες είναι οι διαφορές; Πότε χρησιμοποιούνται; Πότε κάνω στατιστική ανάλυση;
ΔΙΑΛΕΞΗ 11η Ποσοτική έρευνα υγείας
Τι είναι «διάστημα» (1). Διαστήματα Εμπιστοσύνης α) για τη μέση τιμή (ποσοτικά) β) για ένα ποσοστό (ποιοτικά)
Πηγή: ‘Βιοστατιστική’ [Β.Γ. Σταυρινός, Δ.Β.Παναγιωτάκος]
Έλεγχος υποθέσεων με την χ2 «χι -τετράγωνο» κατανομή
ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΔΙΑΣΠΟΡΑΣ - ΑΣΥΜΜΕΤΡΙΑΣ - ΚΥΡΤΩΣΕΩΣ
Επικρατούσα τιμή. Σε περιπτώσεις, που διαφορετικές τιμές μιας μεταβλητής επαναλαμβάνονται περισσότερο από μια φορά, η επικρατούσα τιμή είναι η συχνότερη.
Στατιστική Επαγωγή Ένα τεράστιο μέρος της έρευνας διενεργείται μέσω της ανάλυσης δειγμάτων προκειμένου να εξάγουμε συμπεράσματα για τον πληθυσμό. Αυτό.
Στατιστικές Υποθέσεις
Βασική Στατιστική Επεξεργασία. Ερμηνεία Δεδομένων.
Μεθοδολογία έρευνας και στατιστική – Δείγμα –Κατανομές
Δειγματοληψία Στην Επαγωγική στατιστική οδηγούμαστε σε συμπεράσματα και αποφάσεις για τις παραμέτρους ενός πληθυσμού με τη βοήθεια ενός τυχαίου δείγματος.
Μέτρα μεταβλητότητας ή διασποράς
Επαγωγική Στατιστική Εκτίμηση και Έλεγχος μέσων τιμών Χαράλαμπος Γναρδέλλης Τμήμα Τεχνολογίας Αλιείας και Υδατοκαλλιεργειών.
Εκτιμητική: σημειακές εκτιμήσεις παραμέτρων
Έλεγχος Υπόθεσης για το μέσο ενός πληθυσμού
Έλεγχος της διακύμανσης
Μέθοδος ελαχίστων τετραγώνων – Μεθοδολογία παλινδρόμησης
Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική
Έλεγχος για τη διαφορά μέσων τιμών μ1 και μ2 δύο πληθυσμών
Μεθοδολογία έρευνας και στατιστική – Δείγμα – Πληθυσμός
Άσκηση 2-Περιγραφικής Στατιστικής
Κανονικότητα Μια από τις υποθέσεις του υποδείγματος της γραμμικής παλινδρόμησης είναι ότι ο διαταρακτικός όρος κατανέμεται κανονικά με μέσο μηδέν και σταθερή.
5o Μάθημα: Το τεστ χ2 Κέρκυρα.
Έλεγχος υποθέσεων με την χ2 «χι -τετράγωνο» κατανομή
Πειραματικές Μονάδες Ένα φυτό Ένα πειραματικό τεμάχιο (plot)
ΣΤΑΤΙΣΤΙΚΗ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ
ΚΑΤΑΝΟΜΕΣ Δ. Τσιπλακίδης
ΣΤΑΤΙΣΤΙΚΗ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ
Στατιστικές Υποθέσεις
Τι είναι «διάστημα» (1). Διαστήματα Εμπιστοσύνης α) για τη μέση τιμή (ποσοτικά) β) για ένα ποσοστό (ποιοτικά)
ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ ΓΙΑ ΤΗ ΜΕΣΗ ΤΙΜΗ
ΤΕΙ Αθήνας Βιοστατιστική (Θ)
Κεφάλαιο 9 Βασικές Αρχές Του Ελέγχου Υποθέσεων: Έλεγχοι Ενός Δείγματος.
Ανάλυση Διασποράς (ANOVA) Κατά Έναν Παράγοντα
ΕΛΕΓΧΟΣ ΑΝΕΞΑΡΤΗΣΙΑΣ ΠΟΙΟΤΙΚΩΝ ΜΕΤΑΒΛΗΤΩΝ
Ανάλυση διακύμανσης Τι είναι η ανάλυση διακύμανσης
Μεταγράφημα παρουσίασης:

Μεθοδολογία έρευνας και στατιστική – Δείγμα – Διαφορά μέσων τιμών Μεθοδολογία έρευνας και στατιστική – Δείγμα – Διαφορά μέσων τιμών Αν. Καθηγητής ΔΠΘ Δ. Κομίλης Κυριακή 5 Μαρτίου 16:00-19:00 Ώρα για εξ’ αποστάσεως συνεργασία Τετάρτη 13:00-14:00 Μέσο επικοινωνίας: Τηλέφωνο 25410 79391 ή skype: dkomilis

Είναι διαφορετικές οι διεργασίες? 9/23/2017 Είναι διαφορετικές οι διεργασίες?

Στατιστική εκτίμηση – κάνε μία εκτίμηση της πραγματικής τιμής από πειραματικά δεδομένα Δύο μέθοδοι για στατιστικές εκτιμήσεις Δοκιμή σημαντικότητας (Τεστ υπόθεσης) Δοκιμή της υπόθεσης 0 Πραγματική συγκέντρωση του πληθυσμού είναι 8.00 mg/L H0: h = 8.00 Επίπεδο σημαντικότητας = a a = Ρίσκο της κατά λάθος απόρριψης της υπόθεσης 0 Διάστημα εμπιστοσύνης Προτιμότερη δοκιμή

9/23/2017 Ορισμός υποθέσεων H0, Ηε Τα δείγματα Α και Β προέρχονται από τον ίδιο πληθυσμό (μηδενική υπόθεση H0) Τα δείγματα Α και Β δεν προέρχονται από τον ίδιο πληθυσμό (εναλλακτική υπόθεση Hε) Δηλαδή, πρακτικά κάνουμε τις δύο υποθέσεις: Η0: Διεργασία Α = Διεργασία Β Ηε: Διεργασία Α ≠ Διεργασία Β

Διαφοροποίηση υποθέσεων 9/23/2017 Διαφοροποίηση υποθέσεων Μηδενική υπόθεση Η0 (null hypothesis): «η πραγματική μέση τιμή του πληθυσμού είναι 8.0, δηλ. Η0: μ=8.0 mg/L». 1η εναλλακτική υπόθεση Ηε: μ < 8.0 ή μ > 8.0 2η εναλλακτική υπόθεση Ηε: μ ≠ 8.0, δηλαδή μ < 8.0 και μ > 8.0. Επίπεδο σημαντικότητας (συνήθως ορίζεται ως α) είναι ίσο με κάποιο ποσοστό (π.χ. α = 5%) και αποτελεί την πιθανότητα της κατά λάθος απόρριψης της μηδενικής υπόθεσης ή (1-α)% είναι η πιθανότητα που ισχύει η μηδενική υπόθεση.

Τεστ σημαντικότητας (ή τεστ υπόθεσης) 9/23/2017 Τεστ σημαντικότητας (ή τεστ υπόθεσης) «Πόσο πιθανό είναι να έχουμε μία μέση τιμή δείγματος ίση με 7.51 mg/L από ένα πληθυσμό με γνωστή μέση τιμή πληθυσμού ίση με 8.0 mg/L». ή «Αν η μέση τιμή του δείγματος μας με 27 παρατηρήσεις είναι 7.51 mg/L, τότε ποία η πιθανότητα η πραγματική μέση τιμή του πληθυσμού να είναι ίση με 8.0 mg/L» Ανάλογα με την απάντησή μας, μπορούμε να αποφανθούμε αν το δείγμα όντως αντιπροσωπεύει τον πληθυσμό ή όχι.

t-statistic E(statistic) = αναμενόμενη τιμή της στατιστικής τιμής, δηλ. τιμή πληθυσμού V(statistic) = διασπορά της στατιστικής εκτίμησης. Εκτίμηση του t (t-statistic) με n βαθμούς ελευθερίας και επίπεδο σημαντικότητας a: tn,a

Συνάρτηση t για έλεγχο υποθέσεων 9/23/2017 Συνάρτηση t για έλεγχο υποθέσεων Τιμή t: Χρήση στατιστικής τιμής (statistic) t γιατί χρησιμοποιούμε την κανονική κατανομή με πραγματική τιμή μ και με διασπορά ίση με τη διασπορά του μέσου όρου, που είναι η σ2/n

9/23/2017 Παράδειγμα δοκιμής t Το δείγμα των 27 μετρήσεων νιτρικών έχει μέση τιμή = 7.51, και τυπική απόκλιση δείγματος ίση με s=1.38 mg/L (μη ξεχνάτε οτι οι μονάδες είναι οι ίδιες για μ και s αλλά όχι για τη διασπορά s2). To τυπικό σφάλμα της μέσης τιμής είναι ίσο με sў = 0.27 mg/L (βλέπετε οτι sў = s / n0.5 < s). Για τα δεδομένα των νιτρικών, η μέση τιμή του δείγματος είναι 7.51 mg/L που απέχει αρκετά από την πραγματική τιμή των 8.0 mg/L. Στόχος είναι να δούμε, ποιές είναι οι πιθανότητες μία μέση τιμή ίση με 7.51 να μετρηθεί στο εν λόγω εργαστήριο. Κάνουμε χρήση της συνάρτησης t:

Παράδειγμα δοκιμής t (συν.) 9/23/2017 Παράδειγμα δοκιμής t (συν.) -1.842 είναι περίπου στο 4% (δηλ. επιφάνεια αριστερά της καμπύλης ισούται με 0.04). Μικρή ή μεγάλη πιθανότητα? Εξαρτάται από το όριο που θέτω. Ελέγχω το t26,0.05. Είναι -1.706. Συγκρίνω με -1.842 < -1.706. Άρα η τιμή 7.51 έχει πιθανότητα μικρότερη του 5% να ανήκει στον πληθυσμό με πραγματική μέση τιμή 8.0. Πρακτικά αυτό σημαίνει οτι από τις 100 δειγματοληψίες διαφόρων δειγμάτων από τον πληθυσμό με πραγματική μέση τιμή 8.0, οι 95 τουλάχιστον θα δίνουν μέση τιμή μεγαλύτερη του 7.51. Διαφοροποίηση μεταξύ Ηα: μ < 8.0 και Ηα: μ ≠ 8.0. Όταν Ηα: μ ≠ 8.0, τότε διαιρώ α / 2, γιατί ελέγχω και αριστερά και δεξιά της καμπύλης. Δηλαδή, πρέπει εμβαδό που αντιστοιχεί στο π.χ. 5%, να κατανέμεται ομοιόμορφα και στην αριστερή και στην δεξιά «ουρά» της καμπύλης (άρα είναι 2.5% στην κάθε πλευρά).

Παράδειγμα Δεδομένα νιτρικών. Ελέγξτε την υπόθεση ότι h = 8.00, σε a = 0.05 επίπεδο σημαντικότητας. Μηδενική υπόθεση: Ho: h = 8.0 (Ha: h < 8.0) Δοκιμή μίας πλευράς.

Πιθανότητα επιφάνειας ουράς Βαθμοί a = 0.1 0.05 0.025 0.01 0.005 ελευθερίας n a = 0.05 n = 26 10 1.372 1.812 2.228 2.764 3.169 20 1.325 1.725 2.086 2.528 2.845 25 1.316 1.708 2.06 2.485 2.787 t = -1.706 26 1.315 1.706 2.056 2.479 2.779 27 1.314 1.703 2.052 2.473 2.771 40 1.303 1.684 2.021 2.423 2.704 ∞ 1.282 1.645 1.96 2.326 2.576 Λόγω συμμετρίας, ο πίνακας αυτός ισχύει για θετικές και αρνητικές τιμές. P(t < –1.842) ≈ 0.04

Λάβε από τον πίνακα την τιμή του t με: a = 0.05 και n = 26 Η μηδενική υπόθεση θα απορριφθεί αν το υπολογιζόμενο t είναι μικρότερο από την τιμή t που υπολογίζεται με πιθανότητα a = 0.05. Λάβε από τον πίνακα την τιμή του t με: a = 0.05 και n = 26 t26, 0.05 = -1.706 Υπολογιζόμενο: t = –1.853 που είναι μικρότερο (μεγαλύτερο σε απόλυτη τιμή) από την τιμή του t σε α = 0.05, δηλ. –1.706. Συμπέρασμα: Απέρριψε τη μηδενική υπόθεση (όταν απόλυτο t μεγαλύτερο από απόλυτο tκρίσιμο). Ισχύει η εναλλακτική υπόθεση.

Να ελέγξετε τις παρακάτω μηδενικές υποθέσεις Παράδειγμα 20 Τιμές: 29, 44, 12, 53, 21, 34, 39, 25, 48, 23, 17, 24, 27, 32, 34, 15, 42, 21, 28, 37 Να ελέγξετε τις παρακάτω μηδενικές υποθέσεις Ηο = 45 με Ηε < 45 (α = 10%). Ηο = 30 με Ηε ≠ 30 (α = 5%).

Διάστημα εμπιστοσύνης (ΔΕ) 9/23/2017 Διάστημα εμπιστοσύνης (ΔΕ) Ορισμός 1: «Αν μία σειρά τυχαίων δειγμάτων με n παρατηρήσεις ληφθούν από μία κανονική κατανομή με μέση τιμή μ και γνωστή τυπική απόκλιση σ, και ένα 1-α διάστημα εμπιστοσύνης κατασκευαστεί για την κάθε σειρά δειγμάτων, τότε ένα ποσοστό (1-α) των συνολικών διαστημάτων εμπιστοσύνης θα περιέχει την πραγματική μέση τιμή μ και ένα ποσοστό α δεν θα την περιέχει.» Ορισμός 2: «Υπάρχει 1-α πιθανότητα οτι η πραγματική μέση τιμή θα εμπεριέχεται στο διάστημα εμπιστοσύνης» Το διάστημα εντός του οποίου η πραγματική τιμή κάποιας παραμέτρου αναμένεται να υπάρχει.

Παράδειγμα διαστήματος εμπιστοσύνης 9/23/2017 Παράδειγμα διαστήματος εμπιστοσύνης Με βάση το παράδειγμά μας, το ανώτερο και κατώτερο 95% όριο εμπιστοσύνης είναι: 7.51 – 2.056(0.266) < μ < 7.51+2.056(0.266) 6.96 < μ < 8.05 Το διάστημα περιέχει την (πραγματική) μέση τιμή 8.0 και συνεπώς μπορούμε να πούμε οτι η διαφορά y και μ δεν είναι τόσο μεγάλη (σε επίπεδο εμπιστοσύνης 95%). Για n > 30 κάνω χρήση z αντί για t.

Παραδείγματα εντός τάξης 9/23/2017 Παραδείγματα εντός τάξης Ερώτημα 1 Έστω ότι κατασκευάζω ένα πρότυπο διάλυμα BOD5 στα 20 mg/L. Στη συνέχεια υλοποιώ 10 μετρήσεις BOD5 του παραπάνω διαλύματος, οι οποίες είναι 19, 18, 14, 22, 21, 12, 11, 13, 15, 16. Ποίες οι πιθανότητες το δείγμα μου να προέρχεται από ένα πληθυσμό με πραγματική τιμή 20 mg/L. Δουλέψτε με α) λογική υπόθεσης και β) λογική Δ.Ε. Ερώτημα 2 Βρείτε τα διαστήματα εμπιστοσύνης της πραγματικής τιμής (για α = 10%, α=5%, α=1%). Άλλα παραδείγματα από βιβλίο.

Χρήση t-test για σύγκριση μέσων όρων διαφορετικών διεργασιών 9/23/2017 Χρήση t-test για σύγκριση μέσων όρων διαφορετικών διεργασιών Στόχος του t-test για 2 πληθυσμούς: Πληθυσμοί όμοιοι ή ανόμοιοι? Στόχος του t-test για 2 δείγματα: Δείγματα προέρχονται από ίδιο ή διαφορετικό πληθυσμό? Δύο τύποι t – test: Το t-test σε ζεύγη (διαφορών) & ανεξάρτητο t-test για δύο μέσους όρους

t-test σε ζεύγη (διαφορών) – paired t 9/23/2017 t-test σε ζεύγη (διαφορών) – paired t Ορίζουμε δ την πραγματική μέση τιμή της διαφοράς μεταξύ των πραγματικών τιμών των μεταβλητών yΑ & yΒ, που αποτελούν τα ζευγάρια των τιμών που αντιστοιχούν σε δύο διαφορετικές τεχνικές (Α & Β), που θέλουμε να συγκρίνουμε. Αν δ = 0, τότε πληθυσμοί όμοιοι και τεχνικές Α & Β δεν διαφέρουν στο τελικό αποτέλεσμα Αν δ ≠ 0, τότε πληθυσμοί ανόμοιοι

Στατιστικές τιμές του δ 9/23/2017 Στατιστικές τιμές του δ Μέση τιμή: Διασπορά: Τυπικό σφάλμα: Ελέγχω το διάστημα εμπιστοσύνης της διαφοράς (αν περιέχεται το 0, τότε πληθυσμοί όμοιοι, αν δεν περιέχεται ανόμοιοι)

(-0.61 mg/L < δ < -0.04 mg/L) 9/23/2017 Παράδειγμα t-test σε ζεύγη Εργαστήριο 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Μέση τιμή Winkler (W) 1.2 1.4 1.3 2.0 1.9 1.1 1.8 1.0 Ηλεκτρόδιο (H) 1.6 2.3 1.7 2.2 Διαφορά (W-H) -0.4 0.0 -0.5 -1.0 -0.8 0.6 -0.6 -0.1 -0.7 -0.33 Υπολογίζω διάστημα εμπιστοσύνης (95% επιπ.εμπιστ.) με 13 β.ε. (-0.61 mg/L < δ < -0.04 mg/L)

Επιρροή μεγέθους μετρήσεων 9/23/2017 Επιρροή μεγέθους μετρήσεων

9/23/2017 Παράδειγμα Σε ένα εργοστάσιο βιοξήρανσης αστικών στερεών αποβλήτων με χρόνο παραμονής 15 ημερών, λαμβάνονται δείγματα εισόδου και εξόδου που να αντιστοιχούν στο παραπάνω διάστημα. Γίνονται οι κάτωθι μετρήσεις πτητικών στερεών. Υπάρχει διαφορά? Input (d) Output (d+15) 75% 72% 71% 69% 70% 73%

9/23/2017 Ανεξάρτητο t-test Έστω ότι έχουμε δύο πληθυσμούς με πραγματικές μέσες τιμές μ1 και μ2 και διασπορές σ12 και σ22. Ας ελέγξουμε ο διάστημα εμπιστοσύνης της διαφοράς των μέσων τιμών. Αναμενόμενη Τιμή Διαφοράς (y1-y2)=μ1-μ2 , Διασπορά πληθυσμού 1: V(y1)=s12/n1 Διασπορά πληθυσμού 2: V(y2)=s22/n2 Διαφορά διασπορών: V(y1-y2) = s12/n1 + s22/n2

Διασπορά της διαφοράς Var(a + b) = Var(a) + Var(b)

Εκτίμηση της διαφοράς 2 μέσων όρων Διασπορά της διαφοράς Λαμβάνεται μέση τιμή διασπορών αν είναι ίσες (στάθμιση με β.ε.) Η διασπορά της διαφοράς είναι:

Συγκεντρώσεις υδραργύρου (ppb) 9/23/2017 Παράδειγμα ανεξάρτητου t-test Πηγή Συγκεντρώσεις υδραργύρου (ppb) Πόλη (nπ=13) 0.34 0.18 0.13 0.09 0.16 0.10 0.14 0.26 0.06 0.07 Ιδιωτικές πηγές (nιδ=10) 0.19 0.32 0.08 0.05 yπ = 0.157 ppb yιδ = 0.151 ppb s2π=0.0071 ppb2 sπ=0.084 ppb s2ιδ=0.0076 ppb2 sιδ=0.087 ppb

Μέση διασπορά Εκτίμηση της διασποράς της διαφοράς

95% διάστημα εμπιστοσύνης της διαφοράς 0.006 ± 2.080 (0.036) 0.006 ± 0.075 µg/L -0.069 µg/L < ha – hb < 0.081 µg/L Διάστημα εμπιστοσύνης περιέχει 0 Νερό πόλεων = Νερό ιδιωτικών πηγών

Σχόλια Μερικές φορές μία διαφορά είναι στατιστικά σημαντική αλλά τόσο μικρή που δεν μας ενδιαφέρει πρακτικά. Στατιστικά σημαντική, αλλά μπορεί να μην έχει πρακτική σημασία.

Σχόλια Έστω οτι οι συγκεντρώσεις των δύο πηγών ύδατος ήταν 0.15 mg/L και 0.17 mg/L και η διαφορά 0.02 mg/L ήταν στατιστικά σημαντική. Θα μας απασχολούσαν οι υψηλές τιμές υδραργύρου και στις 2 περιοχές. Η στατιστική σημαντικότητα της διαφοράς 0.02 mg/L είναι ανούσια. Αυτό μας υπενθυμίζει οτι η «στατιστική σημαντικότητα», που έχει στατιστική έννοια, και η «πρακτική σημαντικότητα» είναι 2 διαφορετικές έννοιες.

Τι θα πει ίσες ή άνισες διασπορές? 9/23/2017 Τι θα πει ίσες ή άνισες διασπορές? Ο τρόπος για να δούμε αν οι διασπορές είναι ίσες ή άνισες είναι με χρήση του F τεστ. Αν ο λόγος F = s12 / s22 είναι μεγαλύτερος από την κρίσιμη τιμή Fv1,v2,0,05, (με ν1=n1-1 και ν2=n2-1 να είναι οι βαθμοί ελευθερίας του δείγματος 1 και 2 αντίστοιχα), τότε θεωρούμε άνισες τις διασπορές και υπολογίζουμε το τυπικό σφάλμα της διαφοράς κάνοντας χρήση του τυπολογίου για άνισες διασπορές (περίπτωση 2, βλέπε συνέχεια).

Περίπτωση 1. Ίσες διασπορές 9/23/2017 Ίσες και άνισες διασπορές Περίπτωση 1. Ίσες διασπορές Υπολογίζω την κοινή διασπορά s2pool Το τυπικό σφάλμα της διαφοράς των μέσων τιμών είναι τελικά: Οι βαθμοί ελευθερίας είναι: df = (n1 – 1) + (n2 – 1).

Περίπτωση 2. Άνισες διασπορές 9/23/2017 Ίσες και άνισες διασπορές (συν.) Περίπτωση 2. Άνισες διασπορές Τυπικό σφάλμα της διαφοράς των μέσων τιμών Οι βαθμοί ελευθερίας (κοντινότερος ακέραιος) είναι: με

Δείγματα με απλή προσθήκη νερού 9/23/2017 Παραδείγματα ανεξάρτητου t-test 1. Θέλουμε να μετρήσουμε το pH μίας μάζας στερεών αποβλήτων. Μία τεχνική που έχει προταθεί για τη μέτρηση αυτή είναι η χρήση λόγου 1:10 (υγρό βάρος στερεού / βάρος απεσταγμένου νερού), ενώ μία άλλη τεχνική αναφέρει απλά τη προσθήκη νερού ώστε να υγρανθεί το στερεό δείγμα και στη συνέχεια μέτρηση του pH. Αποφασίζετε να κάνετε πολλές μετρήσεις σε διάφορα μίγματα γρασιδιού και χαρτιού (συστατικά του οργανικού κλάσματος των αστικών στερεών αποβλήτων), και με τις δύο τεχνικές, ώστε να συγκρίνετε τις δοκιμές. Δηλαδή, ετοιμάζετε 7 δείγματα με λόγο 1:10 και 7 δείγματα με απλή προσθήκη νερού και μετράτε τις τιμές pH με το ίδιο pHμετρο. Δοκιμάστε το t-τεστ σε ζεύγη και το ανεξάρτητο t-test. Τα αποτελέσματα είναι τα εξής: Δείγματα με λόγο 1:10 Δείγματα με απλή προσθήκη νερού 5,6 6,1 5,8 6,2 5,4 5,9 5,5 6,0 5,7 6,3

9/23/2017 Παραδείγματα t-test 2. Μετράω το BOD5 σε μία λίμνη και σε ένα ρυάκι δίπλα στη λίμνη. Στο τελευταίο γίνεται διάθεση επεξεργασμένων αποβλήτων από μία βιομηχανία αλουμινίου. Μπορώ να αποφανθώ αν η συγκέντρωση αλουμινίου στο ρυάκι είναι μεγαλύτερη ή ίδια με τη συγκέντρωση στη λίμνη. Άρα υπάρχουν ενδείξεις για ρύπανση του ρυακιού? Υπάρχουν διαφοροποιήσεις σε σχέση με το χρόνο? Δεκ-07 Ιαν-08 Φεβ-08 Μαρ-08 Απρ-08 Μαϊ-08 Ιουν-08 Ιουλ-08 Αυγ-08 Σεπ-08 Οκτ-08 Νοε-08 Δεκ-08 Lake 56 65 66 80 83 75 55 45 50 90 43 Creek 53 60 78 67 52 68

Ανάλυση διασποράς (Analysis of Variance -ANOVA) 9/23/2017 Ανάλυση διασποράς (Analysis of Variance -ANOVA) Χρησιμοποιείται για σύγκριση άνω των 2 διεργασιών. Στόχος να εκτιμήσει αν τα δεδομένα των διεργασιών αυτών προέρχονται από τον ίδιο πληθυσμό (είναι όμοια) ή όχι (είναι ανόμοια) Δεν μας λέει αν η διεργασία Α > διεργασία Β > διεργασία Γ. Απλά μας λέει αν διεργασία Α = διεργασία Β = διεργασία Γ ή αν κάπου ισχύει η ανισότητα Στηρίζεται στη σύγκριση της διασποράς εντός των διεργασιών με τη διασπορά μεταξύ των διεργασιών Αν δεν διαφέρουν οι διεργασίες, τότε η διασπορά εντός των διεργασιών θα είναι όμοια με τη διασπορά μεταξύ των διεργασιών.

Βασικές αρχές ANOVA > Fvb,vw,a υπάρχουν διαφορές 9/23/2017 Βασικές αρχές ANOVA Διασπορά εντός των διεργασιών (πειραματικό σφάλμα) Διασπορά μεταξύ των διεργασιών > Fvb,vw,a υπάρχουν διαφορές Λόγος F = s2b / s2w, σύγκριση με Fvb,vw,a < Fvb,vw,a δεν υπάρχουν διαφορές

9/23/2017 Παράδειγμα ANOVA

ν2 = N – k = (4-1) + (4-1) + (4-1) = 12-3=9. 9/23/2017 Παράδειγμα ANOVA Συγκρίνω το λόγο F (sb2/sw2) με την τιμή Fv1,v2,0.05. ν1 = 3-1=2 ν2 = N – k = (4-1) + (4-1) + (4-1) = 12-3=9. Βάσει του σχετικού πίνακα, F2,9,0.05 = 4.26 Επειδή: sb2/sw2 = 8.7 > F2,9,0.05 = 4.26, συμπεραίνω οτι σε 95% επίπεδο εμπιστοσύνης (5% επίπεδο σημαντικότητας) οι διασπορές των μεταξύ με εντός διαφέρουν. Άρα οι διαφορές μεταξύ των μέσων τιμών δεν οφείλονται στο πειραματικό σφάλμα αλλά σε πραγματικές διαφορές. Τελικά, οι μέσες τιμές των 3 διεργασιών ΔΕΝ είναι ίσες. Παρόλα αυτά, δεν μπορώ να συμπεράνω ακόμα ποιά είναι η σχέση μεταξύ των 3 αυτών διεργασιών. Για αυτό το λόγο, πρέπει να κάνω χρήση των δοκιμών Tukey, Dunnett ή απλά να ελέγξω τα διαστήματα εμπιστοσύνης της κάθε διεργασίας.

Υπάρχουν διαφορές μεταξύ των λιμνών? 9/23/2017 Παράδειγμα εντός τάξης (συγκεντρώσεις BOD5 σε 5 λίμνες) Lake 1 Lake 2 Lake 3 Lake 4 Clean Lake 56 45 55 40 67 87 78 33 23 34 90 12 43 37 36 76 32 88 66 47 110 Υπάρχουν διαφορές μεταξύ των λιμνών?