Στατιστικές Υποθέσεις (Ερευνητικά Ερωτήματα / Υποθέσεις προς επιβεβαίωση)
Περίπτωση Α Υπάρχουν διαφορές ανάμεσα σε δύο η περισσότερες ομάδες? (π.χ. δίνουμε δύο λιπάσματα σε κάποιες φυτα. Υπάρχει διαφορά στο μήκος βλαστού ανάμεσα στα δύο λιπάσματα;) ή (αναπτύσσουμε ντομάτες σε δύο θερμοκρασίες. Υπάρχει διαφορά στη βάρος ανάμεσα στις δύο θερμοκρασίες;)
Παράδειγμα 1 Ισχυριζόμαστε πως το λίπασμα Α είναι καλύτερο από το Λίπασμα Β Πήραμε δύο δείγματα (Α/Β) και μετρήσαμε παραγωγή σε gr Π.χ. σε 25 φυτά δόθηκε το Α και σε 25 φυτά το Β και βρήκαμε Μέση τιμή Α (στο δείγμα) = 14,9 gr Μέση τιμή B(στο δείγμα) = 10,4 gr Τι συμπέρασμα βγάζουμε?
Παρατηρούμε μια ΔΙΑΦΟΡΑ (ΣΤΑ ΔΕΙΓΜΑΤΑ) Το μέσο βάρος καρπών δεν είναι το ίδιο (ΣΤΑ ΔΕΙΓΜΑΤΑ) Φαίνεται πως το λίπασμα Α έχει μια υπεροχή σε σχέση με το Β (ΣΤΑ ΔΕΙΓΜΑΤΑ)
Ερώτηση: Αυτά που παρατηρήσαμε στα δείγματα είναι τυχαία; (η διαφορά που βρήκαμε ανάμεσα στα λιπάσματα είναι τυχαία;), δηλ. αν κάναμε το πείραμα με άλλα φυτά θα βρίσκαμε άλλα αποτελέσματα; Ή μήπως ΥΠΑΡΧΟΥΝ πράγματι διαφορές και στους πληθυσμούς?
Ο αριθμός p Στη Στατιστική υπάρχει ένα «μαγικό» νούμερο, που μας δίνει την ΠΙΘΑΝΟΤΗΤΑ να είναι οι διαφορές τυχαίες. p-value (τιμή p) (στο EXCEL επίσης αναφέρεται ως p)
Κανόνας: Αν το p<0,05 (πιο μικρό από το 5%) τότε οι διαφορές ΔΕΝ είναι τυχαίες Δηλαδή οι διαφορές που βρήκαμε στα δείγματα, επιβεβαιώνονται πιθανότατα και στους πληθυσμούς (π.χ. τα λιπάσματα δίνουν διαφορά στην παραγωγή ή την ανάπτυξη των φυτών) Η πιθανότητα να έχουμε κάνει λάθος είναι p
Διαδικασίες (1.Ποσοτικά Δεδομένα) Αν θέλουμε να συγκρίνουμε τις μέσες τιμές 2 ομάδων μεταξύ τους, χρησιμοποιούμε t-test (έλεγχος t) Αν θέλουμε να συγκρίνουμε μέσες τιμές περισσότερων από 2 ομάδων μεταξύ τους, χρησιμοποιούμε ANOVA (Ανάλυση Διακύμανσης – Analysis of Variance) Συμπέρασμα: πάντα με τον ίδιο τρόπο: Αν p<0,05, τότε οι ομάδες διαφέρουν
t-test Ανεξάρτητα δείγματα Συσχετισμένα (ανά ζεύγη) δείγματα Τα δύο δείγματα παίρνονται ανεξάρτητα και τυχαία από τους δύο πληθυσμούς Α και Β Προϋποθέτει ίσες διακυμάνσεις στους δύο πληθυσμούς Δημιουργούμε ζευγαρωτές παρατηρήσεις Δηλαδή σε κάθε πειρατική μονάδα (φυτό π.χ.) έχουμε δύο μετρήσεις, την Α και την Β.
Παράδειγμα 1 - Αποτελέσματα Συμπέρασμα: Αφού p=0,0029 < 0,05 άρα η διαφορά στο βάρος καρπών ανάμεσα στα λιπάσματα δεν είναι τυχαία, άρα τα λιπάσματα διαφέρουν και καλύτερο φαίνεται το Α p-value Έλεγχος t δύο δειγμάτων με υποτιθέμενες ίσες διακυμάνσεις AB Μέσος 14,8810,44 Διακύμανση 29,8420,17 Μέγεθος δείγματος 25 Διάμεση διακύμανση 25,01 Υποτιθέμενη διαφορά μέσων 0 βαθμοί ελευθερίας 48 t 3,14 P(T<=t) μονόπλευρη 0,0014 t κρίσιμο, μονόπλευρο 1,677 P(T<=t) δίπλευρη 0,0029 t κρίσιμο, δίπλευρο 2,011 κάναμε t-test με ανεξάρτητα δείγματα
Παράδειγμα 2 Σε 11 φυτά δόθηκαν με τη σειρά το λίπασμα Α και το λίπασμα Β με διαφορά ενός έτους μεταξύ τους. Τα αποτελέσματα (παραγωγή σε gr) φαίνονται στο πίνακα φυτόAB 18, , , ,
Παράδειγμα 2 - Αποτελέσματα Έλεγχος t του μέσου δύο δειγμάτων συσχετισμένων ζευγών ΑΒ Μέσος11,459,50 Διακύμανση11,6218,50 Μέγεθος δείγματος11 Συσχέτιση Pearson0,938 Υποτιθέμενη διαφορά μέσων0 βαθμοί ελευθερίας10 t4,003 P(T<=t) μονόπλευρη0,0013 t κρίσιμο, μονόπλευρο1,812 P(T<=t) δίπλευρη0,0025 t κρίσιμο, δίπλευρο2,228 p-value κάναμε t-test με ζεύγη Συμπέρασμα: Αφού p=0,0025 < 0,05 άρα η διαφορά στο βάρος καρπών ανάμεσα στα λιπάσματα δεν είναι τυχαία, άρα τα λιπάσματα διαφέρουν και καλύτερο φαίνεται το Α
Παράδειγμα 3 - ANOVA Συγκρίναμε 4 λιπάσματα Α, Β, Γ και Δ ΑΒΓΔ 10976, , , ,5
Παράδειγμα 3 - Αποτελέσματα Ανάλυση διακύμανσης κατά ένα παράγοντα ΣΥΜΠΕΡΑΣΜΑ ΟμάδεςΠλήθοςΆθροισμαΜέσος όροςΔιακύμανση Α ,6022,27 Β ,4017,38 Γ1094,59,453,69 Δ1076,57,654,61 ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ Προέλευση διακύμανσηςSSβαθμοί ελευθερίαςMSFτιμή-Pκριτήριο F Μεταξύ ομάδων483, , ,44 0, ,866 Μέσα στις ομάδες431,553611,9875 Σύνολο914,97539 κάναμε ΑΝΟVA P-value Συμπέρασμα: Αφού p=0, << 0,05 άρα η διαφορά στο βάρος καρπών ανάμεσα στα λιπάσματα δεν είναι τυχαία, άρα τα λιπάσματα διαφέρουν (καλύτερο φαίνεται το Α και χειρότερο το Δ) Σημείωση: όταν το p είναι πάρα πολύ μικρό, γράφουμε συνήθως p<0,001 και έτσι δε χρειάζεται να δίνουμε την ακριβή τιμή του
Πως ο υπολογιστής βρίσκει το p? Υπολογίζει μια τιμή (στο t-test ονομάζεται t και στην ANOVA ονομάζεται F) Και μετά υπολογίζει το p, σαν ένα εμβαδόν σε μια καμπύλη Εμπειρικά για το t-test: Αν t >2, τότε p 0,05 To p και το t είναι αντιστρόφως ανάλογα, όσο μεγαλώνει το t, μικραίνει το p Άρα όσο πιο μακριά είναι το t από το 2, τόσο πιο μικρό είναι το p και τόσο πιο σίγουροι είμαστε ότι υπάρχουν ΔΙΑΦΟΡΕΣ και στους πληθυσμούς!