Στατιστικές Υποθέσεις (Ερευνητικά Ερωτήματα / Υποθέσεις προς επιβεβαίωση) Συσχετίσεις μεταξύ μεταβλητών (ερωτήσεων)
Τι είναι συσχέτιση; Έστω ότι έχουμε δύο ερωτήσεις Q1,Q2 Θέλουμε να δούμε αν αυτές οι ερωτήσεις έχουν κάποια σχέση μεταξύ τους Σχέση δεν σημαίνει ομοιότητα, αφού οι ερωτήσεις είναι διαφορετικές ! Σχέση σημαίνει πως οι απαντήσεις στην Q1, επηρεάζουν ή καθορίζουν σε κάποιο βαθμό και τις απαντήσεις στην Q2
Περιπτώσεις (ανάλογα με τον τύπο των ερωτήσεων) Ποιοτική με Ποσοτική Ποσοτική με Ποσοτική Ποιοτική με Ποιοτική
Περίπτωση 1: Ποιοτική με Ποσοτική Έστω ότι η μία ερώτηση Q1 είναι ποιοτική (ονομαστική ή διατάξιμη) και η Q2 είναι ποσοτική Τότε ΣΧΕΣΗ μεταξύ των ερωτήσεων, σημαίνει πως οι απαντήσεις στην Q2, κατά μέσο όρο, είναι διαφορετικές ανάμεσα στις κατηγορίες της Q1 Δηλαδή??
Παράδειγμα Α Θέλουμε να δούμε αν το ΦΥΛΟ (Ποιοτική) έχει σχέση με το ΥΨΟΣ των μαθητών (Ποσοτική) (Χρησιμοποιούμε το αρχείο mathites του εργαστηρίου, όπου καταγράφονται διάφορα στοιχεία για 50 μαθητές Γυμνασίου) Αν πράγματι υπάρχει κάποια σχέση, αυτό θα σημαίνει πως ο μέσος όρος του ύψους διαφέρει ανάμεσα στις κατηγορίες της ποιοτικής μεταβλητής Δηλαδή αν υπάρχει σχέση, ο μέσος όρος ύψους αγοριών και κοριτσιών είναι διαφορετικός
Αν βρούμε τους μέσους όρους ύψους αγοριών – κοριτσιών, παρατηρούμε ότι Μέσο ύψος αγοριών = 176,4 cm Μέσο ύψος κοριτσιών = 163,9 cm Βλέπουμε δηλαδή πως στο ΔΕΙΓΜΑ υπάρχει μια σχέση ανάμεσα στο ΦΥΛΟ και το ΥΨΟΣ, αφού τα μέσα ύψη είναι διαφορετικά
Ερώτηση: Αυτά που παρατηρήσαμε στα δείγματα είναι τυχαία? (οι διάφορες που βρήκαμε ανάμεσα στις ομάδες είναι τυχαίες?). Μήπως δηλαδή οι ερωτήσεις ΦΥΛΟ και ΥΨΟΣ δεν έχουν καμία σχέση? ή το αντίθετο: Υπάρχουν πράγματι διαφορές και στους πληθυσμούς? Έχουν δηλαδή κάποια σχέση οι ερωτήσεις μεταξύ τους?
Ο αριθμός p Στη Στατιστική υπάρχει ένα «μαγικό» νούμερο, που μας δίνει την ΠΙΘΑΝΟΤΗΤΑ τα αποτελέσματα που βρήκαμε στα δείγματα, να ήταν τυχαία (μη σημαντικά δηλαδή). p-value (τιμή p) (στο SPSS αναφέρεται SIG. = significance)
Η Απόφαση μας (Κανόνας): Αν το p<0,05 (πιο μικρό από το 5%) τότε οι διαφορές ΔΕΝ είναι τυχαίες Δηλαδή οι διαφορές που βρήκαμε στα δείγματα, επιβεβαιώνονται πιθανότατα και στους πληθυσμούς (π.χ. τα αγόρια είναι πιο ψηλά από τα κορίτσια – δηλαδή το ΦΥΛΟ και το ΥΨΟΣ έχουν κάποια σχέση) Η πιθανότητα να έχουμε κάνει λάθος είναι p (δηλαδή ΠΟΛY ΜΙΚΡΗ)
Πως από το Δείγμα, βγάζουμε συμπέρασμα για ΟΛΟΚΛΗΡΟ τον πληθυσμό? Αναλύουμε τα δεδομένα με την κατάλληλη διαδικασία (με το χέρι ή με τη βοήθεια υπολογιστή), και στη συνέχεια Ψάχνουμε στην απάντηση για τον αριθμό p (Τιμή p) Συγκρίνουμε το p με το 0,05 (το 5% δηλαδή) Αν p<0,05 τότε οι ερωτήσεις μας έχουν σημαντική σχέση μεταξύ τους αν p>0,05 τότε οι ερωτήσεις δεν έχουν καμία σχέση και τα ευρήματα του δείγματος ήταν τυχαία (όχι σημαντικά) Στο SPSS, το p αναφέρεται ως SIG (significance=σημαντικότητα)
Διαδικασίες (Περίπτωση 1) Αν έχουμε να εξετάσουμε τη σχέση μια ποσοτικής με μια ποιοτική μεταβλητή, ή κατάλληλη διαδικασία, εξαρτάται από το ΠΟΣΕΣ ΚΑΤΗΓΟΡΙΕΣ έχει η ποιοτική μεταβλητή Αν έχει μόνο 2 κατηγορίες (π.χ. άνδρας-γυναίκα), χρησιμοποιούμε t-TEST Αν έχει από 3 κατηγορίες και πάνω, χρησιμοποιούμε ANOVA
Στο παράδειγμα A - Αποτελέσματα SPSS Output: Group Statistics για το ΥΨΟΣ των μαθητών σε cm N Mean Std. Deviation Std. Error Mean (μέση τιμή) (τυπ. Απόκλιση) (τυπ. Σφάλμα) Κορίτσια 28 163,9 7,6 1,44 Αγόρια 22 176,4 7,0 1,49 t-test for Equality of Means t df Sig. 5,98 98 0,000 p-value Συμπέρασμα: Το p είναι σχεδόν 0, δηλαδή πολύ πιο μικρό από το 0,05 (p << 0,05) Άρα η διαφορά ανάμεσα στα ύψη αγοριών και κοριτσιών στο δείγμα δεν είναι τυχαία, άρα τα αγόρια είναι κατά μέσο όρο πιο ψηλά από τα κορίτσια. Ή με άλλα λόγια, οι μεταβλητές ΦΥΛΟ και ΥΨΟΣ έχουν κάποια σημαντική σχέση
Πως ο υπολογιστής βρίσκει το p? Υπολογίζει μια τιμή (στο t-test ονομάζεται t) Και μετά υπολογίζει το p, σαν ένα εμβαδόν σε μια καμπύλη Εμπειρικά: Αν t >2, τότε p<0,05 ενώ αν t<2 τότε p>0,05 To p και το t είναι αντιστρόφως ανάλογα, όσο μεγαλώνει το t, μικραίνει το p Άρα όσο πιο μακριά είναι το t από το 2, τόσο πιο μικρό είναι το p και τόσο πιο σίγουροι είμαστε ότι υπάρχουν ΔΙΑΦΟΡΕΣ και στους πληθυσμούς!
Παράδειγμα B Χρησιμοποιώντας τα ίδια δεδομένα των 50 μαθητών, θα δούμε αν το ΦΥΛΟ έχει σχέση με τον τελικό ΒΑΘΜΟ που πήραν στο τέλος της χρονιάς Φύλο N Μέση τιμή Τυπ. Απόκλιση Κορίτσι 28 16,5 2,4 Αγόρι 22 16,8 2,5 Το p(SIG) που μας δίνει η διαδικασία t-test, είναι 0,642 που είναι πολύ πιο μεγάλο από το 0,05 (p=0,642 > 0,05) Αυτό σημαίνει πως δεν υπάρχει διαφορά στις μέσες βαθμολογίες αγοριών/κοριτσιών, οπότε το ΦΥΛΟ δεν έχει σχέση με τον τελικό ΒΑΘΜΟ
Παράδειγμα Γ Στο ερωτηματολόγιο μας, καταγράφηκε και η ΚΥΡΙΟΤΕΡΗ ΑΣΧΟΛΙΑ των μαθητών στον ελεύθερο χρόνο τους Οι επιλογές που δόθηκαν στην ΚΥΡΙΟΤΕΡΗ ΑΣΧΟΛΙΑ ήταν 5: Υπολογιστές Αθλητισμός Μουσική/Χορός Τηλεόραση/Κινηματογράφος Διάβασμα εξωσχολικών βιβλίων
Θέλουμε να βρούμε τη σχέση ανάμεσα στην ΚΥΡΙΟΤΕΡΗ ΑΣΧΟΛΙΑ και τον ΒΑΘΜΟ Εδώ η ποιοτική μεταβλητή έχει 5 κατηγορίες Η κατάλληλη διαδικασία όταν έχουμε περισσότερες από 2 κατηγορίες είναι η Ανάλυση Διακύμανσης (ANOVA)
Παράδειγμα 3 - Αποτελέσματα Πίνακας με τις μέσες τιμές και τις τυπικές αποκλίσεις των ΒΑΘΜΩΝ, ανά ΚΥΡΙΩΤΕΡΗ ΑΣΧΟΛΙΑ N Μέση τιμή Τυπ. Απόκλιση Υπολογιστές 7 17,8 0,94 Αθλητισμός 12 16,1 3,19 Μουσική / χορός 15 15,5 1,74 Τηλεόραση / Κιν/φος 16,2 2,59 Διάβασμα εξωσχολικών βιβλίων 18,9 1,38
Παράδειγμα 3 – Συμπεράσματα Το p (SIG.) στην περίπτωση μας είναι 0,011 p=0,011<0,05 Οπότε συμπεραίνουμε ότι η κυριότερη ασχολία έχει σχέση με το Βαθμό. Σχέση σημαίνει διαφοροποίηση μέσων τιμών ανά κατηγορία Παρατηρούμε από τον πίνακα με τις μέσες τιμές, ότι μεγαλύτερο μέσο όρο βαθμολογίας περιμένουμε στα παιδιά που διαβάζουν εξωσχολικά βιβλία (18,9) και ακολουθούν αυτά που ασχολούνται με υπολογιστές (17,8) κλπ.
Συνοψίζοντας Όταν έχουμε να συσχετίσουμε μια ΠΟΙΟΤΙΚΗ με μια ΠΟΣΟΤΙΚΗ μεταβλητή, συγκρίνουμε τους μέσους όρους της ΠΟΣΟΤΙΚΗΣ για όλες τις κατηγορίες της ΠΟΙΟΤΙΚΗΣ Αν είναι δύο κατηγορίες, κάνουμε t-test, αν είναι περισσότερες κάνουμε ANOVA. Συγκρίνουμε το p (SIG) με τον αριθμό 0,05 και βγάζουμε συμπέρασμα για τη ύπαρξη σχέσης (αν p<0,05) ή όχι (αν p>0,05)