Δειγματοληψία στην εκπαιδευτική έρευνα Είδη δειγματοληψίας και μέσα συλλογής δεδομένων
Γνωρίζουμε ότι: Με τη στατιστική τα δεδομένα γίνονται πληροφορίες Στατιστική Δεδομένα Πληροφορία Αλλά από πού προέρχονται τα δεδομένα; Πώς τα συλλέγουμε; Πώς γνωρίζουμε ότι είναι αξιόπιστα; Πώς ξέρουμε ότι είναι αντιπροσωπευτικά;
Μέθοδοι συλλογής δεδομένων Υπάρχουν πολλοί τρόποι για να συλλέξουμε δεδομένα και τρεις από τους πιο διαδεδομένους στην εκπαιδευτική έρευνα είναι: • Η παρατήρηση • Το πείραμα • Η δημοσκόπηση.
Δημοσκόπηση Με τη δημοσκόπηση συλλέγουμε δεδομένα από ανθρώπους, π.χ. οι έρευνες της κοινής γνώμης, τα exit-polls, οι έρευνες αγοράς. Ο βαθμός ανταπόκρισης (response rate) στην δημοσκόπηση είναι ένας σημαντικός παράγοντας με τον οποίο αξιολογούμε την ποιότητά της. Δημοσκοπήσεις γίνονται με διάφορους τρόπους, όπως Τηλεφωνικές συνεντεύξεις, Προσωπικές συνεντεύξεις, και Ερωτηματολόγια.
Σχεδιασμός των ερωτηματολογίων Πολλά βιβλία και άρθρα έχουν γραφτεί για την κατασκευή των ερωτηματολογίων. Τα κυριότερα σημεία, στα οποία συμφώνούν οι περισσότεροι μελετητές είναι τα εξής: Το ερωτηματολόγιο πρέπει να είναι όσο το δυνατόν πιο σύντομο. Ρωτάτε απλές και ξεκάθαρες ερωτήσεις. Αρχίστε με ερωτήσεις δημογραφικού τύπου, ώστε να κάνετε τους ερωτώμενους να νιώσουν άνετα. Χρησιμοποιήστε διχοτομικές ερωτήσεις (ναι/όχι), καθώς και ερωτήσεις πολλαπλής επιλογής. Χρησιμοποιείστε με προσοχή τις ερωτήσεις ελεύθερης απάντησης. Μη χρησιμοποιείτε κατευθυνόμενες ερωτήσεις. Δώστε πιλοτικά το ερωτηματολόγιο σε μια ομάδα ανθρώπων. Σκεφτείτε πώς θα χρησιμοποιήσετε τα δεδομένα σας.
Δειγματοληψία υποσύνολο Δείγμα Πληθυσμός
Δειγματοληψία Μέσω στατιστικών διαδικασιών, μπορούμε να βγάλουμε συμπεράσματα για τον πληθυσμό μέσα από ένα αντιπροσωπευτικό δείγμα του πληθυσμού Δειγματοληψία, δηλαδή η συλλογή ενός υποσυνόλου του πληθυσμού, κάνουμε για λόγους κόστους και πρακτικότητας Σε κάθε περίπτωση, φροντίζουμε να έχουμε ίδιο τον πληθυσμό - στόχο (target population) και τον πληθυσμό στον οποίο μπορούμε να γενικεύσουμε (sampled population).
Μέθοδοι δειγματοληψίας στην ποσοτική έρευνα: Απλή τυχαία δειγματοληψία (simple random sampling), Στρωματοποιημένη δειγματοληψία (stratified random sampling), και Δειγματοληψία κατά ομάδες (cluster sampling).
Απλή τυχαία δειγματοληψία (Simple Random Sampling): Στην απλή τυχαία δειγματοληψία, κάθε μονάδα του πληθυσμού έχει ίσες πιθανότητες να επιλεγεί στο δείγμα Π.χ.: αν επιλέξουμε τυχαία τρία ονόματα φοιτητών από όλους όσοι βρίσκονται στην αίθουσα τότε έχουμε μια ιδέα για την απλή τυχαία δειγματοληψία
Απλή τυχαία δειγματοληψία με τη βοήθεια πινάκων τυχαίων αριθμών
Δειγματοληψία με πίνακα τυχαίων αριθμών Έστω ότι έχουμε έναν πληθυσμό αποφοίτων (N=200) Θέλουμε ένα δείγμα είκοσι αποφοίτων (n=20) Διαιρούμε: N/n=5 Επιλέγουμε ένα νούμερο από το 1 ως το 5 (έστω το 4) Αρχίζοντας από το 4, επιλέγουμε κάθε 5ο νούμερο
Απλή τυχαία δειγματοληψία με τη βοήθεια ειδικού προγράμματος Σημείωση: Καμιά φορά πρέπει να προσέχουμε και τις επαναλήψεις
Στρωματοποιημένη δειγματοληψία stratified random sampling Για την στρωματοποιημένη δειγματοληψία χωρίζουμε τον πληθυσμό σε διαφορετικά υποσύνολα ή στρώματα (strata), και χρησιμοποιούμε τυχαία δειγματοληψία μέσα σε κάθε στρώμα. Στρώμα 1 : Φύλο Άνδρες Γυναίκες Στρώμα 2 : Ηλικία < 20 20-30 31-40 41-50 51-60 > 60 Στρώμα 3 : Επάγγελμα Επιστήμονας Κληρικός Εργάτης Άλλο Μπορούμε να βγάλουμε συμπεράσματα για όλο τον πληθυσμό, να βγάλουμε συμπεράσματα για κάθε στρώμα ξεχωριστά, να βγάλουμε συμπεράσματα διαστρωματικά
Στρωματοποιημένη δειγματοληψία Όταν έχουμε χωρίσει τον πληθυσμό σε στρώματα, μπορούμε να χρησιμοποιήσουμε απλή τυχαία δειγματοληψία Κατηγορία εισοδημάτων Ποσοστό στον πληθυσμό Μέγεθος του δείγματος n=400 n=1000 Κάτω από 10.000 € 25% 100 250 10.000 – 20.000 € 40% 160 400 20.000 – 40.000 € 30% 120 300 Πάνω από 40.000 € 5% 20 50 Αν έχουμε πόρους για να συλλέξουμε μόνο 400 άτομα θα πάρουμε 100 από αυτούς που έχουν χαμηλό εισόδημα Αν επιλέγουμε 1.000 ανθρώπους, θα πάρουμε 50 από το στρώμα των εύπορων
Δειγματοληψία κατά ομάδες (cluster sampling) Στη δειγματοληψία κατά ομάδες επιλέγουμε ομάδες ατόμων (σχολεία, τμήματα) Η μέθοδος αυτή είναι πολύ χρήσιμη στην εκπαιδευτική έρευνα, όταν δεν γνωρίζουμε τον πληθυσμό ή όταν οι μονάδες του πληθυσμού είναι διεσπαρμένες από γεωγραφική άποψη Στη δειγματοληψία κατά ομάδες μπορεί να έχουμε σφάλμα δειγματοληψίας, λόγω μη ομοιότητας των μονάδων μέσα σε κάθε ομάδα
To μέγεθος του δείγματος Με το μέγεθος του δείγματος θα ασχοληθούμε αργότερα, αλλά, γενικά, όσο μεγαλύτερο είναι το δείγμα, τόσο ακριβέστερες είναι οι εκτιμήσεις που κάνουμε για τον πληθυσμό
Είδη σφαλμάτων κατά τη δειγματοληψία Δύο τύπους σφαλμάτων αναγνωρίζουμε, όταν κάνουμε εκτιμήσεις από το δείγμα προς τον πληθυσμό: Τα σφάλματα δειγματοληψίας και τα συστηματικά σφάλματα, τα σφάλματα δηλαδή που δεν οφείλονται στο πλαίσιο της δειγματοληψίας Στα σφάλματα δειγματοληψίας οφείλονται στην τυχαιότητα, δηλαδή στο πλαίσιο της δειγματοληψίας Τα σφάλματα που δεν οφείλονται στο πλαίσιο της δειγματοληψίας οφείλονται σε κάποιο λόγο, ο οποίος έχει να κάνει με τον σχεδιασμό ή τη διεξαγωγή της έρευνας
Σφάλματα δειγματοληψίας Τα σφάλματα δειγματοληψίας οφείλονται στις διαφορές μεταξύ διαφορετικών δειγμάτων λόγω της τυχαιότητας στο υφιστάμενο πλαίσιο της δειγματοληψίας Π.χ.: Επιλέγουμε δύο φορές (δύο δείγματα) 10 σχολείων από τα 100 σχολεία της Δυτικής Αττικής. Αν στο πρώτο δείγμα τύχει να επιλεγούν μόνο σχολεία της Ελευσίνας και στο δεύτερο δείγμα δεν επιλεγεί κανένα σχολείο της Ελευσίνας, αυτό είναι τυχαιότητα (σφάλμα δειγματοληψίας) Εύλογο συμπέρασμα: Με την αύξηση του μεγέθους του δείγματος μειώνουμε την πιθανότητα του να υποπέσουμε σε σφάλμα δειγματοληψίας
Συστηματικά σφάλματα Τα συστηματικά σφάλματα είναι πιο σοβαρά και οφείλονται σε λάθη που γίνονται σε αυτή καθ’ αυτή τη συλλογή των δεδομένων. Μπορεί να οφείλονται σε: Λάθη κατά τη συλλογή των δεδομένων Συστηματική αποφυγή απάντησης από ανθρώπους με ορισμένα χαρακτηριστικά Επιλογή ατόμων Εύλογο συμπέρασμα: Με την αύξηση του μεγέθους του δείγματος δεν μειώνουμε την πιθανότητα του να υποπέσουμε σε σφάλμα δειγματοληψίας
Σφάλματα κατά τη συλλογή των δεδομένων …οφείλονται σε λανθασμένη καταγραφή δεδομένων για τους εξής λόγους: — αναξιόπιστη μέτρηση λόγω κακού εργαλείου, — λάθη σωστής καταγραφής, — λάθη στην καταγραφή λόγω αμφισημιών, ή — ανακριβείς απαντήσεις σε «ευαίσθητα» θέματα.
Συστηματική αποφυγή απάντησης (non response) Μερικές φορές η αποφυγή απάντησης είναι συστηματική μέσα στο δείγμα. Π.χ., μια ερώτηση θεωρείται για κάποιους ερωτώμενους από το δείγμα με συγκεκριμένα χαρακτηριστικά ότι θίγει ευαίσθητα θέματα για αυτούς και δεν απαντιέται. Όπως έχουμε αναφέρει, το ποσοστό των απαντήσεων (response rate) είναι ένας σημαντικός παράγοντας για την αξιολόγηση της έρευνας.
Σφάλμα επιλογής Κάποιες ομάδες του πληθυσμού αποκλείονται από το δείγμα, λόγω του σχεδιασμού ή λόγω της αδυναμίας των ερευνητών
Η σχέση μεταξύ των δύο σφαλμάτων Συνολικό σφάλμα Σφάλμα δειγματοληψίας Συστηματικό σφάλμα
Είδη σφαλμάτων κατά τη δειγματοληψία
Δειγματοληψία στην εκπαιδευτική έρευνα Μέγεθος του δείγματος και δειγματοληπτική κατανομή
Από το δείγμα στον πληθυσμό Χρειάζεται να συζητήσουμε τρεις κατανομές Η πληροφορία από το δείγμα συνδέεται με την πληροφορία για τον πληθυσμό μέσω της δειγματοληπτικής κατανομής Κατανομή του πληθυσμού Δειγματοληπτική κατανομή Κατανομή του δείγματος
Η έννοια της κατανομή συχνότητας Συχνότητα x α β γ δ Περιοχή = β ≤ x ≤ γ)
Η κανονική κατανομή (Πηγή: http://www.music.miami.edu/research/statistics/normalcurve/images/normalCurve1.gif
Η κανονική κατανομή (normal distrubution) Από τις πιο σημαντικές κατανομές στη στατιστική f(x) Έχει δύο παραμέτρους: μ: τον μέσο όρο και : την τυπική απόκλιση x μ
Ιδιότητες της Κανονικής Κατανομής: Υπάρχει μόνο στη θεωρία Ονομάζεται επίσης «κωδωνοειδής» ή «κατανομή του Gauss» Είναι συμμετρική ως προς την κυρτότητα και την λοξότητα Ο μέσος όρος (µ) είναι και η μεσαία τιμή Οι άκρες της τείνουν να συναντήσουν τον οριζόντιο άξονα Ο μέσος όρος ταυτίζεται με τη διάμεσο και τη δεσπόζουσα τιμή Η περιοχή «κάτω από την κανονική κατανομή» μετριέται σε τυπικές αποκλίσεις (σ) από τον μέσο όρο. Η συνολική περιοχή της κανονικής κατανομής είναι η μονάδα (1)
Μέσος όρος: Διακύμανση: Περσικός Κόλπος: ημέρα = 72 νύχτα = 68 Η «τυπική απόκλιση» (standard deviation) είναι ένα μέτρο της διασποράς (dispersion) μιας κατανομής ενώ ο μέσος όρος (mean) είναι ένας δείκτης «κεντρικής τάσης» της κατανομής. Περσικός Κόλπος: ημέρα = 72 νύχτα = 68 Έρημος Kalahari : ημέρα = 110 νύχτα = 30 Μέσος όρος: Διακύμανση:
Περσικός Κόλπος: ημέρα = 72 νύχτα = 68 Έρημος Kalahari : ημέρα = 110 νύχτα = 30 Και στις δύο περιπτώσεις ο μέσος όρος είναι το 70. Για την έρημο Kalahari, όμως, βρίσκουμε διακύμανση ίση με 800 και τυπική απόκλιση ίση περίπου με 28,284.
Κανονική κατανομή Αύξηση του μέσου όρου Αλλαγή του μ
Κανονική κατανομή μείωση του μέσου όρου Αλλαγή του μ
Κανονική κατανομή αύξηση της τυπικής απόκλισης Αλλαγή της
Κανονική κατανομή μείωση της τυπικής απόκλισης Αλλαγή της
Κανονική Κατανομή x σε μία τυπική απόκλιση πάνω από τον μ.ο.: 0,6827 ή 68% των τιμών x σε δύο τυπικές αποκλίσεις πάνω από τον μ.ο.: 0,9545 ή 95% των τιμών x σε τρεις τυπικές αποκλίσεις πάνω από τον μ.ο.: 0,9973 ή 99% των τιμών
Πίνακες με τιμές της κανονικής κατανομής Κάθε κανονική κατανομή θα ήθελε τον δικό της πίνακα τιμών Οι κανονικές κατανομές διαφέρουν ως προς τους μέσους όρους και τις τυπικές αποκλίσεις
Τυποποιούμε (standardise) την Κανονική Κατανομή Τυποποιημένη Κανονική Κατανομή Κανονική Κατανομή Ένας πίνακας τιμών
Τυπική κανονική κατανομή Τυπική κανονική κατανομή: Z ~N(0,1) 90% -1,645 1,645 -1,96 1,96 95%
Οι τιμές z Μας βοηθούν να γνωρίζουμε τη θέση μιας τιμής κάτω από την κανονική κατανομή Μετρούνται με μονάδες τυπικής απόκλισης σε σχέση με τον μέσο όρο της κατανομής. Οι τιμές z χρησιμοποιούνται για να βρούμε την περιοχή κάτω από την κανονική κατανομή αυτή είναι και η πιθανότητα Τύπος: Ο ανωτέρω τύπος αλλάζει μια αρχική τιμή (yi) σε z τιμή. Με βάση στατιστικούς πίνακες υπολογίζουμε την περιοχή (πιθανότητα) δεξιά από την z τιμή, την πιθανότητα μεταξύ της z τιμής και του μέσου όρου, καθώς και την περιοχή αριστερά της z.
Παράδειγμα Σε ένα μάθημα που βαθμολογείται από το 0 ως το 100 (άριστα), ο μέσος όρος επίδοσης των μαθητών της τάξης σας είναι το 60 και η τυπική απόκλιση είναι το 10. Αν ο βαθμός σας είναι 70, ποιος είναι ο βαθμός σας ως τιμή Z; Πού βρίσκεται ο βαθμός σας σε σχέση με τον μέσο όρο της τάξης; Με τι πιθανότητα συνδέεται ο βαθμός σας; Σε ποιο εκατοστημόριο είναι ο βαθμός σας;
Το 70 είναι μία τυπική απόκλιση πάνω από τον μέσο όρο Το 70 είναι μία τυπική απόκλιση πάνω από τον μέσο όρο. Η τιμή αυτή είναι 0,1587 και 0,3413+0,5000 = 0,8413. Δηλαδή, περί το 16% των τιμών είναι υψηλότερες και το 84% των τιμών είναι χαμηλότερες. Ο βαθμός μας είναι στο 84ο εκατοστημόριο.
Κεντρικό Οριακό Θεώρημα (Central Limit Theorem) Ας υποθέσουμε ότι έχουμε έναν πληθυσμό Π, με: Π={ x1,x2, … xn} xi xj
Έστω ότι μ είναι ο μέσος όρος του Π Έστω ότι μ είναι ο μέσος όρος του Π Έστω n = το δείγμα, και m ο μέσος όρος στο δείγμα Παραμένει σταθερό; xi xj
«Αν πάρουμε όλα τα πιθανά δείγματα μεγέθους n από έναν πληθυσμό και υπολογίσουμε τους μέσους όρων αυτών των δειγμάτων, τότε η κατανομή των μέσων όρων θα είναι κατά προσέγγιση κανονική κατανομή» mΝ mN
Κεντρικό οριακό θεώρημα Σε τυχαία δειγματοληψία από έναν πληθυσμό με μέσο όρο και τυπική απόκλιση , όταν το μέγεθος του δείγματος n είναι επαρκώς μεγάλο, η κατανομή των μέσων όρων των δειγμάτων (δηλαδή η «δειγματοληπτική κατανομή»: είναι κατά προσέγγιση κανονική μέσο όρο X ίσο με και τυπική απόκλιση s X ίση με /√n Εφαρμόζεται για δείγματα μεγέθους n > 30 ανεξαρτήτως από το σχήμα των κατανομής του πληθυσμού Εφαρμόζεται για δείγματα μεγέθους n ≤ 30, αν η κατανομή στον πληθυσμό είναι κανονική
Κεντρικό Οριακό Θεώρημα μ -/√n μ + /√n μ - 2√n μ + 2/√n 99.7% μ - 3√n μ + 3/√n
Σφάλμα = e Σφάλμα = e Κατώτερο όριο (L) X Ανώτερο όριο (U) Εύρος του διαστήματος = w = 2e Ανώτερο όριο = X + e Κατώτερο όριο = X - e Σφάλμα = e = z /2 √n Συνήθως, το 1,96
Εκτίμηση του µx Παράδειγμα: Μια εταιρεία απασχολεί περί τους N=10.000 εργαζόμενους. Για να εκτιμήσουμε τα χρόνια υπηρεσίας του καθενός από τους 10.000 επιλέγουμε με απλή τυχαία δειγματοληψία n=50. Έστω ότι στο δείγμα μας: Είναι σωστή μια τέτοια εκτίμηση; Όχι!
Δειγματοληπτική κατανομή με πιθανότητα 0,05 (=α) στα άκρα της. Δειγματοληπτική κατανομή με πιθανότητα 0,05 (=α) στα άκρα της. 1 - = 0,95 /2 = 0,025 /2 = 0,025 Z = Z =
Δειγματοληπτική κατανομή και εκτίμηση Άρα, ο μέσος όρος είναι καλός εκτιμητής του μέσου της δειγματοληπτικής κατανομής n=40 n=20 P.25 b n=10
Αυτό δεν περιέχει τον µX e d a b c -3 -2 -1 1 2 3 P.27 Αυτό δεν περιέχει τον µX
Εκτίμηση του µx σε «μεγάλα δείγματα» (n>30) Γενικά, δεν γνωρίζουμε τον µ ή την σ. P. 26a
Έτσι, αφού δεν είναι από μόνο του επαρκές, κάνουμε μια εκτίμηση του διαστήματος για το . Υπολογίζουμε λοιπόν ένα διάστημα εμπιστοσύνης γύρω από τον
0.0013=α/2 0.0013=α/2 0.4987 0.4987 -3 3 P.28a
Όπου το zα/2 έχει α/2 της επιφάνειας στα δεξιά του. Γενικά σε μεγάλα δείγματα (n>30) υπολογίζουμε το διάστημα με πιθανότητα 100(1- α)% for µx : Όπου το zα/2 έχει α/2 της επιφάνειας στα δεξιά του. Αν δεν γνωρίζουμε την τιμή της αλλά μπορούμε να την υπολογίζουμε από την sx σε μεγάλα δείγματα. P. 28b
Για την επιχείρηση που είπαμε , υποθέτουμε ότι sx = 4. 6 έτη Για την επιχείρηση που είπαμε , υποθέτουμε ότι sx = 4.6 έτη. Έτσι, για n = 50, Η, αν αγνοήσουμε τη διόρθωση: Στρογγυλοποιούμε την σε περίπου 0,65.
Άρα για τρεις τυπικές αποκλίσεις “3-σ,” ή 99 Άρα για τρεις τυπικές αποκλίσεις “3-σ,” ή 99.74%, το διάστημα εμπιστοσύνης είναι: 6,0 – 3(0,65) ≤ μx ≤ 6,0 + 3(0,65) 6,0 – 1,95 ≤ μx ≤ 6,0 + 1,95 4,05 ≤ μx ≤ 7,95
Το αντίστοιχο επίπεδο 90% Το διάστημα εμπιστοσύνης είναι: 6,0 – 1,645(0,65) ≤ μx ≤ 6,0 + 1,645(0,65) 6,0 – 1,07 ≤ μx ≤ 6,0 + 1,07 4,93 ≤ μx ≤ 7,07
Παράδειγμα Διάστημα εμπιστοσύνης = 95% ή 0,05 Έστω ότι το αποδεκτό σφάλμα είναι μία μονάδα πάνω και κάτω Έστω σ, η τυπική απόκλιση του πληθυσμού) Λύνουμε την εξίσωση ως προς N: Άρα, αν θέλουμε να είμαστε ακριβείς σε ένα διάστημα εμπιστοσύνης συν-πλην μίας μονάδας, θα πρέπει να πάρουμε ένα δείγμα δύο χιλιάδων τετρακοσίων ενός
Για να αποφασίσουμε το μέγεθος του δείγματος χρειαζόμαστε Τον μέσο όρο Το τυπικό σφάλμα Τον βαθμό ακρίβειας Το διάστημα εμπιστοσύνης
Όταν πρόκειται για ποσοστά: Accuracy Level plus or minus 5 percent (95% confidence level) Steps: A. .05/1.96=.0255102 B. (.0255102)2 =.0006507
Κανονική κατανομή πιθανότητας X ~ N(μ,) P(α ≤ X ≤ β)=; α β