Στατιστικές αναλύσεις με τη βοήθεια του SPSS Α. Μπαλτζής, Ν. Τσιγγίλης
Διάγραμμα σεμιναρίου 14/5/2014: Εισαγωγή: δημιουργία βάσης δεδομένων, χαρακτηρισμός μεταβλητών (ονομαστική, τακτική, κλίμακα), εισαγωγή δεδομένων, αποθήκευση-ανάκτηση δεδομένων, μετατροπή και υπολογισμός νέας μεταβλητής (Α. Μπαλτζής). 21/5/2014: Περιγραφική στατιστική – γραφήματα. Μέτρα κεντρικής τάσης και διασποράς, πίνακας συχνοτήτων, κυκλικά διαγράμματα, ραβδογράμματα, και άλλες γραφικές παραστάσεις των δεδομένων, z-τιμές (Ν. Τσιγγίλης). 28/5/2014: Ανάλυση διακύμανσης: t-test, one-way ANOVA, post-hoc συγκρίσεις (Ν. Τσιγγίλης). 4/6/2014: Συσχέτιση, γραμμική παλινδρόμηση (Α. Μπαλτζής, Ν. Τσιγγίλης). 11/6/2014: Διερευνητική παραγοντική ανάλυση (Α. Μπαλτζής).
Προτεινόμενη βιβλιογραφία Costello, A. B., & Osborne, J. W. (2005). Best practices in exploratory factor analysis: Four recommendations for getting the most from your analysis. Practical Assessment, Research & Evaluation, 10(7), 1-9. Field, A. (2009). Discovering statistics using SPSS (and sex and drugs and rock ’n’ roll). London, Thousand Oaks, New Delhi, Singapore: SAGE. Leech, N. L., Barrett, K. C., & Morgan, G. A. (2005). SPSS for Intermediate Statistics: Use and Interpretation (2nd ed.). Mahwah, New Jersey, London: Lawrence Erlbaum Associates. Morgan, G. A., Leech, N. L., Gloeckner, G. W., & Barrett, K. C. (2004). SPSS for Introductory Statistics. Use and Interpretation (2nd ed.). Mahwah, New Jersey, London: Lawrence Erlbaum Associates. Pallant, J. (2001). SPSS survival manual: A step-by-step guide to data analysis using SPSS for Windows (Version 10). Crows Nest: Allen & Unwin.
Υπολογισμός συντελεστών συσχέτισης Αλέξανδρος Μπαλτζής (http://users.auth.gr/baltzis) baltzis@jour.auth.gr
Είδη μεταβλητών και επίπεδα μέτρησης Το είδος των μεταβλητών προσδιορίζει το επίπεδο μέτρησης: Διαστήματος ή κλίμακες (scale) Παραδείγματα: απόσταση, ύψος, βάρος, εισόδημα, ηλικία, βαθμολογία στα μαθήματα (οποιοδήποτε χαρακτηριστικό που μπορεί να μετρηθεί με μία κλίμακα ίσων αποστάσεων, δηλ. οι αποστάσεις μεταξύ των βαθμίδων είναι σταθερές) Τακτικές, τάξης ή ιεράρχησης (ordinal) Παραδείγματα: κοινωνικό στρώμα, εισοδηματική κατηγορία (χαμηλή, μεσαία, ψηλή), μορφωτικό επίπεδο, βαθμός προτίμησης ή συμφωνίας με κάποιο θέμα (οποιοδήποτε χαρακτηριστικό του οποίου η ιεράρχηση έχει νόημα, ανεξάρτητα αν μπορεί να μετρηθεί με μία κλίμακα ίσων αποστάσεων ή όχι) Κατηγορίας ή ονομαστικές (nominal) Παραδείγματα: φύλο, θρήσκευμα, τόπος καταγωγής ή χώρα προέλευσης, Τμήμα φοίτησης, προτιμώμενη εφημερίδα, προτιμώμενο λογοτεχνικό είδος (οποιοδήποτε χαρακτηριστικό που δεν μπορεί να μετρηθεί με μία κλίμακα ίσων αποστάσεων, ούτε έχει κανένα νόημα η ιεράρχησή του)
Είδη μεταβλητών και στατιστικές δοκιμασίες Μία μεταβλητή μπορεί επίσης: Να είναι διχοτομική (δηλ. να παίρνει μόνο δύο τιμές – binary ή dummy variable – όπως π.χ. το φύλο) Να έχει περισσότερες κατηγορίες (δηλ. να παίρνει τρεις ή περισσότερες τιμές, όπως π.χ. τα επίπεδα μόρφωσης ή εισοδήματος και το κοινωνικό στρώμα) Με δοκιμασίες και συντελεστές συσχέτισης, όπως Pearson Chi-square (χ2), Phi, Cramer’s V, Lambda Kendall’s tau-b, Spearman’s Rho, Pearson’s r) μπορούμε να ελέγξουμε: Αν δύο μεταβλητές είναι ανεξάρτητες μεταξύ τους Την ένταση της σχέσης μεταξύ δύο μεταβλητών (effect size) Την κατεύθυνση της σχέσης μεταξύ δύο μεταβλητών (direction)
Είδη μεταβλητών και στατιστικές δοκιμασίες Η απόφαση για τις δοκιμασίες που θα χρησιμοποιηθούν εξαρτάται από: Κλίμακας (scale) Το είδος των μεταβλητών Τακτικές (ordinal) Ονομαστικές (nominal) Κανονική Την κατανομή των μεταβλητών Μη κανονική Γραμμική Τη σχέση ανάμεσα στις μεταβλητές Μη γραμμική Το πλήθος των τιμών που μπορούν να πάρουν οι μεταβλητές Διχοτομικές (δύο τιμές) Μη διχοτομικές
Έλεγχος ανεξαρτησίας και συντελεστές συσχέτισης Menu: Analyze/Descriptive Statistics/Crosstabs (κουμπί Statistics) Με αυτήν την επιλογή υπολογίζονται οι συντελεστές Pearson r και Spearman’s Rho (rs) που δείχνουν κατεύθυνση και ένταση των σχέσεων μεταξύ δύο μεταβλητών Ο Pearson χ2 ελέγχει αν δύο μεταβλητές είναι ανεξάρτητες (αν p<0,05 οι μεταβλητές δεν είναι ανεξάρτητες) Δεν δείχνει όμως κατεύθυνση ή ένταση της σχέσης Οι συντελεστές αυτοί δείχνουν την ένταση της σχέσης (effect size) μεταξύ δύο τακτικών μεταβλητών και την κατεύθυνσή της Οι συντελεστές αυτοί δείχνουν την ένταση της σχέσης (effect size) μεταξύ δύο ονομαστικών μεταβλητών
Συντελεστές συσχέτισης Ο συντελεστής Phi δείχνει την ένταση της σχέσης (effect size) μεταξύ δύο ονομαστικών μεταβλητών που είναι και οι δύο διχοτομικές (πίνακας 2x2) Ο συντελεστής Cramer’s V επιλέγεται όταν η μία ή και οι δύο μεταβλητές, που είναι ονομαστικές (nominal), δέχονται τρεις ή περισσότερες τιμές (μη διχοτομικές) Ο συντελεστής Lambda χρησιμοποιείται για να ελεγχθεί η σχέση ανάμεσα σε δύο ονομαστικές (nominal) μεταβλητές και στην περίπτωση που θέλουμε με βάση τη μία μεταβλητή να προβλέψουμε την τιμή της άλλης Η τιμή του δείχνει το ποσοστό μείωσης του σφάλματος πρόβλεψης και όσο μεγαλύτερη είναι, τόσο πιο ισχυρή η σχέση ανάμεσα στις δύο μεταβλητές Ο συντελεστής Kendall’s tau-b χρησιμοποιείται όταν οι δύο μεταβλητές είναι τακτικές (τάξης ή ιεράρχησης, ordinal) Για παράδειγμα, η εισοδηματική κατηγορία και το επίπεδο μόρφωσης
Συντελεστές συσχέτισης Ο συντελεστής Pearson r προϋποθέτει: Μεταβλητές κλίμακας (scale) Γραμμική σχέση μεταξύ τους Κανονικές κατανομές Ο συντελεστής Spearman Rho (rs) μπορεί να επιλεγεί όταν έχουμε: Τακτικές μεταβλητές Μη γραμμική σχέση ανάμεσα στις δύο μεταβλητές Με αυτήν την επιλογή υπολογίζονται οι συντελεστές Pearson r και Spearman’s Rho που δείχνουν κατεύθυνση και ένταση των σχέσεων μεταξύ δύο μεταβλητών
Συντελεστές συσχέτισης Ο συντελεστής Pearson r προϋποθέτει: Μεταβλητές κλίμακας (scale) Γραμμική σχέση μεταξύ τους Κανονικές κατανομές Με αυτήν την επιλογή υπολογίζονται οι συντελεστές Pearson r και Spearman’s Rho που δείχνουν κατεύθυνση και ένταση των σχέσεων μεταξύ δύο μεταβλητών Στις κοινωνικές έρευνες είναι εξαιρετικά σπάνιο τα δεδομένα να παρουσιάζουν κανονική κατανομή ή η σχέση ανάμεσα σε δύο μεταβλητές να είναι γραμμική και για το λόγο αυτό καλύτερα να επιλέγονται άλλοι συντελεστές αντί του Pearson r
Παράδειγμα Γυναίκες Άνδρες Φιλοσοφική 38 26 ΗΜΜΥ 14 61 Ελέγχουμε αν μεταξύ του Τμήματος ΗΜΜΥ και ενός Τμήματος της Φιλοσοφικής παρουσιάζονται στατιστικά σημαντικές διαφορές ως προς το φύλο (δείτε το αρχείο students.sav) Έχουμε δύο ονομαστικές μεταβλητές που μας δίνουν έναν πίνακα 2x2, επειδή είναι και οι δύο διχοτομικές: Γυναίκες Άνδρες Φιλοσοφική 38 26 ΗΜΜΥ 14 61 Με τον έλεγχο ανεξαρτησίας (Pearson χ2) θα εξετάσουμε αν οι δύο μεταβλητές είναι ανεξάρτητες Αφού πρόκειται για ονομαστικές μεταβλητές και πίνακα 2x2 θα χρησιμοποιήσουμε επίσης το συντελεστή Phi
Έλεγχος ανεξαρτησίας και ένταση της σχέσης Menu: Analyze/Descriptive Statistics/Crosstabs Επιλέγουμε και μεταφέρουμε στις στήλες και στις γραμμές (columns και rows, αντίστοιχα), τη μεταβλητή φύλο και τη μεταβλητή Τμήμα Επιλέγουμε το κουμπί Statistics
Επιλογή συντελεστών Αφού επιλέξουμε Chi-square και τους συντελεστές Phi and Cramer’s V, πατάμε το Continue και γυρίζουμε στον προηγούμενο διάλογο, όπου πατάμε ΟΚ
Output: Έλεγχος δεδομένων Ελέγχουμε μήπως υπάρχουν περιπτώσεις οι οποίες δεν έχουν απαντήσει (missing) και επομένως μεταβάλλουν το μέγεθος του δείγματός μας (το Ν) Ο έλεγχος αυτός έχει σημασία για να δούμε μήπως έχει γίνει κανένα λάθος στην καταχώρηση δεδομένων, να αποφασίσουμε αν χρειάζεται ξεχωριστή ανάλυση των τιμών που λείπουν (π.χ. των απαντήσεων «Δεν γνωρίζω/Δεν απαντώ») κ.λπ.
Πίνακας συνάφειας Αυτός είναι ένας πίνακας 2x2 Το μέγεθος έχει σημασία για τη δοκιμασία (το συντελεστή) που θα επιλέξουμε Ο πίνακας συνάφειας μας δείχνει πόσες απαντήσεις έχουμε σε κάθε περίπτωση, δηλαδή σε κάθε κελί του πίνακα (πόσες γυναίκες στη Φιλοσοφική, πόσες γυναίκες στο ΤΗΜΜΥ και αντίστοιχα πόσοι άνδρες σε κάθε Τμήμα) Από το διάλογο “Crosstabs” (διαφάνεια αρ. 10) με την επιλογή “Cells…” μπορούμε να ζητήσουμε να συμπεριληφθούν και άλλα δεδομένα στον πίνακα συνάφειας (π.χ. ποσοστά κατά στήλη ή γραμμή, αναμενόμενο πλήθος απαντήσεων για κάθε περίπτωση κ.λπ.)
Αποτέλεσμα δοκιμασίας Λαμβάνεται υπόψη εάν παραβιάζεται η συνθήκη για το χ2 (chi-square) που αναφέρεται στη σημείωση b ή αν το δείγμα είναι μικρό (Ν<30) και ο πίνακας είναι 2x2 Το ποσοστό δεν πρέπει να ξεπερνάει το 20% Με df 1 πρέπει να είναι 0%
Αποτέλεσμα δοκιμασίας Το ποσοστό δεν πρέπει να ξεπερνάει το 20% Με df 1 πρέπει να είναι 0% Εναλλακτικός του Pearson Chi-Square και περισσότερο ακριβής για μικρά δείγματα
Αποτέλεσμα δοκιμασίας Διορθώνει την τάση του Pearson Chi-Square να δίνει μικρότερο p σε πίνακες 2x2 (δηλ. να παρουσιάζεται στατιστικά σημαντικός, ενώ δεν είναι) Το ποσοστό δεν πρέπει να ξεπερνάει το 20% Με df 1 πρέπει να είναι 0%
Αποτέλεσμα δοκιμασίας Το αποτέλεσμα δείχνει ότι υπάρχει στατιστικά σημαντική διαφορά ανάμεσα στις δύο κατανομές (άνδρες-γυναίκες στο ΤΗΜΜΥ και άνδρες-γυναίκες στη Φιλοσοφική) Διαπιστώνουμε, δηλαδή ότι το Τμήμα φοίτησης σχετίζεται με το φύλο, όμως, το αποτέλεσμα αυτό δεν δείχνει την ένταση της σχέσης ανάμεσα στις δύο μεταβλητές (effect size), δηλαδή πόσο επηρεάζει το φύλο
Αποτέλεσμα δοκιμασίας Ο συντελεστής Phi μας δείχνει την ένταση της σχέσης ανάμεσα στις δύο μεταβλητές και χρησιμοποιείται για πίνακες 2x2 Ο συντελεστής Cramer’s V χρησιμοποιείται αν μία από τις δύο ή και οι δύο ονομαστικές μεταβλητές λαμβάνουν πάνω από δύο τιμές (π.χ. αν αντί για ΗΜΜΥ και Φιλοσοφική είχαμε 10 Τμήματα φοίτησης ή/και αν αντί για άνδρες-γυναίκες είχαμε 5-6 τόπους καταγωγής)
Τρόπος αναφοράς του αποτελέσματος Για να εξετάσουμε τις κατανομές ανδρών και γυναικών στα δύο Τμήματα εφαρμόσαμε τη δοκιμασία Pearson χ2. Η δοκιμασία δείχνει ότι παρουσιάζεται στατιστικά σημαντική διαφορά μεταξύ των δύο Τμημάτων ως προς τη σύνθεση κατά φύλο (χ2=24,44, df=1, N=139, p<0,001). Οι άνδρες έχουν περισσότερες πιθανότητες να είναι φοιτητές του ΤΗΜΜΥ, ενώ οι γυναίκες της Φιλοσοφικής. Ο συντελεστής Phi που δείχνει την ένταση της σχέσης ανάμεσα στις δύο μεταβλητές είναι 0,419. Το αποτέλεσμα αυτό σύμφωνα με τον Cohen (1988) είναι μεγαλύτερο από το τυπικό και επομένως το φύλο φαίνεται να παίζει σημαντικό ρόλο για το αν φοιτά κάποιος στο ΤΗΜΜΥ ή στη Φιλοσοφική. Cohen, J. (1988): Statistical Power and Analysis for the Behavioral Sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum Associates
Ένταση σχέσης κατά Cohen Γενική ερμηνεία συντελεστών r και φ Πολύ μεγαλύτερο από το τυπικό ≥0,70 Μεγάλο ή μεγαλύτερο από το τυπικό 0,50 Μέτριο ή τυπικό 0,30 Μικρό ή μικρότερο από το τυπικό 0,10 Cohen, J. (1988): Statistical Power and Analysis for the Behavioral Sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum Associates
Προτεινόμενη βιβλιογραφία G. Morgan, N. Leech, G. Gloeckner, K. Barrett (2004): SPSS for Introductory Statistics: Use and Interpretation. New Jersey, London: Lawrence Erlbaum Associates (υπάρχει στη βιβλιοθήκη μας) – Κεφάλαια 7 και 8. Andy Field (2005): Discovering Statistics Using SPSS (and Sex and Drugs and Rock ’n’ Roll). London, Thousand Oaks, New Delhi: SAGE Publications (υπάρχει στη βιβλιοθήκη μας) – Κεφάλαια 6 και 18. Pallant, Julie (2001): SPSS Survival Manual: A Step-by-step Guide to Data Analysis Using SPSS for Windows. Crows Nest, N.S.W.: Allen & Unwin (διαθέσιμο μόνο ηλεκτρονικά μέσω της www.netlibrary.com, από το δίκτυο του ΑΠΘ) – Κεφάλαια 11 και 21.