Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Πίσω στα βασικά, μέρος 3 ο Βασικές αρχές στατιστικής για κοινωνιολογικές έρευνες: Συσχέτιση μεταβλητών Σπύρος Βερονίκης Τμήμα Αρχειονομίας-Βιβλιοθηκονομίας.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Πίσω στα βασικά, μέρος 3 ο Βασικές αρχές στατιστικής για κοινωνιολογικές έρευνες: Συσχέτιση μεταβλητών Σπύρος Βερονίκης Τμήμα Αρχειονομίας-Βιβλιοθηκονομίας."— Μεταγράφημα παρουσίασης:

1 Πίσω στα βασικά, μέρος 3 ο Βασικές αρχές στατιστικής για κοινωνιολογικές έρευνες: Συσχέτιση μεταβλητών Σπύρος Βερονίκης Τμήμα Αρχειονομίας-Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο spver@ionio.gr http://dlib.ionio.gr/~spver/seminars/statistics/

2 2 Περιεχόμενο παρουσίασης  Ο συντελεστής συσχέτισης (correlation coefficient)  Διαγράμματα διασποράς (scatterplots)  Συσχέτιση δύο μεταβλητών (correlation)  Ο συντελεστής συσχέτισης Pearson  Αιτιότητα (causality)  Ο συντελεστής συσχέτισης Spearman  Ο συντελεστής συσχέτισης Kendall  Biserial and point-biserial correlation  Μερική συσχέτιση (partial correlation)

3 3 Σκοπός της παρουσίασης  Συχνά χρειάζεται να γνωρίζουμε τι είδους σχέση υπάρχει μεταξύ δύο μεγεθών. Η συσχέτιση είναι ένα μέτρο περιγραφής της γραμμικής εξάρτησης μεταξύ δύο μεταβλητών  Θα δούμε πώς μπορούμε να εκφράσουμε στατιστικώς τη σχέση μεταξύ δύο μεταβλητών χρησιμοποιώντας δύο μεγέθη: τη συνδιακύμανση (covariance) και το συντελεστή συσχέτισης (correlation coefficient).  Θα δούμε επίσης πώς μπορούμε να απεικονίσουμε γραφικά τη σχέση μεταξύ μεταβλητών και πώς μπορούμε να την ερμηνεύσουμε.

4 4 Συνδιακύμανση (covariance)  Διακύμανση είναι η μέση ποσότητα απόκλισης των μετρήσεων από τη μέση τιμή.  Η απλούστερη ένδειξη συσχέτισης μεταξύ δύο μεταβλητών είναι η συν- διακύμανση (ή συν-διασπορά), σύμφωνα με την οποία καθώς οι τιμές μιας μεταβλητής αποκλίνουν από τη μέση της τιμή, παρατηρείται αντίστοιχη απόκλιση (θετική ή αρνητική) και στην άλλη μεταβλητή

5 5 Παράδειγμα συνδιακύμανσης  Θετικές τιμές συνδιακύμανσης υποδεικνύουν πως καθώς μια μεταβλητή αποκλίνει από τη μέση τιμή (π.χ. αυξανόμενα) την ίδια μεταβολή (αυξανόμενη) ακολουθεί και η άλλη μεταβλητή. Όταν η συνδιακύμανση είναι αρνητική, οι μεταβλητές ακολουθούν αντίστροφη φορά μεταβολής (καθώς η μία αυξάνεται η άλλη μειώνεται).  Καταγράφεται παρόμοιος τρόπος διαφοροποιήσεων των δύο μεταβλητών  Οι πρώτες 3 τιμές των δύο μεταβλητών είναι μικρότερες της μέσης τιμής Φοιτητής12345Μέση τιμήΔιακύμανση Βιβλία (x)544685,41,67 Επισκέψεις (y)8910131511,02,92 x-AVG(x)-0,4-1,4 0,62,6 y-AVG(y)-3-224 [x-AVG(x)]* [y-AVG(y)] 1,22,81,41,210,4 Σ [x-AVG(x)]*[y-AVG(y)]= 17

6 6 Αναγωγή τιμών σε μονάδες τυπικής απόκλισης  Ο συντελεστής συν-διακύμανσης εξαρτάται από την κλίμακα αποτίμησης των μεταβλητών, δηλαδή δεν είναι ανηγμένος.  Προκειμένου ο συντελεστής συσχέτισης να μην επηρεάζεται από τις τιμές της κλίμακας αποτίμησης, πρέπει οι μετρήσεις να αναχθούν σε ένα ενιαίο μέτρο.  Ένα τέτοιο μέτρο αποτίμησης, είναι η τυπική απόκλιση της κάθε μεταβλητής, s (ή σ). AVG= 4.2 S= 1.5 (AVG) s = 4.2/1.5= 2.8

7 7 Ο συντελεστής συσχέτισης Pearson  Ο συντελεστής συσχέτισης Pearson είναι ένα ανηγμένο μέγεθος συσχέτισης, το οποίο λαμβάνει τιμές από -1 έως 1.  Όταν είναι +1 σημαίνει πως οι δύο μεταβλητές x και y σχετίζονται απολύτως θετικά, κι αυτό είναι μάλλον ύποπτο (π.χ. συσχέτιση της ηλικίας καταγεγραμμένης σε έτη και σε μήνες).  Όταν είναι -1 σημαίνει πως οι δύο μεταβλητές σχετίζονται απολύτως αρνητικά (επίσης ύποπτο).  Όταν είναι 0 σημαίνει πως δεν υπάρχει καμία συσχέτιση (η μια μεταβλητή δεν φαίνεται να επηρεάζει την άλλη)  Οι ενδιάμεσες τιμές αντιστοιχούν σε ενδιάμεσες “εντάσεις” αλληλεξάρτησης  Γενικά, η ένταση συσχέτισης οριοθετείται βάσει του παρακάτω εμπειρικού κανόνα:  +/- 0.1 : μικρή συσχέτιση  +/- 0.3: μέτρια συσχέτιση  +/- 0.5: μεγάλη συσχέτιση Karl Pearson (1857-1936)

8 8 Απεικόνιση συσχετίσεων  Υπάρχει συσχέτιση μεταξύ άγχους προ των εξετάσεων και βαθμολογίας; Διαφοροποιείται βάσει του γένους;  Παρατηρούμε πως:  Για τους περισσότερους καταγράφηκαν υψηλά επίπεδα άγχους  Διαφαίνεται μια αρνητική συσχέτιση μεταξύ των μεταβλητών (υψηλότερα επίπεδα άγχους οδηγούν σε χαμηλότερες βαθμολογίες)  Η αρνητική συσχέτιση φαίνεται να καταγράφεται και για τα δύο γένη  Δεν υπάρχουν καταγραφές με χαμηλά επίπεδα άγχους και ταυτόχρονα χαμηλές επιδόσεις.

9 9 Συσχέτιση δύο μεταβλητών Επιλέγονται:  ο συντελεστής συσχέτισης που πρόκειται να υπολογιστεί (Pearson, Spearman ή Kendall)  το είδος του ελέγχου (ενός ή δύο άκρων) για τον υπολογισμό της στατιστικής σημαντικότητας της υπολογιζόμενης τιμής συσχέτισης  Ο έλεγχος δύο άκρων χρησιμοποιείται όταν δεν έχουμε κάποια ένδειξη για το είδος της συσχέτισης (αρνητική ή θετική). Εάν γνωρίζουμε το είδος συσχέτισης (βάσει προηγούμενης εμπειρίας ή της οπτικής απεικόνισης), τότε ζητείται έλεγχος ενός άκρου (one-tailed test).  Π.χ. εάν δεν γνωρίζουμε εάν ο αυξημένος αριθμός επισκέψεων στη βιβλιοθήκη πρόκειται να οδηγήσει σε αύξηση του πλήθους των δανεισμένων βιβλίων, τότε χρησιμοποιούμε έλεγχο δύο άκρων (two- tailed test) για τη σημαντικότητα (significance) του συντελεστή συσχέτισης.

10 10 Συσχέτιση δύο μεταβλητών  Προϋποθέσεις χρήσης του συντελεστή συσχέτισης Pearson  Οι μετρήσεις (data) να καταγράφονται σε συνεχείς κλίμακες (να είναι τύπου interval).  Για τον υπολογισμό της στατιστικής σημαντικότητας της υπολογιζόμενης τιμής, τα δεδομένα πρέπει να ακολουθούν κανονική κατανομή, η οποία ελέγχεται με το κριτήριο Kolmogorov- Smirnov.

11 11 Συσχέτιση 3 μεταβλητών  Σχετίζονται ο χρόνος διαβάσματος (time), η ένταση άγχους (anxiety) προ των εξετάσεων και η βαθμολογική επίδοση (performance); Με ποιο τρόπο;

12 12 Συσχέτιση (correlation) και αιτιότητα (causality)  Ο συντελεστής συσχέτισης υποδεικνύει εάν, σε τι βαθμό και με ποιο τρόπο σχετίζονται δύο μεγέθη, δηλαδή εάν οι τιμές ενός μεγέθους επηρεάζονται από τις τιμές ενός άλλου μεγέθους. Ωστόσο δεν παρέχει πληροφορία για τη φορά επίδρασης μεταξύ των δύο μεγεθών.  Στο παράδειγμα, είδαμε πώς η αποτίμηση έδειξε χαμηλές βαθμολογικές επιδόσεις στις περιπτώσεις αυξημένου άγχους. Ωστόσο, δεν μπορούμε να ισχυριστούμε πως “τα υψηλά επίπεδα άγχους προκαλούν χαμηλές βαθμολογικές επιδόσεις”.  Αυτό συμβαίνει επειδή:  Ενδέχεται να υπάρχει και άλλη μεταβλητή (καταγεγραμμένη ή μη) η οποία να επιδρά στη σχέση μεταξύ των δύο μεταβλητών.  Ο συντελεστής συσχέτισης δεν περιέχει πληροφορία για τη φορά της επίδρασης  Ορισμένες φορές η φορά αιτιότητας μπορεί να προσδιοριστεί εφ' όσον υπάρχει μια μονοσήμαντη χρονική σειρά καταγραφής των μεταβλητών.  Για παράδειγμα, αποδεχόμαστε πως το άγχος πριν την εξέταση επηρεάζει τη βαθμολογική επίδοση και πως η βαθμολογική επίδοση (μεταγενέστερη) δεν μπορεί να επηρεάσει το άγχος πριν την εξέταση (προγενέστερη) αφού ο χρόνος δεν γυρίζει πίσω.

13 13 Η τιμή R 2  Η τετραγωνισμένη τιμή του συντελεστή συσχέτισης είναι ένα μέτρο της ποσότητας διακύμανσης της μιας μεταβλητής η οποία (ποσότητα) οφείλεται (ερμηνεύεται) από τη διακύμανση της άλλης μεταβλητής.  Για παράδειγμα η βαθμολογικής επίδοση παρουσιάζει μια διακύμανση μεταξύ των τιμών της επειδή τα άτομα έχουν διαφορετικά χαρακτηριστικά (μεταξύ άλλων και διαφορετικά επίπεδα άγχους).  Το τετράγωνο του συντελεστή συσχέτισης μεταξύ βαθμολογικής επίδοσης και έντασης άγχους είναι (-0.441) 2 = 0.194  Άρα 0.194x100= 19,4% της καταγεγραμμένης διακύμανσης στη βαθμολογική επίδοση, οφείλεται στη διακύμανση της έντασης άγχους των ατόμων του δείγματος.  Απομένει ποσοστό 80.6% καταγεγραμμένης διακύμανσης στην επίδοση το οποίο δεν οφείλεται στο άγχος. Συχνά, ζητούμενο είναι ο προσδιορισμός κατά το δυνατόν περισσότερων παραγόντων οι οποίοι επηρεάζουν τη βαθμολογική επίδοση.

14 14 Επιλογή του κατάλληλου συντελεστή συσχέτισης  Η επιλογή του συντελεστή συσχέτισης εξαρτάται  από το είδος των μεταβλητών  από τις παραμετρικές τους ιδιότητες

15 15 Συσχέτιση μη-παραμετρικών μετρήσεων Παράδειγμα:  “Συσχετίζονται οι βαθμολογικές επιδόσεις στη στατιστική με τις βασικές δεξιότητες μαθηματικών;”  Stats= {A, B+, B-, C, Pass, Fail} – Ordinal scale (τακτική κλίμακα)  GCSE= {A, B, C, D, E, F} – Ordinal scale (τακτική κλίμακα)  Α --> 1  Β+, Β --> 2  B-, C--> 3  C, D--> 4  Pass, E--> 5  Fail, F--> 6 Charles Spearman (1863-1945) Maurice Kendall (1907-1983)

16 16 Συσχέτιση μη-παραμετρικών μετρήσεων

17 17 Μερική συσχέτιση (Part and partial correlation)  Η συσχέτιση μεταξύ δύο μεταβλητών μπορεί να επηρεάζεται από μια 3η μεταβλητή.  Είναι συχνά ζητούμενο να μπορούμε να εκτιμήσουμε την επίδραση της 3ης μεταβλητής στην αλληλεξάρτιση (συσχέτιση) των δύο μεταβλητών που μας ενδιαφέρουν.  Παράδειγμα:  Το εντατικό διάβασμα ελαττώνει το άγχος  Το εντατικό διάβασμα βελτιώνει την επίδοση  Η αύξηση άγχους ελαττώνει την επίδοση

18 18 Ερμηνεία διακύμανσης  r (anxiety, performance) = -0.441 R 2 = 0.194 ή 19.4%  r (revision, performance) = +0.397 R 2 = 0.157 ή 15.7%  r (revision, anxiety) = -0.709 R 2 = 0.502 ή 50.2%  Αφού 1)Ο χρόνος διαβάσματος επηρεάζει τη βαθμολογική επίδοση 2)Η ένταση άγχους επηρεάζει τη βαθμολογική επίδοση 3)Και ο χρόνος διαβάσματος επηρεάζει σημαντικά την ένταση άγχους... αναμένεται πως ορισμένη από διακύμανση επίδοσης η οποία οφείλεται στο άγχος, πρέπει εμμέσως να προέρχεται και από το χρόνο διαβάσματος  Χρησιμοποιούμε τη μερική συσχέτιση για να προσδιορίσουμε τα “καθαρά” (και όχι τα μικτά) ποσοστά διακύμανσης που οφείλονται σε κάθε μεταβλητή.  Π.χ., υπολογίζουμε το συντελεστή μερικής συσχέτισης μεταξύ άγχους και βαθμολογικής επίδοσης (αμοιγώς κίτρινη περιοχή), ελέγχοντας (απομονώνοντας) την επίδραση του χρόνου διαβάσματος

19 19 Αποτελέσματα μερικής συσχέτισης  Ο συντελεστής συσχέτισης άγχους-επίδοσης (απομακρύνοντας την επίδραση του χρόνου ανάγνωσης) ελαττώθηκε σε -0.247 (από 0,441) γεγονός που υποδεικνύει πως (-0.247) 2 = 0.06 ή 6% της καταγεγραμμένης διακύμανσης στις μετρήσεις επίδοσης οφείλεται στη διακύμανση άγχους των φοιτητών.  Μεγάλο ποσοστό από την καταγεγραμμένη διακύμανση επίδοσης λόγω άγχους επισκιάζεται (οφείλεται) στον χρόνο διαβάσματος.

20 20 Συνοψίζοντας  Το μέγεθος αλληλεξάρτησης μεταξύ δύο μεταβλητών μπορεί να υπολογιστεί στατιστικώς με το συντελεστή συσχέτισης  Τα γραφήματα διασποράς δίνουν μια καλή εικόνα για το είδος συσχέτισης μεταξύ δύο μεταβλητών γι' αυτό και προτείνεται η χρήση τους  Υπάρχουν πολλαπλοί συντελεστές συσχέτισης και η επιλογή του κατάλληλου εξαρτάται από το είδος των μεταβλητών, την κλίμακα αποτίμησης και το είδος της κατανομής τους.  Ο συντελεστής συσχέτισης κυμαίνεται από 1 έως 1  Κατά τους υπολογισμούς αναφέρεται και το επίπεδο στατιστικής σημαντικότητας για την υπολογιζόμενη τιμή  Η τιμή R 2 υποδεικνύει το ποσοστό της καταγεγραμμένης διακύμανσης της μιας μεταβλητής το οποίο (ποσοστό) οφείλεται στη διακύμανση της άλλης μεταβλητής.  Η συσχέτιση δεν συνεπάγεται αιτιότητα  Η συσχέτιση μεταξύ δύο μεταβλητών μπορεί να επηρεάζεται από μία ή και περισσότερες άλλες μεταβλητές, καταγεγραμμένης ή μή.  Ο υπολογισμός μερικής συσχέτισης προσδιορίζει το ακριβές ποσοστό εξάρτησης μεταξύ δύο μεταβλητών, ελέγχοντας την επίδραση των τυχόν υπολοίπων.

21 21 Παραπομπές  Field, A (2005) Discovering Statistics Using SPSS: and sex, drugs and rock 'n roll, 2 nd ed., Sage Publication  Statsoft, Inc (2011). Electronic Statistics Textbook. Tulsa, OK: Statsoft Web: http://www.statsoft.com/textbook


Κατέβασμα ppt "Πίσω στα βασικά, μέρος 3 ο Βασικές αρχές στατιστικής για κοινωνιολογικές έρευνες: Συσχέτιση μεταβλητών Σπύρος Βερονίκης Τμήμα Αρχειονομίας-Βιβλιοθηκονομίας."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google