Υπολογισμός του Δείκτη Συσχέτισης Κεφάλαιο 9 Further info: http://www2.chass.ncsu.edu/garson/PA765/correl.htm Υπολογισμός του Δείκτη Συσχέτισης
Ο Υπολογισμός του Δείκτη Συσχέτισης Οι δύο σημαντικότεροι και πιο συχνά χρησιμοποιούμενοι δείκτες συσχέτισης είναι: Δείκτης Pearson r Δείκτης Spearman rho Deviation. A deviation is a value minus its mean: x - meanx. In SPSS, select Analyze, Correlate, Bivariate; click Options; check Cross-product deviations and covariances. Covariance is a measure of how much the deviations of two variables match. The equation is: cov(x,y) = SUM[(x - meanx)(y - meany)]. When the match is best, high positive deviations in x will be matched with high positive deviations in y, high negatives with high negatives, and so on. Such a best-case match-up will result in the highest possible sum in the formula above. In SPSS, select Analyze, Correlate, Bivariate; click Options; check Cross-product deviations and covariances. Standardization. One cannot easily compare the covariance of one pair of variables with the covariance of another pair of variables because variables differ in magnitude (mean value) and dispersion (standard deviation). Standardization is the process of making variables comparable in magnitude and dispersion: one subtracts the mean from each variable and divides by its standard deviation, giving all variables a mean of 0 and a standard deviation of 1. Correlation is the covariance of standardized variables - that is, of variables after you make them comparable by subtracting the mean and dividing by the standard deviation. Standardization is built into correlation and need not be requested explicitly in SPSS or other programs. Correlation is the ratio of the observed covariance of two standardized variables, divided by the highest possible covariance when their values are arranged in the best possible match by order. When the observed covariance is as high as the possible covariance, the correlation will have a value of 1, indicating perfectly matched order of the two variables. A value of -1 is perfect negative covariation, matching the highest positive values of one variable with the highest negative values of the other. A correlation value of 0 indicates a random relationship by order between the two variables. Pearson's r: This is the usual measure of correlation, sometimes called product-moment correlation. Pearson's r is a measure of association which varies from -1 to +1, with 0 indicating no relationship (random pairing of values) and 1 indicating perfect relationship, taking the form, "The more the x, the more the y, and vice versa." A value of -1 is a perfect negative relationship, taking the form "The more the x, the less the y, and vice versa." In SPSS, select Analyze, Correlate, Bivariate; check Pearson (the default).
Προϋποθέσεις για τη χρήση του δείκτη Pearson r Διαφορές ή συσχέτιση; Συσχέτιση Κλίμακα Μέτρησης: Ίσων Διαστημάτων ή αναλογική Σχεδιασμός: Εξαρτημένα Δείγματα Σημειώσεις: Η συσχέτισης των δύο μεταβλητών να είναι ευθύγραμμη
Παράδειγμα Ένας ερευνητής ενδιαφέρεται να μελετήσει εάν η δυσαρέσκεια του ατόμου για το σώμα του (X) σχετίζεται με τη γενικότερη αυτοπεποίθησή του (Υ) 10 άτομα συμπλήρωσαν δύο ερωτηματολόγια που μετρούν αυτές τις μεταβλητές και συγκέντρωσε τα παρακάτω δεδομένα
Τα δεδομένα της Έρευνας Άτομα Τιμές Χ Τιμές Y 1 15 18 2 23 17 3 19 4 22 16 5 21 6 7 8 20 9 10 13
Το διάγραμμα Σκεδασμού
Διατύπωση των Υποθέσεων Μηδενική Υπόθεση: Ο βαθμός δυσαρέσκειας που έχει το άτομο για το σώμα του δε συσχετίζεται με το βαθμό αυτοπεποίθησής του Εναλλακτική Υπόθεση: Ο βαθμός δυσαρέσκειας που έχει το άτομο για το σώμα του συσχετίζεται με το βαθμό αυτοπεποίθησής του (διπλής κατεύθυνσης)
Ο Τύπος...
Ο Πίνακας υπολογισμών Άτομα Τιμές Χ (Τιμές Χ)2 Τιμές Y (Τιμές Y)2 1 15 225 18 324 270 2 23 529 17 289 391 3 19 361 4 22 484 16 256 352 5 21 441 378 6 357 7 368 8 20 400 300 9 342 10 13 169 260 ΣΧ=190 ΣΧ2=3728 ΣY=180 ΣY2=3260 ΣΧΥ=3379
Διατύπωση Αποτελεσμάτων Αριθμός ατόμων Τιμή r r (10) = - 0.84, p=0.032 Βαθμοί ελευθερίας: μαθηματική έννοια σημαντική για τον εντοπισμό της κρίσιμης τιμής. Συνοδεύει τις τιμές των στατιστικών κριτηρίων. Στατιστκός ορισμός: οι βαθμοί ελευθερίας υπολογίζονται από τον αριθμό των παρατηρήσεων (μέγεθος δείγματος) μείον τον αριθμό των περιορισμών που δεν επιτρέπουν στις παρατηρήσεις να μεταβάλονται ελεύθερα. Στατιστικά σημαντικό αποτέλεσμα
Τα αποτελέσματα από το SPSS
Παράδειγμα Πίνακας 1: Συσχέτιση Pearson’s Μεταξύ Δυσαρέσκειας με το Σώμα και Αυτοεκτίμησης X Y -.84** Χ: Δυσαρέσκεια με το Σώμα, Υ: Αυτοεκτίμηση. Ν= 10. **: Συσχέτιση σημαντική στο επίπεδο .01 (διπλής κατεύθυνσης). Παράδειγμα αναφοράς ‘Η ανάλυση έδειξε ότι μεγαλύτερα επίπεδα δυσαρέσκειας με το σώμα σχετίζονταν με χαμηλότερα επίπεδα αυτοεκτίμησης [r(10)= -.84, p< .01]’
Προϋποθέσεις για τη χρήση του δείκτη Spearman rho Διαφορές ή συσχέτιση; Συσχέτιση Κλίμακα Μέτρησης: Ιεραρχική Σχεδιασμός: Εξαρτημένα Δείγματα Σημειώσεις: Η συσχέτιση των δύο μεταβλητών να είναι ευθύγραμμη Spearman's rho: The most common correlation for use with two ordinal variables or an ordinal and an interval variable. Rho for ranked data equals Pearson's r for ranked data. Note SPSS will assign the mean rank to tied values. The formula for Spearman's rho is: rho = 1 - [(6*SUM(d2)/n(n2 - 1)] where d is the difference in ranks. In SPSS, choose Analyze, Correlate, Bivariate; check Spearman's rho. Kendall's tau: Another common correlation for use with two ordinal variables or an ordinal and an interval variable. Prior to computers, rho was preferred to tau due to computational ease. Now that computers have rendered calculation trivial, tau is generally preferred. Partial Kendall's tau is also available as an ordinal analog to partial Pearsonian correlation. In SPSS, choose Analyze, Correlate, Bivariate; check Kendall's tau.
Παράδειγμα Μια ερευνήτρια θέλει να μελετήσει εάν υπάρχει σχέση μεταξύ των επιδόσεων των μαθητών στα μαθήματα της Γλώσσας και των Μαθηματικών Ζητά από τους δασκάλους τους να ιεραρχήσουν τα παιδιά ανάλογα με την επίδοσή τους στην τάξη
Τα δεδομένα της Έρευνας Άτομα Σειρά κατάταξης στα μαθηματικά (Χ) Σειρά κατάταξης στη Γλώσσα (Y) 1 8 2 7 4 3 10 5 6 9
Διατύπωση των Υποθέσεων Μηδενική Υπόθεση: Δεν υπάρχει συσχέτιση ανάμεσα στους βαθμούς στη γλώσσα και στους βαθμούς στα μαθηματικά Εναλλακτική Υπόθεση: Υπάρχει συσχέτιση ανάμεσα στους βαθμούς στη γλώσσα και στους βαθμούς στα μαθηματικά (διπλής κατεύθυνσης)
Ο Τύπος...
Σειρά κατάταξης στα Μαθηματικά (Χ) Σειρά κατάταξης στη Γλώσσα (Y) Ο Πίνακας υπολογισμών Άτομα Σειρά κατάταξης στα Μαθηματικά (Χ) Σειρά κατάταξης στη Γλώσσα (Y) Διαφορά d (X-Y) d2 1 8 7 49 2 4 3 9 10 -7 -6 36 5 6 -5 25 16 Σd2 = 266
Διατύπωση Αποτελεσμάτων Αριθμός ατόμων Τιμή rho rho (10) = - 0.61, ns Στατιστικά μή σημαντικό αποτέλεσμα
Τα αποτελέσματα από το SPSS
Παράδειγμα Γλώσσα Μαθηματικά -.61ns Πίνακας 2: Spearman’s rho Μεταξύ Επίδοσης Μαθηματικών και Γλώσσας Μαθηματικά Γλώσσα -.61ns Παράδειγμα αναφοράς: ‘Η ανάλυση έδειξε ότι δεν υπήρχε σημαντική σχέση μεταξύ των επιδόσεων στα Μαθηματικά και στη Γλώσσα (ρ= -.61, p> .05)’.
Άλλοι δείκτες Συσχέτισης Άλλοι δείκτες Συσχέτισης Ο δείκτης Biserial O δείκτης Φ Ο δείκτης Συμφωνίας (Kendall W)
Ο δείκτης Biserial (rbis) Χρησιμοποιείται όταν η μια μεταβλητή που θέλουμε να μελετήσουμε είναι ποσοτική και η άλλη ποιοτική (κατηγορική) με δύο επίπεδα (π.χ. ναι – όχι, σωστό - λάθος) Biserial correlation: Used when an interval variable is correlated with a dichotomous variable which reflects an underlying continuous variable. Biserial correlation will always be greater than the corresponding point-biserial correlation. Biserial correlation can be greater than 1.0. Biserial correlation is rarely used any more, with polyserial/polychoric correlation now being preferred. Biserial correlation is not supported by SPSS but is available in SAS as a macro. Converting point-biserial to biserial correlation. Biserial correlation is point-biserial correlation adjusted by (multiplied by) a factor reflecting the split in the dichotomy. To obtain biserial correlation from a point-biserial correlation, multiply the point-biserial correlation times the geometric mean of the split (which is SQRT(P1P2), where the P's are the dichotomy's proportions) divided by the normal curve ordinate at the point where the normal curve is split in the same proportions (most tables of the normal curve give the ordinate as well as the z-score and area). Rank biserial correlation: Used when an ordinal variable is correlated with a dichotomous variable. Rank biserial correlation is not supported by SPSS but is available in SAS as a macro. Point-biserial correlation is used when correlating a continuous variable with a true dichotomy. It is a special case of Pearsonian correlation and Pearson's r equals point-biserial correlation when one variable is continuous and the other is a dichotomy. Thus in one sense it is true that a dichotomous or dummy variable can be used "like a continuous variable" in ordinary Pearsonian correlation. (Special formulas for point-biserial correlation in textbooks are for hand computation; point-biserial correlation is the same as Pearsonian correlation when applied to a dichotomy and a continuous variable). T However, when the continuous variable is ordered perfectly from low to high, then even when the dichotomy is also ordered as perfectly as possible to match low to high, r will be less than 1.0 and therefore resulting r's must be interpreted accordingly. Specifically, point-biserial correlation will have a maximum of 1.0 only for the datasets with only two cases, and will have a maximum correlation around .85 even for large datasets, when the independent is normally distributed. The value of r may approach 1.0 when the continuous variable is bimodal and the dichotomy is a 50/50 split. Unequal splits in the dichotomy and curvilinearity in the continuous variable will both depress the maximum possible point-biserial correlation even under perfect ordering. Moreover, if the dichotomy represents a true underlying continuum, correlation will be attenuated compared to what it would be if the dichotomy were coded as a continuous variable.
Ο δείκτης Φ (phi) Χρησιμοποιείται όταν και οι δύο μεταβλητές που μελετάμε είναι ποιοτικές (κατηγορικές) και έχουν από δύο επίπεδα η καθεμία Phi: Used when both variables are dichotomies. Special formulas in textbooks are for hand computation; phi is the same as Pearsonian correlation for two dichotomies in SPSS correlation output, which uses exact algorithms. Alternatively, in SPSS, select Analyze, Descriptive Statistics, Crosstabs; click Statistics; check Phi and Cramer's V. Cramer's V, discussed elsewhere, is an extension of phi to larger tables. Correlation ratio, eta. Eta, the coefficient of nonlinear correlation, known as the correlation ratio, is discussed in the section on analysis of variance. Eta is the ratio of the between sum of squares to total sum of squares in analysis of variance. The extent to which eta is greater than r is an estimate of the extent to which the data relationship is nonlinear. In SPSS, select Analyze, Compare Means, Means; click Options; check Anova table and eta. Eta is also computed in Analyze, General linear model, Multivariate; and elsewhere in SPSS.
Στο SPSS: Analyse- Descriptive Statistics- Crosstabs
Παράδειγμα ‘Η ανάλυση ανέδειξε μια σημαντική σχέση μεταξύ φύλου και στάσης αναφορικά με την έκτρωση, με τους άνδρες να παρουσιάζουν σημαντικά θετικότερη στάση σε σχέση με τις γυναίκες [φ(20)= .60, p< .01]’.
Ο δείκτης συμφωνίας (Kendall W) Χρησιμοποιείται για να καθοριστεί ο βαθμός συμφωνίας δύο ή περισσοτέρων κριτών αναφορικά με την κατάταξη δύο ή περισσοτέρων προσώπων/αντικειμένων ως προς κάποια μεταβλητή 1- απόλυτη συμφωνία μεταξύ κριτών, ίδιο pattern απαντήσεων 0- ουσιαστικά τυχαία κατάταξη Kendall's W (also known as Kendall's coefficient of concordance) is a non-parametric statistic. It is a normalization of the statistic of the Friedman test, and can be used for assessing agreement among raters. Kendall's W ranges from 0 (no agreement) to 1 (complete agreement). Suppose, for instance, that a number of people have been asked to rank a list of political concerns, from most important to least important. Kendall's W can be calculated from these data. If the test statistic W is 1, then all the survey respondents have been unanimous, and each respondent has assigned the same order to the list of concerns. If W is 0, then there is no overall trend of agreement among the respondents, and their responses may be regarded as essentially random. Intermediate values of W indicate a greater or lesser degree of unanimity among the various responses. While tests using the standard Pearson correlation coefficient assume normally distributed values and compare two sequences of outcomes at a time, Kendall's W makes no assumptions regarding the nature of the probability distribution and can handle any number of distinct outcomes.
Rater Doctor Lawyer Police Teacher 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Παράδειγμα Κατάταξη τεσσάρων επαγγελμάτων από το κοινό (Ν=20) αναφορικά με το prestige που τους αποδίδεται Tests for Several Related Samples The Tests for Several Related Samples procedure compares the distributions of two or more variables. Example. Does the public associate different amounts of prestige with a doctor, a lawyer, a police officer, and a teacher? Ten people are asked to rank these four occupations in order of prestige. Friedman's test indicates that the public does in fact associate different amounts of prestige with these four professions. Statistics. Mean, standard deviation, minimum, maximum, number of nonmissing cases, and quartiles. Tests: Friedman, Kendall's W, and Cochran's Q. Test Type. Three tests are available to compare the distributions of several related variables. The Friedmantest is the nonparametric equivalent of a one-sample repeated measures design or a two-way analysis of variance with one observation per cell. Friedman tests the null hypothesis that k related variables come from the same population. For each case, the k variables are ranked from 1 to k. The test statistic is based on these ranks. Kendall's W is a normalization of the Friedman statistic. Kendall's W is interpretable as the coefficient of concordance, which is a measure of agreement among raters. Each case is a judge or rater and each variable is an item or person being judged. For each variable, the sum of ranks is computed. Kendall's W ranges between 0 (no agreement) and 1 (complete agreement). Cochran's Q is identical to the Friedman test but is applicable when all responses are binary. It is an extension of the McNemar test to the k-sample situation. Cochran's Q tests the hypothesis that several related dichotomous variables have the same mean. The variables are measured on the same individual or on matched individuals.
Στο SPSS: Analyse- Nonparametric tests- k related samples Παράδειγμα αναφοράς ‘Τα αποτελέσματα έδειξαν ένα υψηλό βαθμό συμφωνίας του κοινού αναφορικά με το prestige που αποδίδεται στα 4 επαγγέλματα [W(20)= .89, p< .001]’.
Πίνακας Δεικτών Συσχέτισης Μεταβλητή Υ Μεταβλητή Χ Ποσοτική Κατηγορική Ταξινόμηση Pearson r Biserial phi Spearman rho
Ο δείκτης προσδιορισμού Είναι ο δείκτης που μας δείχνει τι ποσοστό της συνολικής διακύμανσης της μεταβλητής Χ οφείλεται στη μεταβλητή Υ, και συμβολίζεται με το γράμμα r2. Τον υπολογίζουμε εάν υψώσουμε στο τετράγωνο το δείκτη συσχέτισης των δύο μεταβλητών που μελετάμε και στη συνέχεια πολλαπλασιάζοντάς τον με το 100.
Πώς τον υπολογίζουμε; Παράδειγμα: Εάν r = 0,80, τότε r2 = 0,802 = 0,64 x 100 = 64%