1 ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ ΠΑΡΑΔΟΣΗ 1Οη (Θ) Στοιχεία Επαγωγικής Στατιστικής
2 Ανεξάρτητες Μεταβλητές Είναι σταθερές που ο ερευνητής χειρίζεται ανεξάρτητα από τι τις επηρεάζει, ή προσδιορίζει τι τις επηρεάζει. Αυτές καθορίζονται εκ των προτέρω. Για παράδειγμα εξετάζουμε μια στατιστική μονάδα (π.χ. τον φοιτητή) ανεξάρτητα των μεταβλητών ύψους, βάρους, οικογενειακής κατάστασης, κλπ. Στα μαθηματικά αποδίδεται ως συνάρτηση της ανεξάρτητης (χ) από την εξαρτημένη (y) μεταβλητή, όπου y = f(x). Η ανεξάρτητη μεταβλητή μπορεί να είναι ποσοτική ή ποιοτική.
3 Εξαρτημένη Μεταβλητή Είναι η μεταβλητή που ερευνάται στη μελέτη. Σε ορισμένες περιπτώσεις είναι το αποτέλεσμα μιας πειραματικής διαδικασίας. Η μεταβλητότητα στην εξαρτημένη μεταβλητή λογικά εξαρτάται από τις συνθήκες που χειρίζεται ο ερευνητής στη μελέτη. Στις πιο πολλές μελέτες, οι εξαρτημένες μεταβλητές είναι εκείνες που ο ερευνητής στοχεύει να κατανοήσει, να εξηγήσει ή να προβλέψει. Αποτελούν εκείνο που ο ερευνητής μετρά στα άτομα μετά την έκθεση τους στην ανεξάρτητη μεταβλητή.
4 Στόχοι της επαγωγικής στατιστικής Εκτίμηση (estimation): Χρησιμοποιώντας τις μετρήσεις ενός δείγματος εκτιμούμε τις παραμέτρους του πληθυσμού. Έλεγχος Σημαντικότητας (significance testing): Αξιολογούμε το κατά πόσο διαφορές που εμφανίζονται σε διαφορετικές ομάδες ή μεταβλητές είναι πραγματικές ή προκύπτουν τυχαία.
5 Έλεγχος στατιστικής σημαντικότητας Όταν ελέγχουμε την στατιστική σημαντικότητα στην ουσία ελέγχουμε την πιθανότητα μια υπόθεση που έχουμε διαμορφώσει για τα δεδομένα μας να βγει αληθινή ή να διαψευσθεί. –Η υπόθεση που κάνουμε για τα δεδομένα μας λέγεται «ερευνητική υπόθεση» και συμβολίζεται με το Η1. Στην υπόθεση αυτή θεωρούμε ότι υπάρχει μια διαφορετική συμπεριφορά ομάδων ή μεταβλητών. –Η εναλλακτική υπόθεση που θα ισχύσει για τα δεδομένα μας αν η ερευνητική δεν αποδειχθεί λέγεται «μηδενική υπόθεση» και συμβολίζεται με το Η0. Σε αυτήν την περίπτωση θεωρούμε ότι οι ομάδες που εξετάζουμε ή οι μεταβλητές δεν εμφανίζουν διαφορές.
6 Παραδείγματα Διαφορές Ομάδων – Η1: Οι γυναίκες χρησιμοποιούν πιο συχνά πληθυντικό ευγενείας από τους άνδρες στον χώρο εργασίας. – Η0: Οι γυναίκες και οι άνδρες δεν εμφανίζουν διαφορές στη συχνότητα χρήσης του πληθυντικού ευγενείας στον χώρο εργασίας. Σχέση μεταβλητών –Η1: Το μέσο μήκος των λέξεων ενός κειμένου σχετίζεται με την δυσκολία κατανόησής του –Η0: Το μέσο μήκος των λέξεων ενός κειμένου δεν σχετίζεται με την δυσκολία κατανόησής του.
7 Επίπεδο σημαντικότητας Η πιθανότητα (p) που ο ερευνητής θέτει ως όριο για να απορρίψει την μηδενική υπόθεση ονομάζεται «επίπεδο σημαντικότητας» (significance level). Συχνά στις κοινωνικές επιστήμες το επίπεδο σημαντικότητας τίθεται στο 0,05 τουλάχιστον ή αλλιώς διατυπωμένο, θεωρούμε ότι αν επαναλάβουμε το πείραμα ή την έρευνα 100 φορές θα πρέπει να επιβεβαιώσουμε τα αποτελέσματά μας τουλάχιστον 95 φορές.
8 Επίπεδο σημαντικότητας Η τιμή p-value είναι το μικρότερο επίπεδο σημαντικότητας (α) στο οποίο η αρχική υπόθεση μπορεί να απορριφθεί. H τιμή p-value δεν είναι η πιθανότητα ότι η μηδενική υπόθεση (H 0 ) είναι σωστή, αυτό που παρέχει είναι η πιθανότητα, αν η ίσχυε η μηδενική υπόθεση, να βρίσκαμε ισχυρές αντίθετες ενδείξεις.
9 Επίπεδο σημαντικότητας Για του υπολογισμός της p-value χρησιμοποιούνται: Χ = Μέση Τιμή, μ 0 = μέγεθος πληθυσμού, σ = τυπική απόκλιση πληθυσμού, n = μέγεθος τυχαίου δείγματος η τιμή Ζ (Ζ score) (πίνακες κανονικής κατανομής) η τιμή z 0
10 Πίνακες κατανομής Ζ
11 Επίπεδο σημαντικότητας ως p-value Από τους Πίνακες της κατανομής Ζ βρίσκουμε την επιφάνεια που αντιστοιχεί στο z 0. Αν z 0 < 0 τότε αφαιρούμε από την μονάδα (το 1). Το αποτέλεσμα είναι η p-value.
12 Επίπεδο σημαντικότητας ως p-value Στις προηγούμενες γραφικές παραστάσεις η σκιασμένη περιοχή ονομάζεται «περιοχή απόρριψης» και αντιστοιχεί στην τιμή Z 0 (Περιοχή = 0,05 ή 5% για την δοκιμή " απλής ουράς" και Περιοχή = 0,025 ή 2,5% για την δοκιμή " διπλής ουράς" ).
13 Επίπεδο σημαντικότητας Το επίπεδο σημαντικότητας σε άλλες επιστήμες μπορεί να διαφέρει σημαντικά αφού υπάρχουν επιστήμες (Φαρμακολογία, Ιατρική) όπου αβεβαιότητες της τάξης του 5% μεταφράζονται σε χαμένες ανθρώπινες ζωές. Έτσι τίθενται επίπεδα σημαντικότητας αρκετά μικρότερα. Συνηθισμένα επίπεδα είναι: 0,01 και 0,001.
14 Η βασική δομή της ερευνητικής διαδικασίας 1.Θέτουμε την ερευνητική υπόθεση (Η) και την μηδενική υπόθεση (Η 0 ). 2.Διεξάγουμε την έρευνα. 3.Ελέγχουμε την μηδενική υπόθεση. 1.Θέτουμε το επίπεδο σημαντικότητας. 2.Επιλέγουμε το/τα στατιστικό/ά τεστ και υπολογίζουμε την στατιστική τιμή σημαντικότητας επαλήθευσης των υποθέσεων. 3.Συγκρίνουμε την στατιστική τιμή με την κρίσιμη τιμή του/των τεστ όπως αναγνωρίζεται γενικά.
15 Είδη στατιστικού λάθους Τύπου Ι (α-λάθος): Συμβαίνει όταν ο ερευνητής απορρίπτει τη μηδενική υπόθεση και αποδέχεται την ερευνητική όταν στην ουσία η μηδενική είναι ορθή και θα έπρεπε να γίνει αποδεκτή Τύπου ΙΙ (β-λάθος) ή λάθος αποδοχής: Αποτελεί το αντίθετο του α λάθους και συνίσταται στην αποδοχή της μηδενικής υπόθεσης όταν αυτή στην πραγματικότητα δεν ισχύει. Η 0 ορθή Η 0 λανθασμένη Αποδοχή Η 0 Σωστόβ-λάθος Απόρριψη Η 0 α-λάθοςΣωστό
16 Αναλύοντας διαφορές μεταξύ ομάδων – Ορισμένα στατιστικά τεστ Κατηγορικά δεδομένα: –χ 2 Αριθμητικά δεδομένα συνεχούς κατανομής: –t test και z test (προαναφέρθηκε) –ANOVA Αριθμητικά δεδομένα μη-συνεχούς κατανομής: –Median test –Mann-Whitney U test –Kruskal-Wallis test –και άλλα…..
17 Στατιστική σε κατηγορικές μεταβλητές
18 Το χ2 τεστ σε κατηγορικά δεδομένα Το χ2 είναι το κατάλληλο κριτήριο για την περίπτωση που τα δεδομένα της έρευνας είναι κατηγορικά. Το χ2 μπορεί να χρησιμοποιηθεί για να ερμηνεύσει τη συχνότητα κατηγοριών που προέρχονται μόνο από ένα δείγμα (δείκτης δείκτης προσαρμογής ή καταλληλότητας – chi square as a goodness of fit test), ή από δυο ή περισσότερα δείγματα δείγματα (χ2 για ανεξαρτησία - chi square as a test of independence). Τα δεδομένα πρέπει να έχουν τη μορφή συχνοτήτων συχνοτήτων. Το τεστ ουσιαστικά εξετάζει τη σχέση μεταξύ των κατηγοριών στις στήλες και τις γραμμές ενός πίνακα.
19 χ 2 με μια μεταβλητή Το τεστ μετράει τη συχνότητα σε κάθε κατηγορία της μεταβλητής (ονομάζονται παρατηρημένες συχνότητες – observed frequencies ή Ο). Στη συνέχεια υπολογίζεται η αναμενόμενη συχνότητα (expected frequency ή Ε) στις σχετικές κατηγορίες. Αυτή είναι η συχνότητα που θα εμφανιζόταν αν ίσχυε η μηδενική υπόθεση. Η τιμή χ 2 προκύπτει από τον ακόλουθο τύπο (επόμενη διαφάνεια), όπου Σ το άθροισμα και αποτιμάται με ειδικούς πίνακες (βλέπε επόμενη διαφάνεια. Γενικά, απορρίπτουμε τη μηδενική υπόθεση αν η τιμή του χ2 που υπολογίστηκε είναι μεγαλύτερη από την τιμή της θεωρητικής κατανομής του χ2 (κρίσιμη τιμή) για επίπεδο στατιστικής σημαντικότητας α και για βαθμούς ελευθερίας k-1:
20 Δοκιμή χ 2
21 χ 2 με δύο μεταβλητές Το στατιστικό κριτήριο χ2 μπορεί να χρησιμοποιηθεί, κατά δεύτερον, ως στατιστικό κριτήριο για τον έλεγχο της ανεξαρτησίας μεταξύ δύο ποιοτικών μεταβλητών (π.χ. ανθεκτικότητα μίας ομάδας φυτών σε μία ασθένεια και ευπάθεια μιας άλλης ομάδας στην ίδια ασθένεια (βλέπε παράδειγμα επόμενου πίνακα). Μπορεί να χρησιμοποιηθεί, δηλαδή, για να εξετάσουμε αν δύο μεταβλητές που διασταυρώνονται (οριζόντιες γραμμές) σε έναν πίνακα είναι ανεξάρτητες ή εξαρτημένες και αν οι συχνότητες των διαφόρων κατηγοριών μπορούν να προκύψουν τυχαία ή είναι συστηματικές, αντίστοιχα (για τον έλεγχο, προσθέτουμε τις τιμές χ2 των δύο κατηγοριών/classes).
22 Το χ2 στο στατιστικό πακέτο SPSS SPSS: X 2 Έλεγχος ανεξαρτησίας για κατηγορικές μεταβλητές.
23 Στατιστική σε ποσοτικές μεταβλητές
24 Στατιστική επεξεργασία αριθμητικών δεδομένων Σύγκριση μέσου/ων όρου/ων δείγματος/ων T-test Σύγκριση διακυμάνσεων F-test Ανάλυση παραλλακτικότητας (ANOVA) Ανάλυση συν-παραλλακτικότητας (ANCOVA) Mann-Whitney U-test σε ανεξάρτητες μεταβλητές μη κανονικής κατανομής Kruskal-Wallis H-test, μη παραμετρικές μέθοδοι
25 Τ (t) test
26 Αριθμητικά δεδομένα – t-test Οι ερευνητές χρησιμοποιούν επίσης το t-test όταν θέλουν να εξετάσουν κατά πόσο η διαφορά μεταξύ δύο ομάδων σε κάποια διακύμανση που μπορεί να μετρηθεί σε αριθμητική κλίμακα είναι πραγματική και όχι τυχαία. Υπάρχουν δύο είδη: –t-test ανεξάρτητων δειγμάτων (independent sample t-test), –t-test εξαρτημένων δειγμάτων (related measures t- test ή dependent sample t-test).
27 Μονό ή οne sample T-TEST Έστω ότι έχουμε n μετρήσεις y 1 έως y n τυχαία επιλεγμένες από ομοιόμορφα κατανεμημένο πληθυσμό με άγνωστες παραμέτρους μ (m), σ (s) 2. Το one sample T-TEST εξετάζει αν ο μέσος μ διαφέρει από την υποτιθέμενη τιμή c. Η μηδενική υπόθεση ενός one sample T-TEST είναι: : ο μέσος, : η διακύμανση (παραλλακτικότητα), : το τυπικό σφάλμα και n: ο αριθμός των παρατηρήσεων. Η στατιστική τιμή t ακολουθεί την κατανομή πιθανότητας Student με (n-1) βαθμούς ελευθερίας.
28 Διπλό ή Paired T-TEST: Dependent samples Τα T-TEST συγκρίνουν τους μέσους δύο δειγμάτων. Δύο μεταβλητές μπορεί να είναι (ή όχι) ανεξάρτητες. Όταν κάθε στοιχείο ενός δείγματος αντιστοιχίζεται με στοιχείο από άλλο δείγμα τότε έχουμε ζεύγος Paired T-TEST, που είναι χρήσιμο στη σύγκριση καταστάσεων «πριν» και «μετά». Βασίζεται στη διαφορά των τιμών των ζευγών των δύο δειγμάτων: Η διαφορά αυτή λογίζεται ως μία μεταβλητή, οπότε από Paired T- TEST μετασχηματίζουμε σε one sample T-TEST (χρησιμοποιούνται οι εξισώσεις της προηγούμενης διαφάνειας). Η μηδενική υπόθεση είναι ότι ο μέσος των διαφορών των παρατηρήσεων του πληθυσμού είναι D0 (μηδέν, εκτός και αν ορίζεται διαφορετικά). Εφόσον η μηδενική υπόθεση απορριφθεί, πρέπει να υπάρχει σημαντική διαφορά (επίδραση) μεταξύ των δύο δειγμάτων (αποτελέσματα «πριν» και «μετά»).
29 Ερμηνεία για το t test
30 Πίνακας κρίσιμων τιμών για το t test
31 Παράδειγμα Έστω ότι ένας ερευνητής χρησιμοποιεί το t-test για να διακρίνει την διαφορά στη χρήση παθητικής φωνής μεταξύ ανδρών και γυναικών. Η ερευνητική υπόθεση που θα διαμορφώσει μπορεί να είναι μονόδρομη (one-tailed) ή δίδρομη (two-tailed). Δηλ. μπορεί να υποθέσει ότι οι άνδρες χρησιμοποιούν μεγαλύτερο ποσοστό από τις γυναίκες (μονόδρομη υπόθεση) ή να υποθέσει γενικά ότι άνδρες και γυναίκες χρησιμοποιούν διαφορετικά ποσοστά δίχως όμως να έχει συγκεκριμένη ιδέα για το ποιο φύλο χρησιμοποιεί περισσότερο την παθητική φωνή (δίδρομη υπόθεση). Έπειτα από τη συλλογή των δεδομένων ο ερευνητής επιλέγει το κατάλληλο στατιστικό τεστ για να συγκρίνει τη διαφορά στους μέσους όρους των δύο φύλων (το κατάλληλο τεστ είναι το t-test).δεδομένων
32 Παράδειγμα Επιλέγει ο ερευνητής το επίπεδο σημαντικότητας το οποίο τις περισσότερες φορές είναι το 0,05. Υπολογίζει την στατιστική τιμή του t-test. Υπολογίζει τους βαθμούς ελευθερίας του t-test οι οποίοι τις περισσότερες φορές είναι Ν-1 για κάθε μεταβλητή. Συγκρίνει την στατιστική τιμή του t-test με την κρίσιμη τιμή που εμφανίζεται στον πίνακα κρίσιμων τιμών t-test. Αν η τιμή είναι μεγαλύτερη τότε ο ερευνητής αποφασίζει να απορρίψει την μηδενική υπόθεση (Η 0 ) και να δεχθεί την ερευνητική με πιθανότητα λάθους 0,05 ή 5%.
33 Το στατιστικό πακέτο SPSS SPSS: Έλεγχοι υποθέσεων για τη διαφορά των μέσων 2 ανεξάρτητων δειγμάτων (t test και Mann-Whitney-Wilcoxon test). Ο έλεγχος κανονικότητας θα καθορίσει εάν θα χρησιμοποιήσουμε το t-test [κανονική κατανομή] ή το Mann-Whitney-Wilcoxon test [μη - κανονική κατανομή]. t-test στο SPSS: Analyze Compare Means Independent-Samples t-test Mann-Whitney-Wilcoxon test στο SPSS: Analyze Nonparametric tests Legacy Dialogs 2 Independent Samples
34 Περιορισμός t-test Τα T-TEST υποθέτουν ότι τα δείγματα προκύπτουν από κανονικά κατανεμημένο πληθυσμό με άγνωστες παραμέτρους. Για τις παραλλακτικότητες πρέπει να ισχύει σ 1 2 = σ 2 2 ειδάλλως τα T-TEST δεν είναι αξιόπιστα λόγω των διαφορετικών τυπικών αποκλίσεων και βαθμών ελευθερίας.
35
36 Ανάλυση διακύμανσης – παραλλακτικότητας - διασποράς
37 Αριθμητικά δεδομένα – Ανάλυση Διακύμανσης (Analysis of Variance – ANOVA) Όταν θέλουμε να συγκρίνουμε περισσότερες από δύο ομάδες (π.χ. τρείς ομάδες) τότε το t-test είναι ακατάλληλο. Στην περίπτωση αυτή χρησιμοποιούμε την ΑΔ. Προϋπόθεση για να εφαρμόσουμε την ANOVA είναι η ύπαρξη μιας εξαρτημένης αριθμητικής μεταβλητής και η ύπαρξη μιας ή περισσότερων ανεξάρτητων κατηγορικών μεταβλητών.
38 Αριθμητικά δεδομένα – Ανάλυση Διακύμανσης (Analysis of Variance – ANOVA) Η ΑΔ επιτρέπει την σύγκριση πολλών μέσων όρων και λειτουργεί συγκρίνοντας την διακύμανση εντός της ομάδας και κατά μήκους των ομάδων. Ο λόγος των δύο διακυμάνσεων είναι η τιμή F η οποία έχει συγκεκριμένους βαθμούς ελευθερίας και η στατιστική σημαντικότητάς της ελέγχεται με βάσει σχετικούς πίνακες. Η ΑΔ εμφανίζει δύο γενικές μορφές: –ΑΔ μιας ανεξάρτητης κατηγορικής μεταβλητής. –ΑΔ πολλών ανεξάρτητων κατηγορικών μεταβλητών.
39 ANOVA μιας κατηγορικής μεταβλητής Έστω ότι θέλουμε να εξετάσουμε την επίδραση μιας εξαρτημένης κατηγορικής μεταβλητής σε πολλές ομάδες εξαρτημένων αριθμητικών μεταβλητών. Στην περίπτωση αυτή μπορούμε να χρησιμοποιήσουμε ANOVA για να δούμε ποιες ομάδες εμφανίζουν διαφορετικούς μέσους όρους. H ANOVA θα δείξει αν τουλάχιστον δύο μ.ο. διαφέρουν σημαντικά μεταξύ τους (σημαντικό F μέσου τετραγώνου επεμβάσεων).
40 ANOVA μιας κατηγορικής μεταβλητής Η τιμή F ωστόσο δεν μας λέει ποιες ομάδες διαφέρουν από ποιες. Ειδικότερα χρειαζόμαστε να ξέρουμε ποιοι μέσοι όροι διαφέρουν στατιστικά σημαντικά από ποιους. Για να λυθεί αυτό το θέμα χρησιμοποιούμε τα τεστ πολλαπλής σύγκρισης (multiple comparison test), μερικά από τα οποία είναι: –Scheffe test (το πιο συντηρητικό στην εκτίμηση), –Tukey (δείχνει τη μικρότερη διαφορά μεταξύ των μέσων τιμών), –Least Significant Difference (LSD) test (πολύ ανεκτικό, δείχνει συχνά διαφορές).
41 Παράδειγμα ANOVA Μεταβλητή χρόνος σε λεπτά για μεταφορά x εμπορεύματος. Επεμβάσεις 4 πιθανές διαδρομές: α: μέσα από την πόλη (μ.ο. 58 λεπτά), β: εσωτερική περιφερειακή (μ.ο. 46 λεπτά), γ: εξωτερική περιφερειακή (μ.ο. 41 λεπτά), δ: εθνική οδός (μ.ο. 32 λεπτά). Επαναλήψεις 20 δρομολόγια. Η ανάλυση της παραλλακτικότητας θα μας δείξει αν τουλάχιστον δύο μέσοι όροι διαφέρουν μεταξύ τους (F σημαντικό). Ο διαχωρισμός των μ.ο. θα δείξει σε επίπεδο σημαντικότητας π.χ. 5% ποιοι μ.ο. διαφέρουν μεταξύ τους.
42 Η ερμηνεία της τιμής F στην ANOVA Ένα παράδειγμα, με μαύρες γραμμές οι τιμές και κόκκινες οι μέσοι. Όσο αυξάνει η τιμή F οι ομάδες διαφέρουν μεταξύ τους. σ2 = Variance x = Values given in a set of data x¯x¯ = Mean of the data n = Total number of values.
43 ANOVA δύο κατηγορικών μεταβλητών Η ANOVA μπορεί να περιλαμβάνει περισσότερες της μιας ανεξάρτητων μεταβλητών. Στην περίπτωση αυτή έχουμε την διερεύνηση της επίδρασης δύο ανεξάρτητων κατηγορικών μεταβλητών στην εξαρτημένη αριθμητική μεταβλητή. Υπολογίζοντας ANOVA 2 μεταβλητών παίρνουμε δύο τύπους F τιμών. Ο πρώτος αναφέρεται στη γενική επίδραση της ανεξάρτητης μεταβλητής (main effects) και ο δεύτερος στην αλληλεπίδραση των δύο μεταβλητών (interaction effects).
44
45 Αποτελεί επέκταση της ANOVA και διερευνά περεταίρω την παραλλακτικότητα προσθέτοντας στην ανάλυση έναν η και περισσότερους συμπαράγοντες. ANCOVA Στο προηγούμενο παράδειγμα υποθέτουμε ότι μετά την ανάλυση οι διαδρομές γ και δ βρέθηκαν να διαφέρουν σημαντικά ως προς το χρόνο. Υποπτευόμαστε ότι τα αποτελέσματα επηρεάστηκαν από την ηλικία του οδηγού. Ορίζοντας ως συμπαράγοντα την ηλικία του οδηγού ``φιλτράρεται`` ένα κομμάτι της παραλλακτικότητας εντός της κάθε επέμβασης.
46
47 Παράδειγμα οθόνης επιλογής
48 Στατιστική σε αριθμητικές μεταβλητές που δεν ακολουθούν κανονική κατανομή
49 Έλεγχος κανονικότητας κατανομής - tests - Kolmogorov-Smirnov: Not sensitive to problems in the tails. For data sets > Shapiro-Wilks: Doesn't work well if several values in the data set are the same. Works best for data sets with < 50, but can be used with larger data sets < W/S: Simple, but effective. - Jarque-Bera: Tests for skewness and kurtosis, very effective. - D’Agostino: Powerful omnibus (skewness, kurtosis, centrality) test.
50 Χρησιμοποιείται για τη σύγκριση διαφορών μεταξύ δύο ανεξάρτητων ομάδων. Η εξαρτημένη μεταβλητή μπορεί να είναι διάταξης (ordinal) ή συνεχής (continuous). Τα δεδομένα της εξαρτημένης μεταβλητής δεν ακολουθούν κανονική κατανομή, εμφανίζεται ισχυρή πλευρική κύρτωση. Οι κατανομές προς σύγκριση θα πρέπει ωστόσο να έχουν παρόμοια διάταξη (σχήμα). Είναι εν μέρει η μη-παραμετρική προσέγγιση του t-test. Μπορεί να χρησιμοποιηθεί για να μελετηθούν π.χ. οι προτιμήσεις διαφόρων ανθρώπων και πως επηρεάζονται ανά τοποθεσία. Mann-Whitney U-test
51 Μη-παραμετρικό τεστ βασισμένο σε δεδομένα που είναι σε κατάταξη (π.χ. αύξουσα). Χρησιμοποιείται για να καθορίσει εάν υπάρχουν στατιστικά σημαντικές διαφορές μεταξύ δύο ή περισσοτέρων ομάδων μίας ανεξάρτητης μεταβλητής ή μίας εξαρτημένης συνεχούς μεταβλητής (continuous), ή μίας μεταβλητής διάταξης (ordinal). Θεωρείται η μη-παραμετρική προσέγγιση της ANOVA ή μια επέκταση του U-test καθώς επιτρέπει τη σύγκριση περισσότερων των δύο ομάδων. Kruskal-Wallis H Test
52 SPSS: Ανάλυση διακύμανσης Μη παραμετρική ανάλυση διακύμανσης (τεστ Krustal-Wallis). Analyze Non parametric tests Legacy Dialogs K- independent Samples
53 Σχέσεις – συσχετίσεις μεταξύ μεταβλητών
54 Σχέσεις μεταβλητών Εκτός από τις διαφορές ομάδων δεδομένων μπορούμε να μελετήσουμε τις σχέσεις διαφόρων μεταβλητών. Μπορούμε δηλαδή να μελετήσουμε τη συμπεριφορά μιας μεταβλητής όταν μια άλλη μεταβλητή αλλάζει. Οι πιθανές σχέσεις δύο μεταβλητών μπορεί να είναι οι ακόλουθες: –Σχέση Γραμμική Μη γραμμική –Μη σχέση
55 Γραμμική σχέση δύο μεταβλητών Η γραμμική σχέση εμφανίζεται γραφηματικά ως μια ευθεία γραμμή. Υπάρχουν δύο είδη γραμμικής συσχέτισης: –Θετική γραμμική σχέση: Όταν μεγαλώνει η μία μεταβλητή μεγαλώνει και η άλλη. –Αρνητική γραμμική σχέση: Όταν μεγαλώνει η μία μεταβλητή μικραίνει η άλλη. Εμπειρία Αυταπάτες ΗλικίαΗλικία ΗλικίαΗλικία
56 Μη γραμμική σχέση δύο μεταβλητών Όταν η σχέση δύο μεταβλητών δεν μπορεί να αναπαρασταθεί με μια ευθεία γραμμή τότε ονομάζεται μη γραμμική σχέση. Τα σημαντικότερα είδη μη γραμμικής σχέσης είναι: –Καμπυλόγραμμη σχέση μορφής U. –Ανάστροφη καμπυλόγραμμη σχέση μορφής U. Εγρήγορση ΎπνοςΎπνος Άγχος ΑπόδοσηΑπόδοση
57 Συσχέτιση
58 Συσχέτιση (correlation) Η στατιστική έκφραση της σχέσης δύο μεταβλητών ονομάζεται συσχέτιση. Η συσχέτιση δύο μεταβλητών προσεγγίζεται από δύο μετρήσεις: –Συντελεστής συσχέτισης (correlation coefficient): Μας δίνει τον τύπο και την ισχύ της συσχέτισης. –Συντελεστής προσδιορισμού (coefficient of determination): Μας προσδιορίζει το ποσοστό της ποικιλίας της μιας μεταβλητής που εξαρτάται από την ποικιλία της άλλης.
59 Συντελεστής συσχέτισης - ΣΣ Ο ΣΣ αποτελεί την αριθμητική έκφραση του τύπου και της ισχύος της σχέσης δύο μεταβλητών. Ισχύς: Ο ΣΣ παίρνει τιμές από 0 έως 1: –Το 0 υποδηλώνει ότι δεν υπάρχει καμία σχέση μεταξύ των δύο μεταβλητών. –Το 1 υποδηλώνει ότι υπάρχει τέλεια σχέση μεταξύ των δύο μεταβλητών. Τύπος: Ο τύπος εμφανίζεται ως πρόσημο στον συντελεστή: –Το + υποδηλώνει θετική σχέση μεταξύ των μεταβλητών. –Το – υποδηλώνει αρνητική σχέση μεταξύ των μεταβλητών.
60 Ερμηνεία των ΣΣ Δεν υπάρχει αντικειμενικός προσδιορισμός της ισχύος ενός ΣΣ. Ως γενικό οδηγό ωστόσο μπορούμε να ακολουθήσουμε τον παρακάτω πίνακα: –< 0,20: Μικρή, σχεδόν ασήμαντη σχέση, –0,20 – 0,40: Χαμηλή συσχέτιση, σίγουρη, αλλά μικρή σχέση, –0,40 – 0,70: Μέτρια συσχέτιση, σημαντική σχέση, –0,70 – 0,90: Υψηλή συσχέτιση, έντονη σχέση, –> 0,90: Πολύ υψηλή συσχέτιση, άμεσα εξαρτώμενη σχέση.
61 Είδη Συντελεστών Συσχέτισης Για αριθμητικές μεταβλητές σε κανονική κατανομή: –Pearson product moment correlation ή Pearson’s r Για μεταβλητές ποιοτικών δεδομένων (μη-κανονική κατανομή): –Spearman rho (r s ): Διαδεδομένος ΣΣ όταν οι μεταβλητές που συγκρίνονται είναι κατατάξεις ως προς κάποιο χαρακτηριστικό. Συνήθως προτιμάται όταν οι κατατάξεις αυτές έχουν προκύψει από αριθμητικά δεδομένα. –Kendall’s tau (τ): Όταν δύο κριτές έχουν κατατάξει την ίδια σειρά αντικειμένων. Για κατηγορικές μεταβλητές –Phi (Φ) & Cramer’s V : Για πίνακες με κατηγορικά δεδομένα.
62 Pearson's r
63 Spearman's r
64 Συντελεστής Καθορισμού - ΣΚ Ο ΣΣ μας λέει αν και πόσο ισχυρά σχετίζονται δύο μεταβλητές. Ωστόσο, δεν μας προσδιορίζει το ποσοστό της διακύμανσης μιας μεταβλητής που οφείλεται στην ύπαρξη της άλλης. Ο ΣΚ (ή r 2 ) παίρνει τιμές από 0 έως 1 και προκύπτει από το τετράγωνο του ΣΣ. Π.χ. αν ο ΣΣ της σχέσης του μεγέθους μιας πρότασης και της ταχύτητας με την οποία αυτή κατανοείται είναι 0,91, τότε ο ΣΚ είναι 0,83. r 2 = 0,83 r= 0,91 Μέγεθος πρότασης Ταχύτητα κατανόησης της πρότασης
65 Ανάλυση παλινδρόμησης
66 Ανάλυση Παλινδρόμησης – ΑΠ (Regression Analysis) Η ΑΠ χρησιμοποιείται για να εξηγήσει ή να προβλέψει τις τιμές μιας αριθμητικής μεταβλητής στηριζόμενη σε μία ή περισσότερες μεταβλητές μεικτής φύσης. Η μεταβλητή που ερευνάται ονομάζεται εξαρτημένη μεταβλητή, ενώ η μεταβλητή ή οι μεταβλητές που χρησιμοποιούνται για να την προβλέψουν ή να την εξηγήσουν ονομάζονται ανεξάρτητες μεταβλητές. Παραδείγματος χάρη, ας υποθέσουμε ότι ένας ερευνητής εξετάζει τη σχέση του μέσου μήκους λέξης ενός κειμένου και του μέσου μήκους πρότασης. Στην ΑΠ ο ερευνητής σχεδιάζει το ζεύγος τιμών των δύο μεταβλητών σε ένα διάγραμμα και στη συνέχεια προσαρμόζει μια ευθεία γραμμή μεταξύ των τιμών που έχουν παρατηρηθεί έτσι ώστε η γραμμή να απέχει το λιγότερο δυνατό από τα παρατηρημένα σημεία.
67 Ανάλυση Παλινδρόμησης – ΑΠ (Regression Analysis) Η ΑΠ στην ουσία είναι η δημιουργία μιας εξίσωσης που εκφράζει τη σχέση των μεταβλητών της ανάλυσης. Για την περίπτωση των δύο μεταβλητών η εξίσωση έχει τη γενική μορφή: y= a + bx όπου: y = Εξαρτημένη μεταβλητή (Μέσο μήκος λέξης). a = Τομή (πόσο ψηλά στον y άξονα τέμνει η γραμμή. b = Κλίση (το μέγεθος σχέσης των δύο μεταβλητών ή πόσες μονάδες αυξάνεται το y σε κάθε μονάδα αύξησης του x).
68 Διάγραμμα Παλινδρόμησης
69 Πολλαπλή Παλινδρόμηση – ΠΠ (Multiple regression) Η ΑΠ μπορεί να επεκταθεί ώστε να συμπεριλάβει πολλές ανεξάρτητες μεταβλητές οι οποίες θα χρησιμοποιούνται ως όργανα πρόβλεψης (predictors) της εξαρτημένης μεταβλητής. Δεδομένου ότι τα περισσότερα φαινόμενα (φυσικά και κοινωνικά) έχουν πολυπαραγοντική φύση, η ΠΠ είναι η κατάλληλη ανάλυση για να διερευνήσει ποιοί παράγοντες επηρεάζουν ένα φαινόμενο και πόσο ο καθένας από αυτούς. Γενική μορφή: y= a + b 1 X 1 + b 2 x 2 + … b n x n Προϋποθέσεις: –Εξαρτημένη μεταβλητή: Αριθμητική. –Ανεξάρτητες μεταβλητές: Αριθμητικές, Ποιοτικές, Κατηγορικές. –Αριθμός ανεξάρτητων μεταβλητών προς μέγεθος δείγματος. –Μη πολυσυγγραμμικότητα (multicollinearity).
70 Προϋποθέσεις Πολλαπλής Παλινδρόμησης Κωδικοποίηση ποιοτικών και κατηγορικών μεταβλητών: Για δεδομένα ποιοτικής ή κατηγορικής μεταβλητής κωδικοποιούμε τις διάφορες κατηγορίες με αριθμούς, π.χ. Άνδρες=1, Γυναίκες=2, Πολύ=3, Αρκετά=2, Λίγο=1 κ.ά. Οι αριθμητικές μεταβλητές που σχηματίζονται ονομάζονται dummy variables αφού στην ουσία είναι κατηγορικές με αριθμητική κωδικοποίηση.
71 Λογιστική Παλινδρόμηση – ΛΠ (Logistic Regression) Η ΠΠ δεν μπορεί να χρησιμοποιηθεί όταν η εξαρτημένη μεταβλητή είναι κατηγορική. Στην περίπτωση αυτή χρησιμοποιούμε ένα ειδικό είδος παλινδρόμησης, την Λογιστική Παλινδρόμηση (ΛΠ). Η ΛΠ περιλαμβάνει μια δίτιμη εξαρτημένη κατηγορική μεταβλητή και μια σειρά από ανεξάρτητες μεταβλητής μεικτής φύσης. Το σημαντικότερο πλεονέκτημά της είναι ότι είναι ανθεκτική σε παραβιάσεις κανονικότητας των δεδομένων γεγονός που την καθιστά πολύ σημαντική για την ανάλυση γλωσσικών δεδομένων.
72 SPSS - Παλινδρόμηση Analyze Regression Linear
73 Ανάλυση Συστάδων (cluster analysis) Η ΑΣ κατηγοριοποιεί ένα πλήθος παρατηρήσεων σε δύο ή περισσότερες αμοιβαία αποκλειόμενες ομάδες στηριζόμενη σε συνδυασμούς αριθμητικών μεταβλητών. Ο σκοπός της ΑΣ είναι να εντοπίσει ένα σύστημα που οργανώνει τις παρατηρήσεις σε ομάδες. Για παράδειγμα θα μπορούσαμε να διερευνήσουμε το κατά πόσο κάποιοι «υφομετρικοί δείκτες» (π.χ. μέσο μήκος λέξης, μέσο μήκος πρότασης κ.ά.) θα μπορούσαν να διακρίνουν μια σειρά από κείμενα και να τα κατατάξουν θεματικά. Μια σημαντική ιδιότητα της ΑΣ είναι ότι κατηγοριοποιεί τις παρατηρήσεις σε άγνωστες ομάδες.
74 Μια απλή ΑΣ Σε περιπτώσεις με μια ή δύο μεταβλητές μια απλή επισκόπηση των δεδομένων χρησιμοποιώντας ιστόγραμμα συχνότητας ή διάγραμμα διασποράς είναι αρκετή για να διαμορφώσουμε μια άποψη για τις δυνατές ομαδοποιήσεις. Στην περίπτωση αυτή η διάκριση σε ομάδες των κειμένων βάση της μέτρησης της λεξιλογικής πυκνότητας είναι σχεδόν προφανής.
75 Πίνακες εγγύτητας (proximities matrix) Η ΑΣ έχει ως αφετηρία με έναν πίνακα δεδομένων όπου τα δείγματα είναι σειρές και οι παρατηρήσεις κωδικοποιούνται ως στήλες. Από την αρχή ο πίνακας που δημιουργείται περιλαμβάνει τιμές που είναι μετρήσεις εγγύτητας ή διαφοροποιήσεως μεταξύ δύο παρατηρήσεων. Το επόμενο στάδιο μετά την μέτρηση των αποστάσεων είναι η διάκριση των δειγμάτων σε ομάδες βάσει των αποστάσεών τους.
76
77 Μέθοδοι συσταδοποίησης Απλή διασύνδεση (simple linkage): (Nearest neighbour in SPSS/WIN) υπολογίζει την απόσταση μεταξύ των δύο υποομάδων ως την ελάχιστη απόσταση μεταξύ δύο μελών. Πλήρη διασύνδεση (complete linkage): (Furthest neighbour in SPSS/WIN) υπολογίζει την απόσταση ανάμεσα στις δύο υποομάδες ως την μέγιστη απόσταση μεταξύ οποιωνδήποτε μελών στις υποομάδες. Μέση διασύνδεση (average linkage): (Centroid Method in SPSS/WIN) υπολογίζει την απόσταση ανάμεσα στις υποομάδες ως τον μέσο όρο μεταξύ των δύο υποομάδων.
78 Βιβλιογραφία - Γ. Κ. Μικρός. «Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων. Βασικές αρχές της επαγωγικής στατιστικής». Έκδοση: 1.0. Αθήνα Διαθέσιμο από τη δικτυακή διεύθυνση: Steel, R. G. D., Torrie, J. H., (1980), “Principles and Procedures of Statistics”, 2nd ed. New York: McGraw-Hill. - SAS Institute, (2015),“SAS/STAT® 14.1 User’s Guide - Introduction to Analysis of Variance Procedures”, Copyright © 2015, SAS Institute Inc., Cary, NC, USA. - Κορνάρου Ε., Ρουμελιώτη Α. (2007) Η Δημόσια Υγεία στην Πρωτοβάθμια Φροντίδα Υγείας, Θέματα Επιδημιολογίας Μεθοδολογίας της Έρευνας και Στατιστικής, Εκδόσεις Παπαζήση. - Σαχίνη-Καρδάση Α. (2003) Μεθοδολογία Έρευνας, Εφαρμογές στο Χώρο της Υγείας, Γ΄ Έκδοση, Εκδόσεις ΒΗΤΑ. - Τριχόπουλος Δ. (2002) Επιδημιολογία, Αρχές Μέθοδοι Εφαρμογές, Επιστημονικές Εκδόσεις ΠΑΡΙΣΙΑΝΟΣ. - Δημητρόπουλος Γ. Ευστάθιος (2001) Εισαγωγή στη Μεθοδολογία της Επιστημονικής Έρευνας, Ένα συστηματικό Δυναμικό Μοντέλο, Γ΄ Έκδοση, Εκδόσεις «ΕΛΛΗΝ».