Στατιστικές Υποθέσεις

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Στατιστικές Υποθέσεις"— Μεταγράφημα παρουσίασης:

1 Στατιστικές Υποθέσεις
(Ερευνητικά Ερωτήματα / Υποθέσεις προς επιβεβαίωση) Συσχετίσεις μεταξύ μεταβλητών (ερωτήσεων)

2 Τι είναι συσχέτιση; Έστω ότι έχουμε δύο ερωτήσεις Q1,Q2
Θέλουμε να δούμε αν αυτές οι ερωτήσεις έχουν κάποια σχέση μεταξύ τους Σχέση δεν σημαίνει ομοιότητα, αφού οι ερωτήσεις είναι διαφορετικές ! Σχέση σημαίνει πως οι απαντήσεις στην Q1, επηρεάζουν ή καθορίζουν σε κάποιο βαθμό και τις απαντήσεις στην Q2

3 Περιπτώσεις (ανάλογα με τον τύπο των ερωτήσεων)
Ποιοτική με Ποσοτική Ποσοτική με Ποσοτική Ποιοτική με Ποιοτική

4 Περίπτωση 1: Ποιοτική με Ποσοτική
Έστω ότι η μία ερώτηση Q1 είναι ποιοτική (ονομαστική ή διατάξιμη) και η Q2 είναι ποσοτική Τότε ΣΧΕΣΗ μεταξύ των ερωτήσεων, σημαίνει πως οι απαντήσεις στην Q2, κατά μέσο όρο, είναι διαφορετικές ανάμεσα στις κατηγορίες της Q1 Δηλαδή??

5 Παράδειγμα Α Θέλουμε να δούμε αν το Φύλο (Ποιοτική) έχει σχέση με την Ολική Χοληστερόλη (HDL) των ατόμων(Ποσοτική) Αν πράγματι υπάρχει κάποια σχέση, αυτό θα σημαίνει πως ο μέσος όρος της HDL διαφέρει ανάμεσα στις κατηγορίες της ποιοτικής μεταβλητής Δηλαδή αν υπάρχει σχέση, ο μέσος όρος HDL ανδρών και γυναικών είναι διαφορετικός

6 Αν βρούμε τους μέσους όρους της HDL ανδρών - γυναικών, παρατηρούμε ότι
Μέση HDL ανδρών = 187,8 mg/dl Μέση HDL γυναικών =178,6 mg/dl Βλέπουμε δηλαδή πως στο ΔΕΙΓΜΑ υπάρχει μια σχέση ανάμεσα στο Φύλο και την HDL, αφού οι μέσες τιμές είναι διαφορετικές

7 Ερώτηση: Αυτά που παρατηρήσαμε στα δείγματα είναι τυχαία? (οι διάφορες που βρήκαμε ανάμεσα στις ομάδες είναι τυχαίες?). Μήπως δηλαδή τα χαρακτηριστικά ΦΥΛΟ και HDL δεν έχουν καμία σχέση? ή το αντίθετο: Υπάρχουν πράγματι διαφορές και στους πληθυσμούς? Έχουν δηλαδή κάποια σχέση τα χαρακτηριστικά μεταξύ τους?

8 Ο αριθμός p Στη Στατιστική υπάρχει ένα «μαγικό» νούμερο, που μας δίνει την ΠΙΘΑΝΟΤΗΤΑ τα αποτελέσματα που βρήκαμε στα δείγματα, να ήταν τυχαία (μη σημαντικά δηλαδή). p-value (τιμή p) (στο SPSS αναφέρεται SIG. = significance)

9 Η Απόφαση μας (Κανόνας):
Αν το p<0,05 (πιο μικρό από το 5%) τότε οι διαφορές ΔΕΝ είναι τυχαίες Δηλαδή οι διαφορές που βρήκαμε στα δείγματα, επιβεβαιώνονται πιθανότατα και στους πληθυσμούς (π.χ. οι άνδρες έχουν υψηλότερη HDL κατά μέσο όρο από τις γυναίκες – δηλαδή το Φύλο και HDL έχουν κάποια σχέση) Η πιθανότητα να έχουμε κάνει λάθος είναι p (δηλαδή ΠΟΛY ΜΙΚΡΗ)

10 Πως από το Δείγμα, βγάζουμε συμπέρασμα για ΟΛΟΚΛΗΡΟ τον πληθυσμό?
Αναλύουμε τα δεδομένα με την κατάλληλη διαδικασία (με το χέρι ή με τη βοήθεια υπολογιστή), και στη συνέχεια Ψάχνουμε στην απάντηση για τον αριθμό p (Τιμή p) Συγκρίνουμε το p με το 0,05 (το 5% δηλαδή) Αν p<0,05 τότε οι ερωτήσεις μας έχουν σημαντική σχέση μεταξύ τους αν p>0,05 τότε οι ερωτήσεις δεν έχουν καμία σχέση και τα ευρήματα του δείγματος ήταν τυχαία (όχι σημαντικά)

11 Διαδικασίες (Περίπτωση 1)
Αν έχουμε να εξετάσουμε τη σχέση μια ποσοτικής με μια ποιοτική μεταβλητή, ή κατάλληλη διαδικασία, εξαρτάται από το ΠΟΣΕΣ ΚΑΤΗΓΟΡΙΕΣ έχει η ποιοτική μεταβλητή Αν έχει μόνο 2 κατηγορίες (π.χ. άνδρας-γυναίκα), χρησιμοποιούμε t-TEST Αν έχει από 3 κατηγορίες και πάνω, χρησιμοποιούμε Ανάλυση Διακύμανσης (Analysis of Variance – ANOVA)

12 Στο παράδειγμα A - Αποτελέσματα
Group Statistics Φύλο N Mean Std. Deviation SE.Mean Ολική χοληστερόλη Άνδρας , ,821 2,685 Γυναίκα , ,284 1,886 t-test for Equality of Means t df Sig. 2.891 479 0.004 p-value Συμπέρασμα: Το p είναι 0,004, δηλαδή πολύ πιο μικρό από το 0,05 (p << 0,05) Άρα η διαφορά ανάμεσα στην χοληστερόλη ανδρών και γυναικών στο δείγμα δεν είναι τυχαία, οι άνδρες έχουν κατά μέσο όρο μεγαλύτερη χοληστερόλη από τις γυναίκες. Ή με άλλα λόγια, οι μεταβλητές ΦΥΛΟ και HDL έχουν κάποια σημαντική σχέση

13 Πως ο υπολογιστής βρίσκει το p?
Υπολογίζει μια τιμή (στο t-test ονομάζεται t) Και μετά υπολογίζει το p, σαν ένα εμβαδόν σε μια καμπύλη Εμπειρικά: Αν t >2, τότε p<0,05 ενώ αν t<2 τότε p>0,05 To p και το t είναι αντιστρόφως ανάλογα, όσο μεγαλώνει το t, μικραίνει το p Άρα όσο πιο μακριά είναι το t από το 2, τόσο πιο μικρό είναι το p και τόσο πιο σίγουροι είμαστε ότι υπάρχουν ΔΙΑΦΟΡΕΣ και στους πληθυσμούς!

14 Παράδειγμα B Χρησιμοποιώντας τα ίδια δεδομένα των ίδιων ασθενών, θα δούμε αν το ΚΑΠΝΙΣΜΑ έχει σχέση με την ΓΛΥΚΟΖΗ του αίματος (το ΚΑΠΝΙΣΜΑ έχει δύο κατηγορίες ΝΑΙ/ΟΧΙ) Καπνισμα N Μέση τιμή Τυπ. Απόκλιση Ναι 301 88,8 12,3 Οχι 180 87,9 9,8 Το p(SIG) που μας δίνει η διαδικασία t-test, είναι 0,388 που είναι πολύ πιο μεγάλο από το 0,05 (p=0388 > 0,05) Αυτό σημαίνει πως δεν υπάρχει διαφορά στις μέσες τιμές γλυκόζης ανάμεσα σε καπνιστές και μη καπνιστές, οπότε το ΚΑΠΝΙΣΜΑ δεν έχει σχέση με την ΓΛΥΚΟΖΗ

15 ΠΑΡΑΔΕΙΓΜΑ Γ Θέλουμε να ελέγξουμε αν η ολική χοληστερόλη (HDL) έχει σχέση με την περιοχή κατοικίας (Αστική, Ημιαστική, Αγροτική) Ή με άλλα λόγια να δούμε αν υπάρχει διαφορά στις μέσες τιμές των HDL ανάμεσα στις τρείς περιοχές Επειδή η περιοχή κατοικίας έχει τρεις κατηγορίες η κατάλληλη διαδικασία είναι η Ανάλυση Διακύμανσης κατά ένα Παράγοντα

16 One Way ANOVA Μέσες τιμές και τυπικές αποκλίσεις ανά περιοχή
ΜΕΣΗ ΤΙΜΗ ΤΥΠ.ΑΠΟΚΛΙΣΗ Αγροτική 161 179,9 34,0 Ημιαστική 142 183,0 35,7 Αστική 178 183,6 33,8 Παρατηρούμε μικρή αύξηση στις αστικές περιοχές σε σχέση με τις αγροτικές

17 Είναι τα αποτελέσματα σημαντικά;
ANOVA Ολική χοληστερόλη Sum of Squares df Mean Square F Sig. Between Groups 1288, ,197 ,544 0,581 Within Groups , ,769 Total ,0 480 p-value Το p=0,581 > 0,05 οπότε τα αποτελέσματα είναι τυχαία. Δεν είναι στατιστικά σημαντικά! Δεν επιβεβαιώνεται δηλαδή ότι η HDL είναι διαφορετική στις τρείς περιοχές.

18 Συνοψίζοντας Όταν έχουμε να συσχετίσουμε μια ΠΟΙΟΤΙΚΗ με μια ΠΟΣΟΤΙΚΗ μεταβλητή, συγκρίνουμε τους μέσους όρους της ΠΟΣΟΤΙΚΗΣ για όλες τις κατηγορίες της ΠΟΙΟΤΙΚΗΣ Αν είναι δύο κατηγορίες, κάνουμε t-test, αν είναι περισσότερες κάνουμε ANOVA. Συγκρίνουμε το p (SIG) με τον αριθμό 0,05 και βγάζουμε συμπέρασμα για τη ύπαρξη σχέσης (αν p<0,05) ή όχι (αν p>0,05)


Κατέβασμα ppt "Στατιστικές Υποθέσεις"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google