Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Η ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ Β. ΚΑΡΑΓΙΑΝΝΗ

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Η ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ Β. ΚΑΡΑΓΙΑΝΝΗ"— Μεταγράφημα παρουσίασης:

1 ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Η ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ Β. ΚΑΡΑΓΙΑΝΝΗ
ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Η ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ Β. ΚΑΡΑΓΙΑΝΝΗ

2 ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Η ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ
Περιλαμβάνει: Την Εκτίμηση Παραμέτρων Τον Έλεγχο Στατιστικών Υποθέσεων 2

3 ΕΙΣΑΓΩΓΙΚΑ ΣΤΟΙΧΕΙΑ ΓΙΑ ΘΕΩΡΗΤΙΚΕΣ ΚΑΤΑΝΟΜΕΣ
Έχουμε διάφορα θεωρητικά υποδείγματα πιθανοτήτων τα οποία χρησιμοποιούμε για να ανακαλύψουμε τους διαφόρους νόμους πιθανοτήτων που ακολουθούν τα διάφορα φαινόμενα της τύχης. Οι θεωρητικές κατανομές οι οποίες κατέχουν εξέχουσα θέση : Bernoulli, Διωνυμική, κανονική, κατανομή Poisson. 3

4 ENNOIA THΣ ΠΑΡΑΜΕΤΡΟΥ Παράμετρος: είναι η άγνωστη ποσότητα που ενδιαφερόμαστε να μετρήσουμε στον πληθυσμό. Πληθυσμός: μέτρηση παραμέτρου Δείγμα: εκτίμηση παραμέτρου

5 Εκτιμήτρια (estimator) και εκτίμηση.
Eίναι μια τυχαία μεταβλητή που χρησιμοποιείται για να εκτιμήσει ένα χαρακτηριστικό του πληθυσμού. Η αριθμητική τιμή που η εκτιμήτρια παίρνει για κάποιο συγκεκριμένο δείγμα ονομάζεται εκτίμηση (estimation). 5

6 ΔΙΑΚΡΙΤΕΣ ΚΑΤΑΝΟΜΕΣ 1. BERNOULLI
ΕΧΩ ΜΙΑ ΜΟΝΟ ΔΟΚΙΜΗ ΠΟΥ ΚΑΤΑΛΗΓΕΙ σε 2 ενδεχόμενα. Χαρακτηριστικές περιπτώσεις: Ρίψη ενός νομίσματος: κορώνα γράμματα Προτίμηση ενός καταναλωτή σε ένα προϊόν Ναι Οχι Μπορούμε επίσης να ομαδοποιήσουμε και να έχουμε και πάλι επιτυχία και αποτυχία. Ω={ε, α} p+q= p q1 Ry={0,1}.

7 1.BERNOULLI ΠΑΡΑΔΕΙΓΜΑ: Σε έρευνα καταναλωτών για το επίπεδο ικανοποίησης από τη γεύση συγκεκριμένου προϊόντος μας ενδιαφέρουν τα αποτελέσματα 3 (αρκετά ικανοποιημένος) και 4 (πολύ ικανοποιημένος), μπορούμε να δημιουργήσουμε δοκιμές Bernoulli αν ορίσουμε ως επιτυχία ε την εμφάνιση των ενδείξεων 3 και 4 και ως αποτυχία την εμφάνιση οποιασδήποτε άλλης από τις άλλες 2 ενδείξεις 1 (καθόλου), 2 (λίγο). Το σύνολο τιμών της τυχαίας μεταβλητής Χ είναι το Rx={0, 1} ενώ για τη συνάρτηση πιθανότητας g έχουμε: f(x)=P(X=x)= p, x=1 q=1-p, x=0 O τύπος της f μπορεί να γραφεί εναλλακτικά ως εξής: f(x)=pxq1-x x=0,1 Eνώ η διακύμανση είναι ίση με pq

8 2. ΔΥΩΝΥΜΙΚΗ ΚΑΤΑΝΟΜΗ Ο συνολικός αριθμός προσπαθειών (ν) είναι σταθεροποιημένος Υπάρχουν 2 δυνατά αποτελέσματα σε κάθε προσπάθεια αποκαλούμενα «επιτυχία» και «αποτυχία» Οι προσπάθειες είναι ανεξάρτητες Η πιθανότητα επιτυχίας όπως και η πιθανότητα αποτυχίας σε κάθε προσπάθεια είναι σταθερή. Ο συνολικός αριθμός επιτυχιών είναι μια τυχαία μεταβλητή Χ

9 ΔΥΩΝΥΜΙΚΗ ΚΑΤΑΝΟΜΗ Η συνάρτηση πιθανότητας είναι: 1.Ε{x}=vp 2.V(x)=vpq

10 3. Η ΚΑΤΑΝΟΜΗ POISSON H κατανομή Poisson ενδείκνυται για την περιγραφή γεγονότων οι πιθανότητες πραγματοποίησης των οποίων είναι ελάχιστες, ο αριθμός δοκιμών μεγάλος (n ) ενώ ο μέσος αριθμός επιτυχιών παίρνει μέτριες τιμές, δηλ. το γινόμενο np συγκλίνει προς κάποιο σταθερό αριθμό >0.

11 Η ΚΑΤΑΝΟΜΗ POISSON Ρχ = Ρ[Χ = χ] =
Ρχ = Ρ[Χ = χ] = Τόσο ο αρ. μέσος όσο και η διακύμανση είναι ίσα με λ

12 Συνεχείς κατανομές: Κανονική κατανομή Η κανονική κατανομή είναι η πιο σπουδαία κατανομή της θεωρίας Πιθανοτήτων και της Στατιστικής, κυρίως λόγω της ευρείας χρησιμότητας της σε ένα μεγάλο πλήθος εφαρμογών: Πολλά πληθυσμιακά χαρακτηριστικά (π.χ. ύψος, βάρος, βαθμολογία σε τεστ κτλ.) περιγράφονται ικανοποιητικά από την κανονική κατανομή. 12

13 Πολλές κατανομές τόσο διακριτές όσο και συνεχείς μπορούν κάτω από ορισμένες συνθήκες να προσεγγισθούν από την κανονική κατανομή. Η τιμή της διαμέσου είναι ίση με τον αριθμητικό μέσο και την επικρατούσα τιμή 13

14 Κανονική κατανομή με παραμέτρους μ και σ2.
Μια συνεχής τυχαία μεταβλητή Χ θα λέμε ότι ακόλουθεί την κανονική κατανομή με παραμέτρους μ  R και σ2>0, αν η συνάρτηση πυκνότητας  της Χ δίνεται από τον τύπο f(x)= Η κανονική κατανομή με παραμέτρους μ και σ2 συμβολίζεται με Ν (μ, σ2). 14

15 Σε κάθε μεταβολή των αριθμητικών μέσων και της τυπικής απόκλισης έχουμε διαφορετικές κανονικές κατανομές:

16 Τυποποιημένη κανονική κατανομή
Μια συνεχής τυχαία μεταβλητή Ζ θα λέμε ότι ακολουθεί την τυποποιημένη κανονική κατανομή, αν η συνάρτηση πυκνότητας f της Ζ δίνεται από τον τύπο Η εύρεση πιθανοτήτων σχετικών με την τυποποιημένη κανονική τυχαία μεταβλητή Ζ απαιτεί τον υπολογισμό της συνάρτησης κατανομής 16

17 φ(-z) = 1- φ(z), - < z <
Για τη συνάρτηση κατανομής της τυποποιημένης κανονικής κατανομής ισχύει φ(-z) = 1- φ(z), - < z < 17

18 ΠΙΝΑΚΕΣ ΤΥΠΟΠΟΙΗΜΕΝΗΣ ΚΑΝΟΝΙΚΗΣ ΚΑΤΑΝΟΜΗΣ

19 ΠΑΡΑΔΕΙΓΜΑ Αναζητώ την πιθανότητα εμφάνισης μιας συγκεκριμένης τιμής:
Ποια είναι η πιθανότητα να καταναλώνει καφέ ένας καταναλωτής κάτω των 70 ετών;

20 ΠΑΡΑΔΕΙΓΜΑ Γνωρίζουμε ότι η μέση ηλικία των ατόμων που καταναλώνουν καφέ είναι 36,16 και η τυπική απόκλιση ίση με 13,03. Μετατρέπουμε το 70 σε τυποποιημένη τιμή: z=(70-36,16)/13,03=2,60 , P(z≤x)=φ(z)=0,99534

21 2. ΣΥΝΕΧΕΙΣ ΚΑΤΑΝΟΜΕΣ: KATANOMH STUDENT
Ο συντελεστής κυρτότητας β2 της κατανομής t είναι μικρότερος του συντελεστή β2 = 3 της κανονικής κατανομής. Όταν όμως n > 30, τότε η κατανομή t πλησιάζει τη μορφή της τυποποιημένης κανονικής κατανομής. 21

22 ΤΙ ΣΗΜΑΙΝΕΙ ΔΕΙΓΜΑΤΙΚΗ ΚΑΤΑΝΟΜΗ
Παίρνουμε όλα τα δυνατά δείγματα μεγέθους 4 Καταλήγουμε σε μια δειγματική κατανομή των αρ. μέσων

23 ΔΕΙΓΜΑΤΙΚΕΣ ΚΑΤΑΝΟΜΕΣ ΣΤΑΤΙΣΤΙΚΩΝ ΣΥΝΑΡΤΗΣΕΩΝ
Tελικά δηλαδή θα έχουμε μια κατανομή της συχνότητας των αριθμητικών μέσων (αντίστοιχα μπορώ να έχω άλλων παραμέτρων που με ενδιαφέρουν π.χ αναλογιών), με το μέσον όρο να ταυτίζεται με αυτόν του πληθυσμού. Μια τέτοια κατανομή ονομάζεται κατανομή δειγματοληψίας του αριθμητικού μέσου. 23

24 MΠΟΡΟΥΜΕ ΝΑ ΣΥΛΛΕΞΟΥΜΕ ΕΚΑΤΟΝΤΑΔΕΣ ΔΕΙΓΜΑΤΑ;
Το τυπικό σφάλμα εκτίμησης είναι η τυπική απόκλιση των μέσων όρων όλων των δειγμάτων. Συνήθως βασιζόμαστε σε εκτιμήσεις του τυπικού σφάλματος σε ένα δείγμα (με υποθέσεις- εφόσον δεν είναι γνωστή-, για κατανομή πληθυσμού/ δειγματική κατανομή) που στη περίπτωση του αριθμητικού μέσου διαμορφώνεται:

25 EKTIMHTIKH Ασχολείται με την εκτίμηση των παραμέτρων του πληθυσμού μέσω δείγματος. Περιλαμβάνει: Σημειακές εκτιμήσεις Εκτιμήσεις μέσω διαστημάτων εμπιστοσύνης 25

26 Μέθοδος της μέγιστης πιθανοφάνειας Μέθοδος των ελαχίστων τετραγώνων
ΣΗΜΕΙΑΚΕΣ ΕΚΤΙΜΗΣΕΙΣ Στη σημειακή εκτίμηση η μοναδική τιμή που προκύπτει από ένα δείγμα χρησιμοποιείται σαν προσέγγιση της άγνωστης παραμέτρου του πληθυσμού. ΜΕΘΟΔΟΙ Μέθοδος των ροπών Μέθοδος της μέγιστης πιθανοφάνειας Μέθοδος των ελαχίστων τετραγώνων 26

27 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ
Το διάστημα εμπιστοσύνης χρησιμοποιείται για ασφαλέστερη εκτίμηση μιας παραμέτρου του πληθυσμού με βάση ένα τυχαίο δείγμα από τον πληθυσμό αυτό. Παρέχει ένα φάσμα ευλόγων (πιθανών) τιμών της παραμέτρου συνοδευμένο από τον βαθμό εμπιστοσύνης που έχουμε ότι το διάστημα αυτό περιέχει την πραγματική τιμή της παραμέτρου. 27

28 ΒΑΘΜΟΣ ΕΜΠΙΣΤΟΣΥΝΗΣ Το ποσοστό των δειγμάτων που θεωρούμε ότι κατά προσέγγιση περιέχει την πραγματική τιμή της παραμέτρου (π.χ 95% ή 99%) αντανακλά το βαθμό εμπιστοσύνης που έχουμε ότι το διάστημα που κατασκευάσαμε περιέχει τη συγκεκριμένη παράμετρο. 28

29 H ENNOIA TOY BAΘΜΟΥ ΕΜΠΙΣΤΟΣΥΝΗΣ
Η πραγματική μέση τιμή είναι το 15

30 ΓΕΝΙΚΟΣ ΤΥΠΟΣ ΔΙΑΣΤΗΜΑ ΕΜΠΙΣΤΟΣΥΝΗΣ= =ΕΚΤΙΜΗΣΗ± ΠΕΡΙΘΩΡΙΟ ΣΦΑΛΜΑΤΟΣ 30

31 ΠΩΣ ΚΑΘΟΡΙΖΕΤΑΙ ΤΟ ΠΕΡΙΘΩΡΙΟ ΣΦΑΛΜΑΤΟΣ ΓΙΑ ΤΑ ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ Γενικά ισχύει: ΠΕΡΙΘΩΡΙΟ ΣΦΑΛΜΑΤΟΣ=± ΣΥΝΤΕΛΕΣΤΗΣ ΕΜΠΙΣΤΟΣΥΝΗΣ (ΚΡΙΤΙΚΗ ΤΙΜΗ)*ΤΥΠΙΚΟ ΣΦΑΛΜΑ ΕΚΤΙΜΗΣΗΣ 31

32 Το τυπικό σφάλμα εκτίμησης καθορίζεται:
Από το μέγεθος του δείγματος Από την τυπική απόκλιση του πληθυσμού. Ο συντελεστής εμπιστοσύνης καθορίζεται: από την κατανομή δειγματοληψίας που καθορίζουμε ότι ακολουθεί η άγνωστη παράμετρος 32

33 ΔΙΑΣΤΗΜΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΤΟ ΜΕΣΟ ΑΡΙΘΜΗΤΙΚΟ ΠΕΡΙΠΤΩΣΗ 1.
Δείγμα που προέρχεται από κανονικό πληθυσμό με γνωστή διακύμανση. Το 100(1-α)% διάστημα εμπιστοσύνης θα έχει άκρα: Όπου το τυπικό σφάλμα εκτίμησης περί το μέσο (ή πιθανό σφάλμα) 33

34 Ο συντελεστής εμπιστοσύνης σε επίπεδο εμπιστοσύνης α=5% είναι:
Σε επίπεδο εμπιστοσύνης α=1% 34

35 ΔΙΑΣΤΗΜΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΤΟ ΜΕΣΟ ΑΡΙΘΜΗΤΙΚΟ ΠΕΡΙΠΤΩΣΗ 2.
Δείγματα που προέρχονται από κανονικούς πληθυσμούς μεγέθους <30.Χρησιμοποιώ την κατανομή t-student: Όπου v = n-1 βαθμοί ελευθερίας 35

36 36

37 ΠΑΡΑΔΕΙΓΜΑ H περιεκτικότητα σε διοξείδιο του θείου σε δείγμα 14 συσκευασιών συγκεκριμένου προιόντος . βρέθηκε: και s=3,37. Ζητείται το 95% διάστημα εμπιστοσύνης για το μέσο αριθμό μ του πληθυσμού. 37

38 ΛΥΣΗ Λόγω άγνωστης διακύμανσης και μικρού μεγέθους δείγματος Το 95% διάστημα εμπιστοσύνης θα έχει άκρα: Δηλ., (50,58;54,47) 38

39 ΔΙΑΣΤΗΜΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΤΟ ΜΕΣΟ ΑΡΙΘΜΗΤΙΚΟ ΠΕΡΙΠΤΩΣΗ 3.
Διακύμανση πληθυσμού άγνωστη και δείγμα μεγάλου μεγέθους: εφαρμογή του κεντρικού οριακού θεωρήματος βάσει του οποίου αν το μέγεθος του δείγματος είναι αρκετά μεγάλο τότε η κατανομή των μέσων του δείγματος τείνει να γίνει κανονική όσο αυξάνει το μέγεθος του δείγματος, άρα Το 100(1-α)% διάστημα εμπιστοσύνης θα έχει άκρα: 39

40 Παράδειγμα Από την εργαστηριακή εξέταση ενός τυχαίου δείγματος 100 τσιγάρων μιας συγκεκριμένης μάρκας, βρέθηκε ότι η μέση ποσότητα νικοτίνης που περιείχαν ήταν : mgr : Aν s=8 mgr: Nα βρεθεί ένα 99% διάστημα εμπιστοσύνης για τη μέση ποσότητα νικοτίνης μ που περιέχει η συγκεκριμένη μάρκα τσιγάρων. 40

41 ΛΥΣΗ Το 99% διάστημα εμπιστοσύνης θα έχει άκρα: Δηλαδή: (23,94;28,06)
άρα Δηλαδή: (23,94;28,06) 41

42 ΕΚΤΙΜΗΣΗ ΔΙΑΣΤΗΜΑΤΟΣ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΑΝΑΛΟΓΙΕΣ
Με την προϋπόθεση ότι το μέγεθος του δείγματος είναι αρκετά μεγάλο (σύνηθες όριο: n>50) και η πιθανότητα εμφάνισης ενός ενδεχομένου αρκετά μεγάλη (σύνηθες όριο:p>0,10) τότε μπορώ να κατασκευάσω διάστημα εμπιστοσύνης Το 100(1-α)% διάστημα εμπιστοσύνης θα έχει άκρα: Όπου p η αναλογία στο δείγμα. 42

43 ΠΑΡΑΔΕΙΓΜΑ Ανάμεσα σε 240 άτομα τα 34 βρέθηκαν να είναι καταναλωτές βιολογικών προιοντων. Ποια είναι η αναλογία των ατόμων αυτών; Να κατασκευαστεί 95% διάστημα εμπιστοσύνης. 43

44 ΑΠΑΝΤΗΣΗ Άρα έχω τις προϋποθέσεις (επαρκώς μεγάλο δείγμα και αναλογία) για να χρησιμοποιήσω κανονική κατανομή. Το 100(1-α)% διάστημα εμπιστοσύνης θα έχει άκρα: Δηλαδή (0,098;0,186) 44

45 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΤΗ ΔΙΑΦΟΡΑ ΜΕΣΩΝ ΤΙΜΩΝ ΚΑΝΟΝΙΚΩΝ ΠΛΗΘΥΣΜΩΝ
Α. Περίπτωση γνωστών διακυμάνσεων. Το 100(1-α)% διάστημα εμπιστοσύνης θα είναι: Όπου οι δειγματικοί μέσοι των δειγμάτων n1 n2 45

46 ΠΑΡΑΔΕΙΓΜΑ Δύο δείγματα κατοίκων με μέγεθος n1=144 και n2=144 που έχουν ληφθεί από δύο διαφορετικούς δήμους μας έδωσαν μέση βαθμολογία για την αποτελεσματικότητα των Κέντρων Υγείας στους δήμους τους Aν γνωρίζουμε ότι η διακύμανση του πληθυσμού για το πρώτο δείγμα είναι 47 και για το δεύτερο δείγμα είναι 34 να βρεθεί το 95% διάστημα εμπιστοσύνης της διαφοράς των 2 μέσων

47 ΛΥΣΗ Επειδή το μέγεθος του δείγματος είναι μεγάλο και επειδή γνωρίζουμε τις τιμές της διακύμανσης του πληθυσμού θα χρησιμοποιήσουμε τη σχέση: κ. όριο: α. όριο:

48 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΤΗ ΔΙΑΦΟΡΑ ΜΕΣΩΝ ΤΙΜΩΝ ΚΑΝΟΝΙΚΩΝ ΠΛΗΘΥΣΜΩΝ
B. Περίπτωση άγνωστων ίσων διακυμάνσεων σε μικρά δείγματα (n<30). Το 100(1-α)% διάστημα εμπιστοσύνης θα είναι: Όπου οι δειγματικοί μέσοι των δειγμάτων n1 n2 Και 48

49 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΤΗ ΔΙΑΦΟΡΑ ΜΕΣΩΝ ΤΙΜΩΝ ΚΑΝΟΝΙΚΩΝ ΠΛΗΘΥΣΜΩΝ
Γ. Περίπτωση άγνωστων άνισων διακυμάνσεων σε μεγάλα δείγματα. Το 100(1-α)% διάστημα εμπιστοσύνης θα είναι: Όπου οι δειγματικοί μέσοι των δειγμάτων n1 n2 49

50 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΓΙΑ ΤΗ ΔΙΑΦΟΡΑ ΜΕΣΩΝ ΤΙΜΩΝ ΚΑΝΟΝΙΚΩΝ ΠΛΗΘΥΣΜΩΝ
Δ. Εξηρτημένα δείγματα (επαναλαμβανόμενες μετρήσεις). Το 100(1-α)% διάστημα εμπιστοσύνης θα είναι: 50

51 ΠΑΡΑΔΕΙΓΜΑ Εστω η βαθμολογία 5 επιχειρήσεων σε θέματα ασφαλείας σε προιόν πριν και 1 μήνα μετά την πρόσληψη τεχνικού ασφαλείας διαμορφώνονταν ως εξής:

52 ΠΑΡΑΔΕΙΓΜΑ (ΣΥΝΕΧΕΙΑ)
Ατομα ΒΑΘΜΟΛΟΓΙΑ ΠΡΙΝ ΒΑΘΜΟΛΟΓΙΑ ΜΕΤΑ 1 157 168 2 194 195 3 147 155 4 177 183 5 160 169 Να κατασκευαστεί 95% διάστημα εμπιστοσύνης για τη μέση διαφορά.

53 ΛΥΣΗ ΑΤΟΜΑ D=X2-X1 1 11 4 16 2 -6 36 3 8 6 -1 5 9

54 ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ 2Ο ΜΕΡΟΣ: ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ
Β. ΚΑΡΑΓΙΑΝΝΗ ΑΝ. ΚΑΘΗΓΗΤΡΙΑ ΤΕΙ ΑΘΗΝΑΣ

55 ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ: ΓΙΑΤΙ;
Α ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΠΟΥ ΕΠΙΚΑΛΥΠΤΟΝΤΑΙ ΠΛΗΡΩΣ . . . Β. ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΠΟΥ ΔΕΝ ΕΠΙΚΑΛΥΠΤΟΝΤΑΙ . . Γ. ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΠΟΥ ΕΠΙΚΑΛΥΠΤΟΝΤΑΙ ΜΕΡΙΚΩΣ . .

56 ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ ΚΑΙ ΕΛΕΓΧΟΙ ΥΠΟΘΕΣΕΩΝ
Tα διαστήματα εμπιστοσύνης δίνουν πληρέστερη πληροφορία σε σχέση με τον έλεγχο υποθέσεων καθώς δίνουν φάσμα πιθανών τιμών για την πραγματική τιμή της παραμέτρου. Ο αντίστοιχος έλεγχος υποθέσεων έχει να κάνει με το εάν η τιμή της παραμέτρου είναι ίση με κάποια υποθετική τιμή ή κάποια άλλη πρωτύτερα γνωστή τιμή

57 ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ Η στατιστική υπόθεση είναι ένας ισχυρισμός που αναφέρεται στην κατανομή μιας ή περισσότερων τυχαίων μεταβλητών. Ο Έλεγχος Στατιστικών Υποθέσεων είναι η διαδικασία με την οποία ελέγχουμε την ορθότητα ή μη μιας στατιστικής υποθέσεως. 57

58 ΟΙ ΣΤΑΤΙΣΤΙΚΕΣ ΥΠΟΘΕΣΕΙΣ ΜΠΟΡΕΙ ΝΑ ΑΦΟΡΟΥΝ
Την κατανομή των μεταβλητών στον πληθυσμό είτε Τις παραμέτρους κατανομής, είτε Τη σχέση των παραμέτρων αυτών σε διαφορετικούς πληθυσμούς είτε Τη σχέση δύο ή περισσότερων μεταβλητών στον πληθυσμό. 58

59 ΔΙΑΔΙΚΑΣΙΑ ΕΛΕΓΧΟΥ ΣΦΑΛΜΑΤΑ ΠΟΥ ΜΠΟΡΕΙ ΝΑ ΠΡΟΚΥΨΟΥΝ ΑΠΟΦΑΣΗ
Ελέγχουμε μια υπόθεση την οποία ονομάζουμε μηδενική (Η0) σε αντιπαράθεση με μια εναλλακτική υπόθεση (Η1). ΣΦΑΛΜΑΤΑ ΠΟΥ ΜΠΟΡΕΙ ΝΑ ΠΡΟΚΥΨΟΥΝ ΑΠΟΦΑΣΗ ΠΡΑΓΜΑΤΙΚΗ ΚΑΤΑΣΤΑΣΗ Η0 σωστή Η1 σωστή Δεν απορρίπτω την Η0 Σωστή απόφαση Λάθος τύπου ΙΙ Απορρίπτω την Η0 Λάθος τύπου Ι 59

60 Στατιστική υπόθεση ελέγχου
Η στατιστική υπόθεση ελέγχου χρησιμοποιείται για την μέτρηση της διαφοράς των δεδομένων από αυτό που αναμένεται να συμβαίνει αν η μηδενική υπόθεση είναι ακριβής. 60

61 Επίπεδο σημαντικότητας α και παρατηρούμενο επίπεδο σημαντικότητας
Είναι η μέγιστη πιθανότητα που ο ερευνητής επιτρέπει στον εαυτό του να πραγματοποιήσει σφάλμα τύπου Ι. Παρατηρούμενο επίπεδο σημαντικότητας p είναι η πιθανότητα η στατιστική συνάρτηση ελέγχου να πάρει μια τιμή τόσο ακραία ή περισσότερο ακραία από αυτήν που πήρε για το συγκεκριμένο δείγμα κάτω από την H0 61

62 Δικατάληκτο κριτήριο ελέγχου έχουμε όταν
ΜΟΝΟΚΑΤΑΛΗΚΤΑ ΚΑΙ ΔΙΚΑΤΑΛΗΚΤΑ ΚΡΙΤΗΡΙΑ ΕΛΕΓΧΟΥ (ΔΟΚΙΜΑΣΙΕΣ ΜΙΑΣ ΔΙΕΥΘΥΝΣΗΣ Η ΔΟΚΙΜΑΣΙΕΣ 2 ΔΙΕΥΘΥΝΣΕΩΝ) Δικατάληκτο κριτήριο ελέγχου έχουμε όταν η στατιστική δοκιμασία αποσκοπεί στον έλεγχο για τη διαφοροποίηση της παραμέτρου από μια άλλη ή από μια συγκεκριμένη τιμή (π.χ ). Μονοκατάληκτο κριτήριο ελέγχου έχουμε όταν προκαθορίζουμε τη διεύθυνση της διαφοράς ,π.χ 62

63 ΔΙΚΑΤΑΛΗΚΤΟ Η ΜΟΝΟΚΑΤΑΛΗΚΤΟ ΚΡΙΤΗΡΙΟ;
Μεγαλύτερη πιθανότητα απόρριψης της μηδενικής υπόθεσης αλλά πιθανότερα προβλήματα μεροληψίας/εγκυρότητας (Ruxton &Neuhaeuser,2010)

64 ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ ΜΕΣΟΥ ΑΡΙΘΜΗΤΙΚΟΥ ΣΕ ΚΑΝΟΝΙΚΟ ΠΛΗΘΥΣΜΟ
Όταν οι διακυμάνσεις είναι γνωστές ή/και το μέγεθος του δείγματος είναι>30. Η0:μ=μ0 Η1:μμ0 (δικατάληκτο κριτήριο) Χρησιμοποιώ τη στατιστική συνάρτηση ελέγχου: είτε αντίστοιχα 64

65 ΠΑΡΑΔΕΙΓΜΑ Εταιρεία που παρασκευάζει συσσίτια για απόρους χρησιμοποιεί για προϊόν της αεροστεγείς συσκευασίες που περιέχουν 368 γρ. Μετρώντας μια εταιρεία προστασίας καταναλωτών το περιεχόμενο σε 25 συσκευασίες διαπιστώνει ότι η μέση ποσότητα είναι 364,1. Eίναι γνωστό από προηγούμενη έρευνα ότι σ=15. Με βάση το παραπάνω δείγμα σε τι συμπεράσματα μπορεί να καταλήξει η εταιρεία; 65

66 ΑΠΑΝΤΗΣΗ Έχουμε να ελέγξουμε: H0 : μ=368 Η1: μ368
Η1: μ368 Αρα δεν έχω αρκετές ενδείξεις για να απορρίψω τη μηδενική υπόθεση σε α=5%. Στην περίπτωση που Απορρίπτω τη μηδενική υπόθεση 66

67 Δεν έχω αρκετές ενδείξεις να απορρίψω τη μηδενική υπόθεση.
ΓΕΝΙΚΑ: Όταν η p-value είναι κάτω από το επίπεδο σημαντικότητας που ορίσαμε απορρίπτουμε τη μηδενική υπόθεση. Εάν αποφασίζουμε με βάση την τιμή των πινάκων όταν η τιμή που προκύπτει από τη συνάρτηση ελέγχου Δεν έχω αρκετές ενδείξεις να απορρίψω τη μηδενική υπόθεση. Εάν Ζ< και η Η1: μ<μ0 απορρίπτω Η0 Εάν Ζ> Ζα/ και η Η1: μ>μ0 απορρίπτω Η0 67

68 n<30 και άγνωστη διακύμανση σε δείγμα που προέρχεται από κανονικό πληθυσμό:

69 ΠΑΡΑΔΕΙΓΜΑ Αν υποθέσουμε ότι στην προηγούμενη άσκηση s=17,3 `και η διακύμανση του πληθυσμού δεν είναι γνωστή θα έχουμε:

70 ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ ΔΙΑΦΟΡΩΝ 2 ΜΕΣΩΝ ΚΑΝΟΝΙΚΩΝ ΠΛΗΘΥΣΜΩΝ
Α. Όταν οι διακυμάνσεις είναι γνωστές Η0:μ1=μ2 Η1:μ1μ2 (δικατάληκτο κριτήριο) Χρησιμοποιώ τη στατιστική συνάρτηση ελέγχου: 70

71 ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ ΔΙΑΦΟΡΩΝ 2 ΜΕΣΩΝ ΚΑΝΟΝΙΚΩΝ ΠΛΗΘΥΣΜΩΝ
Β. Όταν οι διακυμάνσεις είναι άγνωστες αλλά τα μεγέθη των δειγμάτων είναι>30 Χρησιμοποιώ την κατανομή Student με συνάρτηση ελέγχου: Εναλλακτικά βάσει του Κεντρικού Οριακού Θεωρήματος μπορώ να χρησιμοποιήσω κανονική κατανομή 71

72 ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ ΔΙΑΦΟΡΩΝ 2 ΜΕΣΩΝ ΚΑΝΟΝΙΚΩΝ ΠΛΗΘΥΣΜΩΝ
Γ. Περίπτωση άγνωστων ίσων διακυμάνσεων και n<30. Όπου οι δειγματικοί μέσοι των δειγμάτων n1 n2 Και 72

73 ΠΑΡΑΔΕΙΓΜΑ Η μέση ηλικία σε δείγματα εργαζομένων δύο Κέντρων Υγείας μεγέθους n1=25 και n2=26 ήταν έτη και έτη. Aν γνωρίζουμε ότι η τυπική απόκλιση για το πρώτο δείγμα είναι 4,8 έτη και για το δεύτερο δείγμα είναι 5,1 έτη να συγκριθεί η διαφορά των 2 αριθμητικών μέσων. (είναι γνωστό ότι τα δείγματα προέρχονται από κανονικό πληθυσμό)

74 ΛΥΣΗ Η0:μ1=μ2 Η1:μ1μ2

75 Aρα απορρίπτω τη μηδενική υπόθεση
ΛΥΣΗ Aρα απορρίπτω τη μηδενική υπόθεση

76 ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ ΓΙΑ ΤΗ ΔΙΑΦΟΡΑ ΜΕΣΩΝ ΤΙΜΩΝ ΚΑΝΟΝΙΚΩΝ ΠΛΗΘΥΣΜΩΝ
Γ. Εξηρτημένα δείγματα (επαναλαμβανόμενες μετρήσεις). H συνάρτηση ελέγχου θα είναι: Η0:Dmean=0 Η1:Dmean0 Και με βάση το παράδειγμα των διαστημάτων εμπιστοσύνης:t=4,11>2,78 76

77 ΕΛΕΓΧΟΣ ΑΝΕΞΑΡΤΗΣΙΑΣ ΠΟΙΟΤΙΚΩΝ ΜΕΤΑΒΛΗΤΩΝ

78 Η συνάφεια και τα χαρακτηριστικά της
Στην Στατιστική ο όρος συνάφεια (contingency) αναφέρεται στον τρόπο με τον οποίο δύο ή περισσότερες μεταβλητές συμεταβάλλονται και καθορίζει την κατεύθυνση και τον βαθμό μεταβολής που παρατηρείται στις τιμές της μιας μεταβλητής, όταν συμβαίνει αλλαγή στις αντίστοιχες τιμές της άλλης. 78

79 Η συνάφεια χαρακτηρίζεται από: 1) την κατεύθυνση (θετική ή αρνητική)
2) το βαθμό (απόλυτη ή σχετική) 3) τη μορφή (ευθύγραμμη ή καμπυλόγραμμη) Η συνάφεια μεταξύ των μεταβλητών Χ και Υ χαρακτηρίζεται ως • θετική (positive) αν αυξανομένων (ή ελαττωμένων) των τιμών της Χ αυξάνονται ή (ελαττώνονται) οι τιμές της Υ αντίστοιχα • αρνητική (negative) αν αυξανομένων (ή ελαττωμένων) των τιμών της Χ ελαττώνονται (ή αυξάνονται) οι τιμές της αντίστοιχα • θετική και απόλυτη όταν η μεγαλύτερη τιμή της Χ αντιστοιχεί στην μεγαλύτερη τιμή της Υ, η δεύτερη μεγαλύτερη τιμή της Χ στην δεύτερη αμέσως μεγαλύτερη τιμή της Υ κ.ο.κ. • αρνητική και απόλυτη όταν η μεγαλύτερη τιμή της Χ αντιστοιχεί στην μικρότερη τιμή της Υ, η δεύτερη μεγαλύτερη τιμή της Χ στην προτελευταία τιμή της Υ κ.ο.κ. 79

80 Πίνακες συνάφειας διαστάσεων 2Χ2
ΠΑΡΑΓΩΝ Α ΠΑΡΑΓΩΝ Β Στο φατνίο (i,j) i=1, 2 j=1, 2 αντιστοιχεί η συχνότητα fij, και δίνει τον αριθμό των στοιχείων του πίνακα που αντιστοιχούν στο επίπεδο i του παράγοντα Α και στο επίπεδο j του παράγοντα Β. 80

81 Παράδειγμα πίνακα συνάφειας
ΧΡΗΣΤΕΣ ΜΗ ΧΡΗΣΤΕΣ ΣΥΝΟΛ Α ΚΑΠΝΙΣΤΕΣ 70 20 90 ΜΗ ΚΑΠΝΙΣΤΕΣ 30 80 110  ΣΥΝΟΛΑ 100 200 81

82 Διαγραμματική παρουσίαση: Σωρευμένο ραβδόγραμμα (stacked bar chart).
82

83 Διαγραμματική παρουσίαση:Ενοποιημένο ραβδόγραμμα (clustered bar chart)
Παράδειγμα για μεταβλητές gender και Famstatus 83

84 Χί-τετράγωνο (Chi-square)
Χρησιμοποιείται για κατηγορικά δεδομένα στις ακόλουθες περιπτώσεις: Ως τεστ ομοιογένειας/ανεξαρτησίας (homogeneity test, contingency tables test) Ως τεστ καλής προσαρμογής (goodness of fit). 84

85 ΠΑΡΑΔΕΙΓΜΑΤΑ Τεστ ομοιογένειας: Πίνακας συνάφειας που περιλαμβάνει 1. Πληθυσμιακές ομάδες 2. Βαθμό ικανοποίησης από το προιόν Α. Τεστ ανεξαρτησίας: Πίνακας συνάφειας που περιλαμβάνει: Κάπνισμα (Ναι-Όχι) και συχνότητα χρήσης υπερτροφών (Ναι-Όχι) 85

86 Χί-τετράγωνο (Chi-square)
86

87 ΔΙΑΦΟΡΑ ΜΕΤΑΞΥ ΤΕΣΤ ΟΜΟΙΟΓΕΝΕΙΑΣ ΚΑΙ ΑΝΕΞΑΡΤΗΣΙΑΣ
Υπόκεινται στις ίδιες υπολογιστικές διαδικασίες . Στη μεν όμως περίπτωση της ομοιογένειας μας ενδιαφέρει να ελέγξουμε αν 2 ή περισσότερα δείγματα προέρχονται ή όχι από τον ίδιο πληθυσμό ενώ στην περίπτωση της ανεξαρτησίας μας ενδιαφέρει αν ένα χαρακτηριστικό επηρεάζει ή όχι ένα άλλο. 87

88 ΒΗΜΑΤΑ ΥΠΟΛΟΓΙΣΜΟΥ ΤΟΥ Χί-τετράγωνο
1. Φτιάχνω τον πίνακα των παρατηρούμενων συχνοτήτων. 2. Θέτω τη μηδενική και εναλλακτική υπόθεση (π.χ : Η0 :οι 2 παράγοντες είναι ανεξάρτητοι έναντι της: Η1 : οι 2 παράγοντες δεν είναι ανεξάρτητοι)

89 ΒΗΜΑΤΑ ΥΠΟΛΟΓΙΣΜΟΥ ΤΟΥ Χί-τετράγωνο
3. Υπολογίζω και βάζω σε πίνακα τις αναμενόμενες θεωρητικές συχνότητες: Mας δείχνει πως θα ήταν διαμορφωμένες οι παρατηρούμενες συχνότητες κάτω από τη μηδενική υπόθεση. Οσο πιο μακριά βρίσκονται οι τιμές μεταξύ παρατηρούμενων και θεωρητικών συχνοτήτων τόσο πιο μακριά είμαστε από την υπόθεση αποδοχής της ανεξαρτησίας.

90 ΑΝΕΞΑΡΤΗΣΙΑ 2 ΠΑΡΑΓΟΝΤΩΝ Α ΚΑΙ Β
Για να είναι 2 παράγοντες ανεξάρτητοι θα πρέπει: Δηλ Aρα, σε περίπτωση ανεξαρτησίας παραγόντων oι λεγόμενες θεωρητικές ή αναμενόμενες συχνότητες θα πρέπει να διαμορφώνονται ως: 90

91 ΒΗΜΑΤΑ ΥΠΟΛΟΓΙΣΜΟΥ ΤΟΥ Χί-τετράγωνο
4. Υπολογίζω τον πίνακα σφαλμάτων (προαιρετικά) 5. Υπολογίζω την ποσότητα χ2 Όπου οι παρατηρηθείσες και οι αναμενόμενες συχνότητες αντίστοιχα και r, c o αριθμός γραμμών και στηλών. Οι βαθμοί ελευθερίας είναι (c-1)(r-1). Εάν η τιμή που βρήκα υπερβαίνει την τιμή των πινάκων σε επίπεδο στατιστικής σημαντικότητας α απορρίπτω τη μηδενική υπόθεση ΠΡΟΣΟΧΗ: Για να εφαρμοστεί θα πρέπει όχι πάνω από 20% των αναμενόμενων συχνοτήτων να έχουν τιμή<5 91

92 ΠΑΡΑΔΕΙΓΜΑ Σχέση μεταξύ των απόψεων για εισαγωγή της ενισχυτικής διδασκαλίας στα Πανεπιστήμια και φύλου. 92

93 Ελέγχω την υπόθεση H0 : οι 2 παράγοντες είναι ανεξάρτητοι, έναντι της εναλλακτικής: Η1: οι 2 παράγοντες δεν είναι ανεξάρτητοι 93

94 ΠΙΝΑΚΑΣ ΑΝΑΜΕΝΟΜΕΝΩΝ Η ΘΕΩΡΗΤΙΚΩΝ ΣΥΧΝΟΤΗΤΩΝ
94

95 AΠΑΝΤΗΣΗ ΠΩΣ ΓΡΑΦΩ ΤΑ ΣΥΜΠΕΡΑΣΜΑΤΑ
Άρα σε επίπεδο σημαντικότητας 5% και με 1 βαθμό ελευθερίας (chi-square: 7,10, df=1, p-value<0.0001), απορρίπτω την ανεξαρτησία μεταξύ των 2 παραγόντων : 95

96 Πίνακας των τιμών της κατανομής χ2 για τις οποίες:
Πίνακας των τιμών της κατανομής χ2 για τις οποίες:

97 ΒΙΒΛΙΟΓΡΑΦΙΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΗΘΗΚΕ ΓΙΑ ΤΙΣ ΣΗΜΕΙΩΣΕΙΣ
Αλεξανδρόπουλου Α. Κατωπόδη Επ. και συν.(1994), Στατιστική, Σύγχρονη Εκδοτική Αποστολόπουλου Θ (2004), Στατιστική Επιχειρήσεων, Σύγχρονη Εκδοτική Καραγιάννη Β.,(2005) Σημειώσεις για Ανάλυση Δεδομένων, Πανεπιστήμιο Πειραιά Field A.,(2016), H διερεύνηση της στατιστικής με τη χρήση του SPSS της ΙΒΜ, Εκδόσεις ΠΡΟΠΟΜΠΟΣ 2016 Norusis Marija (2005) SPSS 13.0 Guide to Data analysis , Prentice Hall Norusis Marija (2005) SPSS 13.0 Statistical Procedures Companion, Prentice Hall Ξεκαλάκη Γ., Πανάρετος Ι.,(1993), Εισαγωγή στη Στατιστική Σκέψη, Τόμος Β Εκδόσεις Σμπίλιας. Tριχόπουλος Δ., Τζώνου Α., Κατσουγιάννη, (2001) Βιοστατιστική, Εκδόσεις Παρισιάνου Τσίμπος Κ., Γεωργιακώδης Φ., (1999) Περιγραφική και Στατιστική Ανάλυση Δεδομένων, Τόμος Β` , Εκδόσεις Σταμούλης Fleiss, Joseph L.; Levin, Bruce; Paik, Myunghee Cho (2009). Statistical Methods for Rates and Proportions (Wiley Series in Probability and Statistics) (Kindle Locations ). Wiley. Kindle Edition 97

98 ΒΙΒΛΙΟΓΡΑΦΙΑ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΗΘΗΚΕ ΓΙΑ ΤΙΣ ΣΗΜΕΙΩΣΕΙΣ
Camilli, G. & Hopkins, K. D. (1979). Testing for association in 2 * 2 contingency tables with very small sample sizes. Psychological Bulletin, 86,  Online article. Larntz, K. (1978). Small sample comparisons of exact levels for chi-square goodness of fit statistics. Journal of the American Statistical Association, 73,  Online article. Thompson, B. (1988). Misuse of chi-square contingency- table test statistics. Educational and Psychological Research, 8(1),  Online article. Yates, F. (1934). Contingency tables. Journal of the Royal Statistical Society, 1,


Κατέβασμα ppt "ΕΠΑΓΩΓΙΚΗ ΣΤΑΤΙΣΤΙΚΗ Η ΣΤΑΤΙΣΤΙΚΗ ΣΥΜΠΕΡΑΣΜΑΤΟΛΟΓΙΑ Β. ΚΑΡΑΓΙΑΝΝΗ"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google