Βασική Στατιστική Επεξεργασία. Ερμηνεία Δεδομένων.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Περιγραφική Στατιστική
Advertisements

Γεώργιος Σιδερίδης Πανεπιστήμιο Κρήτης
ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ
Γεώργιος Σιδερίδης Πανεπιστήμιο Κρήτης
Στατιστική Ι Παράδοση 5 Οι Δείκτες Διασποράς Διασπορά ή σκεδασμός.
Εισαγωγή στην Κοινωνιογλωσσολογία
© 2002 Thomson / South-Western Slide 1-1 Κεφάλαιο 1 Εισαγωγή στη Στατιστική με τη χρήση του Excel.
Στατιστική I Χειμερινό Γ. Παπαγεωργίου
Απλή και Παραγοντική Ανάλυση Διακύμανσης
Υποθέσεις: Ένα Δείγμα. ΤΥΠΙΚΕΣ ΤΙΜΕΣ Τιμές Ζ X = 50, μ = 100, σ = 30, Ζ =
Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Διάλεξη 5 Σύγκριση μέσω όρων
ΚΑΤΑΝΟΜΕΣ ΠΙΘΑΝΟΤΗΤΩΝ ΔΙΑΚΡΙΤΩΝ ΚΑΙ ΣΥΝΕΧΩΝ ΤΥΧΑΙΩΝ ΜΕΤΑΒΛΗΤΩΝ
Μάρτιος 2011 Πίσω στα βασικά: Βασικές αρχές στατιστικής για κοινωνιολογικές έρευνες Σπύρος Βερονίκης Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Σχετικές πληροφορίες:
Εισαγωγή Στατιστική είναι η επιστήμη που με τη βοήθεια επιστημινκών μεθόδων ασχολείται με τη συλλογή, οργάνωση, παρουσίαση και ανάλυση αριθμητικών στοιχείων.
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ
Μετρήσεις και Μεταβλητές
Τι είναι η Κατανομή (Distribution)
Διάλεξη  Μέτρηση: Είναι μια διαδικασία κατά την οποία προσδίδουμε αριθμητικά δεδομένα σε κάποιο αντικείμενο, σύμφωνα με κάποια προκαθορισμένα.
Πειραματικές Μονάδες Ένα φυτό Ένα πειραματικό τεμάχιο (plot)
Σχεδιασμός των Μεταφορών Ενότητα #5: Δειγματοληψία – Sampling. Δρ. Ναθαναήλ Ευτυχία Πολυτεχνική Σχολή Τμήμα Πολιτικών Μηχανικών.
TO ΣΤΑΤΙΣΤΙΚΟ ΚΡΙΤΗΡΙΟ t (Ελεγχος Διαφορων Μεσων Ορων Αναμεσα Σε Δυο Ανεξαρτητα Δειγματα) Για τον ελεγχο στατιστικών υποθέσεων ανάμεσα στους μέσους όρους.
Διαστήματα Εμπιστοσύνης α) για τη μέση τιμή β) για ένα ποσοστό.
Εργαστήριο Στατιστικής (7 ο Εργαστήριο) Συσχετίσεις μεταξύ μεταβλητών (ερωτήσεων)
 Ο Νόμος των Μεγάλων Αριθμών είναι το θεώρημα που περιγράφει τον τρόπο με τον οποίο συμπεριφέρεται ένα συγκεκριμένο πείραμα, όταν ο αριθμός των επαναλήψεων.
Αρχές επαγωγικής στατιστικής Τμήμα :Νοσηλευτικής Πατρών Διδάσκουσα: Παναγιώταρου Αλίκη Διάλεξη 9.
Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική Ενότητα 2: Επαγωγική Στατιστική Βασίλης Γιαλαμάς Σχολή Επιστημών της Αγωγής Τμήμα Εκπαίδευσης και Αγωγής.
Έλεγχος υποθέσεων για αναλογίες. Εάν έχουμε αναλογίες σχετικά με ένα συγκεκριμένο χαρακτηριστικό σε έναν πληθυσμό τότε κάνουμε ελέγχους υποθέσεων για.
Στατιστικές Υποθέσεις (Ερευνητικά Ερωτήματα / Υποθέσεις προς επιβεβαίωση)
Στατιστικές Υποθέσεις (Ερευνητικά Ερωτήματα / Υποθέσεις προς επιβεβαίωση)
Σχεδιασμός, Ανάλυση και Αξιολόγηση Συστημάτων Μεταφορών Ενότητα #9: Στατιστική ανάλυση αποτελεσμάτων. Χρήση SPSS. Δρ. Ναθαναήλ Ευτυχία Πολυτεχνική Σχολή.
Διαστήματα εμπιστοσύνης – δοκιμή t Δ. Κομίλης. Είναι διαφορετικές οι διεργασίες?
ΕΛΕΓΧΟΙ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ Η πιο συνηθισμένη στατιστική υπόθεση είναι η λεγόμενη Υπόθεση Μηδέν H 0. –Υποθέτουμε ότι η εμφανιζόμενη διαφορά μεταξύ μιας.
Έλεγχος Υποθέσεων Ο έλεγχος υποθέσεων αναφέρεται στη διαδικασία αποδοχής ή απόρριψης μιας στατιστικής υπόθεσης, Κατά την εκτέλεση ενός στατιστικού ελέγχου,
Διάστημα εμπιστοσύνης για τη διακύμανση. Υπολογισμός Διακυμάνσεως και Τυπικής Αποκλίσεως Όταν τα δεδομένα αφορούν πληθυσμό – μ είναι ο μέσος του πληθυσμού.
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΠΙΝΑΚΕΣ ΚΑΙ ΔΙΑΓΡΑΜΜΑΤΑ Πηγή: Βιοστατιστική [Σταυρινός / Παναγιωτάκος] Βιοστατιστική [Τριχόπουλος / Τζώνου / Κατσουγιάννη]
Στατιστική Ανάλυση. Ποιοτικές και ποσοτικές μέθοδοι Ποιες είναι οι διαφορές; Πότε χρησιμοποιούνται; Πότε κάνω στατιστική ανάλυση;
Μεθοδολογία έρευνας και στατιστική – Δείγμα – Διαφορά μέσων τιμών
Τι είναι «διάστημα» (1). Διαστήματα Εμπιστοσύνης α) για τη μέση τιμή (ποσοτικά) β) για ένα ποσοστό (ποιοτικά)
ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΔΙΑΣΠΟΡΑΣ - ΑΣΥΜΜΕΤΡΙΑΣ - ΚΥΡΤΩΣΕΩΣ
Στατιστική Επαγωγή Ένα τεράστιο μέρος της έρευνας διενεργείται μέσω της ανάλυσης δειγμάτων προκειμένου να εξάγουμε συμπεράσματα για τον πληθυσμό. Αυτό.
Στατιστικές Υποθέσεις
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ
Μεθοδολογία έρευνας και στατιστική – Δείγμα –Κατανομές
Δειγματοληψία Στην Επαγωγική στατιστική οδηγούμαστε σε συμπεράσματα και αποφάσεις για τις παραμέτρους ενός πληθυσμού με τη βοήθεια ενός τυχαίου δείγματος.
Επαγωγική Στατιστική Εκτίμηση και Έλεγχος μέσων τιμών Χαράλαμπος Γναρδέλλης Τμήμα Τεχνολογίας Αλιείας και Υδατοκαλλιεργειών.
Εκτιμητική: σημειακές εκτιμήσεις παραμέτρων
Έλεγχος Υπόθεσης για το μέσο ενός πληθυσμού
Καθηγητής Στατιστικής - Βιοστατιστικής
Στατιστικές Υποθέσεις II
Έλεγχος για τη διαφορά μέσων τιμών μ1 και μ2 δύο πληθυσμών
Διαλέξεις στη Βιοστατιστική
Πού χρησιμοποιείται ο συντελεστής συσχέτισης (r) pearson
Κανονικότητα Μια από τις υποθέσεις του υποδείγματος της γραμμικής παλινδρόμησης είναι ότι ο διαταρακτικός όρος κατανέμεται κανονικά με μέσο μηδέν και σταθερή.
Βασική Στατιστική Επεξεργασία. Ερμηνεία Δεδομένων - 2.
Εισαγωγή στην Στατιστική
Πειραματικές Μονάδες Ένα φυτό Ένα πειραματικό τεμάχιο (plot)
Εισαγωγή στην Βιοστατιστική
ΚΑΤΑΝΟΜΕΣ Δ. Τσιπλακίδης
ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ
Στατιστικές Υποθέσεις
منطقة العاصمة التعليمية اختبارات الفروض الاحصائية
Τι είναι «διάστημα» (1). Διαστήματα Εμπιστοσύνης α) για τη μέση τιμή (ποσοτικά) β) για ένα ποσοστό (ποιοτικά)
ΕΛΕΓΧΟΣ ΥΠΟΘΕΣΕΩΝ ΓΙΑ ΤΗ ΜΕΣΗ ΤΙΜΗ
ΤΕΙ Αθήνας Βιοστατιστική (Θ)
Βιοστατιστική (Θ) ΤΕΙ Αθήνας Ενότητα 3: Περιγραφική στατιστική
Κεφάλαιο 9 Βασικές Αρχές Του Ελέγχου Υποθέσεων: Έλεγχοι Ενός Δείγματος.
Στατιστική Επαγωγή Ένα τεράστιο μέρος της έρευνας διενεργείται μέσω της ανάλυσης δειγμάτων προκειμένου να εξάγουμε συμπεράσματα για τον πληθυσμό. Αυτό.
Ανάλυση διακύμανσης Τι είναι η ανάλυση διακύμανσης
Μεταγράφημα παρουσίασης:

Βασική Στατιστική Επεξεργασία. Ερμηνεία Δεδομένων. © 2010 Demetrios Halazonetis. Δημήτρης Χαλαζωνίτης

Περιεχόμενα Είδη δεδομένων Κατανομές Περιγραφικά στοιχεία Κεντρικό θεώρημα ορίου Μηδενική Υπόθεση - πιθανότητες Ένα δείγμα Δύο δείγματα

Είδη δεδομένων Ποιοτικά (categorical - qualitative) Μη διατάξιμα (nominal) Διατάξιμα (ordinal) Ποσοτικά (numerical - quantitative) Διακριτά (discrete) Συνεχή (continuous - interval)

Είδη δεδομένων Οριζόντια πρόταξη Ηλικία SNA Φύλο Τάξη κατά Angle: I, II, III Πόνος

Κατανομές Κανονική (normal) (ύψος) Lognormal (βάρος) Binomial (2 κατηγορίες) Poisson F t

Κανονική κατανομή y = 2πσ2 1 e παράμετροι: μ, σ y = a e -(x - μ)2 2σ2 wikipedia y = 2πσ2 1 e 2σ2 -(x - μ)2 παράμετροι: μ, σ y = a e -bx2

Κανονική κατανομή y = 2πσ2 1 e παράμετροι: μ, σ y = a e -(x - μ)2 2σ2 -bx2

Περιγραφικά στοιχεία πληθυσμού μ = ∑x / n var = ∑(x - μ)2 / n σ = √var Οι τύποι ισχύουν για οποιοδήποτε είδος κατανομής (όχι μόνο για την κανονική)

Δείγμα από τον πληθυσμό.

μ1

Περιγραφικά στοιχεία δείγματος m = ∑x / n var = ∑(x - m)2 / (n - 1) s = √var

Πολλά δείγματα. Οι μέσες τιμές τους έχουν κανονική κατανομή, όπως προβλέπει το κεντρικό θεώρημα του ορίου.

Central Limit Theorem Κανονική κατανομή Η κατανομή τείνει σε κανονική καθώς αυξάνεται το μέγεθος και ο αριθμός των δειγμάτων. Κανονική κατανομή

Central Limit Theorem m = μ sem = s / √n Κανονική κατανομή Πολλά και μεγάλα δείγματα. sem: standard error of the mean m = μ Κανονική κατανομή sem = s / √n

Central Limit Theorem m = μ sem = s / √n Κανονική κατανομή Ανεξαρτήτως του είδους της κατανομής στον πληθυσμό. m = μ Κανονική κατανομή sem = s / √n

s m = μ sem = s / √n sem

s m = μ sem = s / √n 1.28 sem

s m = μ sem = s / √n 80% 1.28 sem (από πίνακες ή εξίσωση της κανονικής κατανομής)

s m = μ sem = s / √n 95% 1.96 sem

s m = μ sem = s / √n 95% 1.96 sem Test statistic = (observed – hypothesized) / sem

6 -3 9 -8 -1 -9 7 2 10 8 3 4 -2 -9 -8 -3 -2 -1 2 3 4 6 7 8 9 10 -9 -8 -3 -2 -1 2 3 4 6 7 8 9 10 2.85 m = 2.85 sem = 1.27 s = 5.67 Παράδειγμα δείγματος με μέσο όρο 2.85.

97.6% 2.4% /2 Test statistic = (observed – hypothesized) / sem 2.85 s = 5.67 sem = 1.27 97.6% 2.4% /2 1 2 2.25 sem Test statistic = (2.85 - 0) / 1.27 = 2.25

97.6% 2.4% /2 Test statistic = (observed – hypothesized) / sem t distribution m = 2.85 2.85 s = 5.67 sem = 1.27 97.6% 2.4% /2 1 2 2.25 sem Test statistic = (2.85 - 0) / 1.27 = 2.25

Test statistic = (observed – hypothesized) / sem t distribution m = 2.85 2.85 s = 5.67 sem = 1.27 97.6% 2.4% /2 96.3% 3.7% /2 1 2 2.25 sem Test statistic = (2.85 - 0) / 1.27 = 2.25

t distribution βαθμοί ελευθερίας - degrees of freedom

Μηδενική Υπόθεση (null hypothesis) The hypothesis to be nullified – H0 Null Hypothesis Significance Testing (NHST)

Μηδενική Υπόθεση (null hypothesis) Και όμως συνέβη! Επομένως, H0 απίθανη. ΛΑΘΟΣ, αλλά συνήθως ίσως ισχύει

p(H0|D) ≠ p(D|H0) p(H0|D): πιθανότητα H0 όταν D. p(D|H0): πιθανότητα D όταν H0.

Το ότι ένα δείγμα παρουσιάζει ακραίες τιμές δεν σημαίνει ότι δεν μπορεί να ανήκει στην κατανομή της μηδενικής υπόθεσης. Απλώς είναι σπάνιο.

Σε άλλη κατανομή μπορεί να είναι πιο σπάνιο.

Και σε άλλη, πολύ πιθανό.

Εάν έχει όντως συλλεχθεί από την πορτοκαλί κατανομή τότε η πιθανότητα να έχει την παρατηρούμενη μέση τιμή, ή πιο ακραία από αυτήν, είναι 1. Αυτό, όμως δεν σημαίνει ότι η πιθανότητα να έχει προέλθει από την πορτοκαλί κατανομή είναι 1 (δηλαδή βεβαιότητα). Άρα, η πιθανότητα που εκφράζεται από ένα στατιστικό τεστ δεν είναι η πιθανότητα αλήθειας της μηδενικής υπόθεσης.

Αν p(D|HA) = 0.5 τότε p(H0|D) ≈ 2 p(D|H0) p(H0|D): πιθανότητα H0 όταν D. p(D|H0): πιθανότητα D όταν H0. Αν p(D|HA) = 0.5 τότε p(H0|D) ≈ 2 p(D|H0)

Μηδενική Υπόθεση (null hypothesis) Και όμως συνέβη! Επομένως, H0 απίθανη. Type I error: false positive, α Type II error: false negative, β ΛΑΘΟΣ, αλλά συνήθως ίσως ισχύει

H0 True H0 False Rejected Type I, α OK Not Rejected Type II, β

Περιεχόμενα Είδη δεδομένων Κατανομές Περιγραφικά στοιχεία Κεντρικό θεώρημα ορίου Μηδενική Υπόθεση - πιθανότητες Ένα δείγμα Δύο δείγματα

Ένα δείγμα Test statistic = (m – μ) / se se: τυπικό σφάλμα se = s / √n P: από την κατανομή του t (df = n - 1)

96.3% 3.7% /2 Test statistic = (2.85 - 0) / 1.27 = 2.25 t distribution m = 2.85 2.85 s = 5.67 sem = 1.27 96.3% 3.7% /2 1 2 2.25 sem

96.3% 3.7% /2 P = 0.037 Test statistic = (2.85 - 0) / 1.27 = 2.25 t distribution m = 2.85 2.85 s = 5.67 sem = 1.27 96.3% 3.7% /2 1 2 P = 0.037 2.25 sem

Confidence interval Αν υπολογίσουμε το όριο αξιοπιστίας για πολλά παρόμοια δείγματα, τα 95% θα περιέχουν τον πραγματικό μέσο όρο του πληθυσμού.

96.3% 3.7% /2 P = 0.037 Test statistic = (2.85 - 0) / 1.27 = 2.25 t distribution m = 2.85 2.85 s = 5.67 sem = 1.27 96.3% 3.7% /2 1 2 P = 0.037 2.25 sem t0.975 = 2.093 (df = 20-1 = 19) 95%CI = 2.85 – 2.093 x 1.27 to 2.85 + 2.093 x 1.27

Ένα δείγμα Test statistic = (m – μ) / se se: τυπικό σφάλμα se = s / √n P: από την κατανομή του t (df = n - 1) 95%CI = (m - t0.975 se) έως (m + t0.975 se)

Δύο δείγματα Test statistic = (m1 – m2) / se(m1-m2) var = (n1 - 1) var1 + (n2 - 1) var2 / (n1 + n2 - 2) (n1 - 1) s12 + (n2 - 1) s22 / (n1 + n2 - 2) se(m1-m2) = √(var (1 / n1 + 1 / n2))

t-test Student’s t-test (Gosset, μπύρα) Paired – Unpaired (independent samples) Προϋποθέσεις: Quantitative (interval) Normal distribution Equal variance (F test)

F test F = var1 / var2 F distribution df: n1, n2

Για τις τιμές που σημειώνονται, το t-test δίνει τα εξής αποτελέσματα: t = 4.14, P = 0.0003.

Is this normally distributed (lognormal?). Same for areas.

Simulation of volume data.

Έλεγχος κανονικότητας κατανομής: Shapiro-Wilk test ή normal plot 13 20 29 33 41 70 0.2 0.6 1.2 -0.2 -0.6 -1.2

= (B1-1/3)/(6+1/3) =NORMSINV(C1) Υπολογισμός των rankits με το Excel. Βλέπε: http://en.wikipedia.org/wiki/Rankit http://en.wikipedia.org/wiki/Q-Q_plot

Normal probability plot 1.2 0.6 0.2 http://en.wikipedia.org/wiki/Normal_probability_plot -0.2 -0.6 -1.2 13 20 29 33 41 70

Ασκήσεις Διαφέρει το μήκος από το πλάτος; Διαφέρει ο λόγος μήκος/πλάτος από τον λόγο μήκος/ύψος; Είναι κανονική η κατανομή του όγκου; Βλέπε αρχείο StatTests.xls