Βασική Στατιστική Επεξεργασία. Ερμηνεία Δεδομένων. © 2010 Demetrios Halazonetis. Δημήτρης Χαλαζωνίτης
Περιεχόμενα Είδη δεδομένων Κατανομές Περιγραφικά στοιχεία Κεντρικό θεώρημα ορίου Μηδενική Υπόθεση - πιθανότητες Ένα δείγμα Δύο δείγματα
Είδη δεδομένων Ποιοτικά (categorical - qualitative) Μη διατάξιμα (nominal) Διατάξιμα (ordinal) Ποσοτικά (numerical - quantitative) Διακριτά (discrete) Συνεχή (continuous - interval)
Είδη δεδομένων Οριζόντια πρόταξη Ηλικία SNA Φύλο Τάξη κατά Angle: I, II, III Πόνος
Κατανομές Κανονική (normal) (ύψος) Lognormal (βάρος) Binomial (2 κατηγορίες) Poisson F t
Κανονική κατανομή y = 2πσ2 1 e παράμετροι: μ, σ y = a e -(x - μ)2 2σ2 wikipedia y = 2πσ2 1 e 2σ2 -(x - μ)2 παράμετροι: μ, σ y = a e -bx2
Κανονική κατανομή y = 2πσ2 1 e παράμετροι: μ, σ y = a e -(x - μ)2 2σ2 -bx2
Περιγραφικά στοιχεία πληθυσμού μ = ∑x / n var = ∑(x - μ)2 / n σ = √var Οι τύποι ισχύουν για οποιοδήποτε είδος κατανομής (όχι μόνο για την κανονική)
Δείγμα από τον πληθυσμό.
μ1
Περιγραφικά στοιχεία δείγματος m = ∑x / n var = ∑(x - m)2 / (n - 1) s = √var
Πολλά δείγματα. Οι μέσες τιμές τους έχουν κανονική κατανομή, όπως προβλέπει το κεντρικό θεώρημα του ορίου.
Central Limit Theorem Κανονική κατανομή Η κατανομή τείνει σε κανονική καθώς αυξάνεται το μέγεθος και ο αριθμός των δειγμάτων. Κανονική κατανομή
Central Limit Theorem m = μ sem = s / √n Κανονική κατανομή Πολλά και μεγάλα δείγματα. sem: standard error of the mean m = μ Κανονική κατανομή sem = s / √n
Central Limit Theorem m = μ sem = s / √n Κανονική κατανομή Ανεξαρτήτως του είδους της κατανομής στον πληθυσμό. m = μ Κανονική κατανομή sem = s / √n
s m = μ sem = s / √n sem
s m = μ sem = s / √n 1.28 sem
s m = μ sem = s / √n 80% 1.28 sem (από πίνακες ή εξίσωση της κανονικής κατανομής)
s m = μ sem = s / √n 95% 1.96 sem
s m = μ sem = s / √n 95% 1.96 sem Test statistic = (observed – hypothesized) / sem
6 -3 9 -8 -1 -9 7 2 10 8 3 4 -2 -9 -8 -3 -2 -1 2 3 4 6 7 8 9 10 -9 -8 -3 -2 -1 2 3 4 6 7 8 9 10 2.85 m = 2.85 sem = 1.27 s = 5.67 Παράδειγμα δείγματος με μέσο όρο 2.85.
97.6% 2.4% /2 Test statistic = (observed – hypothesized) / sem 2.85 s = 5.67 sem = 1.27 97.6% 2.4% /2 1 2 2.25 sem Test statistic = (2.85 - 0) / 1.27 = 2.25
97.6% 2.4% /2 Test statistic = (observed – hypothesized) / sem t distribution m = 2.85 2.85 s = 5.67 sem = 1.27 97.6% 2.4% /2 1 2 2.25 sem Test statistic = (2.85 - 0) / 1.27 = 2.25
Test statistic = (observed – hypothesized) / sem t distribution m = 2.85 2.85 s = 5.67 sem = 1.27 97.6% 2.4% /2 96.3% 3.7% /2 1 2 2.25 sem Test statistic = (2.85 - 0) / 1.27 = 2.25
t distribution βαθμοί ελευθερίας - degrees of freedom
Μηδενική Υπόθεση (null hypothesis) The hypothesis to be nullified – H0 Null Hypothesis Significance Testing (NHST)
Μηδενική Υπόθεση (null hypothesis) Και όμως συνέβη! Επομένως, H0 απίθανη. ΛΑΘΟΣ, αλλά συνήθως ίσως ισχύει
p(H0|D) ≠ p(D|H0) p(H0|D): πιθανότητα H0 όταν D. p(D|H0): πιθανότητα D όταν H0.
Το ότι ένα δείγμα παρουσιάζει ακραίες τιμές δεν σημαίνει ότι δεν μπορεί να ανήκει στην κατανομή της μηδενικής υπόθεσης. Απλώς είναι σπάνιο.
Σε άλλη κατανομή μπορεί να είναι πιο σπάνιο.
Και σε άλλη, πολύ πιθανό.
Εάν έχει όντως συλλεχθεί από την πορτοκαλί κατανομή τότε η πιθανότητα να έχει την παρατηρούμενη μέση τιμή, ή πιο ακραία από αυτήν, είναι 1. Αυτό, όμως δεν σημαίνει ότι η πιθανότητα να έχει προέλθει από την πορτοκαλί κατανομή είναι 1 (δηλαδή βεβαιότητα). Άρα, η πιθανότητα που εκφράζεται από ένα στατιστικό τεστ δεν είναι η πιθανότητα αλήθειας της μηδενικής υπόθεσης.
Αν p(D|HA) = 0.5 τότε p(H0|D) ≈ 2 p(D|H0) p(H0|D): πιθανότητα H0 όταν D. p(D|H0): πιθανότητα D όταν H0. Αν p(D|HA) = 0.5 τότε p(H0|D) ≈ 2 p(D|H0)
Μηδενική Υπόθεση (null hypothesis) Και όμως συνέβη! Επομένως, H0 απίθανη. Type I error: false positive, α Type II error: false negative, β ΛΑΘΟΣ, αλλά συνήθως ίσως ισχύει
H0 True H0 False Rejected Type I, α OK Not Rejected Type II, β
Περιεχόμενα Είδη δεδομένων Κατανομές Περιγραφικά στοιχεία Κεντρικό θεώρημα ορίου Μηδενική Υπόθεση - πιθανότητες Ένα δείγμα Δύο δείγματα
Ένα δείγμα Test statistic = (m – μ) / se se: τυπικό σφάλμα se = s / √n P: από την κατανομή του t (df = n - 1)
96.3% 3.7% /2 Test statistic = (2.85 - 0) / 1.27 = 2.25 t distribution m = 2.85 2.85 s = 5.67 sem = 1.27 96.3% 3.7% /2 1 2 2.25 sem
96.3% 3.7% /2 P = 0.037 Test statistic = (2.85 - 0) / 1.27 = 2.25 t distribution m = 2.85 2.85 s = 5.67 sem = 1.27 96.3% 3.7% /2 1 2 P = 0.037 2.25 sem
Confidence interval Αν υπολογίσουμε το όριο αξιοπιστίας για πολλά παρόμοια δείγματα, τα 95% θα περιέχουν τον πραγματικό μέσο όρο του πληθυσμού.
96.3% 3.7% /2 P = 0.037 Test statistic = (2.85 - 0) / 1.27 = 2.25 t distribution m = 2.85 2.85 s = 5.67 sem = 1.27 96.3% 3.7% /2 1 2 P = 0.037 2.25 sem t0.975 = 2.093 (df = 20-1 = 19) 95%CI = 2.85 – 2.093 x 1.27 to 2.85 + 2.093 x 1.27
Ένα δείγμα Test statistic = (m – μ) / se se: τυπικό σφάλμα se = s / √n P: από την κατανομή του t (df = n - 1) 95%CI = (m - t0.975 se) έως (m + t0.975 se)
Δύο δείγματα Test statistic = (m1 – m2) / se(m1-m2) var = (n1 - 1) var1 + (n2 - 1) var2 / (n1 + n2 - 2) (n1 - 1) s12 + (n2 - 1) s22 / (n1 + n2 - 2) se(m1-m2) = √(var (1 / n1 + 1 / n2))
t-test Student’s t-test (Gosset, μπύρα) Paired – Unpaired (independent samples) Προϋποθέσεις: Quantitative (interval) Normal distribution Equal variance (F test)
F test F = var1 / var2 F distribution df: n1, n2
Για τις τιμές που σημειώνονται, το t-test δίνει τα εξής αποτελέσματα: t = 4.14, P = 0.0003.
Is this normally distributed (lognormal?). Same for areas.
Simulation of volume data.
Έλεγχος κανονικότητας κατανομής: Shapiro-Wilk test ή normal plot 13 20 29 33 41 70 0.2 0.6 1.2 -0.2 -0.6 -1.2
= (B1-1/3)/(6+1/3) =NORMSINV(C1) Υπολογισμός των rankits με το Excel. Βλέπε: http://en.wikipedia.org/wiki/Rankit http://en.wikipedia.org/wiki/Q-Q_plot
Normal probability plot 1.2 0.6 0.2 http://en.wikipedia.org/wiki/Normal_probability_plot -0.2 -0.6 -1.2 13 20 29 33 41 70
Ασκήσεις Διαφέρει το μήκος από το πλάτος; Διαφέρει ο λόγος μήκος/πλάτος από τον λόγο μήκος/ύψος; Είναι κανονική η κατανομή του όγκου; Βλέπε αρχείο StatTests.xls