8. loeng Statistiline seos tunnuste vahel Märt Möls martm@ut.ee
Eelmises loengus Hii-ruut test
Hii-ruut test I
N=20 Teooria (H0) pjänes =1/4 pmetskits =1/4 pkährik =1/4 prebane=1/4 Teooria (H0) Njänes =5 Nmetskits =5 Nkährik =5 Nrebane=5 tegelik njänes =4 nmetskits =9 nkährik =3 nrebane=4 Jänes Metskits Hunt Kährik Rebane
df 0,95-kvantiil 1 3,84 2 5,99 3 7,81 4 9,49 5 11,07 N=20 Teooria (H0) pjänes =1/4 pmetskits =1/4 pkährik =1/4 prebane=1/4 Teooria (H0) Njänes =5 Nmetskits =5 Nkährik =5 Nrebane=5 tegelik njänes =4 nmetskits =9 nkährik =3 nrebane=4 Jänes Metskits Hunt Kährik Rebane
Statistiline seos kahe mittearvulise tunnuse vahel. Hii-ruut test. Näide kas esineb seos tudengi tervisehinnangu ja tema soo vahel? Tabel (arstiteaduskonna 2. kursus aastatel 2001-2005): hinnang tervisele sugu v.hea hea keskmine/halb kokku naine 83 (13%) 404 (62%) 161(25%) 648 (100%) mees 35 (18%) 105 (55%) 50 (26%) 190 (100%) Mida tähendab seose olemasolu kahe tunnuse vahel? Seos on olemas, kui erinevast soost inimeste tervisehinnangute jaotus on erinev.
Küsime: milline oleks oodatud tervisehinnangute jaotus, kui hinnang tervisele ei sõltuks soost? (Nullhüpoteesiks on siin, et tervisehinnangu jaotus tabeli igas veerus on sama.) Vaatame, milline on tervisehinnangute jaotus valimis kokku: tervis (%) v.hea hea keskmine/halb 118(14,1%) 509 (60,74%) 211 (25,2%) Nullhüpoteesi täidetuse korral peaks see jaotus olema sama nii meestel kui naistel. Seega 14% naistest ja sama suur osa, ehk siis samuti 14% meestest, peaks arvama, et nende tervis on väga hea, 61% nii meestest kui naistest, et nende tervis on hea, jne.
Leiame, kui palju see teeks arvuliselt. Vaadeldud ja eeldatav (sulgudes) tervisehinnangute jaotus meestel ja naistel, kui hinnang ei sõltuks tudengi soost: tervis sugu v.hea hea keskmine/halb naine 83 (91) 404 (394) 161 (163) mees 35 (27) 105 (115) 50 ( 48) 648*0.141 648*0.6074 190*0.141 190*0.6074
Meie näites: χ2 = (83 − 91)2/91 + (404 − 394)2/394 +. . .+ + (50 − 48)2/48 = 4,6 Leitud statistik on χ2- jaotusega, vabadusastmete arvuga df = (r - 1) × (v − 1) = r v – r - v + 1, kus r on ridade ja v veergude arv uuritavas tabelis. Vabadusastmete arvuks on siin 2 ja seega ei saa antud juhul seose olemasolu tostada (χ2-statistiku kriitiline väärtus df = 2 korral on 5,99; olulisustõenäosuseks tuleb p = 0,10)
Regressioonseose tugevus Regressioonanalüüs. Regressioonseose tugevus (korrelatsioonikordaja, determnatsioonikordaja)
Kas Argentiinas elavad õnnelikud inimesed? Õnneandmestik: http://worlddatabaseofhappiness.eur.nl/ riik õnn Cyprus 7.3 Greece 6.4 Lebanon 5.6 Spain 7.2 Canada 7.6 ..... Argentiinat ei leia?
Kas Argentiinas elavad õnnelikud inimesed? Õnneandmestik: http://worlddatabaseofhappiness.eur.nl/ riik õnn Cyprus 7.3 Greece 6.4 Lebanon 5.6 Spain 7.2 Canada 7.6 ..... Eh saab muu informatsiooni põhjal oletada (prognoosida) kui õnnelikud inimesed elavad Argentiinas?
Kas Argentiinas elavad õnnelikud inimesed? Õnneandmestik: http://worlddatabaseofhappiness.eur.nl/ riik õnn kokaiin Cyprus 7.3 0.6 Greece 6.4 0.1 Lebanon 5.6 0.1 Spain 7.2 3.0 Canada 7.6 2.3 ..... Argentiinas kokaiinitarvitajate osakaal rahvastikus (2009a andmed): 2,6% http://www.guardian.co.uk/news/datablog/2009/jun/24/drugs-trade-drugs
Küsimusi... Kas kokaiinitarvitajate protsendi abil üldse saab rahva õnnelikust prognoosida? Kui saab, siis milline tuleb prognoos Argentiina rahva õnnelikkuse kohta? Kui täpne on leitud prognoos?
Kumb on parem sirge?
Milline sirge on kõigist sirgetest “parim”?
Vabaliige (Intercept)
Sirge tõus (Slope)
Õnnelikkuse prognoos Argentiina jaoks
Õnnelikkuse prognoos Argentiina jaoks 7,98
Kui täpselt me teame parimat sirget? Usaldusintervall (Confidence Interval) regressioonisirgele 95% pointwise confidence interval
Kui täpne on meie prognoos? Prognoosiintervall (Prediction Interval)
Kas kokaiinitarbijate protsendi teadmisest On prognoosimisel üldse mingit abi? H0: c1=0 H1: c1≠0
Regressioonanalüüs R’is > mudel=lm(onn~kokaiin) > summary(mudel) Residuals: Min 1Q Median 3Q Max -1.9150 -0.6562 -0.2974 0.9938 1.7510 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.8139 0.2278 25.524 < 2e-16 *** kokaiin 0.8351 0.2697 3.096 0.00373 ** Residual standard error: 1.031 on 37 degrees of freedom Multiple R-squared: 0.2057, Adjusted R-squared: 0.1843 F-statistic: 9.584 on 1 and 37 DF, p-value: 0.003731 Kas c0 võib olla 0? Kas c1 võib olla 0?
Argentiinlaste õnne suurus tegelikult: 7,5 > predict(mudel, data.frame(kokaiin=2.6)) 1 7.985145 > predict(mudel, data.frame(kokaiin=2.6), interval="confidence") fit lwr upr 1 7.985145 6.832635 9.137655 interval="prediction") fit lwr upr 1 7.985145 5.599986 10.3703 Usaldusintervall Prognoosiintervall Argentiinlaste õnne suurus tegelikult: 7,5
Seose tugevuse iseloomustamine Mõnikord on üht tunnust teades võimalik väga suure täpsusega ära arvata teise tunnuse värtust, teinekord mitte. Kuidas mõõta seose tugevust?
Determinatsioonikordaja Kui suure osa uuritava tunnuse hajuvusest suutis meie mudel “ära kirjeldada” Soovi korral võib esitada protsentides (kui korrutad läbi 100%-ga)
Lineaarne korrelatsioonikordaja Pearsoni korrelatsioonikordaja Kui tunnuste X ja Y vahel on lineaarne funktsionaalne seos Y=a+bX (ehk täpne lineaarne seos), siis on korrelatsioonikordaja väärtus kas 1 või -1 vastavalt kordaja b märgile. Kui r>0, siis ühe tunnuse suurenedes keskmiselt teine tunnus kasvab ja vastupidi - ühe vähenedes väheneb ka teine. Kui r<0, siis ühe tunnuse väärtuste suurenedes keskmiselt teise tunnuse väärtused kahanevad ja vastupidi - ühe kahanedes teine kasvab. Kui tunnused on lineaarselt sõltumatud (tunnuste vahel võib aga olla mittelineaarne sõltuvus), siis on korrelatsioonikordaja null r = 0.
Lineaarne korrelatsioonikordaja Pearsoni korrelatsioonikordaja Korrelatsioonikordaja ruut r2 ehk determinatsioonikordaja R2 näitab, kui suur osa ühe tunnuse hajuvusest (dispersioonist) on kirjeldatud teise poolt. Mida suurem on korrelatsioonikordaja absoluutväärtus, seda tugevam on korrelatiivne seos tunnuste vahel. Mõõtühiku (lineaarne) vahetus ei muuda korrelatsioonikordaja suurust (Korrelatsioonikordaja ei muutu, kui mõõdame temperatuuri Celsiuse kraadide Co asemel Farenheitides Fo, samuti võime pikkust mõõta sentimeetrites või meetrites- korrelatsioonikordaja jääb samaks).
Õnne prognoos kokaiinitarbimise järgi
kokaiinitarbimise prognoos õnnelikkuse järgi