Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

8. loeng Statistiline seos tunnuste vahel

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "8. loeng Statistiline seos tunnuste vahel"— Μεταγράφημα παρουσίασης:

1 8. loeng Statistiline seos tunnuste vahel
Märt Möls

2 Eelmises loengus Hii-ruut test

3 Hii-ruut test I

4 N=20 Teooria (H0) pjänes =1/4 pmetskits =1/4 pkährik =1/4 prebane=1/4 Teooria (H0) Njänes =5 Nmetskits =5 Nkährik =5 Nrebane=5 tegelik njänes =4 nmetskits =9 nkährik =3 nrebane=4 Jänes Metskits Hunt Kährik Rebane

5 df 0,95-kvantiil 1 3,84 2 5,99 3 7,81 4 9,49 5 11,07 N=20 Teooria (H0) pjänes =1/4 pmetskits =1/4 pkährik =1/4 prebane=1/4 Teooria (H0) Njänes =5 Nmetskits =5 Nkährik =5 Nrebane=5 tegelik njänes =4 nmetskits =9 nkährik =3 nrebane=4 Jänes Metskits Hunt Kährik Rebane

6 Statistiline seos kahe mittearvulise tunnuse vahel. Hii-ruut test.
Näide kas esineb seos tudengi tervisehinnangu ja tema soo vahel? Tabel (arstiteaduskonna 2. kursus aastatel ): hinnang tervisele sugu v.hea hea keskmine/halb kokku naine 83 (13%) 404 (62%) 161(25%) (100%) mees 35 (18%) 105 (55%) (26%) (100%) Mida tähendab seose olemasolu kahe tunnuse vahel? Seos on olemas, kui erinevast soost inimeste tervisehinnangute jaotus on erinev.

7 Küsime: milline oleks oodatud tervisehinnangute jaotus, kui hinnang tervisele ei sõltuks soost? (Nullhüpoteesiks on siin, et tervisehinnangu jaotus tabeli igas veerus on sama.) Vaatame, milline on tervisehinnangute jaotus valimis kokku: tervis (%) v.hea hea keskmine/halb 118(14,1%) 509 (60,74%) (25,2%) Nullhüpoteesi täidetuse korral peaks see jaotus olema sama nii meestel kui naistel. Seega 14% naistest ja sama suur osa, ehk siis samuti 14% meestest, peaks arvama, et nende tervis on väga hea, 61% nii meestest kui naistest, et nende tervis on hea, jne.

8 Leiame, kui palju see teeks arvuliselt.
Vaadeldud ja eeldatav (sulgudes) tervisehinnangute jaotus meestel ja naistel, kui hinnang ei sõltuks tudengi soost: tervis sugu v.hea hea keskmine/halb naine 83 (91) 404 (394) (163) mees 35 (27) 105 (115) ( 48) 648*0.141 648*0.6074 190*0.141 190*0.6074

9 Meie näites: χ2 = (83 − 91)2/91 + (404 − 394)2/ + (50 − 48)2/48 = 4,6 Leitud statistik on χ2- jaotusega, vabadusastmete arvuga df = (r - 1) × (v − 1) = r v – r - v + 1, kus r on ridade ja v veergude arv uuritavas tabelis. Vabadusastmete arvuks on siin 2 ja seega ei saa antud juhul seose olemasolu tostada (χ2-statistiku kriitiline väärtus df = 2 korral on 5,99; olulisustõenäosuseks tuleb p = 0,10)

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33 Regressioonseose tugevus
Regressioonanalüüs. Regressioonseose tugevus (korrelatsioonikordaja, determnatsioonikordaja)

34 Kas Argentiinas elavad õnnelikud inimesed?
Õnneandmestik: riik õnn Cyprus 7.3 Greece 6.4 Lebanon 5.6 Spain 7.2 Canada 7.6 ..... Argentiinat ei leia?

35 Kas Argentiinas elavad õnnelikud inimesed?
Õnneandmestik: riik õnn Cyprus 7.3 Greece 6.4 Lebanon 5.6 Spain 7.2 Canada 7.6 ..... Eh saab muu informatsiooni põhjal oletada (prognoosida) kui õnnelikud inimesed elavad Argentiinas?

36 Kas Argentiinas elavad õnnelikud inimesed?
Õnneandmestik: riik õnn kokaiin Cyprus Greece Lebanon Spain Canada ..... Argentiinas kokaiinitarvitajate osakaal rahvastikus (2009a andmed): 2,6%

37 Küsimusi... Kas kokaiinitarvitajate protsendi abil üldse saab rahva õnnelikust prognoosida? Kui saab, siis milline tuleb prognoos Argentiina rahva õnnelikkuse kohta? Kui täpne on leitud prognoos?

38

39

40

41

42

43

44

45

46 Kumb on parem sirge?

47

48

49 Milline sirge on kõigist sirgetest “parim”?

50

51

52

53

54

55

56 Vabaliige (Intercept)

57 Sirge tõus (Slope)

58 Õnnelikkuse prognoos Argentiina jaoks

59 Õnnelikkuse prognoos Argentiina jaoks
7,98

60 Kui täpselt me teame parimat sirget?
Usaldusintervall (Confidence Interval) regressioonisirgele 95% pointwise confidence interval

61 Kui täpne on meie prognoos?
Prognoosiintervall (Prediction Interval)

62 Kas kokaiinitarbijate protsendi teadmisest
On prognoosimisel üldse mingit abi? H0: c1=0 H1: c1≠0

63 Regressioonanalüüs R’is
> mudel=lm(onn~kokaiin) > summary(mudel) Residuals: Min Q Median Q Max Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) < 2e-16 *** kokaiin ** Residual standard error: on 37 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 37 DF, p-value: Kas c0 võib olla 0? Kas c1 võib olla 0?

64 Argentiinlaste õnne suurus tegelikult: 7,5
> predict(mudel, data.frame(kokaiin=2.6)) 1 > predict(mudel, data.frame(kokaiin=2.6), interval="confidence") fit lwr upr interval="prediction") fit lwr upr Usaldusintervall Prognoosiintervall Argentiinlaste õnne suurus tegelikult: 7,5

65 Seose tugevuse iseloomustamine
Mõnikord on üht tunnust teades võimalik väga suure täpsusega ära arvata teise tunnuse värtust, teinekord mitte. Kuidas mõõta seose tugevust?

66 Determinatsioonikordaja
Kui suure osa uuritava tunnuse hajuvusest suutis meie mudel “ära kirjeldada” Soovi korral võib esitada protsentides (kui korrutad läbi 100%-ga)

67

68

69

70

71

72

73

74

75 Lineaarne korrelatsioonikordaja Pearsoni korrelatsioonikordaja
Kui tunnuste X ja Y vahel on lineaarne funktsionaalne seos Y=a+bX (ehk täpne lineaarne seos), siis on korrelatsioonikordaja väärtus kas 1 või -1 vastavalt kordaja b märgile. Kui r>0, siis ühe tunnuse suurenedes keskmiselt teine tunnus kasvab ja vastupidi - ühe vähenedes väheneb ka teine. Kui r<0, siis ühe tunnuse väärtuste suurenedes keskmiselt teise tunnuse väärtused kahanevad ja vastupidi - ühe kahanedes teine kasvab. Kui tunnused on lineaarselt sõltumatud (tunnuste vahel võib aga olla mittelineaarne sõltuvus), siis on korrelatsioonikordaja null r = 0.

76 Lineaarne korrelatsioonikordaja Pearsoni korrelatsioonikordaja
Korrelatsioonikordaja ruut r2 ehk determinatsioonikordaja R2 näitab, kui suur osa ühe tunnuse hajuvusest (dispersioonist) on kirjeldatud teise poolt. Mida suurem on korrelatsioonikordaja absoluutväärtus, seda tugevam on korrelatiivne seos tunnuste vahel. Mõõtühiku (lineaarne) vahetus ei muuda korrelatsioonikordaja suurust (Korrelatsioonikordaja ei muutu, kui mõõdame temperatuuri Celsiuse kraadide Co asemel Farenheitides Fo, samuti võime pikkust mõõta sentimeetrites või meetrites- korrelatsioonikordaja jääb samaks).

77

78

79

80 Õnne prognoos kokaiinitarbimise järgi

81 kokaiinitarbimise prognoos õnnelikkuse järgi


Κατέβασμα ppt "8. loeng Statistiline seos tunnuste vahel"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google