8. loeng Statistiline seos tunnuste vahel

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
FÜÜSIKA I KURSUS FÜÜSIKALISE LOODUSKÄSITLUSE ALUSED
Advertisements

Τομέας Πληροφορικής. Υποστήριξης Υπολογιστικών Συστημάτων Εφαρμογών & Δικτύων Η/Υ.
ΕΝΕΡΓΟΙ ΠΟΛΙΤΕΣ Β1-Β2 (Σχ.έτος ) ΕΚΠΑΙΔΕΥΤΙΚΟΙ : ΝΕΟΚΟΣΜΙΔΟΥ ΠΑΝΑΓΙΩΤΑ ΣΑΝΤΟΡΙΝΗ ΜΑΡΙΑ.
Τομέας Εφαρμοσμένων Τεχνών. Ο επαγγελματικός τομέας Εφαρμοσμένων Τεχνών ανήκει στον κύκλο Εφαρμογών του 10ου ΕΠΑ.Λ. και περιέχει την ειδικότητα: Γραφικών.
ΧΟΡΕΥΟΥΜΕ ΠΑΡΑΔΟΣΙΑΚΑ ;. TAΞΕΙΔΙ ΣΤΗΝ ΠΑΡΑΔΟΣΗ.. Οι παραδοσιακοί χοροί της χώρας μας παρουσιάζουν μεγάλη ποικιλία. Κάθε περιοχή, χωριό έχει τους δικούς.
Andmeturve ja krüptoloogia Asümmeetrilised krüptoalgoritmid (RSA) ja krüptoräsi algoritmid. Krüptoprotokollid 7. november 2015 Valdo Praust 
Statistline ja geomeetriline tõenäosus
Test.
Test.
Στατιστική ανάλυση των πειραματικών μετρήσεων
Μέθοδος του Εσωτερικού Συντελεστή Απόδοσης. (Ε.Σ.Α.)
Στατιστικές Υποθέσεις
Εκτιμητική: σημειακές εκτιμήσεις παραμέτρων
ΕΠΙΔΗΜΙΟΛΟΓΙΚΗΣ ΜΕΛΕΤΗΣ «Ικανοποίηση των ασθενών με ΡΑ
Άντρη Ορθοδόξου Μιχαήλ
ΗΦΑΙΣΤΕΙΑ ΒΗΣΣΑΡΙΑ & ΜΑΡΙΑ ΣΤ2.
Μέθοδος της Καθαράς Παρούσας Αξίας. (Κ.Π.Α.)
ΤΑ ΕΛΛΗΝΙΚΑ ΒΟΤΑΝΑ ΚΑΙ Η ΧΡΗΣΗ ΤΟΥΣ
OI TΡEIΣ ΙΕΡΑΡΧΕΣ Οι τρεις Ιεράρχες ,προστάτες των γραμμάτων και των εκπαιδευτικών, γιορτάζουν στις 30 Ιανουαρίου.
Στρατηγική Έξυπνης Εξειδίκευσης ΕΠ «Βόρειο Αιγαίο»
ΚΥΚΛΟΦΟΡΙΚΟ ΣΥΣΤΗΜΑ.
Metsade produktiivsuse kaugseirest
YFO0010 Sissejuhatus okeanograafiasse ja limnoloogiasse
Vektorid..
Ühikute teisendamine.
Lõputöö kirjutamisest Vt ka
Rasedus ja immunoloogia – mis on uut?
Varsti on eksam!.
AINELINE MAAILM Kert Martma, PhD Tallinna Ülikool TALLINN 2014.
Andmeturve ja krüptoloogia, 4. kontaktsessioon Valdo Praust
Statistline ja geomeetriline tõenäosus
Energia Energia on mateeria liikumise ja vastastikmõjude üldistatud
Varsti on eksam.....
Soojustehnika teoreetilised alused - MSJ loeng
KAUGKÜTTE SOOJUSVÕRKE ISELOOMUSTAVAD SUURUSED
Meid ümbritsevad elektromagnetlained - kosmiline kiirgus - UV
Sirgete ja tasandite vastastikused asendid.
KEEMILINE SIDE JA AINE EHITUS
Ringjoone kaare pikkus ja sektori pindala
Liikumine ja vastastikmõju. Jõud
Geomeetrilised kujundid
Struktuurivõrrandid Loeng 4 Mõõtmisvigadest
Vajalikud ära lahendada või aru saada antud lahendusest
Ajalooliselt oli see esimene magnetilise jõu seadus.
Struktuurivalemitest

(Kooli) Matemaatika.
Aümmeetrilised krüptoalgoritmid ja krüptoräsi algoritmid
YFO0010 Sissejuhatus okeanograafiasse ja limnoloogiasse
Veiste juurdekasvu modelleerimisest
60. Daltoni seadus. Olgu erinevate molaarmassidega gaaside segu mingis ruumalas V. Igat sorti gaasi on Ni molekuli ja nendele vastavad kontsentratsioonid.
Kvantitatiivne geneetika
© J. Müller, M. Reinart Viljandi Maagümnaasium
§44. Kasutegur lk
Kolloidsüsteemide stabiilsus
Biomassi termokeemiline muundamine 6. Gaasistamine 6
Kohastumuste teke ja piirangud neile
Ruumilise kuulmistaju fenomen
Metapopulatsioon on populatsioon, mis koosneb hulgast osaliselt isoleeritud osapopulatsioonidest - laikudest (patch), “populatsioonide populatsioon”. Lähenemist.
Rapla Täiskasvanute Gümnaasium 2005
KEEMILISE REAKTSIOONI KIIRUS JA TASAKAAL
III VEKTOR TASANDIL. JOONE VÕRRAND.
Loomade populatsioonidünaamika, versioon 2008
Beeta-kiirgus Kea Kiiver.
Matemaatika.
Dünaamika F1 = - F2.
ΠΟΛΙΤΙΚΟ ΜΑΡΚΕΤΙΝΓΚ 4/4/2019
Κεφάλαιο 12 Απλή Γραμμική Παλινδρόμηση.
ΕΛΕΓΧΟΙ ΟΡΑΤΟΤΗΤΑΣ Επιμήκης αίθουσα με κλειστή σκηνή
Στατιστική Επαγωγή Ένα τεράστιο μέρος της έρευνας διενεργείται μέσω της ανάλυσης δειγμάτων προκειμένου να εξάγουμε συμπεράσματα για τον πληθυσμό. Αυτό.
Μεταγράφημα παρουσίασης:

8. loeng Statistiline seos tunnuste vahel Märt Möls martm@ut.ee

Eelmises loengus Hii-ruut test

Hii-ruut test I

N=20 Teooria (H0) pjänes =1/4 pmetskits =1/4 pkährik =1/4 prebane=1/4 Teooria (H0) Njänes =5 Nmetskits =5 Nkährik =5 Nrebane=5 tegelik njänes =4 nmetskits =9 nkährik =3 nrebane=4 Jänes Metskits Hunt Kährik Rebane

df 0,95-kvantiil 1 3,84 2 5,99 3 7,81 4 9,49 5 11,07 N=20 Teooria (H0) pjänes =1/4 pmetskits =1/4 pkährik =1/4 prebane=1/4 Teooria (H0) Njänes =5 Nmetskits =5 Nkährik =5 Nrebane=5 tegelik njänes =4 nmetskits =9 nkährik =3 nrebane=4 Jänes Metskits Hunt Kährik Rebane

Statistiline seos kahe mittearvulise tunnuse vahel. Hii-ruut test. Näide kas esineb seos tudengi tervisehinnangu ja tema soo vahel? Tabel (arstiteaduskonna 2. kursus aastatel 2001-2005): hinnang tervisele sugu v.hea hea keskmine/halb kokku naine 83 (13%) 404 (62%) 161(25%) 648 (100%) mees 35 (18%) 105 (55%) 50 (26%) 190 (100%) Mida tähendab seose olemasolu kahe tunnuse vahel? Seos on olemas, kui erinevast soost inimeste tervisehinnangute jaotus on erinev.

Küsime: milline oleks oodatud tervisehinnangute jaotus, kui hinnang tervisele ei sõltuks soost? (Nullhüpoteesiks on siin, et tervisehinnangu jaotus tabeli igas veerus on sama.) Vaatame, milline on tervisehinnangute jaotus valimis kokku: tervis (%) v.hea hea keskmine/halb 118(14,1%) 509 (60,74%) 211 (25,2%) Nullhüpoteesi täidetuse korral peaks see jaotus olema sama nii meestel kui naistel. Seega 14% naistest ja sama suur osa, ehk siis samuti 14% meestest, peaks arvama, et nende tervis on väga hea, 61% nii meestest kui naistest, et nende tervis on hea, jne.

Leiame, kui palju see teeks arvuliselt. Vaadeldud ja eeldatav (sulgudes) tervisehinnangute jaotus meestel ja naistel, kui hinnang ei sõltuks tudengi soost: tervis sugu v.hea hea keskmine/halb naine 83 (91) 404 (394) 161 (163) mees 35 (27) 105 (115) 50 ( 48) 648*0.141 648*0.6074 190*0.141 190*0.6074

Meie näites: χ2 = (83 − 91)2/91 + (404 − 394)2/394 +. . .+ + (50 − 48)2/48 = 4,6 Leitud statistik on χ2- jaotusega, vabadusastmete arvuga df = (r - 1) × (v − 1) = r v – r - v + 1, kus r on ridade ja v veergude arv uuritavas tabelis. Vabadusastmete arvuks on siin 2 ja seega ei saa antud juhul seose olemasolu tostada (χ2-statistiku kriitiline väärtus df = 2 korral on 5,99; olulisustõenäosuseks tuleb p = 0,10)

Regressioonseose tugevus Regressioonanalüüs. Regressioonseose tugevus (korrelatsioonikordaja, determnatsioonikordaja)

Kas Argentiinas elavad õnnelikud inimesed? Õnneandmestik: http://worlddatabaseofhappiness.eur.nl/ riik õnn Cyprus 7.3 Greece 6.4 Lebanon 5.6 Spain 7.2 Canada 7.6 ..... Argentiinat ei leia?

Kas Argentiinas elavad õnnelikud inimesed? Õnneandmestik: http://worlddatabaseofhappiness.eur.nl/ riik õnn Cyprus 7.3 Greece 6.4 Lebanon 5.6 Spain 7.2 Canada 7.6 ..... Eh saab muu informatsiooni põhjal oletada (prognoosida) kui õnnelikud inimesed elavad Argentiinas?

Kas Argentiinas elavad õnnelikud inimesed? Õnneandmestik: http://worlddatabaseofhappiness.eur.nl/ riik õnn kokaiin Cyprus 7.3 0.6 Greece 6.4 0.1 Lebanon 5.6 0.1 Spain 7.2 3.0 Canada 7.6 2.3 ..... Argentiinas kokaiinitarvitajate osakaal rahvastikus (2009a andmed): 2,6% http://www.guardian.co.uk/news/datablog/2009/jun/24/drugs-trade-drugs

Küsimusi... Kas kokaiinitarvitajate protsendi abil üldse saab rahva õnnelikust prognoosida? Kui saab, siis milline tuleb prognoos Argentiina rahva õnnelikkuse kohta? Kui täpne on leitud prognoos?

Kumb on parem sirge?

Milline sirge on kõigist sirgetest “parim”?

Vabaliige (Intercept)

Sirge tõus (Slope)

Õnnelikkuse prognoos Argentiina jaoks

Õnnelikkuse prognoos Argentiina jaoks 7,98

Kui täpselt me teame parimat sirget? Usaldusintervall (Confidence Interval) regressioonisirgele 95% pointwise confidence interval

Kui täpne on meie prognoos? Prognoosiintervall (Prediction Interval)

Kas kokaiinitarbijate protsendi teadmisest On prognoosimisel üldse mingit abi? H0: c1=0 H1: c1≠0

Regressioonanalüüs R’is > mudel=lm(onn~kokaiin) > summary(mudel) Residuals: Min 1Q Median 3Q Max -1.9150 -0.6562 -0.2974 0.9938 1.7510 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 5.8139 0.2278 25.524 < 2e-16 *** kokaiin 0.8351 0.2697 3.096 0.00373 ** Residual standard error: 1.031 on 37 degrees of freedom Multiple R-squared: 0.2057, Adjusted R-squared: 0.1843 F-statistic: 9.584 on 1 and 37 DF, p-value: 0.003731 Kas c0 võib olla 0? Kas c1 võib olla 0?

Argentiinlaste õnne suurus tegelikult: 7,5 > predict(mudel, data.frame(kokaiin=2.6)) 1 7.985145 > predict(mudel, data.frame(kokaiin=2.6), interval="confidence") fit lwr upr 1 7.985145 6.832635 9.137655 interval="prediction") fit lwr upr 1 7.985145 5.599986 10.3703 Usaldusintervall Prognoosiintervall Argentiinlaste õnne suurus tegelikult: 7,5

Seose tugevuse iseloomustamine Mõnikord on üht tunnust teades võimalik väga suure täpsusega ära arvata teise tunnuse värtust, teinekord mitte. Kuidas mõõta seose tugevust?

Determinatsioonikordaja Kui suure osa uuritava tunnuse hajuvusest suutis meie mudel “ära kirjeldada” Soovi korral võib esitada protsentides (kui korrutad läbi 100%-ga)

Lineaarne korrelatsioonikordaja Pearsoni korrelatsioonikordaja Kui tunnuste X ja Y vahel on lineaarne funktsionaalne seos Y=a+bX (ehk täpne lineaarne seos), siis on korrelatsioonikordaja väärtus kas 1 või -1 vastavalt kordaja b märgile. Kui r>0, siis ühe tunnuse suurenedes keskmiselt teine tunnus kasvab ja vastupidi - ühe vähenedes väheneb ka teine. Kui r<0, siis ühe tunnuse väärtuste suurenedes keskmiselt teise tunnuse väärtused kahanevad ja vastupidi - ühe kahanedes teine kasvab. Kui tunnused on lineaarselt sõltumatud (tunnuste vahel võib aga olla mittelineaarne sõltuvus), siis on korrelatsioonikordaja null r = 0.

Lineaarne korrelatsioonikordaja Pearsoni korrelatsioonikordaja Korrelatsioonikordaja ruut r2 ehk determinatsioonikordaja R2 näitab, kui suur osa ühe tunnuse hajuvusest (dispersioonist) on kirjeldatud teise poolt. Mida suurem on korrelatsioonikordaja absoluutväärtus, seda tugevam on korrelatiivne seos tunnuste vahel. Mõõtühiku (lineaarne) vahetus ei muuda korrelatsioonikordaja suurust (Korrelatsioonikordaja ei muutu, kui mõõdame temperatuuri Celsiuse kraadide Co asemel Farenheitides Fo, samuti võime pikkust mõõta sentimeetrites või meetrites- korrelatsioonikordaja jääb samaks).

Õnne prognoos kokaiinitarbimise järgi

kokaiinitarbimise prognoos õnnelikkuse järgi