Skúmanie závislostí.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Fyzika a chemie společně CZ/FMP/17B/0456 SOUBOR VÝUKOVÝCH MATERIÁLŮ FYZIKA + CHEMIE ZŠ A MŠ KAŠAVA ZŠ A MŠ CEROVÁ.
Advertisements

NÁZOV ČIASTKOVEJ ÚLOHY:
Ľubomír Šmidek 3.E Banská Bystrica
VII. DVOJ VÝBEROVÉ TESTY
Οι φυσικές καταστάσεις.
SNOWBOARDING & SKIING michaela krafčíková 1.D
Čísla v matematike.
PRÍLOHA I Kategórie hovädzieho dobytka vo veku maximálne dvanástich mesiacov Pri porážke sa hovädzí dobytok vo veku maximálne dvanástich mesiacov zaradí.
Epipolárna geometria v praxi
Výpočet ozubených kolies
UHOL - úvod Vypracovala: S. Vidová.
1. kozmická rýchlosť tiež Kruhová rýchlosť.
PODOBNOSŤ TROJUHOLNÍKOV
Zákon sily Kód ITMS projektu:
Ľudmila Komorová,Katedra chémie, TU v Košiciach
Meranie dĺžky ZŠ s MŠ Zubrohlava
Medzinárodná sústava jednotiek SI
Pravouhlý a všeobecný trojuholník
TESTOVANIE ŠTATISTICKÝCH HYPOTÉZ
Mechanická práca Kód ITMS projektu:
Mechanická práca na naklonenej rovine
Uhol a jeho veľkosť, operácie s uhlami
Rovnobežky, kolmice.
Fyzika 6. ročník.
Fyzika-Optika Monika Budinská 1.G.
Úloha fotoprotektív v manažmente dermatóz zhoršujúcich sa účinkom svetelného žiarenia Vladimír Hegyi.
Štatistické metódy Ošetrovateľský výskum Mgr. Juraj Čáp, PhD.
OHMOV ZÁKON, ELEKTRICKÝ ODPOR VODIČA
Elektronické voltmetre
ANALÝZA ROZPTYLU.
prof.Ing. Zlata Sojková,CSc.
TLAK V KVAPALINÁCH A PLYNOCH
Stredové premietanie 2. časť - metrické úlohy Margita Vajsáblová
Príklad na pravidlový fuzzy systém
Ročník: ôsmy Typ školy: základná škola Autorka: Mgr. Katarína Kurucová
Prednášky z BIOŠTATISTIKY
Pravouhlý a všeobecný trojuholník
Gymnázium sv. Jána Bosca Bardejov
Goniometrické vzorce Mgr. Jozef Vozár.
Goniometrické vzorce Mgr. Jozef Vozár.
Prehľad www prehliadačov
VŠEOBECNÁ PSYCHOLÓGIA
Rozpoznávanie obrazcov a spracovanie obrazu
Metódy numerickej matematiky I
Simulované žíhanie 6. Prednáška.
Názvy a značky chemických prvkov
Prizmatický efekt šošoviek
EKONOMETRIA PREDNÁŠKA 10
RNDr. Marta Mlynarčíková FUNKCIE- elektronická
SPOTREBA, ÚSPORY A INVESTÍCIE
ELEKTROMAGNETICKÁ INDUKCIA
Štatistická indukcia –
CHEMICKÁ VäZBA.
Združená stredná priemyselná škola Nové Mesto nad Váhom
Úvod do pravdepodobnosti
Prechod Venuše popred disk Slnka
DISPERZIA (ROZKLAD) SVETLA Dominik Sečka III. B.
Metóda ohybných plátov (thin plate spline)
VALEC Matematika Geometria Poledník Denis.
Atómové jadro.
Rovnice priamky a roviny v priestore
Katedra štatistiky FHI EU v Bratislave
EKONOMICKÝ RAST A STABILITA
Štatistika Mgr. Jozef Vozár 2007.
Odrušenie motorových vozidiel
Finančné časové rady – modely ARCH a GARCH.
Matematické kyvadlo a čo sme sa o ňom dozvedeli
Alica Mariňaková a Anna Petrušková
Mgr. Jana Sabolová Elektrický prúd.
Skúma tepelné efekty chemických reakcií a fázových premien
Μεταγράφημα παρουσίασης:

Skúmanie závislostí

Skúmanie závislostí medzi kvantitatívnymi premennými Korelačná analýza -Súbor metód pre meranie závislostí medzi premennými Grafické vyšetrenie korelácie pomocou grafu závislostí (xy scatter plot) Vyjadrenie závislostí pomocou korelačných koeficientov Vyjadrenie vzájomného vzťahu premenných pomocou kovariancii

Kovariancia Vyjadruje ako sa súčasne menia hodnoty dvoch premenných Kladná hodnota znamená že sa menia rovnakým smerom, záporná hodnota znamená že sa menia opačným smerom, nula že sa menia nezávisle Vyjadrenie vzájomných vzťahov viacerých premenných pomocou kovariačnej matice

Korelačný koeficent Meria silu závislosti medzi premennými Môže nadobúdať hodnoty z intervalu <-1,1> -1 silná negatívna korelácia 1 silná pozitívna korelácia 0 premenné sú nezávislé (žiadna korelácia) Vyjdrenie vzájomných vzťahov medzi viacerými premennými-korelačná matica Pearsonov korelačný koeficient – najčastejšie používaný) štandardizovaná kovariancia (kovariancia podelená súčinom štandardných odchýlok)

Pearsonov korelačný koeficient Najčastejšie používaný Používa sa ak sú premenné merané prinajmenšom na intervalovej škále Nezávisí od mierky v ktorej boli premenné merané Meria lineárnu závislost (víde najvyšší ak sa dajú namerané hodnoty preložiť priamkou)

doc.Ing. Zlata Sojková,CSc.

Ďalšie často používané korelačné koeficienty Spearmanov -Vypočítaný podobne ako Pearsonov ale pomocou poradí Menej senzitívny niekedy neprodukuje žiadny výsledok Dokáže zachytiť aj nelineárne vzťahy Kendallov – meria závislosť medzi dvomi poradovými premennými Z interpretačného hľadiska lepší ako Spearmanov Oba uvedené koeficienty sú neparametrické

doc.Ing. Zlata Sojková,CSc.

Závislosť-kvalitatívne znaky Podkladom sú asociačné, resp. kontingenčné tabuľky, pre súhrnné testovanie existencie štatisticky významného vzťahu medzi kvalitatívnymi znakmi sa používa 2 - štvorcová kontingencia Ho: dva znaky A a B sú nezávislé (teoretické početnosti sa rovnajú empirickým) H1: znaky A a B závisia (štatisticky významný rozdiel medzi teoretickými a empirickými početnosťami) A znak má m - úrovní, obmien B znak má k - úrovní , obmien

Formulovanie hypotéz Závislosť znakov sa prejaví v rozdielnych početnostiach napr. Skúmame či veľkosť balenia určitého výrobku je ovplyvnená početnosťou rodiny Ho : výber veľkosti balenia výrobku nezávisí od počtu členov v rodine H1 : výber veľkosti balenia je ovplyvnená počtom členov v rodine test spočíva v porovnávaní empirických početností a teoretických, t,j, takých aké by mali empirické početnosti byť keby boli znaky A a B nezávislé

Výpočet testovacieho kritéria a rozhodnutie: Ak testovacia štatistika 2  2 pre hladinu významnosti  pre stupne voľnosti (m-1).(k-1) Ho zamietame, t.zn. znaky A a B sú závislé Rovnaký výsledok platí ak p-hodnota je nižšia ako alfa.

Predpoklady použitia chi-kvadrát testu štvorcovej kontingencie Použitie chi-kvadrát testu štvorcovej kontingencie môže byť problematické ak sa v kontingenčnej tabulke vyskytujú početnosti nižšie ako 5 Výskyt takto nízkych početností môže má za následok vysokú hodnotu testovacej štatistiky Pokiaľ je má tabulka rozmer 2x2 v každej bunke by mala byť početnosť vyššia ako 5 Pri tabuľkách s vyšším rozmerom môže byť tento test použitý pokiaľ má aspon 20% buniek početnosti vyššiu ako 5 doc.Ing. Zlata Sojková,CSc.

Kontingenčný koeficient Počítame ho podľa vzorca Jeho hodnota sa pohybuje v intervale 0 až 1 Hodnota 0 indikuje nulovú asociáciu, t.j. premenné nie sú závislé, avšak maximálna hodnota sa nedosiahne nikdy Hodnota koeficientu závisí od veľkosti tabuľky (počte riadkov a počte stĺpcov) Mal by byť použitý iba na porovnávanie tabuliek rovnakej veľkosti

Cramerov kontingenčný koeficient V Je modifikovanou verziou korelačného koeficienta a používa sa v tabuľkách väčších ako 2x2 Nadobúda hodnoty z intervalu 0 až 1 Vysoká hodnota indikuje vysokú mieru asociácie, nevyjadruje však ako sú premenné asociované Pre tabuľku s m riadkami a k stĺpcami je koeficient V vyjadrený nasledovne

Lineárny regresný model

Pri regresenej a korelačnej analýze pôjde skúmanie príčinnej - kauzálnej závislosti,skúmanie vzťahov medzi príčinou a účinkom kedy jeden resp viac javov (znakov, nezávisle prememnných veličín ) vyvoláva účinok - výsledný jav - závisle prememnnú veličinu Y = f (X1 X2…... Xk ,Bo , B1 ,….Bp ) +e Nezávislé premenné veličiny - príčiny Neznáme parametre funkčného vzťahu Náhodné, Nešpecifikované vplyvy Závislé premenná - účinok

Lineárny regresný model Všeobecná forma viacnásobného regresného modelu: Yi = B1 + B2X2i + B3X3i + … + BkXki + ui Skrátená forma: Yi = BX + ui Y vysvetlovaná premenná (regressand), X je vektor vysvetlujúcich premenných (regressorov), and u je náhodná chyba (reziduá). Damodar Gujarati Econometrics by Example

Regresné koeficienty B1 je lokujúca konštanta - vyjadruje očakávanú úroveň závislé premennej pri nulovej hodnote nezávisle premennej B2 až Bk sú regresné koeficienty (smernice) Každý regresný koeficient meria (parciálnu) mieru zmeny v priemernej hodnote Y pri jednotkovej zmene v hodnote vysvetlujúcej premennej, ceteris paribus. Damodar Gujarati Econometrics by Example

Typy údajov Časové rady Súbor pozorovaní ktoré nadobúda premenná v rôznych časových obdobiach ako napríklad denné (napr. ceny akcií), Týždenné (napr. ponuka peňazí), mesačné (napr. miera nezamestnanosti), kvartálne čiže štvrťročné (napr. HDP), ročné (napr. štátny rozpočet), päťročné (napr. sčítanie výrobcov), alebo desaťročné (napr. sčítanie obyvateľov). Damodar Gujarati Econometrics by Example

Typy údajov Prierezové údaje Údaje o jednej alebo viacerých premenných získané v jednom bode v čase. Príkladom sú napríklad sčítanie obyvateľov vykonávané štatistickým úradom, rôzne prieskumy preferencií, či namerané teploty v danom čase na rôznych miestach. Damodar Gujarati Econometrics by Example

Typy údajov Panelové, longitudálne alebo mikropanelové údaje Kombinujú prvky oboch predchádzajúcich, tak časových radov ako aj prierezových údajov Rovnaké prierezové jednotky sú sledované v čase Damodar Gujarati Econometrics by Example

Metóda najmenších štvorcov Metóda najmenších štvorcov (MNŠ) neminimalizuje sumu odchýlok, ale minimalizuje sumu štvorcov odchýlok: Pre získanie regresných koeficientov sú parciálne derivácie podla jednotlivých regresných koeficientov dané do rovnosti s nulou.

Klasický lineárny regresný model Predpoklady klasického lineárneho regresného modelu (CLRM): A-1: Model je lineárny v parametroch. A-2: Vysvetľujúce premenné sú nestochastické a konštantné v opakovaných výberoch. A-3: Pre dané X, stredná hodnota reziduí je 0, alebo E(ui |X) = 0. Damodar Gujarati Econometrics by Example

Klasický lineárny regresný model Predpoklady klasického lineárneho regresného modelu: A-4: Homoskedastický, alebo konštantný rozptyl ui, zapísané ako var(ui|X) = σ2. A-5: Žiadna autokorelácia rezíduí, alebo cov(ui,uj|X) = 0, i ≠ j. A-6: Žiadna multikolinearita, teda žiadna perfektná lineárna závislosť medzi vysvetľujúcimi premennými. A-7: Žiadne chyby špecifikácie. Damodar Gujarati Econometrics by Example

GAUSS-MARKOV TEORÉM Na základe predpokladov A-1 až A-7, dáva MNŠ najlepšie lineárne nevychýlené odhady ak: (1) Estimátory sú lineárnou funkciou závisle premennej Y. (2) Estimátory sú nevychýlené; pri opakovanom použití metódy dosahujú odhady svoje skutočné hodnoty. (3) V kategórii lineárnych odhadov, estimátory majú estimátory získané metódou najmenších štvorcov minimálny rozptyl; teda sú efektívnymi alebo aj „najlepšími“ odhadmi. Damodar Gujarati Econometrics by Example

Testovanie hypotéz: t TEST Testujeme nasledujúce hypotézy: H0: Bk = 0 H1: Bk ≠ 0 vypočítame testovaciu štatistiku podľa nasledujúceho vzorca a použijeme tabuľky studentovho rozdelenia aby sme získali t kritické s n-k stupňami voľnosti pre danú hladinu významnosti (alebo α, rovné 10%, 5%, alebo 1%): Pokiaľ je táto hodnota vačšia ako t kritické, zamietneme H0. Damodar Gujarati Econometrics by Example

Testovanie hypotéz: t TEST Alternatívnou metódou je určiť, či sa v intervale spolahlivosti nachádza 0: Pokiaľ nula leží v intervale spoľahlivosti nemôžeme zamietnuť H0. p-value označuje presnú hladinu významnosti, alebo najnižšiu hladinu významnosti na ktorej môžeme zamietnuť H0. Damodar Gujarati Econometrics by Example

Výstup

Koeficient determinácie, R2 Koeficient determinácie je všeobecnou mierou presnosti modelu. Percentuálny podiel celkovej variability závislej premennej ktorá je vysvetlená nezávislými premennými. Nadobúda hodnoty medzi 0 a 1 <0% , 100%>. Nech: Potom: Damodar Gujarati Econometrics by Example

Testovanie hypotéz: F TEST Testovanie nasledujúcich hypotéz je ekvivalentné testovaniu hypotéz že sú všetky regresné koeficienty rovné 0: H0: R2 = 0 H1: R2 ≠ 0 Vypočítame nasledujúcí vzťah a použijeme tabuľky F rozdelenia pre získanie kritickej F hodnoty s k-1 stupňami voľnosti v čitateli a n-k stupňami voľnosti v menovateli pre danú hladinu významnosti: Pokiaľ je vypočítaná hodnota vyššia ako F kritické zamietame, H0. Damodar Gujarati Econometrics by Example

Funkčné formy regresných modelov

LOG-LINEÁRNY, LOG-LOG, ALEBO MODEL S KONŠTANTNOU ELASTICITOU Cobb-Douglasova produkčná funkcia: môže byť transformovaná na lineárny tvar po zlogarigmovaní oboch strán: Regresné koeficienty môžu byť interpretované ako elasticity. Ak (B2 + B3) = 1, konštantné výnosy z rozsahu. Ak (B2 + B3) > 1, rastúce výnosy z rozsahu. Ak (B2 + B3) < 1, klesajúce výnosy z rozsahu. Damodar Gujarati Econometrics by Example

LOG-LIN alebo rastový model Miera rastu reálneho GDP: môže byť transformovaný na lineárny po zlogaritmovaní oboch strán: Pokiaľ B1 = ln RGDP1960 a B2 = ln (l+r), môžeme to prepísať nasledovne: ln RGDPt = B1 +B2 t B2 je semi-elasticita, alebo aj okamžitá miera rastu. Zložená miera rastu (r) je rovná (eB2 – 1). Damodar Gujarati Econometrics by Example

LIN-LOG MODEL Lin-log má všeobecnú formu: Všimnite si že B2 je absolútnou zmenou vY zodpovedajúcou percentuálnej (alebo relatívnej) zmene v X Ak X vzrastie o 100%, predikované Y vzrastie o B2 jednotiek Používané pri odhade Engelovej výdajovej funkcie: “Celkové výdavky vynaložené na potraviny rastú aritmetickou mierou zatial čo celkové výdavky rastú geometrickou mierou.” Damodar Gujarati Econometrics by Example

Reciproký regresný model (hyperbola) Všeobecná forma modelu: Všimnite si že: Ak X vzrastie nekonečne, člen dosiahne nulu a Y dosiahne limitnú teda asymptotickú hodnotu B1. Sklon sa vypočíta: Platí teda, ak B2 je pozitívne, sklon je negatívny, a pokiaľ B2 je negatívne, sklon je pozitívny. Damodar Gujarati Econometrics by Example

POLYNOMICKÉ REGRESNÉ MODELY Nasledujúci príklad modelu predikujúceho HDP je príklad kvadratickej funkcie, alebo vo všeobecnosti, polynóm druhého stupňa vysvetlujúcej premennej čas: Sklon je nelineárny: Damodar Gujarati Econometrics by Example

Zhrnutie funkčných foriem Damodar Gujarati Econometrics by Example

Štandardizované premenné Problému s premennými meranými v rozdielnych jednotkách môžeme predísť ich vyjadrením v štandardizovanom tvare: kde SY a SX sú výberové štandardné odchýlky a sú výberové priemery Y a X Stredná hodnota štandardizovanej premennej je vždy nulová a jej štandardná odchýlka je vždy 1. Damodar Gujarati Econometrics by Example

Miery kvality modelu R2: Meria podiel variability závisle premennej ktorá je vysvetlená nezávisle premennými, resp. modelom. Korigovaný R2: označuje sa ako , zohľadňuje počet vysvetľujúcich premenných v modeli: Akaikeho informačné kritérium (AIC): Tvrdšie penalizuje pridanie ďalších premenných do modelu: Zvyčajne je vybratý model s najnižšou hodnotou AIC. Schwarzove informačné kritérium (SIC): Alternatíva k AIC kritériu vyjadrená ako: Penalizačný faktor je prísnejší ako pri AIC. Damodar Gujarati Econometrics by Example

Modely s kvalitatívnymi vysvetľujúcimi premennými

Kvalitatívne premenné Kvalitatívne premenné môžmeme „kvantifikovať“ vytvorením takzvaných umelých premenných, ktoré nadobúdajú hodnoty 0 a 1 0 indikuje absenciu sledovaného atribútu 1 indikuje prítomnosť sledovaného atribútu Napríklad premenná rozlišujúca pohlavie môže byť kvantifikovaná ako žena=1 a muž=0 alebo opačne. Umelé premenné sú často nazývané aj kategorickými premennými alebo kvalitatívnymi premennými. Príklady: pohlavie, náboženstvo, národnosť, geografický región, politická príslušnosť

Pasca umelých premenných (dummy variable trap) Pokiaľ model obsahuje lokujúcu konštantu a kvalitatívna premenná má m kategórii, potom do modelu zavádzame len (m-1) umelých premenných. Napr. pohlavie má len dve kategórie takže do modelu zavedieme len jednu umelú premennú. Je tomu tak pretože umelá premenná pri ženách nadobúda hodnotu 1 a pri mužoch 0 Pokiaľ by sme skúmali napr. politickú príslušnosť v USA medzi Demokratmi, Republikánmi a nezávislými stranami zaviedli by sme do modelu dve umelé premenné ktoré by reprezentovali príslušnosť k trom stranám Pokiaľ toto pravidlo nieje dodržané, dôjde k tomu čo sa niekedy nazýva aj ako pasca umelých premenných (dummy variable trap)-situácia dokonalej závislosti medzi vysvetlujúcimi premennými

Referenčná kategória Kategória pri ktorej premenná nadobúda hodnotu 0 je často označovaná ako referenčná kategória. Všetky porovnania sú robené vo vzťahu k referenčnej kategórii. Pokiaľ je v modeli viac umelých premenných venujte zvýšenú pozornosť sledovaniu referenčnej kategórie, inak bude obtiažne interpretovať výsledky.

Čo si treba pamätať o umelých premenných Pokiaľ je v regresnom modeli zahrnutá lokujúca konštanta, počet umelých premenných musí byť o jedno menej ako počet obmien kvalitatívnej premennej. Pokiaľ je model odhadnutý bez lokujúcej konštanty, je možné do neho zahrnúť taký počet umelých premenných aký je počet kategórií kvalitatívnej premennej. Koeficient pri umelej premennej je vždy interpretovaný vo vzťahu k referenčnej kategóri. Umelá premenná môže byť v interakcii s kvantitatívnymi vysvetľujúcimi premennými rovnako tak ako aj s kvalitatívnymi vysvetľujúcimi premennými. Pokiaľ model obsahuje niekoľko kvalitatívnych premenných s rôznymi kategóriami, zavedenie premenných pre všetky kombinácie spotrebuje veľký počet stupňov voľnosti-

Interpretácia umelých premenných Koeficient pri umelej premennej znamená rozdiel v lokujúcich konštantách medzi kategóriou pri ktorej sa umelá premenná rovná 1 a referenčnou kategóriou Lokujúca konštanta z modelu s umelými premennými je konštantou kategórie ktorá je označená ako 0.

Interpretácia umelých premenných Ak: Yi = B1 + B2 Fi kde Y = mzda a F = umelá premenná rozlišujúca pohlavie potom, v priemere, ženy zarábajú mzdu (B1 + B2) a zarábajú mzdu B1. (všimnite si že B2 môže byť negatívne) Takže ženy zarábajú o B2 viac ako muži.

Neviem štatistiku ale vôbec to nevadí, pretože aj tak nemám žiadne údaje.

Použitie umelých premenných pri sezónnych dátach Proces odstránenia sezónnej zložky z časového radu výsledný časový rad je očistený o sezónnosť Uvažujme nasledujúci model predikujúci tržby z predaja oblečenia: Kde D2 =1 pre druhý kvartál, D3 =1 pre tretí kvartál, D4= 1 pre 4th kvartál Sales = reálne tržby na tisíc štvorcových stôp priestoru predajne.