Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
1
Skúmanie závislostí
2
Skúmanie závislostí medzi kvantitatívnymi premennými
Korelačná analýza -Súbor metód pre meranie závislostí medzi premennými Grafické vyšetrenie korelácie pomocou grafu závislostí (xy scatter plot) Vyjadrenie závislostí pomocou korelačných koeficientov Vyjadrenie vzájomného vzťahu premenných pomocou kovariancii
3
Kovariancia Vyjadruje ako sa súčasne menia hodnoty dvoch premenných
Kladná hodnota znamená že sa menia rovnakým smerom, záporná hodnota znamená že sa menia opačným smerom, nula že sa menia nezávisle Vyjadrenie vzájomných vzťahov viacerých premenných pomocou kovariačnej matice
4
Korelačný koeficent Meria silu závislosti medzi premennými
Môže nadobúdať hodnoty z intervalu <-1,1> -1 silná negatívna korelácia 1 silná pozitívna korelácia 0 premenné sú nezávislé (žiadna korelácia) Vyjdrenie vzájomných vzťahov medzi viacerými premennými-korelačná matica Pearsonov korelačný koeficient – najčastejšie používaný) štandardizovaná kovariancia (kovariancia podelená súčinom štandardných odchýlok)
6
Pearsonov korelačný koeficient
Najčastejšie používaný Používa sa ak sú premenné merané prinajmenšom na intervalovej škále Nezávisí od mierky v ktorej boli premenné merané Meria lineárnu závislost (víde najvyšší ak sa dajú namerané hodnoty preložiť priamkou)
7
doc.Ing. Zlata Sojková,CSc.
8
Ďalšie často používané korelačné koeficienty
Spearmanov -Vypočítaný podobne ako Pearsonov ale pomocou poradí Menej senzitívny niekedy neprodukuje žiadny výsledok Dokáže zachytiť aj nelineárne vzťahy Kendallov – meria závislosť medzi dvomi poradovými premennými Z interpretačného hľadiska lepší ako Spearmanov Oba uvedené koeficienty sú neparametrické
9
doc.Ing. Zlata Sojková,CSc.
10
Závislosť-kvalitatívne znaky
Podkladom sú asociačné, resp. kontingenčné tabuľky, pre súhrnné testovanie existencie štatisticky významného vzťahu medzi kvalitatívnymi znakmi sa používa 2 - štvorcová kontingencia Ho: dva znaky A a B sú nezávislé (teoretické početnosti sa rovnajú empirickým) H1: znaky A a B závisia (štatisticky významný rozdiel medzi teoretickými a empirickými početnosťami) A znak má m - úrovní, obmien B znak má k - úrovní , obmien
11
Formulovanie hypotéz Závislosť znakov sa prejaví v rozdielnych početnostiach napr. Skúmame či veľkosť balenia určitého výrobku je ovplyvnená početnosťou rodiny Ho : výber veľkosti balenia výrobku nezávisí od počtu členov v rodine H1 : výber veľkosti balenia je ovplyvnená počtom členov v rodine test spočíva v porovnávaní empirických početností a teoretických, t,j, takých aké by mali empirické početnosti byť keby boli znaky A a B nezávislé
12
Výpočet testovacieho kritéria a rozhodnutie:
Ak testovacia štatistika 2 2 pre hladinu významnosti pre stupne voľnosti (m-1).(k-1) Ho zamietame, t.zn. znaky A a B sú závislé Rovnaký výsledok platí ak p-hodnota je nižšia ako alfa.
13
Predpoklady použitia chi-kvadrát testu štvorcovej kontingencie
Použitie chi-kvadrát testu štvorcovej kontingencie môže byť problematické ak sa v kontingenčnej tabulke vyskytujú početnosti nižšie ako 5 Výskyt takto nízkych početností môže má za následok vysokú hodnotu testovacej štatistiky Pokiaľ je má tabulka rozmer 2x2 v každej bunke by mala byť početnosť vyššia ako 5 Pri tabuľkách s vyšším rozmerom môže byť tento test použitý pokiaľ má aspon 20% buniek početnosti vyššiu ako 5 doc.Ing. Zlata Sojková,CSc.
14
Kontingenčný koeficient
Počítame ho podľa vzorca Jeho hodnota sa pohybuje v intervale 0 až 1 Hodnota 0 indikuje nulovú asociáciu, t.j. premenné nie sú závislé, avšak maximálna hodnota sa nedosiahne nikdy Hodnota koeficientu závisí od veľkosti tabuľky (počte riadkov a počte stĺpcov) Mal by byť použitý iba na porovnávanie tabuliek rovnakej veľkosti
15
Cramerov kontingenčný koeficient V
Je modifikovanou verziou korelačného koeficienta a používa sa v tabuľkách väčších ako 2x2 Nadobúda hodnoty z intervalu 0 až 1 Vysoká hodnota indikuje vysokú mieru asociácie, nevyjadruje však ako sú premenné asociované Pre tabuľku s m riadkami a k stĺpcami je koeficient V vyjadrený nasledovne
16
Lineárny regresný model
17
Pri regresenej a korelačnej analýze pôjde
skúmanie príčinnej - kauzálnej závislosti,skúmanie vzťahov medzi príčinou a účinkom kedy jeden resp viac javov (znakov, nezávisle prememnných veličín ) vyvoláva účinok - výsledný jav - závisle prememnnú veličinu Y = f (X1 X2…... Xk ,Bo , B1 ,….Bp ) +e Nezávislé premenné veličiny - príčiny Neznáme parametre funkčného vzťahu Náhodné, Nešpecifikované vplyvy Závislé premenná - účinok
19
Lineárny regresný model
Všeobecná forma viacnásobného regresného modelu: Yi = B1 + B2X2i + B3X3i + … + BkXki + ui Skrátená forma: Yi = BX + ui Y vysvetlovaná premenná (regressand), X je vektor vysvetlujúcich premenných (regressorov), and u je náhodná chyba (reziduá). Damodar Gujarati Econometrics by Example
20
Regresné koeficienty B1 je lokujúca konštanta - vyjadruje očakávanú úroveň závislé premennej pri nulovej hodnote nezávisle premennej B2 až Bk sú regresné koeficienty (smernice) Každý regresný koeficient meria (parciálnu) mieru zmeny v priemernej hodnote Y pri jednotkovej zmene v hodnote vysvetlujúcej premennej, ceteris paribus. Damodar Gujarati Econometrics by Example
21
Typy údajov Časové rady
Súbor pozorovaní ktoré nadobúda premenná v rôznych časových obdobiach ako napríklad denné (napr. ceny akcií), Týždenné (napr. ponuka peňazí), mesačné (napr. miera nezamestnanosti), kvartálne čiže štvrťročné (napr. HDP), ročné (napr. štátny rozpočet), päťročné (napr. sčítanie výrobcov), alebo desaťročné (napr. sčítanie obyvateľov). Damodar Gujarati Econometrics by Example
22
Typy údajov Prierezové údaje
Údaje o jednej alebo viacerých premenných získané v jednom bode v čase. Príkladom sú napríklad sčítanie obyvateľov vykonávané štatistickým úradom, rôzne prieskumy preferencií, či namerané teploty v danom čase na rôznych miestach. Damodar Gujarati Econometrics by Example
23
Typy údajov Panelové, longitudálne alebo mikropanelové údaje
Kombinujú prvky oboch predchádzajúcich, tak časových radov ako aj prierezových údajov Rovnaké prierezové jednotky sú sledované v čase Damodar Gujarati Econometrics by Example
24
Metóda najmenších štvorcov
Metóda najmenších štvorcov (MNŠ) neminimalizuje sumu odchýlok, ale minimalizuje sumu štvorcov odchýlok: Pre získanie regresných koeficientov sú parciálne derivácie podla jednotlivých regresných koeficientov dané do rovnosti s nulou.
25
Klasický lineárny regresný model
Predpoklady klasického lineárneho regresného modelu (CLRM): A-1: Model je lineárny v parametroch. A-2: Vysvetľujúce premenné sú nestochastické a konštantné v opakovaných výberoch. A-3: Pre dané X, stredná hodnota reziduí je 0, alebo E(ui |X) = 0. Damodar Gujarati Econometrics by Example
26
Klasický lineárny regresný model
Predpoklady klasického lineárneho regresného modelu: A-4: Homoskedastický, alebo konštantný rozptyl ui, zapísané ako var(ui|X) = σ2. A-5: Žiadna autokorelácia rezíduí, alebo cov(ui,uj|X) = 0, i ≠ j. A-6: Žiadna multikolinearita, teda žiadna perfektná lineárna závislosť medzi vysvetľujúcimi premennými. A-7: Žiadne chyby špecifikácie. Damodar Gujarati Econometrics by Example
27
GAUSS-MARKOV TEORÉM Na základe predpokladov A-1 až A-7, dáva MNŠ najlepšie lineárne nevychýlené odhady ak: (1) Estimátory sú lineárnou funkciou závisle premennej Y. (2) Estimátory sú nevychýlené; pri opakovanom použití metódy dosahujú odhady svoje skutočné hodnoty. (3) V kategórii lineárnych odhadov, estimátory majú estimátory získané metódou najmenších štvorcov minimálny rozptyl; teda sú efektívnymi alebo aj „najlepšími“ odhadmi. Damodar Gujarati Econometrics by Example
28
Testovanie hypotéz: t TEST
Testujeme nasledujúce hypotézy: H0: Bk = 0 H1: Bk ≠ 0 vypočítame testovaciu štatistiku podľa nasledujúceho vzorca a použijeme tabuľky studentovho rozdelenia aby sme získali t kritické s n-k stupňami voľnosti pre danú hladinu významnosti (alebo α, rovné 10%, 5%, alebo 1%): Pokiaľ je táto hodnota vačšia ako t kritické, zamietneme H0. Damodar Gujarati Econometrics by Example
29
Testovanie hypotéz: t TEST
Alternatívnou metódou je určiť, či sa v intervale spolahlivosti nachádza 0: Pokiaľ nula leží v intervale spoľahlivosti nemôžeme zamietnuť H0. p-value označuje presnú hladinu významnosti, alebo najnižšiu hladinu významnosti na ktorej môžeme zamietnuť H0. Damodar Gujarati Econometrics by Example
30
Výstup
31
Koeficient determinácie, R2
Koeficient determinácie je všeobecnou mierou presnosti modelu. Percentuálny podiel celkovej variability závislej premennej ktorá je vysvetlená nezávislými premennými. Nadobúda hodnoty medzi 0 a 1 <0% , 100%>. Nech: Potom: Damodar Gujarati Econometrics by Example
32
Testovanie hypotéz: F TEST
Testovanie nasledujúcich hypotéz je ekvivalentné testovaniu hypotéz že sú všetky regresné koeficienty rovné 0: H0: R2 = 0 H1: R2 ≠ 0 Vypočítame nasledujúcí vzťah a použijeme tabuľky F rozdelenia pre získanie kritickej F hodnoty s k-1 stupňami voľnosti v čitateli a n-k stupňami voľnosti v menovateli pre danú hladinu významnosti: Pokiaľ je vypočítaná hodnota vyššia ako F kritické zamietame, H0. Damodar Gujarati Econometrics by Example
34
Funkčné formy regresných modelov
35
LOG-LINEÁRNY, LOG-LOG, ALEBO MODEL S KONŠTANTNOU ELASTICITOU
Cobb-Douglasova produkčná funkcia: môže byť transformovaná na lineárny tvar po zlogarigmovaní oboch strán: Regresné koeficienty môžu byť interpretované ako elasticity. Ak (B2 + B3) = 1, konštantné výnosy z rozsahu. Ak (B2 + B3) > 1, rastúce výnosy z rozsahu. Ak (B2 + B3) < 1, klesajúce výnosy z rozsahu. Damodar Gujarati Econometrics by Example
36
LOG-LIN alebo rastový model
Miera rastu reálneho GDP: môže byť transformovaný na lineárny po zlogaritmovaní oboch strán: Pokiaľ B1 = ln RGDP1960 a B2 = ln (l+r), môžeme to prepísať nasledovne: ln RGDPt = B1 +B2 t B2 je semi-elasticita, alebo aj okamžitá miera rastu. Zložená miera rastu (r) je rovná (eB2 – 1). Damodar Gujarati Econometrics by Example
37
LIN-LOG MODEL Lin-log má všeobecnú formu:
Všimnite si že B2 je absolútnou zmenou vY zodpovedajúcou percentuálnej (alebo relatívnej) zmene v X Ak X vzrastie o 100%, predikované Y vzrastie o B2 jednotiek Používané pri odhade Engelovej výdajovej funkcie: “Celkové výdavky vynaložené na potraviny rastú aritmetickou mierou zatial čo celkové výdavky rastú geometrickou mierou.” Damodar Gujarati Econometrics by Example
38
Reciproký regresný model (hyperbola)
Všeobecná forma modelu: Všimnite si že: Ak X vzrastie nekonečne, člen dosiahne nulu a Y dosiahne limitnú teda asymptotickú hodnotu B1. Sklon sa vypočíta: Platí teda, ak B2 je pozitívne, sklon je negatívny, a pokiaľ B2 je negatívne, sklon je pozitívny. Damodar Gujarati Econometrics by Example
39
POLYNOMICKÉ REGRESNÉ MODELY
Nasledujúci príklad modelu predikujúceho HDP je príklad kvadratickej funkcie, alebo vo všeobecnosti, polynóm druhého stupňa vysvetlujúcej premennej čas: Sklon je nelineárny: Damodar Gujarati Econometrics by Example
40
Zhrnutie funkčných foriem
Damodar Gujarati Econometrics by Example
41
Štandardizované premenné
Problému s premennými meranými v rozdielnych jednotkách môžeme predísť ich vyjadrením v štandardizovanom tvare: kde SY a SX sú výberové štandardné odchýlky a sú výberové priemery Y a X Stredná hodnota štandardizovanej premennej je vždy nulová a jej štandardná odchýlka je vždy 1. Damodar Gujarati Econometrics by Example
42
Miery kvality modelu R2: Meria podiel variability závisle premennej ktorá je vysvetlená nezávisle premennými, resp. modelom. Korigovaný R2: označuje sa ako , zohľadňuje počet vysvetľujúcich premenných v modeli: Akaikeho informačné kritérium (AIC): Tvrdšie penalizuje pridanie ďalších premenných do modelu: Zvyčajne je vybratý model s najnižšou hodnotou AIC. Schwarzove informačné kritérium (SIC): Alternatíva k AIC kritériu vyjadrená ako: Penalizačný faktor je prísnejší ako pri AIC. Damodar Gujarati Econometrics by Example
43
Modely s kvalitatívnymi vysvetľujúcimi premennými
44
Kvalitatívne premenné
Kvalitatívne premenné môžmeme „kvantifikovať“ vytvorením takzvaných umelých premenných, ktoré nadobúdajú hodnoty 0 a 1 0 indikuje absenciu sledovaného atribútu 1 indikuje prítomnosť sledovaného atribútu Napríklad premenná rozlišujúca pohlavie môže byť kvantifikovaná ako žena=1 a muž=0 alebo opačne. Umelé premenné sú často nazývané aj kategorickými premennými alebo kvalitatívnymi premennými. Príklady: pohlavie, náboženstvo, národnosť, geografický región, politická príslušnosť
45
Pasca umelých premenných (dummy variable trap)
Pokiaľ model obsahuje lokujúcu konštantu a kvalitatívna premenná má m kategórii, potom do modelu zavádzame len (m-1) umelých premenných. Napr. pohlavie má len dve kategórie takže do modelu zavedieme len jednu umelú premennú. Je tomu tak pretože umelá premenná pri ženách nadobúda hodnotu 1 a pri mužoch 0 Pokiaľ by sme skúmali napr. politickú príslušnosť v USA medzi Demokratmi, Republikánmi a nezávislými stranami zaviedli by sme do modelu dve umelé premenné ktoré by reprezentovali príslušnosť k trom stranám Pokiaľ toto pravidlo nieje dodržané, dôjde k tomu čo sa niekedy nazýva aj ako pasca umelých premenných (dummy variable trap)-situácia dokonalej závislosti medzi vysvetlujúcimi premennými
46
Referenčná kategória Kategória pri ktorej premenná nadobúda hodnotu 0 je často označovaná ako referenčná kategória. Všetky porovnania sú robené vo vzťahu k referenčnej kategórii. Pokiaľ je v modeli viac umelých premenných venujte zvýšenú pozornosť sledovaniu referenčnej kategórie, inak bude obtiažne interpretovať výsledky.
47
Čo si treba pamätať o umelých premenných
Pokiaľ je v regresnom modeli zahrnutá lokujúca konštanta, počet umelých premenných musí byť o jedno menej ako počet obmien kvalitatívnej premennej. Pokiaľ je model odhadnutý bez lokujúcej konštanty, je možné do neho zahrnúť taký počet umelých premenných aký je počet kategórií kvalitatívnej premennej. Koeficient pri umelej premennej je vždy interpretovaný vo vzťahu k referenčnej kategóri. Umelá premenná môže byť v interakcii s kvantitatívnymi vysvetľujúcimi premennými rovnako tak ako aj s kvalitatívnymi vysvetľujúcimi premennými. Pokiaľ model obsahuje niekoľko kvalitatívnych premenných s rôznymi kategóriami, zavedenie premenných pre všetky kombinácie spotrebuje veľký počet stupňov voľnosti-
48
Interpretácia umelých premenných
Koeficient pri umelej premennej znamená rozdiel v lokujúcich konštantách medzi kategóriou pri ktorej sa umelá premenná rovná 1 a referenčnou kategóriou Lokujúca konštanta z modelu s umelými premennými je konštantou kategórie ktorá je označená ako 0.
49
Interpretácia umelých premenných
Ak: Yi = B1 + B2 Fi kde Y = mzda a F = umelá premenná rozlišujúca pohlavie potom, v priemere, ženy zarábajú mzdu (B1 + B2) a zarábajú mzdu B1. (všimnite si že B2 môže byť negatívne) Takže ženy zarábajú o B2 viac ako muži.
50
Neviem štatistiku ale vôbec to nevadí, pretože aj tak nemám žiadne údaje.
51
Použitie umelých premenných pri sezónnych dátach
Proces odstránenia sezónnej zložky z časového radu výsledný časový rad je očistený o sezónnosť Uvažujme nasledujúci model predikujúci tržby z predaja oblečenia: Kde D2 =1 pre druhý kvartál, D3 =1 pre tretí kvartál, D4= 1 pre 4th kvartál Sales = reálne tržby na tisíc štvorcových stôp priestoru predajne.
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.