Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Skúmanie závislostí.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Skúmanie závislostí."— Μεταγράφημα παρουσίασης:

1 Skúmanie závislostí

2 Skúmanie závislostí medzi kvantitatívnymi premennými
Korelačná analýza -Súbor metód pre meranie závislostí medzi premennými Grafické vyšetrenie korelácie pomocou grafu závislostí (xy scatter plot) Vyjadrenie závislostí pomocou korelačných koeficientov Vyjadrenie vzájomného vzťahu premenných pomocou kovariancii

3 Kovariancia Vyjadruje ako sa súčasne menia hodnoty dvoch premenných
Kladná hodnota znamená že sa menia rovnakým smerom, záporná hodnota znamená že sa menia opačným smerom, nula že sa menia nezávisle Vyjadrenie vzájomných vzťahov viacerých premenných pomocou kovariačnej matice

4 Korelačný koeficent Meria silu závislosti medzi premennými
Môže nadobúdať hodnoty z intervalu <-1,1> -1 silná negatívna korelácia 1 silná pozitívna korelácia 0 premenné sú nezávislé (žiadna korelácia) Vyjdrenie vzájomných vzťahov medzi viacerými premennými-korelačná matica Pearsonov korelačný koeficient – najčastejšie používaný) štandardizovaná kovariancia (kovariancia podelená súčinom štandardných odchýlok)

5

6 Pearsonov korelačný koeficient
Najčastejšie používaný Používa sa ak sú premenné merané prinajmenšom na intervalovej škále Nezávisí od mierky v ktorej boli premenné merané Meria lineárnu závislost (víde najvyšší ak sa dajú namerané hodnoty preložiť priamkou)

7 doc.Ing. Zlata Sojková,CSc.

8 Ďalšie často používané korelačné koeficienty
Spearmanov -Vypočítaný podobne ako Pearsonov ale pomocou poradí Menej senzitívny niekedy neprodukuje žiadny výsledok Dokáže zachytiť aj nelineárne vzťahy Kendallov – meria závislosť medzi dvomi poradovými premennými Z interpretačného hľadiska lepší ako Spearmanov Oba uvedené koeficienty sú neparametrické

9 doc.Ing. Zlata Sojková,CSc.

10 Závislosť-kvalitatívne znaky
Podkladom sú asociačné, resp. kontingenčné tabuľky, pre súhrnné testovanie existencie štatisticky významného vzťahu medzi kvalitatívnymi znakmi sa používa 2 - štvorcová kontingencia Ho: dva znaky A a B sú nezávislé (teoretické početnosti sa rovnajú empirickým) H1: znaky A a B závisia (štatisticky významný rozdiel medzi teoretickými a empirickými početnosťami) A znak má m - úrovní, obmien B znak má k - úrovní , obmien

11 Formulovanie hypotéz Závislosť znakov sa prejaví v rozdielnych početnostiach napr. Skúmame či veľkosť balenia určitého výrobku je ovplyvnená početnosťou rodiny Ho : výber veľkosti balenia výrobku nezávisí od počtu členov v rodine H1 : výber veľkosti balenia je ovplyvnená počtom členov v rodine test spočíva v porovnávaní empirických početností a teoretických, t,j, takých aké by mali empirické početnosti byť keby boli znaky A a B nezávislé

12 Výpočet testovacieho kritéria a rozhodnutie:
Ak testovacia štatistika 2  2 pre hladinu významnosti  pre stupne voľnosti (m-1).(k-1) Ho zamietame, t.zn. znaky A a B sú závislé Rovnaký výsledok platí ak p-hodnota je nižšia ako alfa.

13 Predpoklady použitia chi-kvadrát testu štvorcovej kontingencie
Použitie chi-kvadrát testu štvorcovej kontingencie môže byť problematické ak sa v kontingenčnej tabulke vyskytujú početnosti nižšie ako 5 Výskyt takto nízkych početností môže má za následok vysokú hodnotu testovacej štatistiky Pokiaľ je má tabulka rozmer 2x2 v každej bunke by mala byť početnosť vyššia ako 5 Pri tabuľkách s vyšším rozmerom môže byť tento test použitý pokiaľ má aspon 20% buniek početnosti vyššiu ako 5 doc.Ing. Zlata Sojková,CSc.

14 Kontingenčný koeficient
Počítame ho podľa vzorca Jeho hodnota sa pohybuje v intervale 0 až 1 Hodnota 0 indikuje nulovú asociáciu, t.j. premenné nie sú závislé, avšak maximálna hodnota sa nedosiahne nikdy Hodnota koeficientu závisí od veľkosti tabuľky (počte riadkov a počte stĺpcov) Mal by byť použitý iba na porovnávanie tabuliek rovnakej veľkosti

15 Cramerov kontingenčný koeficient V
Je modifikovanou verziou korelačného koeficienta a používa sa v tabuľkách väčších ako 2x2 Nadobúda hodnoty z intervalu 0 až 1 Vysoká hodnota indikuje vysokú mieru asociácie, nevyjadruje však ako sú premenné asociované Pre tabuľku s m riadkami a k stĺpcami je koeficient V vyjadrený nasledovne

16 Lineárny regresný model

17 Pri regresenej a korelačnej analýze pôjde
skúmanie príčinnej - kauzálnej závislosti,skúmanie vzťahov medzi príčinou a účinkom kedy jeden resp viac javov (znakov, nezávisle prememnných veličín ) vyvoláva účinok - výsledný jav - závisle prememnnú veličinu Y = f (X1 X2…... Xk ,Bo , B1 ,….Bp ) +e Nezávislé premenné veličiny - príčiny Neznáme parametre funkčného vzťahu Náhodné, Nešpecifikované vplyvy Závislé premenná - účinok

18

19 Lineárny regresný model
Všeobecná forma viacnásobného regresného modelu: Yi = B1 + B2X2i + B3X3i + … + BkXki + ui Skrátená forma: Yi = BX + ui Y vysvetlovaná premenná (regressand), X je vektor vysvetlujúcich premenných (regressorov), and u je náhodná chyba (reziduá). Damodar Gujarati Econometrics by Example

20 Regresné koeficienty B1 je lokujúca konštanta - vyjadruje očakávanú úroveň závislé premennej pri nulovej hodnote nezávisle premennej B2 až Bk sú regresné koeficienty (smernice) Každý regresný koeficient meria (parciálnu) mieru zmeny v priemernej hodnote Y pri jednotkovej zmene v hodnote vysvetlujúcej premennej, ceteris paribus. Damodar Gujarati Econometrics by Example

21 Typy údajov Časové rady
Súbor pozorovaní ktoré nadobúda premenná v rôznych časových obdobiach ako napríklad denné (napr. ceny akcií), Týždenné (napr. ponuka peňazí), mesačné (napr. miera nezamestnanosti), kvartálne čiže štvrťročné (napr. HDP), ročné (napr. štátny rozpočet), päťročné (napr. sčítanie výrobcov), alebo desaťročné (napr. sčítanie obyvateľov). Damodar Gujarati Econometrics by Example

22 Typy údajov Prierezové údaje
Údaje o jednej alebo viacerých premenných získané v jednom bode v čase. Príkladom sú napríklad sčítanie obyvateľov vykonávané štatistickým úradom, rôzne prieskumy preferencií, či namerané teploty v danom čase na rôznych miestach. Damodar Gujarati Econometrics by Example

23 Typy údajov Panelové, longitudálne alebo mikropanelové údaje
Kombinujú prvky oboch predchádzajúcich, tak časových radov ako aj prierezových údajov Rovnaké prierezové jednotky sú sledované v čase Damodar Gujarati Econometrics by Example

24 Metóda najmenších štvorcov
Metóda najmenších štvorcov (MNŠ) neminimalizuje sumu odchýlok, ale minimalizuje sumu štvorcov odchýlok: Pre získanie regresných koeficientov sú parciálne derivácie podla jednotlivých regresných koeficientov dané do rovnosti s nulou.

25 Klasický lineárny regresný model
Predpoklady klasického lineárneho regresného modelu (CLRM): A-1: Model je lineárny v parametroch. A-2: Vysvetľujúce premenné sú nestochastické a konštantné v opakovaných výberoch. A-3: Pre dané X, stredná hodnota reziduí je 0, alebo E(ui |X) = 0. Damodar Gujarati Econometrics by Example

26 Klasický lineárny regresný model
Predpoklady klasického lineárneho regresného modelu: A-4: Homoskedastický, alebo konštantný rozptyl ui, zapísané ako var(ui|X) = σ2. A-5: Žiadna autokorelácia rezíduí, alebo cov(ui,uj|X) = 0, i ≠ j. A-6: Žiadna multikolinearita, teda žiadna perfektná lineárna závislosť medzi vysvetľujúcimi premennými. A-7: Žiadne chyby špecifikácie. Damodar Gujarati Econometrics by Example

27 GAUSS-MARKOV TEORÉM Na základe predpokladov A-1 až A-7, dáva MNŠ najlepšie lineárne nevychýlené odhady ak: (1) Estimátory sú lineárnou funkciou závisle premennej Y. (2) Estimátory sú nevychýlené; pri opakovanom použití metódy dosahujú odhady svoje skutočné hodnoty. (3) V kategórii lineárnych odhadov, estimátory majú estimátory získané metódou najmenších štvorcov minimálny rozptyl; teda sú efektívnymi alebo aj „najlepšími“ odhadmi. Damodar Gujarati Econometrics by Example

28 Testovanie hypotéz: t TEST
Testujeme nasledujúce hypotézy: H0: Bk = 0 H1: Bk ≠ 0 vypočítame testovaciu štatistiku podľa nasledujúceho vzorca a použijeme tabuľky studentovho rozdelenia aby sme získali t kritické s n-k stupňami voľnosti pre danú hladinu významnosti (alebo α, rovné 10%, 5%, alebo 1%): Pokiaľ je táto hodnota vačšia ako t kritické, zamietneme H0. Damodar Gujarati Econometrics by Example

29 Testovanie hypotéz: t TEST
Alternatívnou metódou je určiť, či sa v intervale spolahlivosti nachádza 0: Pokiaľ nula leží v intervale spoľahlivosti nemôžeme zamietnuť H0. p-value označuje presnú hladinu významnosti, alebo najnižšiu hladinu významnosti na ktorej môžeme zamietnuť H0. Damodar Gujarati Econometrics by Example

30 Výstup

31 Koeficient determinácie, R2
Koeficient determinácie je všeobecnou mierou presnosti modelu. Percentuálny podiel celkovej variability závislej premennej ktorá je vysvetlená nezávislými premennými. Nadobúda hodnoty medzi 0 a 1 <0% , 100%>. Nech: Potom: Damodar Gujarati Econometrics by Example

32 Testovanie hypotéz: F TEST
Testovanie nasledujúcich hypotéz je ekvivalentné testovaniu hypotéz že sú všetky regresné koeficienty rovné 0: H0: R2 = 0 H1: R2 ≠ 0 Vypočítame nasledujúcí vzťah a použijeme tabuľky F rozdelenia pre získanie kritickej F hodnoty s k-1 stupňami voľnosti v čitateli a n-k stupňami voľnosti v menovateli pre danú hladinu významnosti: Pokiaľ je vypočítaná hodnota vyššia ako F kritické zamietame, H0. Damodar Gujarati Econometrics by Example

33

34 Funkčné formy regresných modelov

35 LOG-LINEÁRNY, LOG-LOG, ALEBO MODEL S KONŠTANTNOU ELASTICITOU
Cobb-Douglasova produkčná funkcia: môže byť transformovaná na lineárny tvar po zlogarigmovaní oboch strán: Regresné koeficienty môžu byť interpretované ako elasticity. Ak (B2 + B3) = 1, konštantné výnosy z rozsahu. Ak (B2 + B3) > 1, rastúce výnosy z rozsahu. Ak (B2 + B3) < 1, klesajúce výnosy z rozsahu. Damodar Gujarati Econometrics by Example

36 LOG-LIN alebo rastový model
Miera rastu reálneho GDP: môže byť transformovaný na lineárny po zlogaritmovaní oboch strán: Pokiaľ B1 = ln RGDP1960 a B2 = ln (l+r), môžeme to prepísať nasledovne: ln RGDPt = B1 +B2 t B2 je semi-elasticita, alebo aj okamžitá miera rastu. Zložená miera rastu (r) je rovná (eB2 – 1). Damodar Gujarati Econometrics by Example

37 LIN-LOG MODEL Lin-log má všeobecnú formu:
Všimnite si že B2 je absolútnou zmenou vY zodpovedajúcou percentuálnej (alebo relatívnej) zmene v X Ak X vzrastie o 100%, predikované Y vzrastie o B2 jednotiek Používané pri odhade Engelovej výdajovej funkcie: “Celkové výdavky vynaložené na potraviny rastú aritmetickou mierou zatial čo celkové výdavky rastú geometrickou mierou.” Damodar Gujarati Econometrics by Example

38 Reciproký regresný model (hyperbola)
Všeobecná forma modelu: Všimnite si že: Ak X vzrastie nekonečne, člen dosiahne nulu a Y dosiahne limitnú teda asymptotickú hodnotu B1. Sklon sa vypočíta: Platí teda, ak B2 je pozitívne, sklon je negatívny, a pokiaľ B2 je negatívne, sklon je pozitívny. Damodar Gujarati Econometrics by Example

39 POLYNOMICKÉ REGRESNÉ MODELY
Nasledujúci príklad modelu predikujúceho HDP je príklad kvadratickej funkcie, alebo vo všeobecnosti, polynóm druhého stupňa vysvetlujúcej premennej čas: Sklon je nelineárny: Damodar Gujarati Econometrics by Example

40 Zhrnutie funkčných foriem
Damodar Gujarati Econometrics by Example

41 Štandardizované premenné
Problému s premennými meranými v rozdielnych jednotkách môžeme predísť ich vyjadrením v štandardizovanom tvare: kde SY a SX sú výberové štandardné odchýlky a sú výberové priemery Y a X Stredná hodnota štandardizovanej premennej je vždy nulová a jej štandardná odchýlka je vždy 1. Damodar Gujarati Econometrics by Example

42 Miery kvality modelu R2: Meria podiel variability závisle premennej ktorá je vysvetlená nezávisle premennými, resp. modelom. Korigovaný R2: označuje sa ako , zohľadňuje počet vysvetľujúcich premenných v modeli: Akaikeho informačné kritérium (AIC): Tvrdšie penalizuje pridanie ďalších premenných do modelu: Zvyčajne je vybratý model s najnižšou hodnotou AIC. Schwarzove informačné kritérium (SIC): Alternatíva k AIC kritériu vyjadrená ako: Penalizačný faktor je prísnejší ako pri AIC. Damodar Gujarati Econometrics by Example

43 Modely s kvalitatívnymi vysvetľujúcimi premennými

44 Kvalitatívne premenné
Kvalitatívne premenné môžmeme „kvantifikovať“ vytvorením takzvaných umelých premenných, ktoré nadobúdajú hodnoty 0 a 1 0 indikuje absenciu sledovaného atribútu 1 indikuje prítomnosť sledovaného atribútu Napríklad premenná rozlišujúca pohlavie môže byť kvantifikovaná ako žena=1 a muž=0 alebo opačne. Umelé premenné sú často nazývané aj kategorickými premennými alebo kvalitatívnymi premennými. Príklady: pohlavie, náboženstvo, národnosť, geografický región, politická príslušnosť

45 Pasca umelých premenných (dummy variable trap)
Pokiaľ model obsahuje lokujúcu konštantu a kvalitatívna premenná má m kategórii, potom do modelu zavádzame len (m-1) umelých premenných. Napr. pohlavie má len dve kategórie takže do modelu zavedieme len jednu umelú premennú. Je tomu tak pretože umelá premenná pri ženách nadobúda hodnotu 1 a pri mužoch 0 Pokiaľ by sme skúmali napr. politickú príslušnosť v USA medzi Demokratmi, Republikánmi a nezávislými stranami zaviedli by sme do modelu dve umelé premenné ktoré by reprezentovali príslušnosť k trom stranám Pokiaľ toto pravidlo nieje dodržané, dôjde k tomu čo sa niekedy nazýva aj ako pasca umelých premenných (dummy variable trap)-situácia dokonalej závislosti medzi vysvetlujúcimi premennými

46 Referenčná kategória Kategória pri ktorej premenná nadobúda hodnotu 0 je často označovaná ako referenčná kategória. Všetky porovnania sú robené vo vzťahu k referenčnej kategórii. Pokiaľ je v modeli viac umelých premenných venujte zvýšenú pozornosť sledovaniu referenčnej kategórie, inak bude obtiažne interpretovať výsledky.

47 Čo si treba pamätať o umelých premenných
Pokiaľ je v regresnom modeli zahrnutá lokujúca konštanta, počet umelých premenných musí byť o jedno menej ako počet obmien kvalitatívnej premennej. Pokiaľ je model odhadnutý bez lokujúcej konštanty, je možné do neho zahrnúť taký počet umelých premenných aký je počet kategórií kvalitatívnej premennej. Koeficient pri umelej premennej je vždy interpretovaný vo vzťahu k referenčnej kategóri. Umelá premenná môže byť v interakcii s kvantitatívnymi vysvetľujúcimi premennými rovnako tak ako aj s kvalitatívnymi vysvetľujúcimi premennými. Pokiaľ model obsahuje niekoľko kvalitatívnych premenných s rôznymi kategóriami, zavedenie premenných pre všetky kombinácie spotrebuje veľký počet stupňov voľnosti-

48 Interpretácia umelých premenných
Koeficient pri umelej premennej znamená rozdiel v lokujúcich konštantách medzi kategóriou pri ktorej sa umelá premenná rovná 1 a referenčnou kategóriou Lokujúca konštanta z modelu s umelými premennými je konštantou kategórie ktorá je označená ako 0.

49 Interpretácia umelých premenných
Ak: Yi = B1 + B2 Fi kde Y = mzda a F = umelá premenná rozlišujúca pohlavie potom, v priemere, ženy zarábajú mzdu (B1 + B2) a zarábajú mzdu B1. (všimnite si že B2 môže byť negatívne) Takže ženy zarábajú o B2 viac ako muži.

50 Neviem štatistiku ale vôbec to nevadí, pretože aj tak nemám žiadne údaje.

51 Použitie umelých premenných pri sezónnych dátach
Proces odstránenia sezónnej zložky z časového radu výsledný časový rad je očistený o sezónnosť Uvažujme nasledujúci model predikujúci tržby z predaja oblečenia: Kde D2 =1 pre druhý kvartál, D3 =1 pre tretí kvartál, D4= 1 pre 4th kvartál Sales = reálne tržby na tisíc štvorcových stôp priestoru predajne.

52


Κατέβασμα ppt "Skúmanie závislostí."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google