Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

ANALÝZA ROZPTYLU.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "ANALÝZA ROZPTYLU."— Μεταγράφημα παρουσίασης:

1 ANALÝZA ROZPTYLU

2 PREDNÁŠKA Čo je ANOVA, základné pojmy Hypotézy pri ANOVA Model ANOVA
SAS Institute PREDNÁŠKA Čo je ANOVA, základné pojmy Hypotézy pri ANOVA Model ANOVA Jednofaktorová ANOVA - vyvážený pokus Prijatie rozhodnutia v ANOVA Predpoklady ANOVA Jednofaktorová ANOVA - nevyvážený pokus Dvojfaktorová ANOVA - bez opakovania Dvojfaktorová ANOVA - s opakovaním Metódy viacnásobného porovnávania Overenie zhody variability Bratislava, Holiday Inn, 26. októbra 1998

3 Čo je ANOVA analysis of variance - analýza rozptylu
SAS Institute Čo je ANOVA analysis of variance - analýza rozptylu metóda na porovnávanie stredných hodnôt (priemerov) niekoľkých ZS hľadanie rozdielov medzi priemermi sa zakladá na analýze rôznych foriem rozptylu AR zároveň skúma vplyv kvalitatívneho faktora (faktorov) na výsledný kvantitatívny znak - teda analyzuje vzťahy medzi znakmi ANOVA je zovšeobecnením Studentovho t-testu pre nezávislé výbery Čo je analýza rozptylu? Názov tejto metódy je zavádzajúci. Akoby sa mohlo zdať nejde o metódu pre porovnávanie rozptylov základných súborov. Analýza rozptylu je metóda na porovnávanie priemerov niekoľkých základných súborov. Názov analýza rozptylu vyplýva zo skutočnosti, že určenie, či medzi priemermi niekoľkých základných súborov sú rozdiely alebo nie, sa zakladá na analýze rôznych foriem rozptylu spojeného s náhodnými výbermi. Prvé myšlienky o analýze rozptylu sú spojené s poľnohospodárstvom, kde sa skúmal vplyv rôznych faktorov na úrodnosť plodín. Bratislava, Holiday Inn, 26. októbra 1998

4 Čo je ANOVA praktické využitie
SAS Institute Čo je ANOVA praktické využitie najčastejšie sa AR používa pri vyhodnocovaní biologických experimentov počet predaných výrobkov v závislosti od umiestnenia výrobku v regáli, atď. ANOVA je však použiteľná aj pri riešení ekonomických problémov. Napr. chceme zodpovedať otázku, či priemerné množstvo peňažných prostriedkov, ktoré obyvatelia SR vynakladajú na poistenie je ovplyvnené ich stupňom vzdelania. Na tomto príklade si objasníme terminológiu ANOVA. Kvantitatívny ukazovateľ, ktorého priemerné hodnoty porovnávame sa nazýva závislá premenná. V tomto prípade výdavky na poistenie. Cieľom analýzy je zistiť rozdiely jej priemerných hodnôt pri rôznych obmenách inej - kvalitatívnej premennej, ktorú nazývame faktor. Od jej jednotlivých obmien môžu závisieť hodnoty závislej premennej. Jednotlivé obmeny faktora sa nazývajú úrovne faktora, Ak skúmame vplyv jedného faktora hovoríme o jednofaktorovej ANOVA. Ak skúmame vplyv dvoch alebo viacerých faktorov na hodnoty závislej premennej jedného faktora hovoríme o viacfaktorovej ANOVA. Podľa toho, koľko hodnôt závislej premennej máme napozorovaných vo výberovom súbore pre jednotlivé úrovne faktora poznáme: - vyváženú ANOVA - počet pozorovaní pre každú obmenu je rovnaký - nevyváženú ANOVA - počet pozorovaní pre každú obmenu je rôzny Bratislava, Holiday Inn, 26. októbra 1998

5 ZÁKLADNÉ POJMY úroveň faktora skúmaný štatistický znak Označenie: y
výsledný kvantitatívny znak napr. počet predaných výrobkov faktor Označenie: A., B, ... je kvalitatívna premenná úroveň faktora jednotlivé obmeny faktora určité množstvo kvantitatívneho faktora, napr. množstvo dávok čistých živín pri hnojení, rôzne príjmové skupiny domácností, určitý druh kvalitatívneho faktora, napr. rôzne odrody tej istej plodiny, spôsoby umiestnenia výrobkov v predajni,

6 Čo je ANOVA pojmy jednofaktorová/viacfaktorová ANOVA
SAS Institute Čo je ANOVA pojmy jednofaktorová/viacfaktorová ANOVA skúmame vplyv jedného/viacerých faktor na kvantitatívnu premennú vyvážená/nevyvážená ANOVA podľa toho, či majú jednotlivé skupiny rovnaký rozsah n ANOVA je však použiteľná aj pri riešení ekonomických problémov. Napr. chceme zodpovedať otázku, či priemerné množstvo peňažných prostriedkov, ktoré obyvatelia SR vynakladajú na poistenie je ovplyvnené ich stupňom vzdelania. Na tomto príklade si objasníme terminológiu ANOVA. Kvantitatívny ukazovateľ, ktorého priemerné hodnoty porovnávame sa nazýva závislá premenná. V tomto prípade výdavky na poistenie. Cieľom analýzy je zistiť rozdiely jej priemerných hodnôt pri rôznych obmenách inej - kvalitatívnej premennej, ktorú nazývame faktor. Od jej jednotlivých obmien môžu závisieť hodnoty závislej premennej. Jednotlivé obmeny faktora sa nazývajú úrovne faktora, Ak skúmame vplyv jedného faktora hovoríme o jednofaktorovej ANOVA. Ak skúmame vplyv dvoch alebo viacerých faktorov na hodnoty závislej premennej jedného faktora hovoríme o viacfaktorovej ANOVA. Podľa toho, koľko hodnôt závislej premennej máme napozorovaných vo výberovom súbore pre jednotlivé úrovne faktora poznáme: - vyváženú ANOVA - počet pozorovaní pre každú obmenu je rovnaký - nevyváženú ANOVA - počet pozorovaní pre každú obmenu je rôzny Bratislava, Holiday Inn, 26. októbra 1998

7 SAS Institute Čo je ANOVA pri ANOVA porovnávame priemerné hodnoty kvantitatívnej premennej pri rôznych úrovniach faktora napríklad porovnávame priemerné výdavky obyvateľov so základným vzdelaním, priemerné výdavky stredoškolsky vzdelaného obyvateľstva, priemerné výdavky vysokoškolsky vzdelaného obyvateľstva 1 Základnou definíciu ANOVA je - metóda pre porovnávanie priemerov základných súborov. V našom praktickom príklade sa pri ANOVA budeme pýtať, či sa rovnajú priemerné výdavky na poistenie vysokoškolsky vzdelanej osoby s výdavkami stredoškolsky vzdelanej osoby s výdavkami osoby so základným vzdelaním pri ANOVA sleduje rozdiely vo výdavkoch všetkých možných dvojíc navzájom 2 3 Bratislava, Holiday Inn, 26. októbra 1998

8 SCHÉMA JEDNOFAKTOROVÉHO EXPERIMENTU “VYVÁŽENÝ POKUS”
opakovania riadkový súčet priemer celkový Úrovne faktora A 1 2… j… n Yi . yi . 1 y11 y12 y1j y1n Y1. y1. 2 y21 y22 y2j y2n Y2. y2. … ……….. i yi1 yi2 yij yin Yi. yi. m ym1 ym2 ymj ymn Ym. ym. Y.. y.. Celkový súčet

9 Model pre výslednú napozorovanú hodnotu
kde i = 1, 2,…, m j = 1,2,…, n Kde:  očakávaná hodnota pre všetky úrovne faktora a napozorované hodnoty, i efekt i-tej úrovne faktora A eij náhodná chyba, ktorým je každé meranie zaťažené, resp. výsledok vplyv náhodných činiteľov

10 Hypotézy pri ANOVA alebo
Nulovú hypotézu potom môžeme formulovať aj nasledovne: Ho : 1 = 2 =… i = m = 0 t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H1: i  0 pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly

11 Odhadmi jednotlivých parametrov sú nasledovné výberové charakteristiky:
čo môžeme prepísať:

12 Variabilita medzi úrovňami faktora, spôsobená pôsobením faktora A,
Princíp ANOVY Podstata ANOVY spočíva v rozklade celkovej variability výsledného skúmaného znaku Sc S1 Sr Variabilita medzi úrovňami faktora, spôsobená pôsobením faktora A, “variabilita medzi triedami, riadkami” Variabilita náhodná, reziduálna, “vo vnútri tried Celková variabilita

13 Princíp ANOVY Typy variability
SAS Institute Princíp ANOVY Typy variability celková variabilita na koľko sa odchyľujú konkrétne hodnoty v skupinách od celkového priemeru variabilita medzi skupinami na koľko sa odchyľujú skupinové priemery od celkového priemeru variabilita vnútri skupín na koľko sa odchyľujú konkrétne hodnoty v skupinách od ich skupinového priemeru čím väčšia je variabilita medzi skupinami v porovnaní s variabilitou vnútri skupín, tým väčší je účinok faktora Celkovú variabilitu môžeme vyjadriť ako súčet: - variability medzi skupinami - menlivosť skupinových priemerov v porovnaní s celkovým priemerom - vyjadruje pôsobenie faktora - preto aj variabilita vysvetlená modelom - variability v rámci skupín - menlivosť hodnôt v porovnaní s ich skupinovým priemerom, - vyjadruje pôsobenie náhodných činiteľov - variabilita nevysvetlená modelom Keďže variabilita medzi skupinami je variabilita vysvetlená modelom, znamená to že jej väčší podiel vyjadruje väčší vplyv faktora. Bratislava, Holiday Inn, 26. októbra 1998

14 Prijatie rozhodnutia v ANOVA
SAS Institute Prijatie rozhodnutia v ANOVA variabilita medzi skupinami suma štvorcov odchýlok - faktor priemerná suma štvorcov odchýlok priemerná suma štvorcov rezid. odchýlok = F variabilita vnútri skupín rezid. suma štvorcov odchýlok celková variabilita celková suma štvorcov Testovacia štatistika (F) porovnáva variabilitu S1a variabilitu Sr čím väčšia je variabilita S1 tým je vplyv faktora väčší tým sú väčšie rozdiely medzi skupinovými priemermi tým viac dôkazov máme pre prijatie alternatívnej hypotézy Už je zrejmé, že posúdenie, či je vplyv faktora štatistický významný, bude vychádzať z porovnania variability. Porovnávať však možno len porovnateľné veličiny. Sumy štvorcov, preto musíme prepočítať na priemerné sumy, ktoré vyjadrujú, aká variabilita - vysvetlená alebo nevysvetlená - pripadá ne jednu jednotku. Z jednotkových mier už môžeme zostaviť mieru, ktorá nám bude slúžiť na zber dôkazov o dôležitosti vplyvu faktorov - testovaciu štatistiku. Testovacia štatistika pri ANOVA porovnáva jednotkovú variabilitu vysvetlenú modelom s jednotkovou variabilitou nevysvetlenou modelom. F= priemerná SSM / priemerná SSE na základe predchádzajúcej logiky môžeme prijať rozhodovacie pravidlo, čím je F a teda aj podiel variability vysvetlenej modelom väčší, tým viac máme dôkazov tým nižšia je p-hodnota tým na nižšej hladine môžeme zamietnuť nulovú hypotézu tým na nižšej hladine môžeme tvrdiť, že hodnoty závislej premennej sú výrazne ovplyvňované úrovňami faktora. Bratislava, Holiday Inn, 26. októbra 1998

15 VÝSLEDNÁ TABUĽKA ANOVY
Variabilita medzi triedami Reziduálna variabilta Celková variabilita ANOVA 1 Súčet štvorcov odchýlok 2 Stupne voľnosti m-1 m.n - m N-1= m .n-1 3 Priemerný štvorec (1/2) S1 Sr Sc s12 sr2 4 F-krité- rium

16 Prijatie rozhodnutia v ANOVA F
Ak F vyp  F. ((m-1,(N-m))  Ho zamietame, v takom prípade je aspoň efekt jednej úrovne faktora preukazný, teda priemerná úroveň ukazovateľa sa štatisticky významne líši od ostatných. resp. aspoň jeden efekt i je štatisticky významne odlišný od nuly. obor zamietnutia H0 kritický obor, F obor nezamietnutia Ho Ak F vyp  F Ho nezamietame

17 Predpoklady ANOVY Nezávislosť výberových súborov Normalita
SAS Institute Predpoklady ANOVY Nezávislosť výberových súborov štatistická nezávislosť náhodných chýb eij Normalita výbery pochádzajú z normálnych rozdelení, narušenie tohto predpokladu nemá podstatnejší vplyv na výsledky AR Homoskedasticita -zhodné reziduálne rozptyly 12 = 22 = …. = 2 , t.j. D(eij) = 2 tento predpoklad je závažnejší a možno ho overovať Cochranovým, resp. Bartlettovým testom Kedy môžeme ANOVA použiť? Je to vlastne porovnávanie priemerov ako v predchádzajúcej kapitole. Pre jej použitie preto platia rovnaké predpoklady: nezávislosť výberových súborov normalita závislej premennej pre jednotlivé obmeny faktora homoskedasticita - rovnosť rozptylov v súboroch jednotlivých obmien faktora - skupinách Bratislava, Holiday Inn, 26. októbra 1998

18 SCHÉMA JEDNOFAKTOROVÉHO EXPERIMENTU - “NEVYVÁŽENÝ POKUS”
riadkový súčet riadkový priemer Rôzny počet opakovaní A 1 2… j … ni Yi . yi . 1 y11 y12 y1j n1 Y1. y1. 2 y21 y22 y2j n2 Y2. y2. … ……….. i yi1 yi2 yij ni Yi. yi. m ym1 ym2 ymj nm Ym. ym. Y.. y.. Úrovne faktora Kde celkový priemer

19 VÝSLEDNÁ TABUĽKA ANOVY
Variabilita medzi triedami Reziduálna variabilta Celková variabilita ANOVA 1 Súčet štvorcov odchýlok 2 Stupne voľnosti m-1 N - m N-1 3 Priemerný štvorec (1/2) S1 Sr Sc s12 sr2 4 F-krité rium

20 DVOJFAKTOROVÁ ANALÝZA ROZPTYLU BEZ OPAKOVANIA
Uvažujme vplyv faktora A, ktorý skúmame na m - úrovniach, i = 1,2,….,m ďalej uvažujme faktor B, ktorý sledujeme na n - úrovniach , j = 1,2, …, n na každej i-tej úrovni faktora A a j-tej úrovni faktora B máme len jedno pozorovanie (opakovanie) yij overujeme tak vplyv dvoch nulových hypotéz

21 SCHÉMA DVOJFAKTOROVÉHO EXPERIMENTU S JEDNÝM POZOROVANÍM V KAŽDEJ PODTRIEDE DAR
riadkové súčty n-úrovní faktora B B A … j … n Yi . yi . 1 y11 y12 y1j y1n Y1. Y1. 2 y21 y22 y2j y2n Y2. y2. … ……….. i yi1 yi2 yij yin Yi. yi. m ym1 ym2 ymj ymn Ym. ym. Y.1 Y Y.j ... Y Y y.1 y y.j ... y.1 y.. m-úrovní faktora A Riadkové priemery Stĺpcové súčty stĺpcové priemery celkový priemer

22 Overujeme platnosť dvoch nulových hypotéz
Model pre skúmaný znak môžme zapísať Hypotéza pre faktor A: Ho 1: 1 = 2 =… i = m = 0 t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H11 : i  0 pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly Overujeme platnosť dvoch nulových hypotéz

23 Hypotéza pre faktor B: Ho 2:  1 =  2 =…  j =  n = 0 t.j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H12 :  j  0 pre aspoň jedno j (j = 1,2…m) efekt  j aspoň jednej j - úrovne faktora B je preukazný, významne odlišný od nuly

24 VÝSLEDNÁ TABUĽKA ANOVY
Variabilita medzi riadkami Reziduálna variabilta Celková variabilita DAR 1 Súčet štvorcov odchýlok 2 Stupne voľnosti m-1 n-1 (m-1)(n-1) 3 Priem. štvorec (1/2) Sr Sc s12 sr2 4 F-krité rium S1 S2 stĺpcami m.n -1 s22

25 Rozklad celkovej variability skúmaného znaku: Sc= S1 + S2 + S r
Variabilita medzi riadkami, vplyv faktora A Variabilita medzi stĺpcami, vplyv faktora B Reziduálna variabilita Celková variabilita

26 DVOJFAKTOROVÁ ANALÝZA ROZPTYLU S OPAKOVANÍM
Uvažujme vplyv dvoch faktorov: faktora A, ktorý skúmame na m - úrovniach, i = 1,2,….,m a faktora B, ktorý sledujeme na n - úrovniach , j = 1,2, …, n Skúmame nielen individuálny vplyv daných faktorov, ale aj ich vzájomné pôsobenie (interakciu) Pre každú kombináciu úrovní máme viac pozorovaní (opakovaní) yij Overujeme tak vplyv troch nulových hypotéz

27 Schéma dvojfaktorového experimentu s interkaciou

28 Overujeme platnosť troch nulových hypotéz
Model pre skúmaný znak môžme zapísať Overujeme platnosť troch nulových hypotéz Hypotéza pre faktor A: Ho : 1 = 2 =… i = m = 0 t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H1 : i  0 pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly

29 Ho :  11 =  12 =…  ij =  mn = 0
Hypotéza pre faktor B: Ho:  1 =  2 =…  j =  n = 0 t.j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H1 :  j  0 pre aspoň jedno j (j = 1,2…m) efekt  j aspoň jednej j - úrovne faktora B je preukazný, významne odlišný od nuly Hypotéza pre interakciu ()ij: Ho :  11 =  12 =…  ij =  mn = 0 t.j. že pôsobenie interakcie je nulové, teda nepreukazné, oproti alternatívnej hypotéze H1 : ()ij  0

30 VÝSLEDNÁ TABUĽKA ANOVY
Variabilita medzi riadkami Reziduálna variabilta Celková variabilita DAR 1 Súčet štvorcov odchýlok 2 Stupne voľnosti m-1 n-1 m.n.(k-1) 3 Priem. štvorec (1/2) Sr Sc s12 sr2 4 F-krité rium S1 S2 stĺpcami m.n -1 s22 Interakcia S12 (m-1)(n-1) s122

31 Rozklad celkovej variability skúmaného znaku: Sc= S1 + S2 + S12 +S r
Variabilita medzi riadkami, vplyv faktora A Variabilita medzi stĺpcami, vplyv faktora B Variabilita z interakcie Reziduálna variabilita Celková variabilita

32 Metódy viacnásobného porovnávania
SAS Institute Metódy viacnásobného porovnávania v prípade, že H0 zamietame, zaujíma nás, medzi ktorými strednými hodnotami existujú štatisticky významné rozdiely existuje široká škála testov zameraná na viacnásobné porovnanie výberových priemerov Ktoré priemery sú významne rozdielne? použijeme test kontrastov testy, ktoré robia dve alebo viac porovnaní medzi tromi alebo viacerými priemermi je možné vytvoriť m*(m-1)/2 kontrastov veľký počet testov Ak rozhodneme, že priemerné hodnoty sa nerovnajú a pri rôznych úrovniach faktora sú rôzne, môžeme pokračovať v analýze ďalej a pýtať sa, ktoré priemerné hodnoty sa navzájom líšia. Odpoveď získame, ak použijeme konkrétne testy z viacnásobného porovnávania. Systém SAS obsahuje veľký počet testov viacnásobného porovnávania. Bratislava, Holiday Inn, 26. októbra 1998

33 Testy kontrastov Fischerov LSD test Duncanov test
Student-Newman-Keulsov test Tukeyho test Scheffeho test

34 Fischerov LSD test LSD = Least Significant Difference
je založený na t-teste štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: kritická hodnota t rozdelenia pri m(n-1) stupňoch voľnosti

35 Duncanov test štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: tabuľovaná hodnota Duncanovho testu pre daný počet rozdielov a pri reziduálnom stupni voľnosti

36 Student-Newman-Keulsov test
štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: tabuľovaná hodnota Student-Neumannovho - Keulsovho testu pre daný počet porovnávaných rozdielov a pri reziduálnom stupni voľnosti

37 Tukeyho test štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: tabuľovaná hodnota Tukeyho testu.

38 Scheffeho test štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: kritická hodnota F rozdelenia pri (m-1) a m(n-1) stupňoch voľnosti

39 viac pravdepo-dobné,, že bude určený nesprávny rozdiel
KTORÝ TEST POUŽIŤ? Test Sila testu (1-β) Chyba I. druhu (α) LSD najvyššia Duncan Student-Newman-Keuls Tukey Scheffe najnižšia viac konzervatívny, menej pravdepo-dobné, že bude objavený skutočný rozdiel viac pravdepo-dobné,, že bude určený nesprávny rozdiel

40 KTORÝ TEST POUŽIŤ? závisí, ktorý typ chyby je akceptovateľnejší z hľadiska analýzy daného problému, t.j. neurčenie rozdielu, ak skutočne existuje, resp. určenie rozdielu, ktorý neexistuje.

41 Testy kontrastov - Statgraphics
Multiple Range Tests Method: 95,0 percent LSD Count Mean Homogeneous Groups Col_ ,8 X Col_ ,0 XX Col_ ,2 X Col_ ,8 X Contrast Sig. Difference +/- Limits Col_1 - Col_2 -5,6 38,7085 Col_1 - Col_3 7,2 38,7085 Col_1 - Col_4 * 40,4 38,7085 Col_2 - Col_3 12,8 38,7085 Col_2 - Col_4 * 46,0 38,7085 Col_3 - Col_4 33,2 38,7085 * denotes a statistically significant difference.

42 Testy kontrastov - Statgraphics

43 Overenie zhody variability
predpokladáme, že skúmané výberové súbory majú približne normálne rozdelenie a rozdiely rozptylov medzi testovanými skupinami sú nepreukazné. H0: Testy: Cochranov test Hartleyov test Bartlettov test

44 Cochranov test je ho vhodné použiť, ak u skúmaných výberových súborov sú značné rozdiely medzi rozptylmi testovacia charakteristika: ak G ≥ Gα, m, n-1 → H0 zamietame Gα, m, n-1 - tabuľková hodnota pri m a n-1 stupňoch voľnosti

45 Hartleyov test testovacia charakteristika:
ak H ≥ Hα, m, n-1 → H0 zamietame Hα, m, n-1 - tabuľková hodnota pri m a n-1 stupňoch voľnosti

46 Bartlettov test spočíva v porovnávaní aritmetického a geometrického priemeru rozptylov. Ak sú rozptyly rovnaké, potom aj priemery sú rovnaké. testovacia charakteristika: ki = ni-1 m – počet výberových súborov ni – rozsah i-teho výberového súboru Ak χ2χ2(m-1), potom H0 zamietame

47 Overenie zhody variability - Statgraphics
Variance Check Test P-Value Bartlett's 1, ,

48 ĎAKUJEM ZA POZORNOSŤ


Κατέβασμα ppt "ANALÝZA ROZPTYLU."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google