ANALÝZA ROZPTYLU
PREDNÁŠKA Čo je ANOVA, základné pojmy Hypotézy pri ANOVA Model ANOVA SAS Institute PREDNÁŠKA Čo je ANOVA, základné pojmy Hypotézy pri ANOVA Model ANOVA Jednofaktorová ANOVA - vyvážený pokus Prijatie rozhodnutia v ANOVA Predpoklady ANOVA Jednofaktorová ANOVA - nevyvážený pokus Dvojfaktorová ANOVA - bez opakovania Dvojfaktorová ANOVA - s opakovaním Metódy viacnásobného porovnávania Overenie zhody variability Bratislava, Holiday Inn, 26. októbra 1998
Čo je ANOVA analysis of variance - analýza rozptylu SAS Institute Čo je ANOVA analysis of variance - analýza rozptylu metóda na porovnávanie stredných hodnôt (priemerov) niekoľkých ZS hľadanie rozdielov medzi priemermi sa zakladá na analýze rôznych foriem rozptylu AR zároveň skúma vplyv kvalitatívneho faktora (faktorov) na výsledný kvantitatívny znak - teda analyzuje vzťahy medzi znakmi ANOVA je zovšeobecnením Studentovho t-testu pre nezávislé výbery Čo je analýza rozptylu? Názov tejto metódy je zavádzajúci. Akoby sa mohlo zdať nejde o metódu pre porovnávanie rozptylov základných súborov. Analýza rozptylu je metóda na porovnávanie priemerov niekoľkých základných súborov. Názov analýza rozptylu vyplýva zo skutočnosti, že určenie, či medzi priemermi niekoľkých základných súborov sú rozdiely alebo nie, sa zakladá na analýze rôznych foriem rozptylu spojeného s náhodnými výbermi. Prvé myšlienky o analýze rozptylu sú spojené s poľnohospodárstvom, kde sa skúmal vplyv rôznych faktorov na úrodnosť plodín. Bratislava, Holiday Inn, 26. októbra 1998
Čo je ANOVA praktické využitie SAS Institute Čo je ANOVA praktické využitie najčastejšie sa AR používa pri vyhodnocovaní biologických experimentov počet predaných výrobkov v závislosti od umiestnenia výrobku v regáli, atď. ANOVA je však použiteľná aj pri riešení ekonomických problémov. Napr. chceme zodpovedať otázku, či priemerné množstvo peňažných prostriedkov, ktoré obyvatelia SR vynakladajú na poistenie je ovplyvnené ich stupňom vzdelania. Na tomto príklade si objasníme terminológiu ANOVA. Kvantitatívny ukazovateľ, ktorého priemerné hodnoty porovnávame sa nazýva závislá premenná. V tomto prípade výdavky na poistenie. Cieľom analýzy je zistiť rozdiely jej priemerných hodnôt pri rôznych obmenách inej - kvalitatívnej premennej, ktorú nazývame faktor. Od jej jednotlivých obmien môžu závisieť hodnoty závislej premennej. Jednotlivé obmeny faktora sa nazývajú úrovne faktora, Ak skúmame vplyv jedného faktora hovoríme o jednofaktorovej ANOVA. Ak skúmame vplyv dvoch alebo viacerých faktorov na hodnoty závislej premennej jedného faktora hovoríme o viacfaktorovej ANOVA. Podľa toho, koľko hodnôt závislej premennej máme napozorovaných vo výberovom súbore pre jednotlivé úrovne faktora poznáme: - vyváženú ANOVA - počet pozorovaní pre každú obmenu je rovnaký - nevyváženú ANOVA - počet pozorovaní pre každú obmenu je rôzny Bratislava, Holiday Inn, 26. októbra 1998
ZÁKLADNÉ POJMY úroveň faktora skúmaný štatistický znak Označenie: y výsledný kvantitatívny znak napr. počet predaných výrobkov faktor Označenie: A., B, ... je kvalitatívna premenná úroveň faktora jednotlivé obmeny faktora určité množstvo kvantitatívneho faktora, napr. množstvo dávok čistých živín pri hnojení, rôzne príjmové skupiny domácností, určitý druh kvalitatívneho faktora, napr. rôzne odrody tej istej plodiny, spôsoby umiestnenia výrobkov v predajni,
Čo je ANOVA pojmy jednofaktorová/viacfaktorová ANOVA SAS Institute Čo je ANOVA pojmy jednofaktorová/viacfaktorová ANOVA skúmame vplyv jedného/viacerých faktor na kvantitatívnu premennú vyvážená/nevyvážená ANOVA podľa toho, či majú jednotlivé skupiny rovnaký rozsah n ANOVA je však použiteľná aj pri riešení ekonomických problémov. Napr. chceme zodpovedať otázku, či priemerné množstvo peňažných prostriedkov, ktoré obyvatelia SR vynakladajú na poistenie je ovplyvnené ich stupňom vzdelania. Na tomto príklade si objasníme terminológiu ANOVA. Kvantitatívny ukazovateľ, ktorého priemerné hodnoty porovnávame sa nazýva závislá premenná. V tomto prípade výdavky na poistenie. Cieľom analýzy je zistiť rozdiely jej priemerných hodnôt pri rôznych obmenách inej - kvalitatívnej premennej, ktorú nazývame faktor. Od jej jednotlivých obmien môžu závisieť hodnoty závislej premennej. Jednotlivé obmeny faktora sa nazývajú úrovne faktora, Ak skúmame vplyv jedného faktora hovoríme o jednofaktorovej ANOVA. Ak skúmame vplyv dvoch alebo viacerých faktorov na hodnoty závislej premennej jedného faktora hovoríme o viacfaktorovej ANOVA. Podľa toho, koľko hodnôt závislej premennej máme napozorovaných vo výberovom súbore pre jednotlivé úrovne faktora poznáme: - vyváženú ANOVA - počet pozorovaní pre každú obmenu je rovnaký - nevyváženú ANOVA - počet pozorovaní pre každú obmenu je rôzny Bratislava, Holiday Inn, 26. októbra 1998
SAS Institute Čo je ANOVA pri ANOVA porovnávame priemerné hodnoty kvantitatívnej premennej pri rôznych úrovniach faktora napríklad porovnávame priemerné výdavky obyvateľov so základným vzdelaním, priemerné výdavky stredoškolsky vzdelaného obyvateľstva, priemerné výdavky vysokoškolsky vzdelaného obyvateľstva 1 Základnou definíciu ANOVA je - metóda pre porovnávanie priemerov základných súborov. V našom praktickom príklade sa pri ANOVA budeme pýtať, či sa rovnajú priemerné výdavky na poistenie vysokoškolsky vzdelanej osoby s výdavkami stredoškolsky vzdelanej osoby s výdavkami osoby so základným vzdelaním pri ANOVA sleduje rozdiely vo výdavkoch všetkých možných dvojíc navzájom 2 3 Bratislava, Holiday Inn, 26. októbra 1998
SCHÉMA JEDNOFAKTOROVÉHO EXPERIMENTU “VYVÁŽENÝ POKUS” opakovania riadkový súčet priemer celkový Úrovne faktora A 1 2… j… n Yi . yi . 1 y11 y12 y1j y1n Y1. y1. 2 y21 y22 y2j y2n Y2. y2. … ……….. i yi1 yi2 yij yin Yi. yi. m ym1 ym2 ymj ymn Ym. ym. Y.. y.. Celkový súčet
Model pre výslednú napozorovanú hodnotu kde i = 1, 2,…, m j = 1,2,…, n Kde: - očakávaná hodnota pre všetky úrovne faktora a napozorované hodnoty, i - efekt i-tej úrovne faktora A eij - náhodná chyba, ktorým je každé meranie zaťažené, resp. výsledok vplyv náhodných činiteľov
Hypotézy pri ANOVA alebo Nulovú hypotézu potom môžeme formulovať aj nasledovne: Ho : 1 = 2 =… i = m = 0 t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H1: i 0 pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly
Odhadmi jednotlivých parametrov sú nasledovné výberové charakteristiky: čo môžeme prepísať:
Variabilita medzi úrovňami faktora, spôsobená pôsobením faktora A, Princíp ANOVY Podstata ANOVY spočíva v rozklade celkovej variability výsledného skúmaného znaku Sc S1 Sr Variabilita medzi úrovňami faktora, spôsobená pôsobením faktora A, “variabilita medzi triedami, riadkami” Variabilita náhodná, reziduálna, “vo vnútri tried Celková variabilita
Princíp ANOVY Typy variability SAS Institute Princíp ANOVY Typy variability celková variabilita na koľko sa odchyľujú konkrétne hodnoty v skupinách od celkového priemeru variabilita medzi skupinami na koľko sa odchyľujú skupinové priemery od celkového priemeru variabilita vnútri skupín na koľko sa odchyľujú konkrétne hodnoty v skupinách od ich skupinového priemeru čím väčšia je variabilita medzi skupinami v porovnaní s variabilitou vnútri skupín, tým väčší je účinok faktora Celkovú variabilitu môžeme vyjadriť ako súčet: - variability medzi skupinami - menlivosť skupinových priemerov v porovnaní s celkovým priemerom - vyjadruje pôsobenie faktora - preto aj variabilita vysvetlená modelom - variability v rámci skupín - menlivosť hodnôt v porovnaní s ich skupinovým priemerom, - vyjadruje pôsobenie náhodných činiteľov - variabilita nevysvetlená modelom Keďže variabilita medzi skupinami je variabilita vysvetlená modelom, znamená to že jej väčší podiel vyjadruje väčší vplyv faktora. Bratislava, Holiday Inn, 26. októbra 1998
Prijatie rozhodnutia v ANOVA SAS Institute Prijatie rozhodnutia v ANOVA variabilita medzi skupinami suma štvorcov odchýlok - faktor priemerná suma štvorcov odchýlok priemerná suma štvorcov rezid. odchýlok = F variabilita vnútri skupín rezid. suma štvorcov odchýlok celková variabilita celková suma štvorcov Testovacia štatistika (F) porovnáva variabilitu S1a variabilitu Sr čím väčšia je variabilita S1 tým je vplyv faktora väčší tým sú väčšie rozdiely medzi skupinovými priemermi tým viac dôkazov máme pre prijatie alternatívnej hypotézy Už je zrejmé, že posúdenie, či je vplyv faktora štatistický významný, bude vychádzať z porovnania variability. Porovnávať však možno len porovnateľné veličiny. Sumy štvorcov, preto musíme prepočítať na priemerné sumy, ktoré vyjadrujú, aká variabilita - vysvetlená alebo nevysvetlená - pripadá ne jednu jednotku. Z jednotkových mier už môžeme zostaviť mieru, ktorá nám bude slúžiť na zber dôkazov o dôležitosti vplyvu faktorov - testovaciu štatistiku. Testovacia štatistika pri ANOVA porovnáva jednotkovú variabilitu vysvetlenú modelom s jednotkovou variabilitou nevysvetlenou modelom. F= priemerná SSM / priemerná SSE na základe predchádzajúcej logiky môžeme prijať rozhodovacie pravidlo, čím je F a teda aj podiel variability vysvetlenej modelom väčší, tým viac máme dôkazov tým nižšia je p-hodnota tým na nižšej hladine môžeme zamietnuť nulovú hypotézu tým na nižšej hladine môžeme tvrdiť, že hodnoty závislej premennej sú výrazne ovplyvňované úrovňami faktora. Bratislava, Holiday Inn, 26. októbra 1998
VÝSLEDNÁ TABUĽKA ANOVY Variabilita medzi triedami Reziduálna variabilta Celková variabilita ANOVA 1 Súčet štvorcov odchýlok 2 Stupne voľnosti m-1 m.n - m N-1= m .n-1 3 Priemerný štvorec (1/2) S1 Sr Sc s12 sr2 4 F-krité- rium
Prijatie rozhodnutia v ANOVA F Ak F vyp F. ((m-1,(N-m)) Ho zamietame, v takom prípade je aspoň efekt jednej úrovne faktora preukazný, teda priemerná úroveň ukazovateľa sa štatisticky významne líši od ostatných. resp. aspoň jeden efekt i je štatisticky významne odlišný od nuly. obor zamietnutia H0 kritický obor, F obor nezamietnutia Ho Ak F vyp F Ho nezamietame
Predpoklady ANOVY Nezávislosť výberových súborov Normalita SAS Institute Predpoklady ANOVY Nezávislosť výberových súborov štatistická nezávislosť náhodných chýb eij Normalita výbery pochádzajú z normálnych rozdelení, narušenie tohto predpokladu nemá podstatnejší vplyv na výsledky AR Homoskedasticita -zhodné reziduálne rozptyly 12 = 22 = …. = 2 , t.j. D(eij) = 2 tento predpoklad je závažnejší a možno ho overovať Cochranovým, resp. Bartlettovým testom Kedy môžeme ANOVA použiť? Je to vlastne porovnávanie priemerov ako v predchádzajúcej kapitole. Pre jej použitie preto platia rovnaké predpoklady: nezávislosť výberových súborov normalita závislej premennej pre jednotlivé obmeny faktora homoskedasticita - rovnosť rozptylov v súboroch jednotlivých obmien faktora - skupinách Bratislava, Holiday Inn, 26. októbra 1998
SCHÉMA JEDNOFAKTOROVÉHO EXPERIMENTU - “NEVYVÁŽENÝ POKUS” riadkový súčet riadkový priemer Rôzny počet opakovaní A 1 2… j … ni Yi . yi . 1 y11 y12 y1j ... n1 Y1. y1. 2 y21 y22 y2j ... n2 Y2. y2. … ……….. i yi1 yi2 yij ... ni Yi. yi. m ym1 ym2 ymj ... nm Ym. ym. Y.. y.. Úrovne faktora Kde celkový priemer
VÝSLEDNÁ TABUĽKA ANOVY Variabilita medzi triedami Reziduálna variabilta Celková variabilita ANOVA 1 Súčet štvorcov odchýlok 2 Stupne voľnosti m-1 N - m N-1 3 Priemerný štvorec (1/2) S1 Sr Sc s12 sr2 4 F-krité rium
DVOJFAKTOROVÁ ANALÝZA ROZPTYLU BEZ OPAKOVANIA Uvažujme vplyv faktora A, ktorý skúmame na m - úrovniach, i = 1,2,….,m ďalej uvažujme faktor B, ktorý sledujeme na n - úrovniach , j = 1,2, …, n na každej i-tej úrovni faktora A a j-tej úrovni faktora B máme len jedno pozorovanie (opakovanie) yij overujeme tak vplyv dvoch nulových hypotéz
SCHÉMA DVOJFAKTOROVÉHO EXPERIMENTU S JEDNÝM POZOROVANÍM V KAŽDEJ PODTRIEDE DAR riadkové súčty n-úrovní faktora B B A 1 2 … j … n Yi . yi . 1 y11 y12 y1j y1n Y1. Y1. 2 y21 y22 y2j y2n Y2. y2. … ……….. i yi1 yi2 yij yin Yi. yi. m ym1 ym2 ymj ymn Ym. ym. Y.1 Y.2 ... Y.j ... Y.1 Y.. y.1 y.2 ... y.j ... y.1 y.. m-úrovní faktora A Riadkové priemery Stĺpcové súčty stĺpcové priemery celkový priemer
Overujeme platnosť dvoch nulových hypotéz Model pre skúmaný znak môžme zapísať Hypotéza pre faktor A: Ho 1: 1 = 2 =… i = m = 0 t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H11 : i 0 pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly Overujeme platnosť dvoch nulových hypotéz
Hypotéza pre faktor B: Ho 2: 1 = 2 =… j = n = 0 t.j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H12 : j 0 pre aspoň jedno j (j = 1,2…m) efekt j aspoň jednej j - úrovne faktora B je preukazný, významne odlišný od nuly
VÝSLEDNÁ TABUĽKA ANOVY Variabilita medzi riadkami Reziduálna variabilta Celková variabilita DAR 1 Súčet štvorcov odchýlok 2 Stupne voľnosti m-1 n-1 (m-1)(n-1) 3 Priem. štvorec (1/2) Sr Sc s12 sr2 4 F-krité rium S1 S2 stĺpcami m.n -1 s22
Rozklad celkovej variability skúmaného znaku: Sc= S1 + S2 + S r Variabilita medzi riadkami, vplyv faktora A Variabilita medzi stĺpcami, vplyv faktora B Reziduálna variabilita Celková variabilita
DVOJFAKTOROVÁ ANALÝZA ROZPTYLU S OPAKOVANÍM Uvažujme vplyv dvoch faktorov: faktora A, ktorý skúmame na m - úrovniach, i = 1,2,….,m a faktora B, ktorý sledujeme na n - úrovniach , j = 1,2, …, n Skúmame nielen individuálny vplyv daných faktorov, ale aj ich vzájomné pôsobenie (interakciu) Pre každú kombináciu úrovní máme viac pozorovaní (opakovaní) yij Overujeme tak vplyv troch nulových hypotéz
Schéma dvojfaktorového experimentu s interkaciou
Overujeme platnosť troch nulových hypotéz Model pre skúmaný znak môžme zapísať Overujeme platnosť troch nulových hypotéz Hypotéza pre faktor A: Ho : 1 = 2 =… i = m = 0 t.j. že efekty všetkých úrovni faktora A sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H1 : i 0 pre aspoň jedno i (i = 1,2…m) efekt i aspoň jednej i - úrovne faktora je preukazný, významne odlišný od nuly
Ho : 11 = 12 =… ij = mn = 0 Hypotéza pre faktor B: Ho: 1 = 2 =… j = n = 0 t.j. že efekty všetkých úrovni faktora B sú nulové, teda nepreukazné, oproti alternatívnej hypotéze H1 : j 0 pre aspoň jedno j (j = 1,2…m) efekt j aspoň jednej j - úrovne faktora B je preukazný, významne odlišný od nuly Hypotéza pre interakciu ()ij: Ho : 11 = 12 =… ij = mn = 0 t.j. že pôsobenie interakcie je nulové, teda nepreukazné, oproti alternatívnej hypotéze H1 : ()ij 0
VÝSLEDNÁ TABUĽKA ANOVY Variabilita medzi riadkami Reziduálna variabilta Celková variabilita DAR 1 Súčet štvorcov odchýlok 2 Stupne voľnosti m-1 n-1 m.n.(k-1) 3 Priem. štvorec (1/2) Sr Sc s12 sr2 4 F-krité rium S1 S2 stĺpcami m.n -1 s22 Interakcia S12 (m-1)(n-1) s122
Rozklad celkovej variability skúmaného znaku: Sc= S1 + S2 + S12 +S r Variabilita medzi riadkami, vplyv faktora A Variabilita medzi stĺpcami, vplyv faktora B Variabilita z interakcie Reziduálna variabilita Celková variabilita
Metódy viacnásobného porovnávania SAS Institute Metódy viacnásobného porovnávania v prípade, že H0 zamietame, zaujíma nás, medzi ktorými strednými hodnotami existujú štatisticky významné rozdiely existuje široká škála testov zameraná na viacnásobné porovnanie výberových priemerov Ktoré priemery sú významne rozdielne? použijeme test kontrastov testy, ktoré robia dve alebo viac porovnaní medzi tromi alebo viacerými priemermi je možné vytvoriť m*(m-1)/2 kontrastov veľký počet testov Ak rozhodneme, že priemerné hodnoty sa nerovnajú a pri rôznych úrovniach faktora sú rôzne, môžeme pokračovať v analýze ďalej a pýtať sa, ktoré priemerné hodnoty sa navzájom líšia. Odpoveď získame, ak použijeme konkrétne testy z viacnásobného porovnávania. Systém SAS obsahuje veľký počet testov viacnásobného porovnávania. Bratislava, Holiday Inn, 26. októbra 1998
Testy kontrastov Fischerov LSD test Duncanov test Student-Newman-Keulsov test Tukeyho test Scheffeho test
Fischerov LSD test LSD = Least Significant Difference je založený na t-teste štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: kritická hodnota t rozdelenia pri m(n-1) stupňoch voľnosti
Duncanov test štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: tabuľovaná hodnota Duncanovho testu pre daný počet rozdielov a pri reziduálnom stupni voľnosti
Student-Newman-Keulsov test štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: tabuľovaná hodnota Student-Neumannovho - Keulsovho testu pre daný počet porovnávaných rozdielov a pri reziduálnom stupni voľnosti
Tukeyho test štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: tabuľovaná hodnota Tukeyho testu.
Scheffeho test štatisticky významný rozdiel je potvrdený, ak platí vzťah: kde: kritická hodnota F rozdelenia pri (m-1) a m(n-1) stupňoch voľnosti
viac pravdepo-dobné,, že bude určený nesprávny rozdiel KTORÝ TEST POUŽIŤ? Test Sila testu (1-β) Chyba I. druhu (α) LSD najvyššia Duncan Student-Newman-Keuls Tukey Scheffe najnižšia viac konzervatívny, menej pravdepo-dobné, že bude objavený skutočný rozdiel viac pravdepo-dobné,, že bude určený nesprávny rozdiel
KTORÝ TEST POUŽIŤ? závisí, ktorý typ chyby je akceptovateľnejší z hľadiska analýzy daného problému, t.j. neurčenie rozdielu, ak skutočne existuje, resp. určenie rozdielu, ktorý neexistuje.
Testy kontrastov - Statgraphics Multiple Range Tests Method: 95,0 percent LSD Count Mean Homogeneous Groups Col_4 5 303,8 X Col_3 5 337,0 XX Col_1 5 344,2 X Col_2 5 349,8 X Contrast Sig. Difference +/- Limits Col_1 - Col_2 -5,6 38,7085 Col_1 - Col_3 7,2 38,7085 Col_1 - Col_4 * 40,4 38,7085 Col_2 - Col_3 12,8 38,7085 Col_2 - Col_4 * 46,0 38,7085 Col_3 - Col_4 33,2 38,7085 * denotes a statistically significant difference.
Testy kontrastov - Statgraphics
Overenie zhody variability predpokladáme, že skúmané výberové súbory majú približne normálne rozdelenie a rozdiely rozptylov medzi testovanými skupinami sú nepreukazné. H0: Testy: Cochranov test Hartleyov test Bartlettov test
Cochranov test je ho vhodné použiť, ak u skúmaných výberových súborov sú značné rozdiely medzi rozptylmi testovacia charakteristika: ak G ≥ Gα, m, n-1 → H0 zamietame Gα, m, n-1 - tabuľková hodnota pri m a n-1 stupňoch voľnosti
Hartleyov test testovacia charakteristika: ak H ≥ Hα, m, n-1 → H0 zamietame Hα, m, n-1 - tabuľková hodnota pri m a n-1 stupňoch voľnosti
Bartlettov test spočíva v porovnávaní aritmetického a geometrického priemeru rozptylov. Ak sú rozptyly rovnaké, potom aj priemery sú rovnaké. testovacia charakteristika: ki = ni-1 m – počet výberových súborov ni – rozsah i-teho výberového súboru Ak χ2χ2(m-1), potom H0 zamietame
Overenie zhody variability - Statgraphics Variance Check Test P-Value Bartlett's 1,70592 0,0517136
ĎAKUJEM ZA POZORNOSŤ