Boro Nikić Oddelek za vzorčenje in anketno metodologijo November, 2011

Boro Nikić Oddelek za vzorčenje in anketno metodologijo November, 2011
Vzorčenje Na SURS Boro Nikić Oddelek za vzorčenje in anketno metodologijo November, 2011

Zakaj vzorčenje? (1) Preden začnemo z izvajanjem nekega statističnega raziskovanja, najprej opredelimo populacijo zanimanja (opazovana populacija), eno ali več proučevanih spremenljivk in populacijski parameter (ali več populacijskih parametrov), ki nas pri tem raziskovanju zanimajo.

Zakaj vzorčenje? (2) Primer: Populacija zanimanja
Proučevana spremenljivka Populacijski parameter Vsi polnoletni prebivalci RS Izobrazba osebe Delež prebivalcev z univerzitetno izobrazbo Vsa gospodinjstva v RS Število mobilnih telefonov na gospodinjstvo Povprečno število mobilnih telefonov na gospodinjstvo Vsa podjetja v gradbeni dejavnosti Prihodek podjetja (Investicije, Inovacije,...) Celotni prihodek podjetij v gradbeništvu, delež prihodka namenjen za investicije..

Zakaj vzorčenje? (3) Če bi hoteli dobiti (pravo) vrednost populacijskega parametra, potem bi v raziskovanje vključili vse elemente opazovane populacije. Slabosti: Velika obremenitev poročevalskih enot Velika obremenitev oseb, ki raziskovanje izvajajo Stroški takega raziskovanja so lahko zelo visoki Izvajanje takega raziskovanja zahteva veliko časa Zato velika večina raziskovanj poteka na podlagi izbranega vzorca.

Terminologija (1) Populacija je množica, katere lastnosti statistično proučujemo. Element populacije imenujemo statistična enota oziroma enota. Število enot v populaciji označimo z N. Pri opazovanju populacije nas zanimajo lastnosti enot. Statistična spremenljivka (statistični znak ali proučevana spremenljivka) opisuje posamezno lastnost enote. Statistični spremenljivki ponavadi pravimo kar spremenljivka. Proučevano spremenljivko označimo z y, vrednost proučevane spremenljivke za enoto i pa yi. Populacijska lastnost ali parameter, ki nas pri nekam raziskovanju zanima, je neka funkcija f(y1,y2,….,yN) vseh populacijskih vrednosti proučevane spremenljivke y.

Terminologija (2) Populacija: U={1,2,…,N}
Vrednosti proučevane spremenljivke y: {y1,y2,….,yN} Populacijski parameter: f(y1,y2,….,yN)

Primeri populacijskih parametrov (1)
Populacijska aritmetična sredina (AS): Populacijska vsota:

Populacijski delež (d): Je poseben primer aritmetične sredine, pri kateri proučevana spremenljivka zavzame le vrednosti 1 (enota ima lastnost, ki jo opazujemo) in 0 (enota nima lastnosti, ki jo opazujemo). Populacijsko razmerje: Če sta spremenljivki x in y proučevani spremenljivki pri nekem raziskovanju, potem je populacijsko razmerje količnik njunih populacijskih vsot.

Populacijska varianca (meri razpršenost podatkov okoli aritmetične sredine): Populacijski standardni odklon (meri razpršenost podatkov okoli aritmetične sredine in ima isto enoto kot AS):

Populacijska elementarna varianca in elementarni odklon (zelo pomembna pri verjetnostnemu vzorčenju): Koeficient variacije (meri relativno razpršenost podatkov okoli AS, je mera za primerjavo razpršenosti podatkov okoli dveh AS):

Vzorčenje Vzorec: Vsak del (podmnožico) populacije zanimanja imenujemo vzorec. Izbrani vzorec označimo s s ( ) . Velikost vzorca označimo z n. Vzorce delimo na verjetnostne in neverjetnostne vzorce. Ker lahko le na podlagi izbranega verjetnostnega vzorca povemo več o natančnosti ocen, se pri tej predstavitvi omejimo na teorijo verjetnostnega vzorčenja.

Verjetnostno vzorčenje (1)
Verjetnostno vzorčenje je postopek izbire vzorca iz populacije zanimanja, ki zadošča naslednjim pogojem: Poznamo množico vseh vzorcev in verjetnosti njihovega izbora, ki so možni pri tem postopku Vsak element populacije ima neničelno verjetnost izbora v vzorec Z nekim naključnim mehanizmom izberemo natanko en vzorec Vzorec izbran z upoštevanjem zgornjih zahtev imenujemo verjetnostni vzorec.

Določitev verjetnosti izbora vzorcev populacije U z upoštevanjem pogoja neničelnih verjetnosti izbora elementov te populacije imenujemo vzorčni načrt. Najbolj znana vzorčna načrta sta enostavno slučajno vzorčenje s ponavljanjem (angl. Simple random sampling with replacement, SRSWR) in enostavno slučajno vzorčenje brez ponavljanja (angl. Simple random sampling without replacement, SRSWOR).

SRSWR vzorčni načrt: Pri tem vzorčnem načrtu imata vsak vzorec s velikosti n in vsak element k enaki verjetnosti izbora, pri čemer se izbrani elementi populacije lahko ponavljajo. Verjetnost izbora elementa k v vzorec je verjetnost izbora vzorca s pa

SRSWOR vzorčni načrt: Pri tem vzorčnem načrtu imata vsak vzorec s velikosti n in vsak element k enaki verjetnosti izbora, pri čemer se izbrani elementi populacije v vzorcu ne smejo ponoviti. Verjetnost izbora elementa k v vzorec je n/N, verjetnost izbora vzorca s pa

Pri SRSWR vzorčenju iz populacije izberemo prvi element v vzorec z verjetnostjo 1/N, ta element vrnemo v populacijo in nato izberemo drugi element v vzorec z isto verjetnostjo in ga vrnemo v populacijo ter s tem postopkom nadaljujemo, dokler ne izberemo vseh n elementov v vzorec. Torej, lahko se zgodi, da imamo v vzorcu en sam element, ki “nastopa” n-krat in lahko se zgodi, da različni vzorci vsebujejo enake elemente. Pri SRSWOR vzorčenju se to ne more zgoditi.

Statistike (1) Na podlagi izbranega (verjetnostnega ali neverjetnostnega) vzorca izračunamo oceno (statistiko) populacijskega parametra, ki je lahko bolj ali manj natančna (točna). V splošni teoriji s pojmom statistika označujemo realno funkcijo, katere vrednosti (lahko) varirajo z različnimi izidi nekega eksperimenta. Če je statistika izid izračunan na podlagi slučajnega vzorca, potem je to slučajna spremenljivka, ki ji rečemo cenilka.

Statistike (2) Ker je statistika slučajna spremenljivka, ima veliko statističnih lastnosti. Najpomembnejši lastnosti pri slučajnem vzorčenju sta pričakovana vrednost in varianca. Pričakovana vrednost diskretne slučajne spremenljivke Y je definirana kot vsota produktov njenih vrednosti z verjetnostmi izidov, pri kateri so te vrednosti dosežene. Torej

Statistike (3) Varianca slučajne spremenljivke Y je pričakovana vrednost kvadrata razlike slučajne spremenljivke in njene pričakovane vrednosti. Torej

Statistike (4) Če je slučajna spremenljivka cenilka, potem njeno varianco imenujemo vzorčna varianca, njen standardni odklon (kvadratni koren variance) pa standardna napaka (označimo s se). Seveda želimo, da bo pričakovana vrednost cenilke, ki jo pri nekem vzorčnem načrtu izberemo, enaka pravi populacijski vrednosti, njena vzorčna varianca pa čim manjša.

Primeri cenilk Denimo, da imamo pri SRSWOR vzorčnem načrtu slučajni vzorec s={1,….,n}. Cenilka populacijskega povprečja: Cenilka populacijske vsote:

Cenilke V splošnem je cenilka vsote (ne glede na vzorčni načrt) enaka vsoti produktov obratnih verjetnosti izbora elementov vzorca z vrednostmi proučevane spremenljivke: Obratne verjetnosti izbora wk imenujemo uteži. Vse ostale cenilke pa izrazimo kot funkcijo cenilke vsote. Cenilka povprečje je:

Natančnost ocen (1) Vzorčna napaka je razlika med populacijskim parametrom in njegove ocene pridobljene na podlagi podatkov izbranega vzorca. Vzorčne napake v praksi nikoli ne poznamo, ker ne poznamo populacijskega parametra. Lahko pa vzorčno napako ocenimo, če izberemo verjetnostni vzorec.

Natančnost ocen (2) Če bi pri nekem vzorčnem načrtu (v veliki populaciji) izbrali vse možne vzorce (dovolj velike velikosti) in izračunali vse možne ocene, potem bi videli, da so te ocene približno normalno porazdeljene okoli vrednosti populacijskega parametra. Če se spomnimo normalne porazdelitve neke spremenljivke, potem vemo, da je približno 68% vrednosti spremenljivke v intervalu širine 2 standardna odklona okoli povprečne vrednosti spremenljivke in da je približno 95% vrednosti spremenljivke v intervalu širine 4 standardne odklone okoli povprečne vrednosti spr.

Natančnost ocen (3)

Natančnost ocen (4) Statistiki so pokazali, da se ocene pri slučajnem vzorčenju približno normalno porazdeljujejo okoli prave vrednosti parametra. Še več, pokazali so, kako izračunati standardno napako (se) pri različnih vzorčnih načrtih. S pomočjo standardne napake potem izračunamo (ocenimo) interval zaupanja oz. koeficient variacije (CV) ocene, ki sta glavni meri za natančnost ocen populacijskih parametrov.

Natančnost ocen (5) Če vemo, da je neka nepristranska cenilka približno normalno porazdeljena in če poznamo njeno vzorčno varianco, potem bi lahko vnaprej povedali, kolikšna bo verjetnost, da bo ocena v nekem intervalu okoli parametra (govorimo o verjetnostnemu intervalu). Problem je v tem, da parametra in variance cenilke ne poznamo. Problem vzorčne variance rešimo tako, da izračunamo njeno oceno na podlagi vzorca.

Natančnost ocen (6) Problem verjetnosti, da je ocena parametra v nekem intervalu okoli parametra, pa lahko z nekaj premisleka obrnemo: Verjetnost, da je ocena parametra v nekem intervalu okoli parametra je enaka verjetnosti, da bo parameter v intervalu iste širne okoli njegove ocene.

Natančnost ocen (7) Interval zaupanja okoli parametra
Parameter-1,96*vzorčna varianca Parameter-1,96*vzorčna varianca Parameter Parameter Ocena ocena-1,96*vzorčna varianca ocena-1,96*vzorčna varianca Parameter Ocena Interval zaupanja okoli ocene

Natančnost ocen (8) Pri enostavnem slučajnem vzorčenju brez ponavljanja izračunamo oceno standardne napake za aritmetično sredino po formuli:

Natančnost ocen (9) 95% odstotni interval zaupanja (CI)
CI=[ocena-1,96*se; ocena+1,96*se] Koeficient variacije (CV) CV=ocena parametra/se

Natančnost ocen (10) Verjetnostni interval je v splošnem slučajni interval, saj sta meji intervala (ocena±1,96*se) slučajni vrednosti. Pred izborom verjetnostnega vzorca sprejmemo majhno tveganje (5% verjetnost v našem primeru), da parameter ne bo v tem intervalu. Ko pa ta interval določimo (govorimo o intervalu zaupanja) na podlagi ocen vzorca, potem več ne moremo govoriti o verjetnosti, temveč samo o zaupanju (zaupamo, da je prava vrednost v intervalu).

Stratificirani vzorčni načrt (1)
Ideja: Populacijo razdelimo na paroma neprekrivajoče množice in nato iz vsake od teh množic, neodvisno od drugih množic, izberemo SRSWOR vzorec. Te množice imenujemo stratumi. Populacija U h1 h2 h1,h2,h3,h4 - stratumi s1 s2 s=s1 U s2 U s3 U s4 - vzorec s4 s3 h3 h4

Nekateri razlogi za uporabo: Različni načini anketriranja enot (npr. v en stratum uvrstimo osebe s telefonskimi številkami, v drugi pa osebe, ki nimajo telefonov in jih anketiramo na terenu) Z razdelitvijo na stratume zagotovimo razpršenost vzorca Če hočemo objaviti ocene na domenah (podmnožicah populacije) opazovanja, jih definiramo kot stratume Zmanjšamo vzorčno varianco (povečamo natančnost cenilke)

Primeri: Pri raziskovanjih podjetij stratume običajno definiramo z velikostnimi razredi podjetij (npr zaposlenih, in 250 in več zaposlenih) ter razredi dejavnosti (npr. dvomestna dejavnost podjetij glede na klasifikacijo dejavnosti) Pri raziskovanjih oseb in gospodinjstev stratume običajno določajo regije, tipi naselij, starostni razredi, spol,…

Ko določimo velikost vzorca n, moramo to velikost alocirati(razporediti) med stratume. To lahko naredimo na tri načine: V vsakem stratumu izberemo enako enot v vzorec (enakomerna alokacija) nh=const in Σnh=n V vsakem stratumu izberemo proporcionalno število enot glede na velikost stratuma v vzorec (proporcionalna alokacija) in Σnh=n

V vsakem stratumu izberemo proporcionalno število enot glede na velikost stratuma in glede na elementarni standardni odklon proučevane spremenljivkev vzorec (proporcionalna alokacija) in Σnh=n

Najbolj uporabljena alokacija je proporcionalna, najbolj natančne ocen nam da optimalna alokacija. Cenilka vsote pri stratificiranem vzorčenju:

Vzorčna varianca cenilke vsote je in njena ocena Ta cenilka bo praviloma bolj natančna kot cenilka SRSWOR načrta, če bodo stratumi med sabo čim bolj nehomogeni, hkrati pa enote znotraj posameznega stratuma čim bolj homogene.

Stratificiran vzorčni načrt (8)
Vse ostale cenilke pa izrazimo kot funkcijo cenilke vsote. Npr. cenilka povprečja je in

Stratificiran vzorčni načrt (9)
Za primerjavo natančnosti cenilk poljubnega vzorčnega načrta in SRSWOR vzorčnega načrta uporabljamo vzorčni učinek Deff. To je razmerje med vzorčnima variancama obeh cenilk. Kot smo že povedali, je Deff stratificiranega vzorčnega načrta praviloma manjši od 1.

Ostale cenilke parametrov (1)
Razmernostna cenilka Če imamo dano pomožno spremenljivko x (katere vrednosti poznamo pred izvajanjem raziskovanja), ki je v dobri korelaciji s proučevano spremenljivko, potem je razmernostna cenilka bolj točna kot HT cenilka

GREG cenilka Dana ena ali več pomožnih spremenljivk (spremenljivke, katerih podatke poznamo pred izvajanjem raziskovanja), ki so v dobri linearni povezanosti s proučevano spremenljivko. Ocenimo parametre linearnega modela z metodo najmanjših kvadratov, napako pa s HT cenilko. Taki cenilki pravimo “model assisted” cenilka.

Kalibracija in Raking Kalibracijo uporabimo, če želimo določiti take uteži, da je ocena vsote pomožne spremenljivke enaka “pravi” vsoti (npr. ocena strukture prebivalstva po spolu je enaka populacijski strukturi) Raking je kalibracija z več pomožnimi spremenljivkami.

Vzorčenje na SURS-u (1) Postopek, ki ga opravimo pri vzorčnem raziskovanju na oddelku za vzorčenje: Določitev vzorčnega okvira Določitev vzorčnega načrta (skupaj z velikostjo vzorca) in izbor vzorca Imputacije in izračun uteži Izračun natančnosti ocen

Vzorčni okvir (1) Vzorčni okvir je seznam enot populacije zanimanja z njihovimi naslovi, stratifikacijskimi spremenljivkami,... Vzorčni okvir je približek populacije zanimanja in naš cilj je, da je kar se da podoben populaciji, saj nas lahko nenatančno določen okvir privede do resne pristranskosti ocen.

Vzorčni okvir (2) Populacija Vzorčni okvir Vzorec

Vzorčni načrti Poslovne ankete: Stratificiran vzorčni načrt
Sistematičen vzorčni načrt Zajem s pragom Ankete oseb in gospodinjstev: Dvostopenjski vzorčni načrt

Izračun uteži (1) Po izvedbi raziskovanja se ustvari adresar s statusi, kjer ločimo: Enote, ki so odgovorile na vprašalnik (t.i. pozitivne in negativne enote) Enote, ki niso odgovorile na vprašalnik (enota ni odgovorila na nobeno vprašanje v vprašalniku) Neustrezne enote (enote, ki niso del populacije zanimanja)

Izračun uteži (2) S pomočjo statusov enot iz adresarja izračunamo uteži neodgovora in nato končne uteži, ki so produkt med utežmi zaradi neodgovora in utežmi izbora (utež izbora je enaka obratni vrednosti verjetnosti izbora enote)

Izračun uteži (3) V resnici je izračun popravkov uteži zaradi neodgovora precej bolj kompleksen, ker je struktura neodgovora največkrat različna od strukture neodgovora.

Izračun natančnosti ocen
Na koncu izračunamo natančnosti ocen (ponavadi CV-je) in se na njihovi podlagi odločimo ali ocene objavimo ali ne. Zelo natančne ocene objavimo brez posebnih oznak, manj natančne ocene objavimo skupaj s črko M, premalo natančne ocene ne objavimo, namesto njih zapišemo črko N.

Standardni objavljanja vzorčnih napak (1)
Oznake, ki jih uporabljamo so npr: Če je ocena natančna (npr. CV<10%), jo objavimo brez oznak Če je ocena dovolj natančna (npr. 10%<CV<30%) jo objavimo skupaj s črko M Če je ocena zelo nenatančna (npr. CV>30%), jo ne objavimo, namesto nje zapišemo oznako N

Standardni objavljanja vzorčnih napak (2)
Cestni blagovni prevoz glede na vrsto poslovnega subjekta in na vrsto prevoza, Slovenija, 2. četrtletje 2009 Skupaj Javni prevoz Prevoz za lastne potrebe Pravne osebe Fizične osebe 1000 t SKUPAJ Notranji prevoz M M Mednarodni prevoz M mio. tkm SKUPAJ 3.898, ,4 314, , Notranji prevoz 615,6 384,5 N 375,7 239,9 Mednarodni prevoz 3.283, ,4M 2.029, ,2 mio. km SKUPAJ 267,7 234,8 32,9 163,5 104,2 Notranji prevoz 62 34,2 27,8 36,1 25,8 Mednarodni prevoz 205,7 200,6 5,1M 127,4 78,3 M - manj natančna ocena – previdna uporaba N- nenatančna ocena

Izzivi na SURS Koordinirano vzorčenje Analiza neodgovora
Vstavljanje manjkajočih podatkov (neodgovor spremenljivke) Ocenjevanje parametrov na domenah (v predstavitvi govorimo le o populacijskih ocenah) Modeli in SAE („small area estimation“, majhne domene)

Opombe (1) Če je neničelna verjetnost (verjetnost prvega reda) izbora elementa k v vzorec in verjetnost (verjetnosti drugega reda) izbora elementov k in l v vzorec, potem je Horvitz-Thompsonova cenilka za vsoto:

Opombe (2) Vzorčna varianca HT cenilke:
Ocena vzorčne variance HT cenilke:

Opombe (3) a je oznaka za obratno vrednost verjetnosti π
pri HT cenilki morajo biti tudi verjetnosti drugega reda neničelna števila Če so verjetnosti prvega reda enake za vsa k ter verjetnosti druge reda enake za vsaka k in l, potem takemu vzorčenju pravimo slučajno vzorčenje Tipično vzorčenje, pri katerem verjetnost drugega reda ni vselej neničelno število, je stratificirano vzorčenje

Boro Nikić Oddelek za vzorčenje in anketno metodologijo November, 2011

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Boro Nikić Oddelek za vzorčenje in anketno metodologijo November, 2011"— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Boro Nikić Oddelek za vzorčenje in anketno metodologijo November, 2011

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Boro Nikić Oddelek za vzorčenje in anketno metodologijo November, 2011"— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια