CERCETĂRI DE MARKETING Tema 8 An universitar 2016-2017 Sem. I Licenta
Tema 8. Eşantionarea - metode şi tehnici Delimitări conceptuale privind termenii utilizaţi în procesul de eşantionare Fazele eşantionării Metode de eşantionare şi criterii de alegere a lor Stabilirea dimensiunii eşantionului Calitatea estimaţiilor şi erori de reprezentativitate
1. Delimitări conceptuale privind termenii utilizaţi în procesul de eşantionare Eşantionarea este o tehnică de cercetare a colectivităţilor totale prin intermediul unor părţi reprezentative ale acesteia. Eşantionarea se referă la metode sistematice de selecţie a subiecţilor care vor fi studiaţi. Cel mai adesea este necesară selecţia unităţilor de înregistrare din universul cercetării, deoarece mărimea populaţiei investigate depăşeşte interesul ori resursele cercetătorului. Cel mai frecvent, eşantionarea se aplică în cazul anchetelor sau al sondajelor, când unităţile de înregistrarea sunt indivizi. Alte metode (analiza de conţinut, observaţia, analiza de reţea) pretind şi ele selecţia subiecţilor din universul cercetat.
1. Termeni cheie – delimitări conceptuale Populaţia (colectivitatea generală cercetată) – reprezintă un grup total ţintă de la care este solicitată informaţia. Totalitatea unităţilor simple sau complexe care formează obiectul cercetării prin sondaj. Se disting: populaţii finite şi populaţii infinite. Numărul locuitorilor ţării sau numărul studenţilor dintr-o universitate sunt exemple de populaţie finită. Numărul volumelor probabil ale recoltelor de grâu dintr-un anumit lan este un exemplu de populaţie infinită. populaţii reale şi populaţii ipotetice. Populaţie reală – studenţii dintr-o universitate Populaţie ipotetică – toate aruncările posibile ale unui zar, numărul stelelor de pe cer. populaţii omogene şi neomogene.
1. Termeni cheie – delimitări conceptuale O populaţie conţine diferite subpopulaţii, totodată o populaţie dată poate fi un element al unei populaţii mai largi. Orice populaţie reală poate fi privită ca un element al unei populaţii ipotetice. Noţiune de populaţie se referă la observaţiile ce pot fi facute asupra unităţilor. O populaţie constă din totalitatea observaţiilor privitoare la o anumită chestiune. Sinonimii în teoria sondajului: Populaţie = Univers = Colectivitate generală cercetată
1. Termeni cheie – delimitări conceptuale Eşantionul – este o mulţime de elemente selectate după anumite criterii din populaţia întreagă pentru a fi studiate. Eşantionul reprezintă o parte sau un număr de elemente ale populaţiei totale. La dimensionarea eşantionului se au în vedere restricţiile de ordin: statistic şi organizatoric. Eşantionul se notează cu “n” cănd este format din unităţi simple şi cu “r” când se referă la unităţi complexe. Pentru variabile alternative, numărul unităţilor care posedă caracteristica ăn eşantion se notează cu “m”. Eşantionare - procesul de alegere din colectivitatea întreagă a elementelor incluse pentru formarea eşantionului. Scopul urmărit prin extragerea a unui eşantion dintr-o populaţie, cu respectarea tuturor rigorilor teoriei sondajului, este ca valorile obţinute prin prelucrarea datelor privitoare la eşantion să poată fi generalizate asupra întregii populaţii. Adriana Buzdugan, ULIM
1. Termeni cheie – delimitări conceptuale Sinonimii: Eşantion = Colectivitate de selecţie Unitate a colectivităţii poate fi o persoană, familii, menaje, companii, organizaţii etc. Este important să se definească clar caracteristicile acestei unităţi. Ex.: un supermarket poate solicita un sondaj a clienţilor efectivi sau a cumpărătorilor. Întrucît, de regulă nu există lista nominală a clienţilor, colectivitatea cercetată va fi identificată stabilindu-se anumite raţiuni – posibil cei care au vizitat supermarketul şi au făcut cumpărături. Indicatorii eşantionului se numesc valori de sondaj. Indicatorii populaţiei se numesc parametri.
1. Termeni cheie – delimitări conceptuale Colectivitatea generală cercetată denumită şi populaţie, este alcătuită din totalitatea unităţilor simple sau complexe care formează fenomenul supus cercetării. Cercetarea trebuie să înceapă cu delimitarea strictă, în timp şi în spaţiu a populaţiei. Volumul colectivităţii generale (populaţiei), din care urmează să se extragă unităţile în scopul formării eşantionului se notează cu ”N” în cazul unităţilor simple şi cu ”R” în cazul celor complexe. Dacă s-au înregistrat şi variabile alternative pentru a se estima proporţiile, atunci unităţile care posedă caracteristica se notează cu ”M”. Cercetarea prin sondaj implică folosirea unor noţiuni pereche: colectivitate generală - colectivitate de selecţie; media colectivităţii generale - media colectivităţii de selecţie; dispersia colectivităţii generale - dispersia colectivităţii de selecţie; valoarea statistică calculată - valoarea estimată ş.a.
1. Termeni cheie – delimitări conceptuale Colectivitatea de selecţie (eşantion, probă, mostră) reprezintă acea parte a colectivităţii generale de la care urmează să se culeagă datele în scopul extinderii rezultatelor obţinute din prelucrarea acestora asupra întregului ansamblu. Volumul colectivităţii de selecţie se notează cu ”n” când este format din unităţi simple şi cu ”r” când se referă la unităţi complexe. Pentru variabile alternative numărul unităţilor care posedă caracteristica se notează cu ”m”. De remarcat este faptul că dintr-o anumită populaţie (colectivitate generală) pot fi extrase mai multe eşantioane de volum n. Un eşantion este considerat reprezentativ atunci când reproduce în structura sa aceeaşi structură pe care o prezintă şi colectivitatea generală.
Consideraţii teoretice privind eşantionarea Populaţia este stabilă. Eşantioanele pot fi variate. În practică se foloseşte un singur eşantion considerat reprezentativ pentru populaţia studiată. Problema centrală a sondajului – ce generalizări pot fi făcute asupra unei populaţii, pe baza observării statistice a unui singur eşantion. Important eşantionul să fie rezultatul unui proces aleator. Aleator înseamnă că toate unităţile unei populaţii au probabilitate egală de a fi incluse în eşantion. Numai dacă sondajul este aleatoriu, legile probabilităţii devin aplicabile, făcând posibilă inferenţa statistică de la caracteristicile eşantionului la cele ale populaţiei.
2. Fazele eşantionării Definirea colectivităţii de studiat (planul observării ) Determinarea bazei sondajului Alegerea metodei de eşantionare (extracţie) Stabilirea mărimii(volumului) eşantionului Estimatorii şi precizia lor teoretică
2.1Definirea colectivităţii de studiat (planul observării ) Planul observării de regulă include un număr de caracteristici ale populaţiei. Pentru reprezentativitatea eşantionului trebuie aleasă caracteristica populaţiei cu cel mai mare grad de variaţie. Criteriul de alegere a caracteristicii reprezentative îl constituie mărimea coeficientului de variaţie. ! Un eşantion dimensionat în funcţie de cel mai mare coeficient de variaţie oferă estimaţii cu precizie ţi siguranţă superioară pentru toate celelalte caracteristici.
2.2 Cerinţe pentru baza sondajului La momentul constituirii bazei sondajului este important să se delimiteze clar: Unitatea populaţiei Unitatea de observare – unitatea despre care se culege informaţia Unitatea de eşantionare – unitatea de la care se culege informaţia O bază de sondaj trebuie să îndeplinească o serie de condiţii: Să fie adecvată scopului urmărit şi să cuprindă întreaga populaţie care va fi supusă sondajului. Să nu conţină înregistrări repetate, fiecare unitate să fie cuprinsă în baza de sondaj o singură dată. Să fie exactă, evitând-se includerea unor unităţi care n-ar trebui să figureze din diferite motive. Să fie cât mai actuală posibil. Să fie convenabilă - disponibilă într-un singur centru.
2.2 Baza de sondaj Eşantionul, din punct de vedere al organizării trebuie să aibă unităţile sale simple sau complexe înscrise într-o ordine aleatoare după un anumit criteriu: alfabetic, teritorial, de timp, etc. care nu are nici o legătură cu rangul de mărime al valorilor variabilelor luate în studiu. Adriana Buzdugan, ULIM
3. Metode de eşantionare şi criterii de alegere a lor Principii de asigurare a reprezentativităţii eşantionului: Includerea în eşantion a unităţilor în mod obiectiv fără a acorda preferinţă uneia dintre ele, fiecare unitate fiind extrasă din baza de sondaj după principiul hazardului cu o probabilitate calculabilă şi diferită de zero; Eşantionul stabilit să fie suficient de mare ca să permită redarea trăsăturilor esenţiale ale populaţiei totale, ceea ce va permite obţinerea, pe baza datelor de sondaj, a unor indicatori cu un grad mare de stabilitate; Includerea fiecărei unităţi în eşantion trebuie să se facă independent de alte unităţi; ! Practica sondajului demonstrează că reprezentativitatea unui eşantion depinde în primul rând, de alegerea corectă a procedeelor şi tipurilor de selecţie.
3. Metode de eşantionare şi criterii de alegere a lor Clase de eşantioane Eşantioane probabiliste (aleatorii) (probability sample) – selecţie în care fiecare element al colectivităţii are aceeaşi probabilitate de a fi inclus în eşantion. Eşantioane neprobabiliste (nealeatorii) – dirijate, procesul selecţiei este parţial subiectiv şi nu există probabilitatea ca o unitate a colectivităţii să fie selecţionată, nefiind necesară o bază de sondaj.
Procedee de selecţie a eşantionului (eşantionare) Selecţia aleatoare - exclude orice intervenţie subiectivă a cercetătorului în alegerea eşantionului. Acest obiectiv se poate realiza numai dacă selectarea unui element dintr-o populaţie este aleatoare (întâmplătoare), dacă toate elementele populaţiei au aceeaşi şansă de a fi alese. Selecţiile dirijate (subiectiv organizate/nealeatorii) - alegerea unităţilor se face de către persoanele care culeg datele. Selecţia mixtă - combină principiile sondajului aleator cu ale celui dirijat. În acest caz este necesar ca mai întâi să se împartă colectivitatea în grupe tipice după o anumită caracteristică (de exemplu, personalul după categoria de încadrare sau după calificare etc.) şi apoi să se extragă aleator câte un eşantion din fiecare grupă. Notă: Selecţiile dirijate şi cele mixte se folosesc în special în sondajele de opinie, în cercetările sociologice şi uneori în studiul cererii de consum a populaţiei.
I. Metoda aleatoare de eşantionare Sinonimii: Eşantionare aleatoare= Eşantionare probabilistă Scopul eşantionării aleatoare (probabiliste) este de a oferi cercetătorului capacitatea de a realiza inferenţe precise privitoare la o populaţie mare pe baza unui număr mult mai mic de cazuri. Eşantion aleator este acela care este proiectat pe baza regulilor probabilităţii, care permite determinarea măsurii în care eşantionul reprezintă populaţia din care a fost selectat. Este considerat aleator doar acel eşantion în al cărui caz fiecare individ din populaţie a avut o probabilitate calculabilă de a fi inclus.
I. Metode aleatoare de eşantionare În practică, selecţiile aleatoare (probabilistice) se realizează prin mai multe procedee, care derivă dintr-o schemă probabilistică corespunzătoare rezultatelor obţinute prin tragere la sorţi a unităţilor pentru a forma eşantionul. Selecţia aleatoare poate fi: Fixă ( după planuri de sondaje simple) – presupune stabilirea de la început a mărimii eşantionului în funcţie de restricţiile de ordin statistic şi organizatoric. Această metodă se poate realiza cu sau fără impunerea unor restricţii în procesul de selecţie. Se aplică în cazul populaţiilor omogene. Secvenţială (după planuri de sondaje cu mai multe etape) – sunt extrase o serie de eşantioane succesive, până când pe baza analizei datelor recoltate se constată că sunt îndeplinite unul sau mai multe criterii prestabilite (stratificarea, sondajul multistadial, multifazic, sondajul de serii, sondajul secvenţial etc.). Se aplică în cazul populaţiilor neomogene. Adriana Buzdugan, ULIM
I. Metode aleatoare de eşantionare Sondajul aleatoriu simplu Procedee absolut aleatoare : Procedeul loteriei Procedeul tabelului cu numere întâmplătoare Procedeul mecanic Sondajul stratificat Sondajul sistematic Sondajul cluster Sondajul cu probabilităţi inegale Sondajul multistadial Sondajul Poisson Sondajul în trepte Adriana Buzdugan, ULIM
A. Sondajul aleatoriu simplu Sondajul aleatoriu simplu se aplică când unităţile din populaţie sunt de dimensiuni mici şi nu există diferenţe semnificative între mărimea diferitelor unităţi ale populaţiei). Se mai numeşte eşantionare cu probabilităţi egale sau pură aleatoare. Constă în extragerea întâmplătoare cu ajutorul unei tabele de numere aleatoare sau a funcţiei “random” a unui eşantion de “n” indivizi din cele “N” elemente având aceeaşi probabilitate de selecţie. Poate fi cu sau fără revenire. Conduce la construirea unui eşantion fără a impune restricţii prealabile. Este cel mai aplicat tip de sondaj. Avantaje – necesită calcule simple. Dezavantaje – este imprecis, prezintă doar valoare teoretică, eroarea de selecţie depinde de variabilitatea caracteristicilor studiate.
A. Sondajul aleatoriu simplu Procedeul loteriei (tragerii la sorţi) - constă în extragerea dintr-o urnă (Bernoulli) a unor bile sau alte obiecte identice reprezentând fiecare o unitate a colectivităţii. Se poate realiza în două variante: procedeul selecţiei aleatoare repetate (al bilei revenite/ reîntroduse); procedeul selecţiei aleatoare nerepetate (al bilei nerevenite). Se foloseşte în cazurile în care colectivitatea generală cuprinde un număr mai mic de unităţi pentru care se pot asigura bile sau alte obiecte identice care să poată fi incluse într-o urnă. În cazul selecţiei nerepetate este exclusă posibilitatea extragerii de mai multe ori a aceleiaşi unităţi, erorile sunt mai mici, deci rezultatele obţinute au un grad de precizie mai ridicat.
A. Sondajul aleatoriu simplu Procedeul tabelului cu numere întămplătoare – aceste tabele se alcătuiesc cu ajutorul unei maşini de amestecat numere (randomizatoare). Plasarea numerelor este întîmplătoare, din orice parte a tabelului ar fi privite. Este necesară numerotarea unităţilor colectivităţii generale de la 1 la N şi apoi extragerea celor n unităţi care formează eşantionul. Ex.:considerând că în colectivitatea generală sunt 900 unităţi şi se intenţionează constituirea unui eşantion format din 10% (n=90) se va proceda în felul următor: se va alege la întâmplare coloana şi rândul din coloana respectivă cu care se va începe selecţia. Numărul respectiv şi numerele aleatoare formate din trei cifre care se vor citi pe coloana respectivă vor fi notate dacă sunt cuprinse între 1 şi 900 şi diferă de cele reţinute anterior şi se va renunţa la ele dacă sunt peste 900. Se continuă în felul acesta până la formarea completă a eşantionului (90 unităţi). Acest procedeu are sens numai prin asociere cu experimente, consemnări privind frecvenţa de producere a unui fenomen sau de apariţie a unei caracteristici într-un proces. Generarea numerelor aleatoare se poate face cu calculatorul, folosind funcţia “random” existentă pentru orice limbaj de programare.
A. Sondajul aleatoriu simplu Selecţia mecanică - presupune ordonarea unităţilor colectivităţii generale după o caracteristică oarecare (ordine alfabetică, numărul de la locuinţă etc.) prin care să se asigure includerea pe cât posibil întâmplătoare a unităţilor în baza de sondaj. Operaţia de alcătuire a eşantionului în acest caz este precedată de stabilirea pasului de numărare - care trebuie să fie un număr întreg - calculat ca raport între volumul colectivităţii generale şi volumul colectivităţii de selecţie (N/n). Prin calculul pasului de numărare se obţine împărţirea colectivităţii generale în grupe de volum egal. Pentru constituirea eşantionului se procedează în felul următor: se selectează la întâmplare (prin tragere la sorţi) o unitate din prima grupă la care se adaugă succesiv pasul de numărare până la obţinerea celor n unităţi ale eşantionului. Adriana Buzdugan, ULIM
B. Sondajul stratificat Eşantionarea stratificată presupune formarea apriori de grupe omogene de indivizi, din fiecare grupă extrăgându-se un eşantion. Cuprinde două faze: colectivitatea este divizată în grupuri pe baza unor criterii geografice, demografice, economice. din fiecare grup se extrage un număr predeterminat de componente, alcătuindu-se astfel eşantionul total. Ex.:, dacă este important într-un sondaj de opinie ca reprezentarea pe cartierele oraşului să fie proporţională cu distribuţia din populaţie, vom împărţi cadrul de eşantionare – listele electorale – pe cartiere şi vom selecta aleator printr-una din procedurile descrise mai sus din fiecare dintre populaţiile de cartier. Numărul de componente extras din fiecare grup poate fi sau nu proporţional cu mărimea stratului. Avantaje: se îmbunătăţeşte considerabil precizia estimaţiei, straturile fiind fixate, se poate determina repartiţia optimă a eşantionului pe straturi. Dezavantaje: este dificil de rezolvat determinarea optimă a straturilor. Adriana Buzdugan, ULIM
C. Sondajul sistematic Eşantionarea sistematică aleatoare (metoda pasului sau cvasi aleatoare) se realizează cu ajutorul metodei intervalului egal. Se calculează iniţial lungimea intervalului (pasului de numărare) care se va utiliza în procesul selecţiei. Aceasta se face prin raportarea mărimii colectivităţii cercetate la mărimea eşantionului. Se alege apoi în mod aleatoriu o componentă din colectivitate, care constituie punctul de pornire pentru celelalte, ţinând cont de lungimea intervalului. Se alege aleatoriu un număr K, cuprins între 1 şi p, p fiind cel mai mare număr întreg mai mic decât N/n. Se includ apoi în eşantion unităţile cu numerele K+p, K+2p, K+3p etc. până la epuizarea listei. Ex.: pe baza unui pas - fiecare al 10-lea element, 1-ul stabilindu-se la întâmplare.
C. Sondajul sistematic Metoda este numită cvasi aleatoare deoarece în momentul în care este stabilit primul individ din eşantion este stabilit întreg eşantionul, astfel că nu se mai respectă condiţia stabilită pentru eşantioanele aleatoare: probabilitate egală non-nulă de selecţie pentru fiecare subiect. În cazul acestei proceduri, numărul eşantioanelor posibile pentru o populaţie este egal cu mărimea pasului de eşantionare, ceea ce constituie din nou o restricţie greu de acceptat de către unii metodologi. Avantaje: este relativ eficient, când în baza de sondaj unităţile similare sunt apropiate. Dezavantaje: este dificil de calculat formula varianţei şi există riscul de a obţine valori ale estimaţiei aberante din cauza existenţei unei periodicităţi a valorilor variabilei de interes şi apropierii pasului de valoarea perioadei.
D. Sondajul cluster Cluster – clusterele (ciorchini în limba engleză) adună grupuri eterogene care sunt deja formate ca şi grupuri stabile ( şcoli, organizaţii, menaje etc). Deci, în eşantionarea cluster, stabilim grupurile de acest tip, din care facem apoi selecţia. Membri grupurilor selectate constituie eşantionul. Aceste colectivităţi de asemenea pot fi grupate, iar selecţia din acestea se poate face, stratificat. Ex.: Presupunem că dorim să facem o anchetă cu privire la practicarea sporturilor la elevii de liceu. În acest caz putem să lucrăm cu o eşantionare multistratificată de tip cluster. Stabilim că cea mai eficientă tehnică de anchetă este cea indirectă cu aplicarea chestionarelor în colectivitate (gen extemporal). În acest caz, obiectivul eşantionării îl vor constitui clasele de elevi şi nu elevii înşişi. Clasele de elevi vor fi stratificate după an (a IX-a, a X-a ...), liceu, profil sau tipul liceului (colegiu naţional, liceu teoretic, grup şcolar). După ce se va realiza această grupare, se vor alege clasele aleator din fiecare strat, astfel încât să se respecte proporţiile.
D. Sondajul cluster Se extrag aleator grupuri de indivizi care se cercetează complet (se extrag locuinţe, fiind intervievaţi toţi membrii locuinţei). La aplicarea procedeului de sondaj se pot folosi unităţile simple, numerotarea se face de la 1 la N sau unităţile complexe, denumite serii (cluster), numerotate de la 1 la R. De obicei se foloseşte în combinaţie cu stratificarea. Avantaje: costul redus, se aplică dacă grupurile sunt foarte neomogene, dar asemănătoare între ele. Dezavantaje: datorită asemănării unităţilor din grup, este mai ineficient decât sondajul aleatoriu simplu. Adriana Buzdugan, ULIM
E. Sondajul cu probabilităţi inegale Eşantionarea cu probabilităţi inegale se aplică în cazul populaţiei mari şi cu diferenţe semnificative între mărimea diferitelor unităţi ale populaţiei. Metoda admite că unităţile populaţiei au “şanse diferite” de a fi incluse în eşantion. Pentru aplicarea metodei este necesară cunoaşterea unor date auxiliare despre populaţie. Avantaje: este foarte precis şi indicat în cazul unei variabilităţi foarte mari a populaţiei, eroarea de selecţie depinzând de probabilităţile de incluziune şi mai puţin de variabilitate. Dezavantaje: calculele sunt mai complicate şi este recomandabilă impunerea unei limite inferioare pentru probabilităţile de incluziune în scopul eliminării erorilor din baza de sondaj. Pentru variabilele necorelate cu cea care a determinat probabilităţile de incluziune erorile de selecţie pot fi catastrofale. Adriana Buzdugan, ULIM
F. Sondajul multistadial Sondajul multistadial este un sondaj în cascadă: Se extrag grupurile de indivizi În cadrul fiecărui grup se extrag indivizi Ex.:localităţi – imobile – familii – indivizi Procesul de divizarea a grupurilor poate continua, ajungându-se la definirea unor subgrupuri ş.a.m.d. Avantaje: similare sondajului cluster Dezavantaje: varianţa, a cărei formulă de calcul este mai complicată, este aproximată prin cea obţinută, dacă în prima selecţie s-ar utiliza extragerea cu revenire.
G. Sondajul Poisson Sondajul Poisson presupune parcurgerea succesivă a bazei de sondaj, fiecare element fiind selectat independent de “istorie”, prin generarea unui număr aleatoriu şi compararea cu probabilitatea de incluziune dorită. Avantaje: este foarte simplu de realizat. Este utilizat în eşantionarea panel care presupune menţinerea unei părţi din eşantionul vechi la extragerea unui nou eşantion. Dezavantaje: nu poate fi controlat precis numărul de unităţi incluse în eşantion, respectiv poate creşte eroarea de selecţie.
H. Sondajul în trepte Sondajul în trepte (multistadial) este un sondaj în cascadă, la fiecare pas extrăgând-se un subeşantion din eşantionul extras deja. De regulă se extrage aleator simplu un eşantion de volum mare, pe baza căruia se extrage subeşantionul final foarte precis. Avantaje: este utilizat când baza de sondaj este redusă, este bine organizat, se foloseşte în redresarea nonrăspunsurilor, permite determinarea unor erori de selecţie realiste. Dezavantaje: nu permite calculul de volume, doar prin ipoteze referitoare la selecţiile de la pasul 2.
Elaborarea unui eşantion aleator Stabilirea unităţii de analiză (cine este inclus în analiză) Întocmirea listei unităţilor de analiză Alegerea metodei de selecţie, astfel încât eşantionul să fie reprezentativ Adriana Buzdugan, ULIM
Cadrul de eşantionare Calitatea unui eşantion aleator depinde de calitatea cadrului de eşantionare. Cărţile de telefon, de exemplu, nu constituie un bun cadru de eşantionare pentru extragerea de eşantioane reprezentative pentru sondaje preelectorale (sunt foarte bune pentru eşantioane de posesori de telefon, însă). Cercetătorul are nevoie de ceva perspicacitate pentru a găsi cel mai potrivit cadru de eşantionare.
II. Metode neprobabiliste de eşantionare Sinonimii: Metode neprobabiliste =Metode empirice Eşantionarea dirijată (metodă empirică de eşantionare) Este făcută de un observator, bun cunoscător al populaţiei cercetate, care include în eşantion unităţile considerate cel mai reprezentative. Avantaje faţă eşantionarea aleatorie: mai ieftină, se aplică pe eşantioane mici şi când nu există sau nu este accesibilă baza de sondaj. Principiul de includere a unităţilor în eşantion constituit prin metoda dirijată: Fie A o caracteristică a populaţiei, cunoscută. Se presupune că, printr-un procedeu oarecare s-a obţinut un eţantion reprezentativ pentru caracteristica A. Atunci se admite ipoteza că acest eşantion este reprezentativ şi pentru o altă caracteristică B, corelată în general cu A.
II. Metode neprobabiliste (empirice) de eşantionare P.S. : eşantionare dirijată (prin apreciere) Metoda cotelor Metoda voluntariatului Eşantionarea la faţa locului Metoda itinerariilor Metoda unităţilor tip Adriana Buzdugan, ULIM
A. Metoda cotelor Eşantionarea pe cote presupune următoarele etape: Se stabileşte distribuţia populaţiei în funcţie de anumite caracteristici importante (pentru care dorim să avem reprezentativitate sex, vârstă, categorie socio-profesională). Se împarte eşantionul în cote, în funcţie de distribuţiile stabilite la etapa anterioară. Cotele reprezintă numărul de subiecţi care au anumite caracteristici. Cotele pot fi simple sau legate. Adică distribuţiile pe caracteristicile importante pot să fie legate sau pot fi luate separat. Alegerea criteriilor de cotă se face în funcţie de simplitatea şi uşurinţa de a delimita corect cota şi de cerinţe psihologice (nu se va folosi veniturile drept criterii de cotă). În urma împărţirii eşantionului (stratificării), fiecare dintre operatori ştie ce caracteristici trebuie să aibă subiecţii pe care îi va intervieva, aceste criterii constituind şi criteriu de includere în eşantion. Avantaje: este simplă şi nu necesită bază de sondaj Dezavantaje: nu permite stabilirea unui interval de încredere, presupune existenţa corelaţiei dintre variabilele alese pentru determinarea cotelor.
A. Metoda cotelor Români Ruşi Total Băieţi 4000 1000 5000 Fete 8000 2000 10.000 Români Ruşi Total Băieţi 80 20 100 Fete 160 40 200 Principala problemă a eşantionării pe cote derivă din imposibilitatea estimării erorilor. Erorile pot fi apreciate impresionistic prin compararea unor distribuţii sau indicatori cu datele pe care le avem pe toată populaţia sau cu datele din alte anchete realizate pe respectiva populaţie. Cu toate acestea, calculele de reprezentativitate sunt absolut irelevante matematic.
B. Metoda voluntariatului Anchetele bazate pe voluntariat se aplică tot mai mult în studiul opiniei cititorilor de presă ţi a opiniilor persoanelor cu afinitate unor societăţi. Constă în publicarea chestionarului în presă, cititorii fiind rugaţi să expedieze răspunsurile. Eşantionul se formează din rândul cititorilor sursei în care s-a publicat chestionarul. Avantaje: furnizează un volum foarte mare şi bogat de informaţii. Dezavantaje: posibilităţi reduse de extrapolare. Adriana Buzdugan, ULIM
C. Eşantionarea la faţa locului Eşantionarea la faţa locului - metoda vizează populaţii care se găsesc în anumite locuri: muzee, evenimente culturale, magazine, gări, spitale, aeroporturi, etc. După finalizarea procesului/evenimentului se abordează a “n”- a persoană care intră/iese în/din sediu. Stabilirea frecvenţei “n” pentru selectarea persoanei intervievate depinde de fluxul de vizitatori, în funcţie de momentul zilei. Dezavantajul: supraaprecierea ponderii vizitatorilor frecvenţi în defavoarea celor ocazionali. Respectiv, chestionarul trebuie să cuprindă elemente necesare evaluării frecvenţei prezenţei în locul dat.
D. Metoda itinerariilor Constă în impunerea unui itinerar de urmat operatorului de interviu, având diferite puncte de oprire pentru realizarea interviurilor. Metoda este utilizată în zonele dens populate , dar nu mari şi este combinată cu metoda pe cote, unde se pot evita non răspunsurile. Operatorul trebuie să completeze cotele urmând un traseu fixat. Dacă într-un punct de oprire este refuzat răspunsul, operatorul trece la punctul următor, evitând astfel non-răspunsurile. Avantaje: permite eliminarea subiectivităţii anchetatorului în alegerea unităţilor statistice.
E. Metoda unităţilor tip Se aleg unităţi considerate ca fiind reprezentative (cu o structură similară) pentru o anumită categorie de elemente ale populaţiei. Principiul metodei – diferite caracteristici ale unei unităţi statistice fiind corelate, anumite variabile pot fi situate în apropierea mediei pentru mai multe caracteristici. Astfel, populaţia se grupează în subgrupuri omogene, iar variabila de control reprezintă aceste subgrupe prin media sa numită unitate tip. Ex.: împărţirea teritoriului ţării în regiuni cât mai omogene din punct de vedere al culturilor agricole şi extragerea prin metoda unităţilor tip a unui eşantion de regiuni medii. Metoda presupune o cunoaştere prealabilă foarte bună a subiectului în studiu. Dezavantaje: are tendinţa de amplifica contrastele şi nu este riguros ştiinţifică. Adriana Buzdugan, ULIM
III. Eşantionarea mixtă Se realizează prin combinarea eşantionării aleatoare şi eşantionarea dirijată, profitându-se astfel de avantajul fiecăreia şi minimalizându-se în acelaşi timp dezavantajele. Selecţia stratificată constituie o eşantionare mixtă. Esenţa acestui tip de eşantionare constă în împărţirea întregii populaţii în straturi, după criterii corespunzătoare scopurilor sondajului şi în alegerea din fiecare strat a unui eşantion, cu respectarea regulilor eşantionării. Eşantionarea mixtă, tip stratificată este cel mai frecvent aplicată în cercetarea fenomenelor social-economice de masă, întrucât aceste fenomene se caracterizează printr-un înalt grad de neomogenitate. Or să fie grupate mai întâi în straturi cât se poate de omogene, apoi se va face selecţia aleatoare din aceste grupe, astefl eroare de sondaj va fi mai mică. Adriana Buzdugan, ULIM
4. Stabilirea mărimii(volumului) eşantionului Stabilirea eşantionului ce urmează a fi supus investigaţiei se referă la: determinarea dimensiunii şi structurii eşantionului, astfel încât să fie reprezentativ în raport cu colectivitatea cercetată. În practica dimensionării unui eşantion este necesar să se aibă în vedere două categorii de restricţii: de ordin statistic şi de ordin organizatoric.
4. Stabilirea mărimii(volumului) eşantionului Restricţii de ordin statistic: gradul de dispersie a valorilor caracteristicilor unităţilor individuale ale colectivităţii; probabilitatea cu care se garantează rezultatele; mărimea intervalului de încredere în care se aşteaptă să se încadreze rezultatele, tipul de selecţie folosit. Restricţii organizatorice: fondurile băneşti alocate cercetării, numărul şi pregătirea persoanelor ce vor efectua sondajul, natura bazei de sondaj, dispunerea în spaţiu a unităţilor colectivităţii cercetate, timpul afectat cercetării etc. Adriana Buzdugan, ULIM
Intervalele de încredere, nivelurile de siguranţă şi pragurile de semnificaţie Intervalul de încredere Nivelul de siguranţă (%) (1- α )100% Pragul de siguranţă (% αx100% 1 2 3 68,26 31,74 95,00 5,00 95,44 4,56 99,00 1,00 99,73 0,27 99,90 0,10
Tipuri de curbe utilizate în sondajele de opinie Curba în formă de J Curba în formă de L Curba în formă de U Curba în formă de clopot În formă de J: semnifică o favoare dominantă În formă de L :semnifică o defavoare dominantă În formă de clopot: semnifică un nivel mediu de favoare pentru majoritatea populaţiei În formă de U sau V :semnifică împărţirea publicului în două tendinţe opuse în mod clar.
Formulele de calcul a mediei şi dispersiei Denumirea indicatorului Caracteristici cantitative Caracteristici calitative Colectivitatea generală (parametrii populaţiei) Colectivitate de selecţie (valori de sondaj) Colectivitate de selecţie (valori de sondaj) A 1 2 3 4 Media Dispersia
4. Stabilirea mărimii(volumului) eşantionului Statistici implicate în estimarea reprezentativităţii: Parametru – valoarea variabilei în populaţie – statisticile bazate pe eşantion încearcă estimarea acestor parametri – de ex. Media veniturilor unei populaţii. Media pe eşantion - care estimează media din populaţie; Varianţa - gradul de împrăştiere al caracteristicii estimate; Eroarea de eşantionare – diferenţa dintre estimare şi mărimea parametrului în populaţie. Erorile de eşantionare (aleatoare) trebuie deosebite de cele sistematice, datorate unor erori în realizarea cercetării. Cele aleatoare nu sunt datorate unor greşeli ale cercetătorului ci variabilităţii eşantionului selectat din populaţie. Interval de încredere Adriana Buzdugan, ULIM
4. Stabilirea mărimii(volumului) eşantionului Indicatori statistici de reprezentativitate a sondajelor Estimatorul pentru media populaţiei Eroarea medie de reprezentativitate Eroarea limită maximă admisă care trebuie să fie de +5% pentru o probabilitatea de garantare a rezultatelor sondajului de 0,95. Reguli: Cu cît volumul eşantionului este mai mare cu atăt valoarea medie calculată pe baza eşantionului este mai aproape de media populaţiei; Probabilitatea de garantare a rezultatelor trebuie să fie de minim 0,95; Eroarea limită maximă admisă trebuie să fie de ±5% Volum mare a eşantionului n≥45 Volum mic a eşantionului ≤45 Volum max. pentru populaţii neomogene n≤200
4. Stabilirea mărimii(volumului) eşantionului Mărimea eşantionului: unde : Z - nivelul de confidenţialitate (eroarea standard) N – mărimea populaţiei E – eroarea maximă P – proporţia populaţiei care posedă caracteristicile cercetate Ex.: Mărimea eşantionului cu selecţie nerepetată:
4. Stabilirea mărimii(volumului) eşantionului Dacă se notează cu „n” mărimea unui eşantion, pentru estimarea acestuia, când caracteristica cercetată este exprimată sub forma unor structuri, se va utiliza relaţia: t – coeficientul care corespunde probabilităţii cu care se garantează rezultatele; p – proporţia componentelor din eşantion care posedă caracteristica cercetată; Δω – eroarea limită acceptabilă. De exemplu , se cercetează preferinţele pentru un anumit produs. Se stabileşte o eroare limită de 0,03 şi un coeficient t, care corespunde unei probabilităţi de 0,95 egal cu 2. deoarece valoarea lui p nu se cunoaşte se consideră egală cu 0,5. Eşantionul va fi de 1.111 persoane.
5. Principiile estimării parametrilor prin eşantioane aleatoare Se extrag eşantioane repetate din aceeaşi populaţie; câte eşantioane de 1000 de persoane se pot extrage din 300.000 de mii de oameni? Combinaţii de 300000 luate câte 1000. Adică foarte multe. Fiecărui eşantion i se calculează media parametrului estimat. Să zicem înălţimea. Dacă avem un număr suficient de mare de eşantioane, se poate construi o histogramă a distribuţiei acestor medii. Media acestor medii este egală cu media din populaţie. Acestei distribuţii i se poate calcula abaterea standard (abaterea medie de la medie) care poartă numele de eroare standard.
5. Principiile estimării parametrilor prin eşantioane aleatoare Distribuţia de eşantionare a mediei pe eşantioane este normală. Histograma ia forma unui clopot (clopotul lui Gauss). Cu cât numărul eşantioanelor este mai mare cu atât mai mult se apropie distribuţia de rigorile distribuţiei normale. Curba normală are anumite probabilităţi care fac posibil calculul reprezentativităţii eşantioanelor. – plecând de estimarea proporţiei de estimări care sunt la o anumită distanţă de la media din populaţiei (parametru). Această distanţă este eroarea standard. 1 e.s. – 68% din estimări 2 e.s. – 95% din estimări 3 e.s. – 99% din estimări Eroarea standard este afectată de varianţa populaţiei şi de mărimea eşantioanelor realizate.
5.Principiile estimării parametrilor prin eşantioane aleatoare A măsura reprezentativitatea înseamnă a aprecia măsura în care estimările din eşantionul nostru se abat de la parametri din populaţie. Dar nu ştim, de obicei, parametri din populaţie (altfel n-am mai face anchete) şi nici nu am realiza un mare număr de eşantioane din aceeaşi populaţie. Putem înlocui eroarea standard a distribuţiei de eşantionare cu eroare standard a eşantionului. E.S. = abaterea standard/ N2 Apoi aplicăm proprietăţile curbei normale : alegem pragurile de confidenţă (68,26%, 95,44% sau 99,74%) calculăm intervalele de confidenţă media +/- 1 E.S. la 68% media +/- 2 E.S. la 95% media +/- 3 E.S. la 99% Adriana Buzdugan, ULIM
Relaţia dintre factorii eşantionului Varianţa populaţiei Eroarea selecţiei Nivel de siguranţă Volumul eşantionului A B C D Adriana Buzdugan, ULIM
Intervalul de încredere şi nivelul de siguranţă semnificaţie 3e.s 99% IÎ
Calitatea estimaţiilor Intervalul de încredere: Limitele intervalului de încredere: Probabilitatea de garantare: Pragul de semnificaţie: Balanţa precizie –siguranţă
5. Erorile de reprezentativitate Erorile de reprezentativitate specifice sondajului pot fi de două feluri: 1.erori sistematice şi 2.erori întâmplătoare. Erorile de reprezentativitate sistematice pot fi evitate dacă se respectă întocmai principiile teoriei selecţiei, prin înlăturarea cauzelor ce duc la producerea lor. Principalele cauze care pot duce la apariţia erorilor sistematice sunt: alegerea deliberată a aşa-ziselor unităţi "reprezentative"; alegerea la "nimereală" (nu la întâmplare) a unităţilor de eşantion; selectarea preferenţială a acelor unităţi care să ducă la rezultatul dorit de cercetător; substituirea din comoditate a unei unităţi de cercetare prin alta asemănătoare; cuprinderea incompletă în sondaj a unităţilor, din motive de comoditate.
5. Erorile de reprezentativitate Erorile întâmplătoare de reprezentativitate pot apare chiar dacă se respectă cu stricteţe aceste reguli. Ele derivă din însăşi esenţa metodei de cercetare prin sondaj. Prin numărul mic de unităţi care alcătuiesc eşantionul nu se poate reproduce decât întâmplător identic seria de distribuţie a variabilei din colectivitatea generală sau parametrii acesteia. Deşi nu pot fi evitate, erorile de reprezentativitate, pot fi calculate cu anticipaţie dacă selecţia este probabilistică. Estimarea parametrilor din colectivitatea generală se va putea face pe baza indicatorilor obţinuţi din prelucrarea datelor de sondaj cu o eroare întâmplătoare de reprezentativitate care se găseşte într-un anumit interval probabilistic. Adriana Buzdugan, ULIM
5. Erorile de reprezentativitate În practica sondajului erorile de reprezentativitate se pot calcula ca erori efective şi ca erori probabile. Erorile efective de reprezentativitate se pot calcula numai pentru caracteristicile la care s-au obţinut date şi dintr-o observare totală. Considerând că şi în acest caz media este indicatorul sintetic cel mai reprezentativ, eroarea efectivă de sondaj se calculează ca diferenţă între media eşantionului şi media colectivităţii totale. Eroarea medie de reprezentativitate şi eroarea limită În practică, pentru acelaşi volum de selecţie se pot obţine mai multe eşantioane extrase succesiv din aceaşi colectivitate totală, obţinând astfel valori diferite ale mediei de selecţie. Erorile de selecţie obţinute ca diferenţe între media de selecţie şi media generală iau valori diferite de la un eşantion la altul, ceea ce face necesară calcularea unui indicator sintetic numit eroarea medie de reprezentativitate.
Erorile de reprezentativitate În teoria selecţiei se demonstrează că dacă volumul eşantionului este suficient de mare (pentru fenomenele monotipice peste 40 de unităţi), mediile de selecţie se distribuie potrivit funcţiei Gauss - Laplace cunoscută în statistică sub denumirea de distribuţie normală. Dacă mediile de selecţie se distribuie după legea normală înseamnă că şi erorile întâmplătoare de reprezentativitate urmează aceeaşi formă de repartiţie şi interpretarea lor se face pe baza proprietăţilor distribuţiei normale (vezi tabelul 2), potrivit căreia trebuie stabilit intervalul de încredere, nivelul de siguranţă şi pragul de semnificaţie Adriana Buzdugan, ULIM
Erorile de reprezentativitate Produsul este cunoscut sub denumirea de eroare limită . Coeficientul reprezintă argumentul funcţiei Laplace şi se găseşte tabelat. Formulele de calcul ale erorii medii de reprezentativitate diferă în funcţie de tipul de sondaj folosit.
Eroarea totală a sondajului Erorile de eşantionare – sunt erorile aleatoare de reprezentativitate. Pentru eşantioanele neprobabiliste nu poate fi calculată această eroare. Măsurile: eroarea medie pătratică, eroarea medie de reprezentativitate. Erorile bazei de sondaj – bază incompletă,înregistrări duble,unităţi în plus, informaţii auxiliare incorecte,alterarea probabilităţii prin înlocuiri. Erorile de observare – determinate de operatorul de interviu. Erorile rezultate din defecte de acoperire şi nonrăspuns Erorile de răspuns – înţelegerea greşită a conceptelor şi definiţiilor. Erori de procesare a chestionarului
Indicatorii specifici sondajelor de opinie Indicatorul de actualitate – reflectă ponderea publicului efectiv in totalul populaţiei, respectiv ponderea răspunsurilor (100 – non-răspunsuri). Balanţa – diferenţa dintre cele două ponderi opuse. Indicatorul de polarizare – semnifică ponderea răspunsurilor tranşate şi opuse în totalul răspunsurilor. Opinia majoritară – exprimă valoarea modală, arătând care dintre stări concentrează cele mai multe răspunsuri. Indicatorul ponderat de apreciere şi interes – exprimă valoarea ponderată a gradului de apreciere /satisfacţie /mulţumire. Sistemul ierarhizat de categorii de apreciere –este constituit în funcţie de plasarea categoriei mediane (cu valoare peste 50%) la stânga, la dreapta, la nivelul valorii centrale a scalei.