Teste neparametrice
Metodele neparametrice sau de distributie libera in cadrul unei analize statistice,testeaza ipoteza nula sau determina limitele de incredere pentru esantioane sau populatii fara a tine cont de distribututia populatiei.
Tipuri de teste neparametrice (I) Testul Wilcoxon al sumei rangurilor este un test pentru date neperechi sau imperechiate si este o alternativa a testului t pentru esantioane perechi. Testul Wilcoxon pentru doua esantioane este un test pentru date neimperechiate si este o alternativa a testului t pentru esantioane independente.
Tipuri de teste neparametrice (II) Testul U Mann- Whitney conduce la rezultate echivalente cu testul Wilcoxon pentru doua esantioane. Testul exact Fisher se aplica pentru tabelele de contingenta de tip 2x2 in aceleasi conditii ca testul chi patrat, dar cand frecventele asteptate sunt mai mici decat 5.
Aplicatii si caracteristici (I) Necesita cateva presupuneriasupra distibutiilor esantioanelor si populatiei supuse studiului, dar acestea sunt mult mai usoare in comparatie cu conditiile de validitate ale testului chi patrat sau ale testului t. Sunt folosite pentru a analiza esantioane sau populatii ce nu se distribuie normal sau aproximativ normal si pentru care testele parametrice sunt nepotrivite.
Aplicatii si caracteristici (II) Sunt folosite pentru a analiza esantioane sau populatii pentru care parametrii, cum ar fi valoarea medie sau deviatia standard sunt nereale sau nu pot fi determinate. Pot fi folosite in locul testelor parametrice pentru a analiza populatii ce urmeaza distributia normala sau aproximativ normala, dar testele neparametrice, operand de cele mai multe ori nu cu valori masurabile ci cu rangurile valorilor, au o putere mult mai mica.
Regresia Analiza de regresie are ca scop obtinerea unei expresii matematice cu ajutorul careia valorile unei variabile (x) pot fi folosite pentru a prezice valorile altei variabile (y). X=variabila independenta (sau regresoare)careia ii atribuim valori in concordanta cu realitatea, este deci o variabila nealeatorie. Y=variabila dependenta care ia valori in functie de variabila x
Cazul cel mai simplu este atunci cand intre variabila x si variabila y exista o legatura liniara; atunci potrivita pentru descrierea relatiei este ecuatia y=a+bx a=ordonata de origine b=coeficientul de regresie (panta dreptei) sau tangenta unghiului pe care dreapta il face cu axa OX Daca b>0, dreapta este crescatoare, iar daca b<0 dreapta este descrescatoare. a indica valoarea lui y corespunzatoare lui x=0 b indica cresterea variabilei y la cresterea cu o unitate a variabilei x.
Coeficientii b si a se estimeaza pe baza metodei celor mai mici patrate care minimizeaza suma patratelor abaterilor dintre valorile real observate yi, 1<i<n si cele asteptate y*I; 1<i<n, prin formulele: b*= n∑xi yi- ∑xi yi/n ∑xi 2-(∑xi )2 a*=y-b.x Pe baza valorilor lui b* si a* se calculeaza dreapta de regresie y*= a*+ b* . x
Corelatia Daca ambele variabile (x si y) sunt cantitative si aleatoare, atunci relatia statistica dintre ele apartine domeniului corelatiei si un scop aici este sa se indice gradul de asociere sau de legatura intre cele 2 variabile. Asociatia este deci reciproca si nu intr-un singur sens ca in cazul regresiei. Corelatia este indicata prin coeficientul de corelatie.(r)
Aplicatii si caracteristici (I) Coeficientul de corelatie simpla numit coeficientul de corelatie Pearson este folosit pentru a indica gradul asocierii liniare intre 2 variabile, asocierea fiind reciproca. Coeficientul de corelatie variaza intre -1 si +1, inclusiv: - Cand se apropie de -1 modificarea unei variabile este puternic asociata cu inversul modificarii liniare a celeilalte variabile - Cand coeficientul de corelatie este egal cu 0, inseamna ca nu exista asociatie intre modificarile celor 2 variabile. - Cand coeficientul de corelatie se apropie de +1, imseamna ca modificarea unei variabile este foarte puternic asociata cu modificarea liniara directa a celeilalte variabile.
Aplicatii si caracteristici (II) Un coeficient de corelatie poate fi calculat corect numai cand datele ambelor variabile se refera la esantioane si fiecare este ales independent. Un coeficient de corelatie poate fi apropiat de ±1, deci ne va indica o corelatie puternica, dar ea poate fi nesemnificativa din cauza volumului mic a esantionului studiat. Corelatia nu trebuie identificata cu cauzalitatea, in sensul ca observatiile a 2 variabile se pot corela foarte bine fara sa avem motive logice si stiintifice ca una dintre variabile poate fi cauza celeilalte.
Calcul r=∑xiyi-(∑xi)(∑yi)/n/(SDx)(SDy) Coeficientul de corelatie al rangurilor (Spearman) testeaza gradul de corelare intre 2 variabile calitative; este alternativa neparametrica a “coeficientului de corelatie Pearson”. Se calculeaza cu formula: rs=1-6∑di2/n(n2-1) unde n= nr. de indivizi di2 =patratul diferentelor celor 2 clasamente
Acest coeficient variaza intre -1 si +1 Acest coeficient variaza intre -1 si +1. O valoare apropiata de +1, inseamna ca suma patratelor diferentelor este aproape nula, deci avem clasamente identice. O valoare apropiata de 0, inseamna necorelarea variabilelor, iar valoarea apropiata de -1 pune in evidenta discordanta maxima a variabilelor. Pentru corealtia rangurilor poate fi calculat si coeficientul lui Kendall, pa baza formulei: rk=2T/n(n-1) unde T=suma algebrica a nr. de ranguri superioare, respectiv inferioare fiecarui rang al valorilor lui y, aranjate dupa deria valorilor lui x, in ordine crescatoare sau descrescatoare.
Ca si in cazul regresiei, cand avem in studiu un numar mai mare de variabile, apare problema calcularii unor coeficienti de variatie multipla. Acestia pot fi de tip partial sau total, dupa cum unele variabile sunt constante sau nu.
Esantionajul Esantionul=colectivitate de selectie=colectivitate partial aleasa aleator dintr-o populatie. Populatia de origine=colectivitate generala Totalitatea elementelor individuale extrase din colectivitatea generala la care se studiaza caracterele lor principale si care compun esantionul poarta denumirea de unitati de observatie sau de selectie. Documentatia care permite gasirea unitatilor de selectie se numeste baza de sondaj.
Un esantion este reprezentativ atunci cand el provine prin selectie aleatorie (randomizata) din baza de sondaj. Notiunea de reprezentativitate nu este legata de volumul esantionului, ci de modul de selectie al acestuia. Volumul esantionului determina precizia acestuia, deci se vor selecta esantioane mari atunci cand se doreste o eroare mica. De intelege prin eroare diferenta dintre valoarea caracteristicii studiate masurate in populatie si valoarea aceleiasi caracteristici, masurata in esantion.
Avantajele si dezavantajele cercetarii prin esantionaj Efortul depus in cercetare este mai mic, existand un plus de operativitate si un cost mai mic. Duce la o acuratete mai mare a rezultatelor deoarece poate fi angajat personal inalt calificat. Datorita alegerii intamplatoare esantionul reproduce populatia cu unele erori, numite si aleatoare si care pot fi controlate de cercetator. Un esantion are erori cu atat mai mari cu cat el este mai mic.
Erorile in cercetarea bazata pe esantionaj Pentru o cercetare de succes este importanta asigurarea unei reprezentativitati a esantionului si a unui nivel satisfacator de precizie. Reprezentativitatea se asigura prin extragerea sa intamplatoare din baza de sondaj. Nerespectarea alegerii aleatorii face sa apara erorile siatematice (biais), dificil de a fi cunoscute. Un esantion este reprezentativ daca nu este insotit de erori sistematice.
Cea de-a doua conditie, precizia, este determinata de volumul esantionului. Atunci cand volumul esantionului va creste, precizia va fi mai mare, adica structura si proprietatile populatiei originare vor fi mai fidel relevate. In cercetarea selectiva se inregistreaza erori de esantionaj si erori care nu tin de esantionaj. Erorile de esantionaj pot fi cunoscute si astfel cercetatorul poate modifica gradul de precizie al studiului dupa necesitatile practice.
Deoarece eroarea aleatorie apare ca efect al hazardului, masura acestei erori este probabila si niciodata certa. Unitatea de masura a erorilor de esantionaj este eroarea standard. ex=σx/√n≈Sx/√n pentru caracteristicile cantitative ep= √PQ/ √n ≈ √ pq/√n pentru caraxcteristicile calitative ex =eroarea standard a caracteristicii din esantion σx= abaterea standard a caracteristicii din populatia de origine Sx = abaterea standard a caracteristicii din esantion ep = eroarea standard a proportiei P=proportia populatiei din populatia generala Q= prportia complementara=1-P p=proportia populatiei din esantion q=proportia complementara n=volumul esantionului
Erorile independente de esantionaj Sistematice si intamplatoare Erorile sistematice tin de alegerea aleatoare. Ele dispar prin respectarea regulilor selectiei. Erorile intamplatoare sunt generate de inexactitatea aparaturii si a observatorului in general. Cele mai grave sunt erorile sistematice ele putand compromite cercetarea. er2tot= er2sis+er2intamp
Determinarea volumului esantionului Pentru calcul se porneste de la eroarea standard datorata numarului prestabilit de unitati de observare, prin formula: Δx=tα,νx.σx/√n se poate calcula eroarea limita acceptata care va insoti determinarea. Daca n≥30, coeficientul tα,ν se poate inlocui cu Uα. Cu ajutorul relatiei σx2=s2.n/n-1 in care s este varianta masurata, iar n este numarul de cazuri din esantionul pilot. Volumul esantionului este dat de relatia: n=Uα2xσx2/Δx2
Alte consideratii in determinarea volumului esantionului Determinarea volumului esantionului este influentata de 2 presupuneri: Populatia din care provine esantionul este infinit de mare Esantionul este selectat aleatoriu. Populatia din care provine esantionul nu va fi niciodata infinita astfel se va aplica corectia populatiei finite. Acest indice se aplica daca volumul esantionului depaseste 5-10% din populatie. Indicele fpc se calculeaza astfel: fpc=n/1+n/N n= volumul esantionului, N=volumul populatiei tinta Aplicarea fpc va reduce volumul esantionului. Indicele fpc se aplica mai des pentru studiile descriptive si pentru selectia persoanelor de control in studiile caz-control.
Interpretarea puterii studiilor publicate Puterea reprezinta probabilitatea ca datele studiului vor indica o diferenta intre tratamente sau expuneri, atunci cand aceasta diferenta intr-adevar exista. Daca puterea este mare, atunci nu avem nici un motiv sa punem la indoiala concluziile studiului. Daca studiul are o putere insuficienta atunci un rezultat care indica lipsa unei diferente semnificative poate fi atribuit deficitului de putere si nu posibilitatii ca ipoteza nula este corecta. Un studiu cu o putere inadecvata nu permite cercetatorului sa testeze ipoteza studiata. Puterea statistica se alege a priori de catre cercetator si de regula se recomanda sa fie intre0,80 si 0,95.
Tipuri de esantionaj Exista in principiu 2 mari modalitati de esantionaj si anume: Esantionajul probabilistic, aleator Esantionajul neprobabilistic, nealeator sau empiric.
Esantionajele probabilistice Esantionul aleator, simplu sau elementar: procedeul de obtinere consta din extragerea la sorti a unitatilor ce vor compune esantionul si vor fi efectiv investigate dintr-o lista in care au fost inscrise si numerotate toate elementele care compun populatia de referinta. Fiecare unitate de selectie are sanse egale de a intra in esantion . Tehnica de sondaj presupune mai intai determinarea volumului esantionului pentru a sti cate unitati trebuie selectionate din baza care contine un numar mult mai mare de subiecti.n/N se numeste fractiune de esantionaj si arata cat reprezinta esantionul din populatia tinta.
Exista 2 posibilitati de extragere probabilistica: Sondaj fara repetitie (repunere) Sondaj cu repetitie (cu repunere) Sondajul fara repetitie consta in genul de selectare tip Loto. Unitatile care vor compune esantionul se extrag una cate una. In acest caz nu toate unitatile statistice au aceeasi probabilitate de a fi selectate. Sonadjul cu repetitie inlatura acest inconvenient, mentinand aceeasi probabilitate de-a lungul intregii extrageri. O alta posibilitate de realizare practica a extragerii unitatilor este folosirea tabelelor cu numere aleatoare, in care numerele sunt dispuse haotic si se extrag primele 100 de numere.Extragerea unitatilor din lista se poate face si cu un anumit pas de numarare dat de raportul k=N/n. In acest caz schema se numeste esantionaj sistematic.
Pentru toate tehnicile de esantionaj calitatea esantionului depinde de calitatea bazei de sondaj. Aceasta trebuie sa fie: adecvata (sa contina toata populatia) Completa (sa contina toate categoriile care intereseaza studiul) Sa nu repete aceleasi unitati de mai multe ori exacta (persoanele inscrise in lista sa si existe in mod efectiv) actualizata Convenabila pentru nevoile sondajului
Esantionul stratificat Se foloseste atunci cand datele nu sunt dispuse aleator, ci sunt clasate dupa anumite caracteristici. Se pot delimita mai multe subpopulatii care nu se suprapun si care se numesc straturi. Caracteristic pentru un strat este omogenitatea interna si neomogenitatea fata de celelalte straturi.
Se pot folosi 2 tipuri de selectie: Selectia stratificata proportionala – folosita atunci cand toate straturile sunt egale si cand caracteristica cercetata se intalneste cu frecvente relativ asemanatoare in fiecare strat sau dispersia este asemanatoare. Selectia startificata cu volum optim – folosita atunci cand conditiile enuntate nu sunt respectate. Esantionajul stratificat permite obtinerea de date precise pentru fiecare strat. Realizarea efectiva a esantionului depinde de existenta unor baze de sondaj oraganizate pe straturi.
Esantionajul in cuiburi Se foloseste atunci cand lipseste o baza de sondaj care sa contina unitatile de observatie, atunci cand intocmirea ei este costisitoare sau dispersia populatiei este exagerata. Principiul de la care se porneste este ca populatia de investigat poate fi imaginata ca fiind constituita din unitati de selectie agregate si ierarhizate.
Cuibul este o unitate de selectie heterogena in care sunt agregate mai multe unitati de observare. Esantionajul in cuiburi se realizeaza in 3 etape:- se foloseste ca baza de sondaj lista cuiburilor - se extrag aleator cuiburile ce vor compune esantionul - se investigheaza apoi toate unitatile de observare din cuiburile extrase. Esantionajul este mult mai precis cu cat heterogenitatea cuiburilor este mai mare. Pentru a ne asigura reprezentativitatea este de preferat sa se studieze mai multe cuiburi mici, decat putine cuiburi de dimensiuni mari.
Esantionajul multistadial Principiul este ierarhia unitatilor de selectie posibile, ca in esantionajul in cuiburi. Diferenta consta in aceea ca in timp ce in cazul cuiburilor se poate utiliza o singura extragere aleatoare urmata de investigarea tuturor unitatilor din cuiburi , in esantionajul multistadial se fac mai multe extrageri.
Si in acest caz este bine sa se evite folosirea unui numar mare de extrageri. De regula se foloseste esantionajul bi sau tristadial, deoarece fiecare operatiune de extragere antreneaza cate o eroare de esantionaj. Avantaje:flexibilitate mai mare Indicatie: acele procese care implica teste chimice, biologice care pot fi efectuate intr-o cantitate mai mica de produs, prin extragerea de subesantioane dintr-o cantitate mai mare, care este ea insasi un esantion. Pentru acest procedeu sunt necesare mai multe baze de sondaj. Se mai numeste esantionaj multifazic, cand se cerceteaza intr-o prima faza anumite caracteristici si pe baza lor se determina un al doilea esantion care se cerceteaza in a doua faza.
Metodele neprobabilistice Se bazeaza pe ideea ca reprezentativitatea poate fi asigurata prin alegere rationala. Sondajul neprobabilistic nu implica selectie aleatoare. Metodele nealeatoare pot fi: - bazate pe conventie - bazate pe atingerea unui scop.
Esantionajul conventional Unitatea de observatie: omul de pe strada. Nu avem nici o dovada a reprezentativitatii.
Esantionajul bazat pe atingerea unui scop Selectia se face avand un scop Cel care raspunde trebuie sa indeplineasca anumite criterii Subcategorii:- esantioane tipice - esantionul expertilor - metoda cotelor - esantionul in bulgare de zapada - metoda esantioanelor fixe
Esantioanele tipice Se imparte populatia in subansamble omogene si alegem din fiecare o unitate considerata de cercetator ca fiind cea mai reprezentativa.
Esantionul expertilor Include persoane cu experienta si pregatire cunoscute intr-un anumit domeniu. Motive de alegere: cunoaterea opiniei persoanelor cu experienta si validarea unei alte metode de esantionare aleasa.
Metoda cotelor Este procedeul cel mai utilizat Se bazeaza pe ideea asigurarii unei reprezentativitati prin realizarea unui esantion care sa aiba o structura asemanatoare cu a populatiei. Nu necesita existenta unei baze de sondaj, ci doar cunoasterea structurii populatiei. Nu permite evaluarea preciziei estimatiilor
Esantionul in bulgare de zapada Se incepe cu identificarea celor care indeplinesc criteriile pentru a fi inclusi in studiu. Aceste persoane sunt rugate sa recomande alte persoane ce indeplinesc aceleasi criterii.
Metoda esantioanelor fixe Se colecteaza periodic date din acelasi esantion.
Surse de eori in studiile pe esantioane 3 surse de erori: Neinvestigarea unor unitati selectionate in esantion datorita imposibilitatii de a localiza indivizii sau datorita refuzului de a raspunde Erori in masurarea unitatilor datorita aparatului de masura care poate fi imprecis Erori introduse in procesele de editare, codificare si tabelare a rezultatelor Problema nonraspunsului este principala problema.
Solutii Reducerea nonraspunsului prin educatia populatiei Revizitarea persoanelor care nu au fost gasite Compararea populatiei refractare cu cea care a raspuns Gasirea unui inlocuitor prin alcatuirea unei liste de rezerva Estimarea nivelului nonraspunsurilor si marirea volumului esantionului corespunzator. Pentru aceasta volumul esantionului se inmulteste cu un factor q=1/1-f, unde f=rata estimata a nonraspunsului