Statistica analitica
Probabilitati Probabilitatea unui eveniment specificat este fractiunea sau proportia din toate evenimentele posibile ale evenimentului specificat intr-o succesiune aproape nelimitata a probelor in conditii similare. Probabilitatea unui eveniment nu poate fi mai mare de 1 (100%) sau mai mica decat 0 (0%).
Aplicatii Valorile probabile intr-o populatie sunt distribuite intr-o maniera definita care poate fi folosita pentru a analiza populatia. Valorile probabile care nu urmeaza o distributie pot fi analizate folosind metode neparametrice.
Tipuri Cele mai uzuale distributii de probabilitate sunt: a. distributia binomiala b. distributia normala c. distributia “t” d. distributia אַ2 (Chi)
Calcul Probabilitatea unui eveniment este determinata de formula: Pr (A) = n/N Pr (A) = probabilitatea evenimentului A n = nr. de cate ori evenimentul A s-a produs N = nr. de cate ori evenimentul A este posibil sa se produca (nr. total de evenimente posibile)
Reguli de calcul a probabilitatilor Regula aditiva: daca avem cel putin doua evenimente mutual exclusive sau “disjuncte” (realizarea unuia inseamna automat nerealizarea celuilalt) atunci probabilitatea lui A sau B se calculeaza prin insumarea probabilitatilor fiecarui eveniment. Calcul: Pr(A sau B)=Pr(A)+Pr (B)
Reguli de calcul a probabilitatilor Regula multiplicativa: se aplica in situatia a 2 sau mai multe evenimente independente care se produc concomitent si consta in multiplicarea probabilitatilor individuale ale evenimentelor. Calcul: Pr(A si B)=Pr(A)xPr(B)
Ipoteza nula H0 este ipoteza care postuleaza faptul ca esantioanele sau populatiile pe care le avem de comparat in cadrul unui studiu, experiment sau test sunt similare, sau cu alte cuvinte, orice diferenta este atribuita sansei si nu unui anumit factor.
Aplicatii si caracteristici Ipoteza nula postuleaza absenta unor deosebiri care pot aparea in orice problema de comparare statistica. Este folosita pentru a defini semnificatia diferentei. Semnificatia diferentei, numita si semnificatie statistica, este concluzia ca diferenta intre esantioane, populatii sau ambele, este datorata unor factori altora decat sansa. Diferenta semnificativa apare cand ipoteza nula este respinsa.
Cand ipoteza nula este respinsa, cel putin una din ipotezele alternative este acceptata, deci diferenta poate fi explicata prin alt factor decat sansa. Cand nici o diferenta nu poate fi sustinuta intre 2 populatii, inseamna ca se accepta ipoteza nula, dar nu inseamna ca mediile populatiilor sunt identice. Valoarea probabilitatii pentru care diferenta se datoreaza numai sansei se numeste nivel de semnificatie. Daca el este de maximum 5% atunci ipoteza nula este respinsa si o ipoteza alternativa este acceptata; spunem ca diferenta este statistic semnificativa.
Nivelul de semnificatie se noteaza cu α sau p-value si este ales de cercetator a priori. In orice procedeu de comparare se pot emite 2 tipuri de erori: Eroarea de speta I care reprezinta decizia de a respinge ipoteza nula cand ea este adevarata; Eroarea de spata aII-a care reprezinta decizia de a accepta ipoteza nula cand aceasta este falsa.
Probabilitatile erorilor asociate sunt: Pr (respH0/H0=adevarat)=α=riscul erorii de speta I Pr(acceptH0/H0=fals)=β=riscul erorii de speta aII-a 1- β = puterea testului Pe baza acestei interpretari, in spatiul esantioanelor multimea valorilor posibile calculate se divide in 2 intervale: Intervalul de acceptare sau “intervalul critic” reprezinta multimea valorilor pentru care daca o valoare a statisticii calculate se inscrie printre valorile sale, se accepta ipoteza nula. Intervalul de respingere reprezinta multimea valorilor pentru care daca o valoare a statisticii calculate prin test se inscrie printre valorile sale se respinge ipoteza nula.
Diferentele statistic semnificative pot sa nu fie semnificative clinic, si diferentele clinic importante pot sa nu fie statistic semnificative. Ipoteza nula poate fi testata fie prin test unilateral “one-tailed test” sau bilateral “two-tailed test”
Testul unilateral Este acel test pentru care intervalul de respingere este format (dupa distributia normala) dintr-o singura coada stanga sau dreapta testul fiind unilateral stang sau drept. Este folosit pentru a testa o ipoteza nula pentru care ipoteza alternativa este directionata, comparatia facandu-se intr-un singur sens , si este mai puternic ca un test bilateral.
Testul bilateral Este acel test pentru care intervalul de respingere este format din 2 “cozi”-in stanga si in dreapta curbei Este folosit pentru a testa o ipoteza nula nefiind necesara nici o presupunere privind ipoteza alternativa Se folosesc cand generam ipotezele alternative si sunt mai utilizate in comparatie cu testele unilaterale
Calcul H0:P1-P0=0 sau P1=P0 Ha:P1-P0=0 sau P1=P0 Unde P1 este probabilitatea caracteristicii studiate in esantion, iar P0 este probabilitatea aceleiasi caracteristici in populatie sau o probabilitate teoretica sau din literatura.
Tabele de contingenta si grade de libertate Reprezinta o clasificare a datelor in functie de 2 criterii in cadrul carora datele sunt in continuare divizate in 2 sau mai multecategorii discrete si mutual exclusive. Tabelul de contingenta in care sunt mai mult de 2 categorii pentru fiecare din cele 2 criterii este numit “tabelul rxc”. Un tabel de contingenta in care avem numai 2 categorii pentru fiecare din cele 2 criterii de grupare este numit “tabelul 2x2”
Aplicatii Este o metoda simpla de prezentare a datelor si mult folosita cand aplicam testul chi patrat sau alte teste neparametrice. Tabelul 2x2 se foloseste in domeniul epidemiologiei.
Grade de libertate Este un numar legat de efectivul valorilor dintr-o serie sau o distributie; el poate fi in mod liber atribuit cand suma valorilor este fixata. Intr-un tabel de contingenta, gradele de libertate reprezinta numarul celulelor din tabel carora li se pot atribui in mod liber valori, presupunand totalul si valorile marginale stabilite. Daca valorile din aceste celule au fost stabilite, valorile tuturor celulelor ramase din tabel sunt determinate in mod automat.
Aplicatie si calcul In cadrul unor distributii de probabilitate, cum ar fi distributia “t” si distributia “אַ2 “ valorile probabilitatilor de respingere a ipotezei nule variaza in functie de numarul de grade de libertate ale esantionului. Calcul: cand distributia are fie o singura linie, fie o singura coloana, numarul de grade de libertate este determinat prin formula: df=c-1, daca r=1 sau df=r-1, daca c=1 Cand tabelul are cel putin 2 linii si/sau cel putin 2 coloane, nr. de grade de libertate este determinat de formula: df=(r-1)x(c-1)
Distributia unui esantion de 100 nou-nascuti in functie de sex si de mediul de rezidenta Criteriul A (sex) Criteriul B (mediu) Masculin Feminin Total Urban a (21) b (19) a+b (40) Rural c (32) d (28) c+d (60) a+c (53) b+d (47) n (100)
Distributia binomiala Este acea distributie a rezultatelor obtinute in cadrul unui experiment, cand acestea au numai valori discrete si mutual exclusive. Aplicatii: este folosita cand ne referim la probabilitatea a 2 rezultate mutual exclusive intr-un numar cunoscut de probe. Probabilitatea fiecaruia dintre cele 2 rezultate este aceeasi in fiecare proba, dar rezultatul fiecarei probe este independent de rezultatul altei probe.
Calcul Pentru o distributie binomiala, probabilitatea este data de formula: f(x) =[n!/x!(n-x)!]pxqn-x f(x)= probabilitatea obtinerii valorii x in probe p=probabilitatea unuia din cele 2 rezultate posibile (un succes) intr-o singura proba q=probabilitatea celuilalt rezultat posibil (un esec) intr-o singura proba n=nr. total de probe din cadrul experimentului x=nr. de succese obtinute in cadrul unui experiment de n probe n-x=numarul de esecuri obtinute in cadrul aceluiasi experiment !=semnul factorial
Distributia binomiala se refera deci la o variabila aleatorie discreta x pentru care valoarea medie si dispersia sunt date de formulele: µx=np סּ2=npq Pentru diverse valori ale lui n si p se obtin diverse curbe reprezentative pentru probabilitatile f(x). Pentru np>10 si nq>10, curbele devin insuficient de simetrice in jurul valorii lui µx si se poate asimila distributia binomiala cu o distributie normala.
Daca in cazul distributiei binomiale consideram n foarte mare si probabilitatea p foarte mica, astfel ca produsul np=θ=x devin: f(x)=e- θ. Θx/x! probabilitati care conduc la distributia Poisson. Se demonstreaza ca valoarea medie si dispersia pentru aceasta distributie sunt: µx= θ סּ2 x= θ Prin cresterea lui θ se obtin curbe cat mai simetrice, astfel pentru θ>20 sau θ=20, distributia lui Poisson poate fi asimilata cu o distributie normala.
Distributia normala (Gauss Laplace) Este o distributie teoretica, continua, simetrica, unimodala, si poate, teoretic, sa varieze intre – infinit si +infinit. Curba distributiei normale are doua cozi simetrice si este determinata prin media µ si deviatia standard a populatiei סּ. Media, mediana si modulul unei populatii distribuite normal sunt egale.
Aplicatii Poate fi folosita pentru a studia multe populatii si esantioane, esantioanele trebuie sa fie de minimum 30 de cazuri. Distributia normala si aproximarea normala constituie bazele unui numar de teste analitice, cum ar fi testul t sau chi patrat.
Raportul critic sau scorul z Este numarul deviatiilor standard ce separa un indicator calculat in esantion de parametrul corespunzator intr-o populatie normala. Cresterea raportului critic corespunde descresterii probabilitatii de acceptare a ipotezei nule Pot fi calculate si listate proportiile populatiei in interiorul intervalului si/sau in afara intervalului.
Intr-o populatie distribuita normal, aproximativ 68% din populatie este situata in interiorul unui raport critic, aproximativ 95% din populatie este situata in interiorul a 2 rapoarte critice ale mediei si in jur de 99,7% este situata in interiorul a 3 rapoarte critice mediei. In esantioanele numeroase, raportul critic este folosit pentru a calcula intervalele de incredere in jurul mediei de esantion.
Calcul z=lx-µl/סּ z=raportul critic x=valoarea de testat µ=media populatiei סּ=deviatia standard a populatiei
Testul t (student) Este bazat pe distributia t, distributie care reflecta o mai mare variatie datorata sansei in comparatie cu distributia normala. Este continua, simetrica, unimodala, variaza de la –infinit la +infinit, este mult mai larga in comparatie cu distributia normala.
Este utilizata pentru a analiza esantioane mici. Cand volumele esantioanelor cresc, distributia t se apropie de distributia normala, astfel ca pentru un numar infinit de grade de libertate cele 2 distributii sunt identice si valorile critice ale lui t sunt egale cu raportul critic al distributiei normale.
Testul t pentru un esantion mic Testul t pentru un singur esantion mic compara o singura medie (x) a esantionului cu media populatiei.
Aplicatii si caracteristici Sunt folosite pentru a evalua ipoteza nula pentru variabile cantitative, pentru esantioane de volum mai mic de 30 de cazuri. Sunt utilizate in analiza pentu care SD din esantioane sunt substituite ca estimatii pentru SD din populatii. Valoarea probabilitatii de respingere a ipotezei nule, cand aceasta este adevarata α=p-value este obtinuta din tabela t corespunzatoare lui df=n-1 grade de libertate. In cazul esantioanelor mici, sub 30 de cazuri, distributia t este folosita pentru a calcula intervalele de incredere in jurul mediei esantioniului.
Calcul Valoarea calculata a testului pentru compararea mediei esantionului cu media populatiei este determinata prin formula: t(df)=lx-µl/(SD/√n) t(df)=valoarea calculata a testului la df. gr. de libertate df=nr. de grade de libertate x=valoarea medie a esantionului µ=media populatiei SD=deviatia standard n=volumul esantionului Numitorul ecuatiei se numeste eroarea standard a mediei esantionului.
Testul t pentru esantioane independente Compara valori medii a 2 esantioane mici. Utilitatea si restrictiile sunt aceleasi cu exceptia ca esantioanele trebuie sa fie sub 30 de cazuri. Este nepotrivit cand avem de comparat mai multe valori medii.
Calcul t(df)=lx-yl/SDp√1/n1+1/n2 SDp=√Σ(xi-x)2+ Σ(yi-y)2/(n1-1)+(n2-1) SDp=deviatia standard ponderata a celor 2 esantioane
Testul t pentru esantioane perechi Compara valorile medii a 2 esantioane perechi. In acest caz numarul de perechi trebuie sa fie sub 30. t(df)=d /(SDp/√n) SDp= √Σ(di-d)2/(n-1) di=diferentele in cadrul fiecarei perechi d=valoarea medie a diferentelor
Numitorul testului t pe perechi este eroarea standard a diferentei mediilor. Valoarea calculata a testului t este folosita pentru a stabili probabilitatea ca diferenta intre esantioanele perechi, la gradele de libertate respective sa se datoreze sau nu sansei.
Eroarea standard si limitele de incredere Este bazata pe un esantion al populatiei si este o estimatie a deviatiei standard a masuratorilor pentru populatie. Este o masura a acuratetei mediei esantionului ca o estimatie a mediei populatiei. Este raportul dintre deviatia standard si radical de ordinul 2 din volumul esantionului. Este folosita pentru a construi limitele de incredere in jurul mediei esantionului. Este folosita la testul t. SEM=SD/√n unde n=nr. de obs. in esantion
Limitele de incredere ale valorii medii Definesc valorile probabile pentru un parametru al populatiei, pe baza volumului esantionului si a valorii erorii standard. Intervalele de incredere sunt exprimate in termenii probabilitatii bazate pe eroarea α. Un interval de incredere (1- α), exprima faptul ca probabilitatea ca parametrul populatiei sa se gaseasca in intervalul de incredere este 1- α, iar probabilitatea ca parametrul populatiei sa se gaseasca in afara intervalului de incredere este α.
Limitele de incredere ale mediei populatiei (µ) definesc intervalul de incredere pentru media populatiei pe baza mediei esantionului. Pentru esantioane mai mari sau egale cu 30 limitele de incredere sunt bazate pe raportul critic corespunzator probabilitatii asociate. Pentru esantioane mici sub 30 limitele de incredere sunt bazate pe valorile lui t din tabele, corespunzator numarului de grade de libertate si probabilitatii asociate.
Utilitate Sunt folosite pentru a estima media populatiei pe baza mediei esantionului extras din populatie. Cel mai des folosite sunt limitele de incredere de 95%, care indica faptul ca probabilitatea ca valoarea mediei necunoscuta din populatie sa se afle intre aceste limite este de 95%, iar in afara lor este de 5%.
Calcul Pentru esantioane mari Limitele de incredere (1- α)=x±zαSEM Pentru esantioane mici Limitele de incredere (1- α)=x±tdf,αSEM
Testul chi patrat א2 Compara o distributie de frecvente absolute observate cu o distributie teoretica (asteptata) de frecvente absolute pe baza distributiei de probabilitate chi patrat. Este o distributie continua, simetrica si se bazeaza pe aproxiamtia normala a distributiei binomiale. Distributia chi patrat cu 1 grad de libertate este identica cu distributia patratului raportului critic.
Aplicatii si caracteristici Testul chi patrat de tip rxc este folosit pentru a compara o distributie observata cu o distributie teoretica sau compara 2 sau mai multe distributii observate. Categoriile de date folosite trebuie sa fie mutual exclusive si discrete. Trebuie folosite numai valori absolute. Frecventele teoretice trebuie sa fie mai mari decat 5, cele observate pot fi mai mici decat 5. Valorile probabilitatii pentru respingerea ipotezei nule sunt obtinute din tabele speciale pentru distributia chi patrat corespunzator numarului de grade de libertate.
Corectia Yates Deoarece distributia chi patrat este bazata pe aproximatia normala a distributiei binomiale, se impune o corectie de continuitate numita corectia Yates, aceasta consta intr-o modificare in formula de calcul a testului chi patrat Corectia Yates se foloseste pentru esantioane mici si scade valoarea lui chi patrat, deci scade probabilitatea respingerii ipotezei nule.
Calcul א2c(df)=Σ (|Oi-Ei|-1/2)2/Ei א 2c(df)=valoarea calculata a testului chi patrat cu corecta Yates Oi=frecventele absolute observate din fiecare celula a tabelului Ei=frecventele teoretice corespunzatoare frecventelor observate ½=corectia yates
Testul chi patrat 2x2 Este un caz particular si se aplica pantru tabelele de contingenta de tip 2x2 si are un grad de libertate. א2c(1)=n(|ad-bc|-n/2)2/(a+b)(c+d)(a+c)(b+d)
Testul McNemar Este un test chi patrat 2x2 specific pentru compararea esantioanelor perechi. Ipoteza nula care este de testat este aceea ca frecventele asteptate pentru perechile discordante sunt egale. Testul are un grad de libertae si se poate calcula dupa formula: א2c=(|f-g|-1)2/f+g unde f si g sunt valorile perechilor discordante