Definiţii Statistica este disciplina care se ocupă cu culegerea, înregistrarea, gruparea, analiza şi interpretarea datelor referitoare la un anumit fenomen, precum şi cu formularea unor previziuni privind comportarea viitoare a acestui fenomen.
Definiţie Biostatistica este o ramură a statisticii, specializată în studiul fenomenelor biologice, deci şi al celor medicale Se ocupă de culegerea, centralizarea şi gruparea datelor, de prelucrarea şi determinarea unor indicatori pentru descrierea fenomenelor biomedicale studiate, pe baza evidenţierii unor regularităţi sau variabilităţi statistice Aplică şi dezvoltă tehnici statistico-probabilistice pentru analiza datelor biomedicale
Definirea termenilor Mulţimea pe care se realizează un studiu statistic se numeşte populaţie statistica. Elementele componente ale unei populaţii se numesc unităţi statistice sau indivizi. Numărul total de unitati statistice se numeşte efectivul total al populaţiei statistice. O parte a populaţiei statistice aleasa special pentru a fi studiata se numeşte eşantion. Proprietatea sau indicatorul in funcţie de care se cercetează o populaţie statistica se numeşte caracteristica sau variabila statistica.
Definirea termenilor Caracteristica statistică reprezintă acea proprietate care este comună tuturor unităţilor unei colectivităţi statistice. Deoarece variază de la o unitate la alta, mai poartă numele de variabilă statistică (ex: pentru ceramica neolitică o caracteristică o reprezintă tehnica de lucru cu mâna, ce poate însă varia de la un meşter la altul). Nivelul variabilei la fiecare unitate sau grup de unităţi, se numeşte variantă.
Definiţii Numărul de apariţii (înregistrări) ale unei variante într-o colectivitate statistică reprezintă frecvenţa caracteristicii (ex: numărul de fragmente ceramice, numărul de arme, numărul de obiecte din os, numărul de morminte, numărul siturilor arheologice aparţinând unei anume culturi neolitice, etc.)
Caracteristicile statistice se diferenţiază după mai multe criterii DUPĂ MODUL DE EXPRIMARE: caracteristici calitative caracteristici cantitative
Caracteristici cantitative O caracteristică se numeşte cantitativă dacă se poate exprima cifric sau numeric. Ex: media generală, salariul, înălţimea, greutatea.
Caracteristici cantitative O caracteristică cantitativă se numeşte discontinuă sau discretă dacă nu poate lua decât valori numerice întregi (Ex: nr. copii, nr. decese, nr. căsătorii). O caracteristică cantitativă care poate lua orice valoare dintr-un interval de lungime finită sau infinită se numeşte caracteristică cantitativă continuă (Ex: înălţimea, greutatea, TA). Intervalele în care o caracteristica ia valori se numesc grupe sau clase de valori (Ex: grupele de vârstă).
Caracteristici calitative Exprimă o însuşire sau o calitate a unităţii statistice Ex: masculin/feminin; urban/rural; bolnav/sănătos forma = alungită, rotundă, ovală - în descrierea unor obiecte caracterul =flegmatic, melancolic, sangvinic, coleric - în descrierea unor persoane. Se observă că setul valorilor posibile pentru caracteristicile calitative este finit.
INDICATORI DE TENDINŢĂ CENTRALĂ PENTRU CARACTERISTICILE CANTITATIVE SERIA SIMPLĂ SERIA GRUPATĂ x – coloana variantelor caracteristica cantitativă studiată Media aritmetică simplă Mediana (Me) Me = în care: n = numărul de observaţii f – coloana frecvenţelor sau pondere (gr. specifică) Medie ponderată Mediana (Me) – se calculează în funcţie de frecvenţa cumulată Me = în care: Modulul (Mo)Varianta cu frecvenţa cea mai mare
Utilitatea practică a medianei I 2500 g 3000 g 3500 g Speranţa de viaţă la naştere Durata mediană de viaţă Vârsta modală la deces MODULUL Utilitatea practică a medianei I 2500 g 3000 g 3500 g II 2500 g 3000 g 5000 g
INDICATORI DE VARIABILITATE STATISTICĂ PENTRU CARACTERISTICILE CANTITATIVE /. Mărimi absolute : rangul (amplitudinea variaţiei) deviaţia medie deviaţia standard (sigma) 2. Mărimi relative : coeficientul de variaţie. coeficientul de precizie
Serie simplă Serie grupată Rangul: R = X n - Xi Deviaţia medie: ;
Pătratul deviaţiei standard se numeşte VARIANTĂ Acesta reprezintă raportul procentual dintre deviaţia standard şi media aritmetică a seriei de observaţii respective: CV. < 10% dispersie mică colectivitate omogenă 10 - 30% dispersie medie > 30% dispersie mare colectivitate eterogenă COEFICIENTUL DE PRECIZIE (CP.)
Rezultatul final (reducerea datelor statistice) este: = 9,8 zile x f d d2 d2f 7 2 - 2,8 7,84 15,68 8 4 - 1,8 3,24 12,96 9 - 0,8 0,64 4,48 10 11 + 0,2 0,04 0,44 + 1,2 1,44 11,52 12 3 + 2,2 4,84 14,52 35 59,60 = 9,8 zile Deviaţia standard în cazul seriei grupate: Rezultatul final (reducerea datelor statistice) este: = 9,8 zile = 1,3 zile n =35 Perioada de incubaţie a tusei convulsive, la lotul de 35 bolnavi studiat, este de: 9,8 ±1,3 zile.
Poziţia Me pentru seria grupată x f x • f fcumulată 53 1 54 3 162 4 55 5 275 9 56 224 13 57 2 114 15 828
Prelucrarea caracteristicilor calitative Definiţia probabilităţii; PA = Nr. cazuri favorabile/nr.cazuri posibile sau existente Probabilitatea matematică se stabileşte apriori; probabilitatea empirică (experimentală) Probabilitatea fundamentală se stabileşte aposteriori; probabilitatea empirică (experimentală) Masculin: p = 0,515 Feminin: q = 0,485 P = 51,5 % Q = 48,5 % p + q = 1 P + Q = 100
Probabilitatea fundamentală In biostatistică, în studiul fenomenelor de masă acţionează probabilitatea fundamentală, care este o probabilitate medie. Probabilitatea producerii unui eveniment, merge de la imposibilitatea producerii lui şi până la certitudine, şi variază între 0 – 1, 0 – 100, fără a atinge cele două extreme. Cu cât probabilitatea se apropie de 1 sau 100 cu atât probabilitatea producerii evenimentului este mai mare. Dacă p sau P este egal cu ½, atunci sunt şanse egale ca evenimentul să se producă sau să nu se producă.
Probabilităţi compuse Probabilităţi simple Probabilităţi compuse reprezintă probabilitatea de a se realiza în acelaşi timp fie unul, fie altul din mai multe evenimente P3 şi P5 produsul celor două probabilităţi P3 sau P5 suma celor două probabilităţi Caracteristici calitative alternative p + q = 1 P + Q = 100
Prelucrarea datelor statistice calitative Probabilitatea nu se aplică pe caz în parte ci pe colectivitate Prelucrarea datelor statistice în cazul caracteristicilor calitative, se realizează prin calculul frecvenţei acestora Frecvenţa relativă a apariţiei unui eveniment este considerată probabilitatea acelui eveniment. De aceea, frecvenţa se notează cu P Calculul variaţiei (dispersiei) unei frecvenţe (deviaţia standard)
Calculul erorii standard pentru frecvenţe Generalizarea datelor Intervalul de încredere sau de siguranţă statistică IC = LI LS
Definiţia IC Este intervalul în care pornind de la media pe eşantion, dacă studiem caracteristici cantitative sau de la frecvenţa pe eşantion, în cazul caracteristicilor calitative, putem estima, media sau frecvenţa pentru colectivitatea generală (N) IC stabileşte media sau frecvenţa pentru colectivitatea generală (N). Media sau frecvenţa pentru N este estimată şi nu stabilită cu certitudine, ci cu un grad ridicat de probabilitate.
TEORIA EŞANTIONAJULUI Eşantion - mostră - colectivitate de selecţie - colectivitate parţială extrasă aleator dintr-o populaţie N - colectivitatea generală - colectivitatea de bază - colectivitatea de referinţă - bază de sondaj - populaţia ţintă
În statistică Selecţie – reprezintă o colectivitate constituită absolut întâmplător În vorbirea curentă Selecţie – înseamnă o alegere dirijată după un criteriu bine stabilit Eşantionul trebuie să fie reprezentativ pentru colectivitatea generală (N), de unde a fost extras. Reprezentativitatea este determinată de alegerea aleatoare a unităţilor statistice care vor alcătui eşantionul şi nu de volumul acestuia. Precizia eşantionului este determinată de volumul acestuia, adică, de numărul de unităţi statistice, care vor alcătui eşantionul
Tipuri de eşantionaj Schema de constituire a unui eşantion dă şi denumirea tipului de eşantionaj A – eşantion probabilistic (aleator) B – eşantion neprobabilistic, nealeator, empiric a) eşantion aleatoriu simplu sau elementar Realizarea sa cuprinde 3 etape: Realizarea bazei de sondaj Mărimea sau dimensiunea eşantionului, adică cât de mare trebuie să fie n din N; acest lucru se realizează pe baza determinării fracţiunii de eşantionaj Nominalizarea unităţilor statistice, ce vor face parte din eşantion: - Pas de numărare - Selectare tip LOTO - Tabele cu numere aleatoare - EŞ trebuie să fie validat - Generalizarea datelor pe baza IC
A – eşantion probabilistic (aleator) Tipuri de eşantionaj A – eşantion probabilistic (aleator) b) Eşantionul stratificat - Se foloseşte atunci când datele nu sunt dispuse aleatoriu, ci sunt clasate după anumite caracteristici . - Astfel în interiorul populaţiei de referinţă apar mai multe subpopulaţii, subpopulaţii care se numesc straturi. - Caracteristic pentru un strat este omogenitatea internă şi neomogenitatea faţă de celelalte straturi din punctul de vedere al caracteristicii studiate. - Alegerea criteriului de stratificare este foarte importantă
c) Eşantionul în cuiburi (ciorchine) Tipuri de eşantionaj A – eşantion probabilistic (aleator) c) Eşantionul în cuiburi (ciorchine) - Se foloseşte atunci când nu există bază de sondaj, sau atunci când întocmirea ei este greoaie sau costisitoare - Principiu: populaţia de investigat poate fi imaginată ca fiind alcătuită din unităţi de selecţie, agregate şi ierarhizate (gravidele – familie – colectivitate definită – cartier – comună – judeţ – ţară)
Tipuri de eşantionaj A – eşantion probabilistic (aleator) Etape de alcătuire a eşantionului în cuiburi (cuprinde 3 etape): 1. Baza de sondaj – lista cuiburilor (comune, familie) 2. Se extrag aleatoriu cuiburile care vor face parte din EŞ 3. Se investighează toate unităţile de observare din cuiburile extrase. Reprezentativitatea EŞ – este de preferat să fie studiate mai multe cuiburi de dimensiuni mici, decât puţine cuiburi de dimensiuni mari
Tipuri de eşantionaj A – eşantion probabilistic (aleator) d) Eşantionul multistadial - se realizează mai multe extrageri - este utilizat pentru acele procese care implică teste chimice, fizice sau biologice, care pot fi efectuate într-o cantitate mai mică de produs, prin extragerea de subeşantioane dintr-o cantitate mai mare care este ea însăşi un eşantion. - Exemplu: ţară – judeţe – comune – familie – gravide sunt posibile următoarele extrageri Sondajul grad I – judeţele din judeţele selecţionate Sondajul grad II – comunele, din comunele selecţionate Sondajul grad III – familiile, din familiile selecţionate
d) Eşantionul multistadial Tipuri de eşantionaj d) Eşantionul multistadial Baza de eşantionaj cuprinde toate gravidele din care se va face un nou sondaj Sondajul grad IV – care va genera eşantionul ce va fi efectiv investigat. - De obicei se foloseşte eşantionul bistadial sau tristadial.
Tipuri de eşantionaj B – Eşantion neprobabilistic, nealeator, empiric - Reprezentativitatea poate fi asigurată prin alegerea raţională a eşantionului de către cercetător - EŞ neprobabilistic nu implică selecţia aleatoare, deci el nu se bazează pe teoria probabilităţilor, adică se poate ca populaţia să fie sau să nu fie bine reprezentată, dar acest lucru este greu de demonstrat. - În general se folosesc EŞ probabilistice Eşantion neprobabilistic – clasificare 1. Bazat pe convenţie – eşantionajul convenţional - unitatea de observaţie este omul de pe stradă - este folosit pentru a obţine în scurt timp opinia populaţiei (deşi nereprezentativă) - în practica clinică se pot utiliza ca EŞ – pacienţii care ne sunt disponibili
Tipuri de eşantionaj 2. Eşantionajul bazat pe atingerea unui scop - Selecţia se face având un scop a) EŞ tipice (metoda unităţilor tip) Ex. o localitate este reprezentativă pentru situaţia unei zone b) EŞ experţilor c) Metoda cotelor - Este modalitatea cea mai utilizată în cadrul EŞ empiric - Reprezentativitatea constă în realizarea unui EŞ care să aibă o structură asemănătoare cu cea a populaţiei - Alegerea unităţilor statistice se realizează cum doreşte cercetătorul. Ex. I se dau fiecărui cercetător nr. şi caracteristicile persoanelor care trebuie investigate 60 femei din care: 20 – grupa de vârstă 15 – 19 ani 20 – grupa de vârstă 20 – 29 ani 20 – grupa de vârstă 30 – 39 ani lăsându-i libertatea de a le găsi (stradă, vecini) este o metodă care nu necesită prezenţa bazei de sondaj
Tipuri de eşantionaj d) Eşantionul în “bulgăre de zăpadă” - Se identifică unităţile statistice (persoane) care îndeplinesc criteriile pentru a fi incluse în studiu. - Aceste persoane sunt apoi rugate să recomande alte persoane care îndeplinesc aceleaşi criterii - Câteodată este singura modalitate disponibilă (studiu persoanelor fără adăpost). - Această metodă asigură greu reprezentativitatea.
Surse de erori în studiile pe eşantion Există 3 surse de erori: 1. Neinvestigarea unor unităţi statistice selecţionate în eşantion (non-răspuns) 2. Erori din cauza aparaturii de măsură 3. Erori introduse în procesele de editare, codificare, tabelare a rezultatelor
Surse de erori în studiile pe eşantion Soluţii de rezolvare a erorilor: 1. Scăderea procentajului de non-răspunsuri, printr-o pregătire a populaţiei şi a operatorilor de interviu. 2. Cunoaşterea unor caracteristici ale populaţiei “refractare” cu scopul de a le putea compara cu cele ale populaţiei care răspunde, urmărind să testăm dacă diferenţa dintre răspunsuri este semnificativă statistic. EŞ cu persoanele care nu au răspuns – de precizat cauzele 3. O soluţie recomandată - De a găsi un înlocuitor pentru fiecare non-răspuns - Listă de rezervă realizată tot prin extragere la sorţi chiar din momentul începerii selecţiei Înlocuirile duc la realizarea volumului stabilit iniţial al EŞ, dar nu garantează precizia calculată, deoarece non-respondenţii nu vor fi niciodată asemănători cu înlocuitorii lor care au acceptat să participe la studiu.
Surse de erori în studiile pe eşantion Volumul EŞ furnizează numărul de subiecţi de la care trebuie obţinută informaţia, şi nu numărul de subiecţi care trebuie selectaţi pentru studiu.
Realizarea unui eşantion probabilistic (aleator) Cuprinde 3 etape: 1. Baza de sondaj Reprezintă lista cu întreaga populaţie 2. Mărimea sau dimensiunea EŞ – pe baza fracţiunii de eşantionaj 3. Se nominalizează unităţile statistice ce vor face parte din EŞ: - pas de numărare - selectare tip LOTO - tabel cu numere aleatorii - EŞ trebuie validat. Generalizarea datelor - IC
Avantajele unui eşantion probabilistic (aleator) 1. Mai operativ, mai economic 2. Se realizează într-un timp mai scurt 3. Intervin erori de înregistrare mai puţin numeroase 4. Este indispensabil când studiile totale nu se pot efectua 5. Asigurarea unei reprezentativităţi a eşantionului şi a unei precizii Reprezentativitate – selecţie aleatoare Precizia EŞ – volumul EŞ
Realizarea unui eşantion probabilistic (aleator) FRACŢIUNE DE EŞANTIONAJ Prevalenţa HTA = 15 % q = 0,05 → t = 1,96 N = 75.000 locuitori p = 0,15; q = 0,85 ∆ = 0,02
BAZĂ DE SONDAJ ∆2 = eroarea limită sau eroarea maximă admisă Grupa de vârstă N n 0 – 9 10 – 19 20 – 29 30 – 39 40 – 49 50 – 59 60 – 69 70 – 79 80 + 10.725 12.434 10.884 10.754 8.913 8.952 7.460 3.408 1.470 174 202 177 175 145 146 121 55 24 →10.725 : 62 = 174 →12.434 : 62 = 202 →10.884 : 62 = 177 →1.470 : 62 = 24 TOTAL 75.000 1.219 Pas de numărare: K = ∆2 = eroarea limită sau eroarea maximă admisă σ2 (varianţa) = P x Q P = 50 % Dacă nu mai avem nici o cercetare, adică nu-l cunoaştem pe P, Q = 50 % atunci se iau aşa zisele probabilităţi arbitrare.