UNIVERSITATEA POLITEHNICA TIMIŞOARA MASTER SIIS Sisteme Informatice în Îngrijirea Sănătății 1 1 1 1
www.medinfo.umft.ro/dim/bioinformatica.htm
Prof Dr George I Mihalaş UMF Victor Babeş BIOINFORMATICA Prof Dr George I Mihalaş UMF Victor Babeş 1 1 1 1
CURSUL 10 1 1 1 1
Lanţuri Markov simple
Lanţuri Markov ast = P(xi = t | xi-1 = s) Probabilitatea unei poziţii depinde de poziţia anterioară; pentru tranziţia t → s: ast = P(xi = t | xi-1 = s) Se definesc “început” şi “sfârşit”
Probabilitatea unei secvenţe
Estimarea parametrilor modelului Problema: Fiind dat un set de date D (ex un set de secvenţe), cum putem determina parametrii de probabilitate ai tranziţiilor? Formal: găsirea parametrilor θ care maximizează Pr (D | θ), adică face setul de date D să arate ca cel mai asemănător posibil (în cadrul acestui model) Metode de estimare: Metoda asemănării maxime (Maximum Likelihood) Metoda Bayes
Metoda asemănării maxime (i) Asumpţii iniţiale: Fiecare poziţie este independentă de celelalte Fiecare poziţie este generată de aceeaşi distribuţie multinomială Dorim să estimăm parametrii P(a), P(c), P(g), P(t) P(a) = na / Σ ni , etc Ex.1: se dau secvenţele: accgcgctta gcttagtgac tagccgttac P(a) = 6 / 30 = 0.2 P(c) = 9 / 30 = 0.3 P(g) = 7 / 30 = 0.233 P(t) = 8 / 30 = 0.267
Metoda asemănării maxime (ii) Ex.2: se dau secvenţele (a→g): gccgcgcttg gcttggtggc tggccgttgc Pornim de la “cunoştinţe anterioare” – “belief” şi calculăm estimatele Laplace (cu “pseudocounts”): P(a) = (na+1) / Σ (ni+1) P(a) = 0 / 30 = 0 (?) P(c) = 9 / 30 = 0.3 P(g) = 13 / 30 = 0.433 P(t) = 8 / 30 = 0.267 P(a) = 0+1 / 34 = 0.029 P(c) = 9+1 / 34 = 0.294 P(g) = 14 / 34 = 0.412 P(t) = 9 / 34 = 0.264
Metoda asemănării maxime (iii) Generalizare: m “pseudocounts” gccgcgcttg gcttggtggc tggccgttgc Ex: pentru P(c), în cazul m=8 şi pa = 0.25: P(c) = (9+0.25x8)/(30+8) = 11/38 = 0.289
Estimarea probabilităţilor de ordin 1 Definiţie: Probabilitatea de ordin 1 este probabilitatea unui element de a fi precedat de un anumit alt element Ex: P(c|g) este probabilitatea de a găsi nucleotidul “c” precedat de “g”, adică probabilitatea secvenţei “gc” Pentru setul de secvenţe gccgcgcttg gcttggtggc tggccgttgc P(a|g) = (0+1)/(12+4) P(a|c) = (0+1)/(7+4) P(c|g) = (7+1)/(12+4) P(c|c) = (2+1)/(7+4) P(g|g) = (3+1)/(12+4) P(g|c) = (3+1)/(7+4) P(t|g) = (2+1)/(12+4) P(t|c) = (2+1)/(7+4) P(a|a) = (0+1)/(0+4) P(a|t) = (0+1)/(8+4) P(c|a) = (0+1)/(0+4) P(c|t) = (0+1)/(8+4) P(g|a) = (0+1)/(0+4) P(g|t) = (5+1)/(8+4) P(t|a) = (0+1)/(0+4) P(t|t) = (3+1)/(8+4)
Lanţuri Markov de ordin superior Def: Un lanţ Markov de ordin “n” arata dependenţa de “n poziţii anterioare” Selectarea ordinului lanţului: Nr de parametri creşte exp. cu ordinul [pt ADN avem O(4m+1) parametri] Nr de apariţii ale unui “(n+1)-mer” scade cu n (Ex: E.coli: dela 72000 pt n=2 la ~4 pt n=9) Un lanţ Markov de ordin “n” peste alfabetul A este echivalent cu un lanţ Markov de ordin 1 peste alfabetul de n-tupli An. Ex: lanţurile Markov de ordin 2 ai ADN se obţin ca lanţuri de ordin 1 peste dimerii aa, ac, ag, at, ca, cc, cg, ct, ga, gc, gg, gt, ta, tc, tg, tt (16 dubleţi)
APLICAŢII Ex: un lanţ Markov de ordin 5 Lanţuri Markov neomogene (diferite distribuţii în diferite regiuni din secvenţă GeneMark (Borodovski) – pt. găsirea genelor – ord.5
Ex: utilizarea unui lanţ Markov neomogen de ordinul 5
PAUZA