Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
1
UNIVERSITATEA POLITEHNICA TIMIŞOARA
MASTER SIIS Sisteme Informatice în Îngrijirea Sănătății 1 1 1 1
3
Prof Dr George I Mihalaş UMF Victor Babeş
BIOINFORMATICA Prof Dr George I Mihalaş UMF Victor Babeş 1 1 1 1
4
CURSUL 10 1 1 1 1
5
Lanţuri Markov simple
6
Lanţuri Markov ast = P(xi = t | xi-1 = s)
Probabilitatea unei poziţii depinde de poziţia anterioară; pentru tranziţia t → s: ast = P(xi = t | xi-1 = s) Se definesc “început” şi “sfârşit”
7
Probabilitatea unei secvenţe
8
Estimarea parametrilor modelului
Problema: Fiind dat un set de date D (ex un set de secvenţe), cum putem determina parametrii de probabilitate ai tranziţiilor? Formal: găsirea parametrilor θ care maximizează Pr (D | θ), adică face setul de date D să arate ca cel mai asemănător posibil (în cadrul acestui model) Metode de estimare: Metoda asemănării maxime (Maximum Likelihood) Metoda Bayes
9
Metoda asemănării maxime (i)
Asumpţii iniţiale: Fiecare poziţie este independentă de celelalte Fiecare poziţie este generată de aceeaşi distribuţie multinomială Dorim să estimăm parametrii P(a), P(c), P(g), P(t) P(a) = na / Σ ni , etc Ex.1: se dau secvenţele: accgcgctta gcttagtgac tagccgttac P(a) = 6 / 30 = 0.2 P(c) = 9 / 30 = 0.3 P(g) = 7 / 30 = 0.233 P(t) = 8 / 30 = 0.267
10
Metoda asemănării maxime (ii)
Ex.2: se dau secvenţele (a→g): gccgcgcttg gcttggtggc tggccgttgc Pornim de la “cunoştinţe anterioare” – “belief” şi calculăm estimatele Laplace (cu “pseudocounts”): P(a) = (na+1) / Σ (ni+1) P(a) = 0 / 30 = 0 (?) P(c) = 9 / 30 = 0.3 P(g) = 13 / 30 = 0.433 P(t) = 8 / 30 = 0.267 P(a) = 0+1 / 34 = 0.029 P(c) = 9+1 / 34 = 0.294 P(g) = 14 / 34 = 0.412 P(t) = 9 / 34 = 0.264
11
Metoda asemănării maxime (iii)
Generalizare: m “pseudocounts” gccgcgcttg gcttggtggc tggccgttgc Ex: pentru P(c), în cazul m=8 şi pa = 0.25: P(c) = (9+0.25x8)/(30+8) = 11/38 = 0.289
12
Estimarea probabilităţilor de ordin 1
Definiţie: Probabilitatea de ordin 1 este probabilitatea unui element de a fi precedat de un anumit alt element Ex: P(c|g) este probabilitatea de a găsi nucleotidul “c” precedat de “g”, adică probabilitatea secvenţei “gc” Pentru setul de secvenţe gccgcgcttg gcttggtggc tggccgttgc P(a|g) = (0+1)/(12+4) P(a|c) = (0+1)/(7+4) P(c|g) = (7+1)/(12+4) P(c|c) = (2+1)/(7+4) P(g|g) = (3+1)/(12+4) P(g|c) = (3+1)/(7+4) P(t|g) = (2+1)/(12+4) P(t|c) = (2+1)/(7+4) P(a|a) = (0+1)/(0+4) P(a|t) = (0+1)/(8+4) P(c|a) = (0+1)/(0+4) P(c|t) = (0+1)/(8+4) P(g|a) = (0+1)/(0+4) P(g|t) = (5+1)/(8+4) P(t|a) = (0+1)/(0+4) P(t|t) = (3+1)/(8+4)
13
Lanţuri Markov de ordin superior
Def: Un lanţ Markov de ordin “n” arata dependenţa de “n poziţii anterioare” Selectarea ordinului lanţului: Nr de parametri creşte exp. cu ordinul [pt ADN avem O(4m+1) parametri] Nr de apariţii ale unui “(n+1)-mer” scade cu n (Ex: E.coli: dela pt n=2 la ~4 pt n=9) Un lanţ Markov de ordin “n” peste alfabetul A este echivalent cu un lanţ Markov de ordin 1 peste alfabetul de n-tupli An. Ex: lanţurile Markov de ordin 2 ai ADN se obţin ca lanţuri de ordin 1 peste dimerii aa, ac, ag, at, ca, cc, cg, ct, ga, gc, gg, gt, ta, tc, tg, tt (16 dubleţi)
14
APLICAŢII Ex: un lanţ Markov de ordin 5
Lanţuri Markov neomogene (diferite distribuţii în diferite regiuni din secvenţă GeneMark (Borodovski) – pt. găsirea genelor – ord.5
15
Ex: utilizarea unui lanţ Markov neomogen de ordinul 5
16
PAUZA
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.