UNIVERSITATEA POLITEHNICA TIMIŞOARA MASTER SIIS Sisteme Informatice în Îngrijirea Sănătății 1 1 1 1
www.medinfo.umft.ro/dim/bioinformatica.htm
Prof Dr George I Mihalaş UMF Victor Babeş BIOINFORMATICA Prof Dr George I Mihalaş UMF Victor Babeş 1 1 1 1
CURSUL 11 1 1 1 1
ORF Open Reading Frames
ORF – Open Reading Frames Definiţie: Un ORF este o secvenţă care ar putea codifica o proteină: Începe cu un potenţial codon de start (ATG) Se termină cu un potenţial codon de stop (TAG, TAA, TGA) Nu are codoni de stop interni Satisface anumite cerinţe minime de lungime
Codul genetic (codoni) 20 AA 3 baze = codon
Metode pentru găsirea genelor Căutare prin similaritate de secvenţă (sss – Search by Sequence Similarity): se caută potriviri cu secvenţe cunoscute a fi legate de gene Căutare prin semnal (Search by Signal) – prin identificarea semnalelor implicate in expresia genei Căutare prin conţinut (Search by Content) – găsirea genelor prin proprietăţile statistice ce disting ADN-ul ce codifică proteine (exoni) de cel ce nu codifică Metode combinate: se combină aceste strategii. EX: căutare prin conţinut: Anumiţi AA apar mai frecvent în exoni decât in introni (ex: Leu mai frecv. ca Trp) Nr diferit de codoni pt diferiti AA (ex: Leu are 6, Trp are 1 codon) Pt un anumit AA, un codon apare mai frecvent ca altii; “codon preference” variază cu specia
Reading Frames (Cadre de Citire) O secvenţă ADN poate codifica o proteină în oricare din cele 6 cadre posibile de citire
Modelele Makov şi Cadrele de Citire Pentru fiecare “cuvânt” pe care îl evaluăm, vom considera poziţia sa în raport cu cadrul de citire pe care îl presupunem
Modele cu Lanţuri Marcov Ascunse - HMM (“Hidden Markov Models”)
Lanţuri Markov pentru “discriminare” Există zone cu distribuţii diferite Ex: insule CpG în zona promoter (C metilată poate fi subst. cu T) Tabele cu frecvenţa succesiunilor Modelul “+” : cu insule CpG (secvenţe umane cu 48 insule) Modelul “-” (restul) Scoruri: βxi-1xi = lg(a+xi-1xi /a-xi-1xi)
Lanţuri Markov Ascunse HMM – Hidden Markov Models Disociere “simbol” – “stare” Probabilităţi de tranziţie (a stării i, notată πi) akl = P(πi = l | πi-1 = k) Probabilitatea de “emisie” probabilitatea ca simbolul b să fie găsit în starea k ek(b)= P(xi = b | πi = k)
Lanţuri Markov Ascunse HMM – Hidden Markov Models În modelele Makov clasice – stările sunt cunoscute Problemă: fiind dat un “element”, ce stare l-a emis? [stări “ascunse”] Parametrii unui HMM
Ex: un HMM simplu, cu parametrii de emisie
Algoritmi de calcul pentru HMM Algoritmul “Forward” Cât de probabilă este o secvenţă dată? Algoritmul Viterbi Care este cea mai probabilă “cale” (secvenţă de stări ascunse – path) pentru a genera secvenţa dată Algoritmul Baum-Welch (Forward-Backward) Cum putem afla parametrii modelului Markov Ascuns HMM dintr-un set de secvenţe date?
Algoritmul Viterbi Problema: determinarea succesiunii stărilor cunoscând o secvență output (“emisii”) EX: pentru secvența în 3 zile: “walk, shop, clean”. Notații: Stări (R,S), Emisii (w,s,c) Rezolvare Ziua 1: p’1(w)=p(R)xp(w|R)=0.6x0.1=0.06, p”1(w)=p(S)xp(w|S)=0.4x0.6=0.24 Ziua 2: p’2(s|w)=p’1(w)xp(R|R)xp(s|R)=0.06x0.7x0.4=0.0168 p”2(s|w)=p’1(w)xp(S|R)xp(s|S)=0.06x0.3x0.3=0.0054 p’”2(s|w)=p”1(w)xp(R|S)xp(s|R)=0.24x0.4x0.4=0.0384 p””2(s|w)=p”1(w)xp(S|S)xp(s|S)=0.24x0.6x0.3=0.0432 Ziua 3: p(c|ws)=p’”2(s|w)xp(R|R)xp(c|R)= =0.0384x0.7x0.5=0.01344 p(c|ws)=p’”2(s|w)xp(S|R)xp(c|S)= =0.0384x0.3x0.1=0.001152 p(c|ws)=p””2(s|w)xp(R|S)xp(c|R)= =0.0432x0.4x0.5=0.00864 p(c|ws)=p””2(s|w)xp(S|S)xp(c|S)= =0.0432x0.6x0.1=0.002592 Diagrama “trellis” Traceback
Scoruri “log-odd Scoruri: βxi-1xi = lg(a+xi-1xi /a-xi-1xi) Verificarea experimentală a regiunilor CpG
HMM cu inserții și deleții Stări silențioase (B și E) Schema generală
PAUZA