Oligonukleotiidide signatuurid Oligonukleotiidide signatuuride valimine organismide identifitseerimiseks DNA array’dega
Eesmärk DNA maatriksid (array) aitavad kiiresti identifitseerida bioloogilisi agente (viirused, bakterid) Hulgale genoomsetele märklaudjärjestustele (target’id) tuleb leida proov (probe) Proov kinnitatakse maatriksi pinnale
Eesmärk 2 Proov peab hübridiseeruma ainult määratud märklaudjärjestusega Kõik proovid peavad hübridiseerima oma märklaudjärjestustega samadel reaktsioonitingimustel Kõige kriitilisem tingimus on temperatuur
Resultaat Sobiva proovi disainimiseks aretasid programmi Lars Kaderali ja Alexander Schliep Arvutab sulamistemperatuurid kõigile proov-sihtmärk kombinatsioonidele Algoritm kasutab sufiksipuid, dünaamilist programmeerimist ja sobivate järjestuste filtreerimist
TM(pi, ti) – ε > T > TM(pi, tk) + ε Ja nüüd täpsemalt... Proov peab seostuma kõrge spetsiifilisusega Proovide p1, p2, ..., pn ja target’ite t1, t2, ..., tn jaoks peab kehtima TM(pi, ti) – ε > T > TM(pi, tk) + ε
Eeldused DNA ei pea olema tervenisti kaksikheeliksi või täielikult denatureerunud kujul Kehtib tasakaal tasakaalukonstandiga KD S1 + S2 D
Eeldused 2 defineerime Tm kui temperatuuri, kus 50% ahelast on paardunud kontsentratsioon sõltub temperatuurist ja vastupidi, kasutame näiteks CT=10-6 M
Lähim naaber (NN) Nukleiinhapete interaktsioonid: Aluspaardumine (base pairing) tänu vesiniksidemetele vastasahelate vahel Aluskuhjumine (base stacking) Londoni dispersioonjõudude ja hüdrofoobsete efektide tõttu Seostumisenergia oleneb 1. juhul ainult paardunud nukleotiididest, 2. juhul ka teistest kõrvalolevatest nukleotiididest
Lähim naaber (NN) 2 Eeldame, et paardumise stabiilsus sõltub ainult kahest kõrvalolevast naabrist ΔH ja ΔS arvutatakse naabritest lähtuvalt Parameetrid ΔG, ΔH, ΔS ja TM määratakse UV-absorbtsiooni võrdlemisel erinevate oligonukleotiidide temperatuuriprofiilidega Leitud nii DNA-DNA, RNA-RNA kui DNA-RNA dupleksite jaoks
Üldine algoritm Proov peaks olema komplementaarne märklaudjärjestustega ja unikaalne Sobivate kandidaatide leidmiseks kasutatakse sufiksipuud Kaderali algoritm ei luba proovide komplementaarsuses märklauaga vigu
Üldine algoritm 2 Optimaalsete proovide saamiseks arvutatakse sulamistemperatuurid kõikide proovikandidaatide ja märklaudjärjestuste komplementide jaoks Valitakse välja joondus, mis annab kõrgeima TM Tulevikus võiks arvestada ka dupleksi sekundaarstruktuuri ja võimalikku märklaudjärjestuse seostumist iseendaga
Üldine algoritm 3 Eesmärk on eemaldada sobimatud kandidaadid võimalikult vara ja termodünaamilised arvutused teha ainult sobivate kandidaatidega Sobimatud kandidaadid on mitte-unikaalsed, liiga lühikesed või pikad, sobimatu dupleksi sulamistemperatuuriga vms.
Üldine algoritm 4
Üldine algoritm 5
Termodünaamiline joondus Arvutame kõigi sobivate kandidaatide ja märklaudjärjestuste joonduse, lubades gap-e Needleman-Wunchi algoritm on muudetud, arvestamaks sulamistemperatuure Joondus ja TM on üksteisest sõltuvad
Termodünaamiline joondus 2 Koostame tabeli ΔH ja ΔS väärtustest prefiksite jaoks t valime nii, et TM(i, j) on maksimaalne
Termodünaamiline joondus 3 Tabeli kaks äärt initsialiseeritakse nullidega, et algsed gapid ei alandaks TM, samuti tulemust otsitakse üle kahe ääre väärtuste Sulamistemperatuuri valem pole monotoonne, mis mõnel juhul ei anna optimaalseimat sulamistemperatuuri TM=27.2 °C TM=15.4 °C
Sufiksipuu Joondades näiteks järjestusi GATTACA ja CTAAGGT ning hiljem GATTACA ja CTAATGA, kattub tabeli osa GATTACA ja CTAA jaoks Alamstringide paaride ühiste prefiksite leidmiseks kasutame üldistatud sufiksipuud
Sufiksipuu 2
Proovide filtreerimine Peaksime arvutama joonduseid ja sulamistemperatuure kõigi kandidaatide ja kõigi märklaudjärjestuste paaride jaoks Sobimatud proovid tunneb ära: Sobimatu pikkus Mitte-unikaalsus (ka piisavalt pika alamstringi) Liiga madal sulamistemperatuur
Proovide filtreerimine 2 Niisiis – algul koostame proovid kõikidest märklaudjärjestuste alamstringidest komplementaarsuse alusel Siis koostame nn. üldistatud sufiksipuu (generalized suffix tree) kõik alamstringid on loetavad puust iga alamstringi prefiks sobib alamstringiks Hiljem eemaldatakse proovideks sobimatud stringid puust eelpoolmainitud kriteeriumite alusel
Termodünaamiline puu joondus Peale filtreerimist peame ikkagi arvutama kõige stabiilsemate dupleksite sulamistemperatuurid iga proovi ja märklaua vahel DNA sisaldab tihti korduvaid alamjärjestusi – kui proovi prefiks on sama mõne eelmise proovi prefiksiga, saame kahe stringi joondamisel dünaamilise programmeerimise tabelist teatud alamosa ära kasutada
Termodünaamiline puu joondus 2 Ühiste proovide prefiksite leidmiseks saame kasutada eelnevalt tehtud üldistatud sufiksipuud, võimaldades dünaamilise programmeerimise alamtabelid mälus ühe tabelina hoida Kiiruse huvides jätame välja juhud, kui proovil ja järjestusel puudub ühine komplementaarne alamstring vähemalt pikkusega k Veel kavalam oleks hoida ka märklaudjärjestusi sufiksipuuna (tulevikus!)
Oligoproovide valimine Realiseeritud eraldi programmina Lähteandmeteks märklaudjärjestusele vastavad proovid ja väärtused TM(proov, märklaud)
Oligoproovide valimine 2 Eesmärk leida hübridisatsiooniks kasutatav temperatuur T ning iga märklaudjärjestuse ti jaoks jaoks sobiv proov pk
Oligoproovide valimine 3 Kahe märklaua ti ja tj ning vastavate proovide pi ja pj jaoks peab kehtima TM(ti, pi) > TM(tj, pi) TM(ti, pi) > TM(ti, pj) TM(tj, pj) > TM(ti, pj) TM(tj, pj) > TM(tj, pi) Sobiva T leidmine toimub polünomiaalse keerukusega algoritmiga, vähendades järjest T väärtust ning eemaldades mitme märklauaga seonduvaid proove
Oligoproovide valimine 4
Programmi realisatsioon Realiseeritud C++-is Testitud PC-de, Suni ja Dec Alpha / Compaq platvormide peal
Rakendus HIV-1 erinevate subtüüpide identifitseerimiseks 58 järjestust, keskm. á 9300 nukleotiidi Proovi kandidaadid pikkusega 19-21 Probesel – 61 min, Pickprb – paar sek Leiti 58 proovi, TM 63 ºC
Virtuaalsus vs reaalsus Ennustatud sulamistemperatuure võrreldi hübridisatsiooni eksperimendiga 25 oligonukleotiidi ja nende komplemendid oligonukleotiidid kinnitati plasthelmeste peale ja komplemendid märgistati fluorestseeruva märgisega võrreldi järjest ühte komplementi kõigi proovidega ning kasutati voolutsütomeetriat Kõik paariviisilised interaktsioonid simuleeriti in silico, kasutades ennustatud sulamistemperatuure
Virtuaalsus vs reaalsus 2
Tõsisem rakendus Leida proovid kõigile pärmi avatud lugemisraamidele nii + kui – ahelalt Peale filtreerimist jäi järele 6165 märklaudjärjestust paariviisiline Smith-Waterman ja eemaldame need, mis joondatuna 95% on sarnased Tööaeg 2 nädalat Proovid 4431 ORF-ile, T 65 ºC
Suured (genoomsed) andmehulgad Raske leida sobivat oligote hulka Kasutada pikemaid proove – DNA maatriksi tootmine kulukam Erinevad eksperimendid erinevatel temperatuuridel Lubada risthübridiseerumist (cross-hybridization) Tulevikus kasutada Markovi ahela Monte Carlo meetodit