Εύρεση ρυθμιστικών μοτίβων σε αλληλουχίες DNA
Σύνοψη Εμφύτευση μοτίβου σε τυχαίο κείμενο Γονιδιακή ρύθμιση Ρυθμιστικά μοτίβα Το πρόβλημα του Χρυσού Σκαραβαίου Το πρόβλημα της Εύρεσης Μοτίβου Εύρεση μοτίβων με ωμή βία Το πρόβλημα της Μεσαίας Συμβολοσειράς Δένδρα αναζήτησης Αναζήτηση μοτίβων με διακλάδωση και οριοθέτηση Αναζήτηση μεσαίας συμβολοσειράς με διακλάδωση και οριοθέτηση Consensus και διακλάδωση μοτίβων: άπληστη αναζήτηση μοτίβων PMS: Εξαντλητική αναζήτηση μοτίβων
Τυχαίο δείγμα atgaccgggatactgataccgtatttggcctaggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatactgggcataaggtaca tgagtatccctgggatgacttttgggaacactatagtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgaccttgtaagtgttttccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatggcccacttagtccacttatag gtcaatcatgttcttgtgaatggatttttaactgagggcatagaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtactgatggaaactttcaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttggtttcgaaaatgctctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatttcaacgtatgccgaaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttctgggtactgatagca
Εμφύτεση μοτίβου AAAAAAAGGGGGGG atgaccgggatactgatAAAAAAAAGGGGGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaataAAAAAAAAGGGGGGGa tgagtatccctgggatgacttAAAAAAAAGGGGGGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgAAAAAAAAGGGGGGGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAAAAAAAAGGGGGGGcttatag gtcaatcatgttcttgtgaatggatttAAAAAAAAGGGGGGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtAAAAAAAAGGGGGGGcaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttAAAAAAAAGGGGGGGctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatAAAAAAAAGGGGGGGaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttAAAAAAAAGGGGGGGa
Πού βρίσκεται το εμφυτευμένο μοτίβο; atgaccgggatactgataaaaaaaagggggggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaataaaaaaaaaggggggga tgagtatccctgggatgacttaaaaaaaagggggggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgaaaaaaaagggggggtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaataaaaaaaagggggggcttatag gtcaatcatgttcttgtgaatggatttaaaaaaaaggggggggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtaaaaaaaagggggggcaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttaaaaaaaagggggggctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcataaaaaaaagggggggaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttaaaaaaaaggggggga
Εμφύτευση μοτίβου AAAAAAGGGGGGG με τέσσερις μεταλλάξεις atgaccgggatactgatAgAAgAAAGGttGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacAAtAAAAcGGcGGGa tgagtatccctgggatgacttAAAAtAAtGGaGtGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcAAAAAAAGGGattGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAtAAtAAAGGaaGGGcttatag gtcaatcatgttcttgtgaatggatttAAcAAtAAGGGctGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtAtAAAcAAGGaGGGccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttAAAAAAtAGGGaGccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatActAAAAAGGaGcGGaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttActAAAAAGGaGcGGa
Πού βρίσκεται το μοτίβο;;; atgaccgggatactgatagaagaaaggttgggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacaataaaacggcggga tgagtatccctgggatgacttaaaataatggagtggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcaaaaaaagggattgtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatataataaaggaagggcttatag gtcaatcatgttcttgtgaatggatttaacaataagggctgggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtataaacaaggagggccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttaaaaaatagggagccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatactaaaaaggagcggaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttactaaaaaggagcgga
Γιατί είναι δύσκολη η εύρεση του μοτίβου (15,4); atgaccgggatactgatAgAAgAAAGGttGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacAAtAAAAcGGcGGGa tgagtatccctgggatgacttAAAAtAAtGGaGtGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcAAAAAAAGGGattGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAtAAtAAAGGaaGGGcttatag gtcaatcatgttcttgtgaatggatttAAcAAtAAGGGctGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtAtAAAcAAGGaGGGccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttAAAAAAtAGGGaGccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatActAAAAAGGaGcGGaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttActAAAAAGGaGcGGa AgAAgAAAGGttGGG ..|..|||.|..||| cAAtAAAAcGGcGGG
Δύσκολο πρόβλημα Εύρεση ενός μοτίβου σε δείγμα - 20 «τυχαίων» αλληλουχιών (π.χ., μήκους 600 nt) - κάθε αλληλουχία περιέχει εμφυτευμένο μοτίβο μήκους 15, - κάθε μοτίβο εμφανίζεται με 4 ασυμφωνίες ως το μοτίβο (15,4).
Συνδυαστική γονιδιακή ρύθμιση Ένα πείραμα με μικροσυστοιχίες έδειξε ότι όταν το γονίδιο X εξουδετερώνεται, άλλα 20 γονίδια δεν εκφράζονται Πώς μπορεί ένα γονίδιο να έχει τόσο σοβαρές επιπτώσεις;
Ρυθμιστικές πρωτεΐνες Το γονίδιο X κωδικοποιεί μια ρυθμιστική πρωτεΐνη, που είναι γνωστή και ως μεταγραφικός παράγοντας (Transcription Factor, TF) Τα 20 γονίδια που δεν εκφράζονται στηρίζονται στον TF του γονιδίου X για τη μεταγραφή Ένας μόνος TF ενδέχεται να ρυθμίζει πολλά γονίδια
Ρυθμιστικές περιοχές Κάθε γονίδιο περιέχει μια ρυθμιστική περιοχή (Regulatory Region, RR) που εκτείνεται συνήθως 100-1000 bp άνωθεν της θέσης έναρξης της μεταγραφής Μέσα στη ρυθμιστική περιοχή βρίσκονται οι θέσεις πρόσδεσης μεταγραφικών παραγόντων (TFBS), που είναι επίσης γνωστές ως μοτίβα, και είναι συγκεκριμένες για δεδομένο μεταγραφικό παράγοντα Οι TF επηρεάζουν τη γονιδιακή έκφραση με το να προσδένονται σε συγκεκριμένη θέση μέσα στη ρυθμιστική περιοχή του αντίστοιχου γονιδίου - TFBS
Θέσεις πρόσδεσης μεταγραφικού παράγοντα Μια TFBS μπορεί να βρίσκεται οπουδήποτε μέσα στη ρυθμιστική περιοχή (RR). Οι TFBS ενδέχεται να διαφέρουν λίγο σε διαφορετικές ρυθμιστικές περιοχές, επειδή οι μη κύριες βάσεις μπορούν να μεταλλαχθούν
Μοτίβα και θέσεις έναρξης μεταγραφής ATCCCG γονίδιο TTCCGG γονίδιο ATCCCG γονίδιο ATGCCG γονίδιο ATGCCC γονίδιο
Μεταγραφικοί παράγοντες και μοτίβα
«Λογότυπο» μοτίβου TGGGGGA TGAGAGA TGAGGGA Τα μοτίβα μπορούν να μεταλλάσσονται στις μη σημαντικές βάσεις Τα πέντε μοτίβα σε πέντε διαφορετικά γονίδια έχουν μεταλλάξεις στις θέσεις 3 και 5 Οι αναπαραστάσεις που αποκαλούνται λογότυπα μοτίβου δείχνουν τις συντηρημένες και μεταβλητές περιοχές ενός μοτίβου
Λογότυπα μοτίβου: ένα παράδειγμα (http://www-lmmb.ncifcrf.gov/~toms/sequencelogo.html)
Αναγνώριση μοτίβων Τα γονίδια ενεργοποιούνται ή απενεργοποιούνται από ρυθμιστικές πρωτεΐνες Οι πρωτεΐνες προσδένονται σε άνωθεν ευρισκόμενες ρυθμιστικές περιοχές των γονιδίων είτε για να «ελκύσουν» είτε για να μπλοκάρουν την πολυμεράση RNA Η ρυθμιστική πρωτεΐνη (TF) προσδένεται σε μια μικρή αλληλουχία DNA που ονομάζεται μοτίβο (TFBS) Άρα, η εύρεση του ίδιου μοτίβου σε ρυθμιστικές περιοχές πολλών γονιδίων υποδεικνύει μια ρυθμιστική σχέση μεταξύ των συγκεκριμένων γονιδίων
Αναγνώριση μοτίβων: προβλήματα Δεν γνωρίζουμε την αλληλουχία του μοτίβου Δεν γνωρίζουμε πού βρίσκεται σε σχέση με την αρχή του γονιδίου Τα μοτίβα ενδέχεται να εμφανίζουν μικρές διαφορές από το ένα γονίδιο στο επόμενο Πώς μπορούμε να τα διακρίνουμε από τα «τυχαία» μοτίβα;
Το πρόβλημα της Εύρεσης Μοτίβου Με δεδομένο ένα τυχαίο δείγμα αλληλουχιών DNA: cctgatagacgctatctggctatccacgtacgtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtacgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtacgtc Βρείτε την εμφυτευμένη (υπο)αλληλουχία σε καθεμία από τις διαφορετικές αλληλουχίες, δηλαδή το μοτίβο
Το πρόβλημα της Εύρεσης Μοτίβου (συνέχεια) Πρόσθετες πληροφορίες: Η κρυμμένη ακολουθία έχει μήκος ίσο με 8 Το μοτίβο δεν είναι ακριβώς το ίδιο σε κάθε συστοιχία, επειδή ενδέχεται να εμφανιστούν μεταλλάξεις σε τυχαία σημεία των αλληλουχιών
Το πρόβλημα της Εύρεσης Μοτίβου (συνέχεια) Μοτίβα χωρίς μεταλλάξεις: cctgatagacgctatctggctatccacgtacgtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtacgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtacgtc acgtacgt συναινετική συμβολοσειρά
Το πρόβλημα της Εύρεσης Μοτίβου (συνέχεια) Μοτίβα με μεταλλάξεις σε 2 σημεία: cctgatagacgctatctggctatccaGgtacTtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatCcAtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtTAgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtCcAtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaCcgtacgGc
Το πρόβλημα της Εύρεσης Μοτίβου (συνέχεια) Μοτίβα με μεταλλάξεις σε 2 σημεία: cctgatagacgctatctggctatccaGgtacTtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatCcAtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtTAgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtCcAtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaCcgtacgGc Μπορούμε να βρούμε το μοτίβο, τώρα που έχουμε 2 μεταλλάξεις;
Ορισμός μοτίβων Για να ορίσουμε ένα μοτίβο, ας υποθέσουμε ότι ξέρουμε πού αρχίζει το μοτίβο στην αλληλουχία Οι αρχικές θέσεις του μοτίβου στις αλληλουχίες τους μπορούν να αναπαρασταθούν ως s = (s1,s2,s3,…,st)
Μοτίβα: προφίλ και συναινετική αλληλουχία a G g t a c T t C c A t a c g t Στοίχιση a c g t T A g t a c g t C c A t C c g t a c g G _________________ A 3 0 1 0 3 1 1 0 Προφίλ C 2 4 0 0 1 4 0 0 G 0 1 4 0 0 0 3 1 T 0 0 0 5 1 0 1 4 Συναινετική αλληλουχία A C G T A C G T Στοίχιση των μοτίβων με βάση τους αρχικούς δείκτες s = (s1, s2, …, st) Δημιουργία της μήτρας προφίλ με τις συχνότητες κάθε νουκλεοτιδίου στις στήλες Το συναινετικό νουκλεοτίδιο σε κάθε θέση έχει τη μεγαλύτερη βαθμολογία στη στήλη
Συναινετική αλληλουχία Θεωρήστε τη συναινετική αλληλουχία ως ένα «προγονικό» μοτίβο, από το οποίο προέκυψαν μεταλλαγμένα μοτίβα Η απόσταση μεταξύ ενός πραγματικού μοτίβου και της συναινετικής αλληλουχίας είναι γενικότερα μικρότερη από την απόσταση δύο πραγματικών μοτίβων
Συναινετική αλληλουχία (συνέχεια)
Αξιολόγηση Μοτίβων Έχουμε κάνει μια «εικασία» για τη συναινετική αλληλουχία, αλλά πόσο «καλή» είναι αυτή; Πρέπει να εισαγάγουμε μια συνάρτηση βαθμολόγησης για να συγκρίνουμε διαφορετικές εικασίες και να επιλέξουμε την «καλύτερη».
Μερικοί όροι t - πλήθος αλληλουχιών DNA του δείγματος n - μήκος κάθε αλληλουχίας DNA DNA - δείγμα αλληλουχιών DNA (πίνακας t x n) l - μήκος του μοτίβου (l-μερές) si - αρχική θέση ενός l-μερούς στην αλληλουχία i s=(s1, s2,… st) - πίνακας αρχικών θέσεων του μοτίβου
Παράμετροι l = 8 DNA t=5 s s1 = 26 s2 = 21 s3= 3 s4 = 56 s5 = 60 cctgatagacgctatctggctatccaGgtacTtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatCcAtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtTAgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtCcAtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaCcgtacgGc l = 8 DNA t=5 n = 69 s s1 = 26 s2 = 21 s3= 3 s4 = 56 s5 = 60
Βαθμολόγηση μοτίβου Με δεδομένο το s = (s1, …, st) και το DNA: l Με δεδομένο το s = (s1, …, st) και το DNA: Score(s,DNA) = a G g t a c T t C c A t a c g t a c g t T A g t a c g t C c A t C c g t a c g G _________________ A 3 0 1 0 3 1 1 0 C 2 4 0 0 1 4 0 0 G 0 1 4 0 0 0 3 1 T 0 0 0 5 1 0 1 4 Συναινετική Αλληλουχία a c g t a c g t Βαθμολογία 3+4+4+5+3+4+3+4=30 t
Το πρόβλημα της Εύρεσης Μοτίβου Αν δίνονται οι αρχικές θέσεις s=(s1, s2,…, st), η εύρεση της συναινετικής αλληλουχίας είναι εύκολη ακόμα και με μεταλλάξεις στις αλληλουχίες, επειδή μπορούμε απλώς να κατασκευάσουμε το προφίλ για να βρούμε το μοτίβο (συναινετική αλληλουχία) Όμως… οι αρχικές θέσεις s δεν δίνονται συνήθως. Πώς μπορούμε να βρούμε την «καλύτερη» μήτρα προφίλ;
Το πρόβλημα της Εύρεσης μοτίβου: διατύπωση Στόχος: Με δεδομένο ένα σύνολο αλληλουχιών DNA, βρείτε ένα σύνολο l -μερών, ένα από κάθε αλληλουχία, που μεγιστοποιεί τη συναινετική βαθμολογία. Είσοδος: Η μήτρα DNA διαστάσεων t x n, και το l, δηλαδή το μήκος του μοτίβου που πρέπει να βρεθεί Έξοδος: Ένας πίνακας με t αρχικές θέσεις s = (s1, s2, …, st) που μεγιστοποιεί τη βαθμολογία Score(s,DNA)
Το πρόβλημα της Εύρεσης μοτίβου : λύση ωμής βίας Το πρόβλημα της Εύρεσης μοτίβου : λύση ωμής βίας Υπολογισμός των βαθμολογιών για κάθε πιθανό συνδυασμό αρχικών θέσεων s Η καλύτερη βαθμολογία θα καθορίσει το καλύτερο προφίλ και το συναινετικό μοτίβο στο DNA Ο στόχος είναι να μεγιστοποιήσουμε το Score(s,DNA) μεταβάλλοντας τις αρχικές θέσεις si, όπου: si = [1, …, n-l+1] i = [1, …, t]
BruteForceMotifSearch BruteForceMotifSearch(DNA, t, n, l) bestScore 0 for κάθε s=(s1,s2 , . . ., st) from (1,1 . . . 1) to (n-l+1, . . ., n-l+1) if (Score(s,DNA) > bestScore) bestScore score(s, DNA) bestMotif (s1,s2 , . . . , st) return bestMotif
Χρόνος εκτέλεσης του αλγορίθμου BruteForceMotifSearch Μεταβάλλοντας (n - l + 1) θέσεις σε καθεμία από τις t αλληλουχίες, πρέπει να εξετάσουμε (n - l + 1)t σύνολα αρχικών θέσεων Για κάθε σύνολο αρχικών θέσεων, η συνάρτηση βαθμολόγησης εκτελεί l πράξεις, άρα η πολυπλοκότητα είναι l (n – l + 1)t = O(l nt) Αυτό σημαίνει ότι για t = 8, n = 1000, και l = 10, πρέπει να εκτελέσουμε περίπου 1020 υπολογισμούς – θα χρειαστούν δισεκατομμύρια χρόνια
Το πρόβλημα της Μεσαίας Συμβολοσειράς Με δεδομένο ένα σύνολο t αλληλουχιών DNA, βρείτε μια (υπο)αλληλουχία που εμφανίζεται σε όλες τις t αλληλουχίες με τον ελάχιστο αριθμό μεταλλάξεων Αυτή η (υπο)αλληλουχία θα είναι το μοτίβο
Απόσταση Hamming Απόσταση Hamming: dH(v,w). Είναι το πλήθος των ζευγών νουκλεοτιδίων που δεν ταιριάζουν όταν οι v και w είναι στοιχισμένες. Για παράδειγμα: dH(AAAAAA, ACAAAC) = 2
Συνολική απόσταση: ένα παράδειγμα Με δεδομένη τη v = “acgtacgt” και το s acgtacgt cctgatagacgctatctggctatccacgtacgtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtacgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtacgtc η v είναι η ακολουθία με κόκκινο, και η x είναι η ακολουθία με μπλε TotalDistance(v, DNA) = 0 dH(v, x) = 0 dH(v, x) = 0 dH(v, x) = 0 dH(v, x) = 0 dH(v, x) = 0
Συνολική απόσταση: ένα παράδειγμα Με δεδομένη τη v = “acgtacgt” και το s acgtacgt cctgatagacgctatctggctatccacgtacAtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaaAgtCcgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtaGgtc η v είναι η ακολουθία με κόκκινο, και η x είναι η ακολουθία με μπλε TotalDistance(v, DNA) = 1+0+2+0+1 = 4 dH(v, x) = 1 dH(v, x) = 0 dH(v, x) = 2 dH(v, x) = 0 dH(v, x) = 1
Συνολική απόσταση: ορισμός Για κάθε αλληλουχία i του DNA, υπολογίζουμε όλες τις αποστάσεις dH(v, x), όπου x είναι ένα l-μερές με αρχική θέση si (1 < si < n – l + 1) Βρίσκουμε την ελάχιστη dH(v, x) μεταξύ όλων των l-μερών στην αλληλουχία i TotalDistance(v,DNA): είναι το άθροισμα των ελάχιστων αποστάσεων Hamming για κάθε αλληλουχία i του DNA TotalDistance(v,DNA) = mins dH(v, s), όπου s είναι το σύνολο των αρχικών θέσεων s1, s2,…, st
Το πρόβλημα της Μεσαίας Συμβολοσειράς: διατύπωση Στόχος: Με δεδομένο ένα σύνολο αλληλουχιών DNA, βρείτε τη μεσαία συμβολοσειρά Είσοδος: Η μήτρα DNA διαστάσεων t x n, και το l, δηλαδή το μήκος του μοτίβου που πρέπει να βρεθεί Έξοδος: Η συμβολοσειρά v με l νουκλεοτίδια που ελαχιστοποιεί την απόσταση TotalDistance(v,DNA) για όλες τις συμβολοσειρές με το συγκεκριμένο μήκος
Αλγόριθμος αναζήτησης της μεσαίας συμβολοσειράς MedianStringSearch (DNA, t, n, l) bestWord AAA…A bestDistance ∞ for κάθε l-μερές s from AAA…A to TTT…T if TotalDistance(s,DNA) < bestDistance bestDistanceTotalDistance(s,DNA) bestWord s return bestWord
πρόβλημα Εύρεσης Μοτίβου == πρόβλημα Μεσαίας Συμβολοσειράς Η Εύρεση Μοτίβου είναι πρόβλημα μεγιστοποίησης ενώ η Μεσαία Συμβολοσειρά είναι πρόβλημα ελαχιστοποίησης Ωστόσο, τα δύο προβλήματα είναι υπολογιστικά ισοδύναμα Πρέπει να δείξουμε ότι η ελαχιστοποίηση της απόστασης TotalDistance είναι ισοδύναμη με τη μεγιστοποίηση της βαθμολογίας Score
Ψάχνουμε το ίδιο πράγμα l Σε οποιαδήποτε στήλη i Scorei + TotalDistancei = t Επειδή υπάρχουν l στήλες Score + TotalDistance = l * t Αναδιάταξη: Score = l * t - TotalDistance Το l * t είναι σταθερό. Άρα, η ελαχιστοποίηση της δεξιάς πλευράς είναι ισοδύναμη με τη μεγιστοποίηση της αριστερής πλευράς a G g t a c T t C c A t a c g t Στοίχιση a c g t T A g t a c g t C c A t C c g t a c g G _________________ A 3 0 1 0 3 1 1 0 Προφίλ C 2 4 0 0 1 4 0 0 G 0 1 4 0 0 0 3 1 T 0 0 0 5 1 0 1 4 Συναινετική αλληλουχία a c g t a c g t Score 3+4+4+5+3+4+3+4 TotalDistance 2+1+1+0+2+1+2+1 Άθροισμα 5 5 5 5 5 5 5 5 t
Πρόβλημα Εύρεσης Μοτίβου και πρόβλημα Μεσαίας Συμβολοσειράς Πρόβλημα Εύρεσης Μοτίβου και πρόβλημα Μεσαίας Συμβολοσειράς Γιατί αναδιατυπώσαμε το πρόβλημα της Εύρεσης Μοτίβου σαν πρόβλημα της Μεσαίας Συμβολοσειράς; Το πρόβλημα της Εύρεσης Μοτίβου πρέπει να εξετάσει όλους τους συνδυασμούς για το s. Δηλαδή (n - l + 1)t συνδυασμούς!!! Το πρόβλημα της Μεσαίας Συμβολοσειράς πρέπει να εξετάσει όλους τους 4l συνδυασμούς για τη v. Ο αριθμός αυτός είναι σχετικά μικρότερος.
Εύρεση Μοτίβου: βελτίωση του χρόνου εκτέλεσης Θυμηθείτε τον αλγόριθμο BruteForceMotifSearch: BruteForceMotifSearch(DNA, t, n, l) bestScore 0 for κάθε s=(s1,s2 , . . ., st) from (1,1 . . . 1) to (n-l+1, . . ., n-l+1) if (Score(s,DNA) > bestScore) bestScore Score(s, DNA) bestMotif (s1,s2 , . . . , st) return bestMotif
Οργάνωση της αναζήτησης Πώς μπορούμε να εκτελέσουμε τη γραμμή for κάθε s=(s1,s2 , . . ., st) from (1,1 . . . 1) to (n-l+1, . . ., n-l+1) ; Χρειαζόμαστε μια μέθοδο για να οργανώσουμε και να εξετάσουμε αποδοτικά τα πολλά πιθανά μοτίβα Αυτό δεν διαφέρει πολύ από την εξέταση όλων των αριθμών με t ψηφία
Μεσαία Συμβολοσειρά: βελτίωση του χρόνου εκτέλεσης MedianStringSearch (DNA, t, n, l) bestWord AAA…A bestDistance ∞ for κάθε l-μερές s from AAA…A to TTT…T if TotalDistance(s,DNA) < bestDistance bestDistanceTotalDistance(s,DNA) bestWord s return bestWord