Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Www.bioalgorithms.info Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Εύρεση ρυθμιστικών μοτίβων σε αλληλουχίες DNA.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Www.bioalgorithms.info Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Εύρεση ρυθμιστικών μοτίβων σε αλληλουχίες DNA."— Μεταγράφημα παρουσίασης:

1 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Εύρεση ρυθμιστικών μοτίβων σε αλληλουχίες DNA

2 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Σύνοψη Εμφύτευση μοτίβου σε τυχαίο κείμενο Γονιδιακή ρύθμιση Ρυθμιστικά μοτίβα Το πρόβλημα του Χρυσού Σκαραβαίου Το πρόβλημα της Εύρεσης Μοτίβου Εύρεση μοτίβων με ωμή βία Το πρόβλημα της Μεσαίας Συμβολοσειράς Δένδρα αναζήτησης Αναζήτηση μοτίβων με διακλάδωση και οριοθέτηση Αναζήτηση μεσαίας συμβολοσειράς με διακλάδωση και οριοθέτηση Consensus και διακλάδωση μοτίβων: άπληστη αναζήτηση μοτίβων PMS: Εξαντλητική αναζήτηση μοτίβων

3 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Τυχαίο δείγμα atgaccgggatactgataccgtatttggcctaggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatactgggcataaggtaca tgagtatccctgggatgacttttgggaacactatagtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgaccttgtaagtgttttccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatggcccacttagtccacttatag gtcaatcatgttcttgtgaatggatttttaactgagggcatagaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtactgatggaaactttcaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttggtttcgaaaatgctctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatttcaacgtatgccgaaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttctgggtactgatagca

4 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Εμφύτεση μοτίβου AAAAAAAGGGGGGG atgaccgggatactgatAAAAAAAAGGGGGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaataAAAAAAAAGGGGGGGa tgagtatccctgggatgacttAAAAAAAAGGGGGGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgAAAAAAAAGGGGGGGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAAAAAAAAGGGGGGGcttatag gtcaatcatgttcttgtgaatggatttAAAAAAAAGGGGGGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtAAAAAAAAGGGGGGGcaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttAAAAAAAAGGGGGGGctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatAAAAAAAAGGGGGGGaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttAAAAAAAAGGGGGGGa

5 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Πού βρίσκεται το εμφυτευμένο μοτίβο; atgaccgggatactgataaaaaaaagggggggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaataaaaaaaaaggggggga tgagtatccctgggatgacttaaaaaaaagggggggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgaaaaaaaagggggggtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaataaaaaaaagggggggcttatag gtcaatcatgttcttgtgaatggatttaaaaaaaaggggggggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtaaaaaaaagggggggcaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttaaaaaaaagggggggctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcataaaaaaaagggggggaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttaaaaaaaaggggggga

6 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Εμφύτευση μοτίβου AAAAAAGGGGGGG με τέσσερις μεταλλάξεις atgaccgggatactgatAgAAgAAAGGttGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacAAtAAAAcGGcGGGa tgagtatccctgggatgacttAAAAtAAtGGaGtGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcAAAAAAAGGGattGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAtAAtAAAGGaaGGGcttatag gtcaatcatgttcttgtgaatggatttAAcAAtAAGGGctGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtAtAAAcAAGGaGGGccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttAAAAAAtAGGGaGccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatActAAAAAGGaGcGGaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttActAAAAAGGaGcGGa

7 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Πού βρίσκεται το μοτίβο;;; atgaccgggatactgatagaagaaaggttgggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacaataaaacggcggga tgagtatccctgggatgacttaaaataatggagtggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcaaaaaaagggattgtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatataataaaggaagggcttatag gtcaatcatgttcttgtgaatggatttaacaataagggctgggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtataaacaaggagggccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttaaaaaatagggagccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatactaaaaaggagcggaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttactaaaaaggagcgga

8 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Γιατί είναι δύσκολη η εύρεση του μοτίβου (15,4); atgaccgggatactgatAgAAgAAAGGttGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacAAtAAAAcGGcGGGa tgagtatccctgggatgacttAAAAtAAtGGaGtGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcAAAAAAAGGGattGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAtAAtAAAGGaaGGGcttatag gtcaatcatgttcttgtgaatggatttAAcAAtAAGGGctGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtAtAAAcAAGGaGGGccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttAAAAAAtAGGGaGccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatActAAAAAGGaGcGGaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttActAAAAAGGaGcGGa AgAAgAAAGGttGGG cAAtAAAAcGGcGGG..|..|||.|..|||

9 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Δύσκολο πρόβλημα Εύρεση ενός μοτίβου σε δείγμα - 20 «τυχαίων» αλληλουχιών (π.χ., μήκους 600 nt) - κάθε αλληλουχία περιέχει εμφυτευμένο μοτίβο μήκους 15, - κάθε μοτίβο εμφανίζεται με 4 ασυμφωνίες ως το μοτίβο (15,4).

10 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Συνδυαστική γονιδιακή ρύθμιση Ένα πείραμα με μικροσυστοιχίες έδειξε ότι όταν το γονίδιο X εξουδετερώνεται, άλλα 20 γονίδια δεν εκφράζονται Πώς μπορεί ένα γονίδιο να έχει τόσο σοβαρές επιπτώσεις;

11 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Ρυθμιστικές πρωτεΐνες Το γονίδιο X κωδικοποιεί μια ρυθμιστική πρωτεΐνη, που είναι γνωστή και ως μεταγραφικός παράγοντας (Transcription Factor, TF) Τα 20 γονίδια που δεν εκφράζονται στηρίζονται στον TF του γονιδίου X για τη μεταγραφή Ένας μόνος TF ενδέχεται να ρυθμίζει πολλά γονίδια

12 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Ρυθμιστικές περιοχές Κάθε γονίδιο περιέχει μια ρυθμιστική περιοχή (Regulatory Region, RR) που εκτείνεται συνήθως bp άνωθεν της θέσης έναρξης της μεταγραφής Μέσα στη ρυθμιστική περιοχή βρίσκονται οι θέσεις πρόσδεσης μεταγραφικών παραγόντων (TFBS), που είναι επίσης γνωστές ως μοτίβα, και είναι συγκεκριμένες για δεδομένο μεταγραφικό παράγοντα Οι TF επηρεάζουν τη γονιδιακή έκφραση με το να προσδένονται σε συγκεκριμένη θέση μέσα στη ρυθμιστική περιοχή του αντίστοιχου γονιδίου - TFBS

13 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Θέσεις πρόσδεσης μεταγραφικού παράγοντα Μια TFBS μπορεί να βρίσκεται οπουδήποτε μέσα στη ρυθμιστική περιοχή (RR). Οι TFBS ενδέχεται να διαφέρουν λίγο σε διαφορετικές ρυθμιστικές περιοχές, επειδή οι μη κύριες βάσεις μπορούν να μεταλλαχθούν

14 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Μοτίβα και θέσεις έναρξης μεταγραφής γονίδιο ATCCCG γονίδιο TTCCGG γονίδιο ATCCCG γονίδιο ATGCCG γονίδιο ATGCCC

15 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Μεταγραφικοί παράγοντες και μοτίβα

16 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής «Λογότυπο» μοτίβου Τα μοτίβα μπορούν να μεταλλάσσονται στις μη σημαντικές βάσεις Τα πέντε μοτίβα σε πέντε διαφορετικά γονίδια έχουν μεταλλάξεις στις θέσεις 3 και 5 Οι αναπαραστάσεις που αποκαλούνται λογότυπα μοτίβου δείχνουν τις συντηρημένες και μεταβλητές περιοχές ενός μοτίβου TGGGGGA TGAGAGA TGGGGGA TGAGAGA TGAGGGA

17 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Λογότυπα μοτίβου: ένα παράδειγμα (http://www-lmmb.ncifcrf.gov/~toms/sequencelogo.html)

18 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Αναγνώριση μοτίβων Τα γονίδια ενεργοποιούνται ή απενεργοποιούνται από ρυθμιστικές πρωτεΐνες Οι πρωτεΐνες προσδένονται σε άνωθεν ευρισκόμενες ρυθμιστικές περιοχές των γονιδίων είτε για να «ελκύσουν» είτε για να μπλοκάρουν την πολυμεράση RNA Η ρυθμιστική πρωτεΐνη (TF) προσδένεται σε μια μικρή αλληλουχία DNA που ονομάζεται μοτίβο (TFBS) Άρα, η εύρεση του ίδιου μοτίβου σε ρυθμιστικές περιοχές πολλών γονιδίων υποδεικνύει μια ρυθμιστική σχέση μεταξύ των συγκεκριμένων γονιδίων

19 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Αναγνώριση μοτίβων: προβλήματα Δεν γνωρίζουμε την αλληλουχία του μοτίβου Δεν γνωρίζουμε πού βρίσκεται σε σχέση με την αρχή του γονιδίου Τα μοτίβα ενδέχεται να εμφανίζουν μικρές διαφορές από το ένα γονίδιο στο επόμενο Πώς μπορούμε να τα διακρίνουμε από τα «τυχαία» μοτίβα;

20 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Το πρόβλημα της Εύρεσης Μοτίβου Με δεδομένο ένα τυχαίο δείγμα αλληλουχιών DNA: cctgatagacgctatctggctatccacgtacgtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtacgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtacgtc Βρείτε την εμφυτευμένη (υπο)αλληλουχία σε καθεμία από τις διαφορετικές αλληλουχίες, δηλαδή το μοτίβο

21 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Το πρόβλημα της Εύρεσης Μοτίβου (συνέχεια) Πρόσθετες πληροφορίες: Η κρυμμένη ακολουθία έχει μήκος ίσο με 8 Το μοτίβο δεν είναι ακριβώς το ίδιο σε κάθε συστοιχία, επειδή ενδέχεται να εμφανιστούν μεταλλάξεις σε τυχαία σημεία των αλληλουχιών

22 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Το πρόβλημα της Εύρεσης Μοτίβου (συνέχεια) Μοτίβα χωρίς μεταλλάξεις: cctgatagacgctatctggctatccacgtacgtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtacgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtacgtc acgtacgt συναινετική συμβολοσειρά

23 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Το πρόβλημα της Εύρεσης Μοτίβου (συνέχεια) Μοτίβα με μεταλλάξεις σε 2 σημεία: cctgatagacgctatctggctatccaGgtacTtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatCcAtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtTAgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtCcAtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaCcgtacgGc

24 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Το πρόβλημα της Εύρεσης Μοτίβου (συνέχεια) Μοτίβα με μεταλλάξεις σε 2 σημεία: cctgatagacgctatctggctatccaGgtacTtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatCcAtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtTAgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtCcAtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaCcgtacgGc Μπορούμε να βρούμε το μοτίβο, τώρα που έχουμε 2 μεταλλάξεις;

25 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Ορισμός μοτίβων Για να ορίσουμε ένα μοτίβο, ας υποθέσουμε ότι ξέρουμε πού αρχίζει το μοτίβο στην αλληλουχία Οι αρχικές θέσεις του μοτίβου στις αλληλουχίες τους μπορούν να αναπαρασταθούν ως s = (s 1,s 2,s 3,…,s t )

26 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Μοτίβα: προφίλ και συναινετική αλληλουχία a G g t a c T t C c A t a c g t Στοίχιση a c g t T A g t a c g t C c A t C c g t a c g G _________________ A Προφίλ C G T _________________ Συναινετική αλληλουχία A C G T A C G T Στοίχιση των μοτίβων με βάση τους αρχικούς δείκτες s = (s 1, s 2, …, s t ) Δημιουργία της μήτρας προφίλ με τις συχνότητες κάθε νουκλεοτιδίου στις στήλες Το συναινετικό νουκλεοτίδιο σε κάθε θέση έχει τη μεγαλύτερη βαθμολογία στη στήλη

27 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Συναινετική αλληλουχία Θεωρήστε τη συναινετική αλληλουχία ως ένα «προγονικό» μοτίβο, από το οποίο προέκυψαν μεταλλαγμένα μοτίβα Η απόσταση μεταξύ ενός πραγματικού μοτίβου και της συναινετικής αλληλουχίας είναι γενικότερα μικρότερη από την απόσταση δύο πραγματικών μοτίβων

28 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Συναινετική αλληλουχία (συνέχεια)

29 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Αξιολόγηση Μοτίβων Έχουμε κάνει μια «εικασία» για τη συναινετική αλληλουχία, αλλά πόσο «καλή» είναι αυτή; Πρέπει να εισαγάγουμε μια συνάρτηση βαθμολόγησης για να συγκρίνουμε διαφορετικές εικασίες και να επιλέξουμε την «καλύτερη».

30 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Μερικοί όροι t - πλήθος αλληλουχιών DNA του δείγματος n - μήκος κάθε αλληλουχίας DNA DNA - δείγμα αλληλουχιών DNA (πίνακας t x n) l - μήκος του μοτίβου ( l -μερές) s i - αρχική θέση ενός l -μερούς στην αλληλουχία i s=(s 1, s 2,… s t ) - πίνακας αρχικών θέσεων του μοτίβου

31 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Παράμετροι cctgatagacgctatctggctatccaGgtacTtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatCcAtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtTAgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtCcAtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaCcgtacgGc l = 8 t=5 s 1 = 26 s 2 = 21 s 3 = 3 s 4 = 56 s 5 = 60 s DNA n = 69

32 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Βαθμολόγηση μοτίβου Με δεδομένο το s = (s 1, …, s t ) και το DNA: Score(s,DNA) = a G g t a c T t C c A t a c g t a c g t T A g t a c g t C c A t C c g t a c g G _________________ A C G T _________________ Συναινετική Αλληλουχία a c g t a c g t Βαθμολογία = 30 l t

33 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Το πρόβλημα της Εύρεσης Μοτίβου Αν δίνονται οι αρχικές θέσεις s=(s 1, s 2,…, s t ), η εύρεση της συναινετικής αλληλουχίας είναι εύκολη ακόμα και με μεταλλάξεις στις αλληλουχίες, επειδή μπορούμε απλώς να κατασκευάσουμε το προφίλ για να βρούμε το μοτίβο (συναινετική αλληλουχία) Όμως… οι αρχικές θέσεις s δεν δίνονται συνήθως. Πώς μπορούμε να βρούμε την «καλύτερη» μήτρα προφίλ;

34 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Το πρόβλημα της Εύρεσης μοτίβου: διατύπωση Στόχος: Με δεδομένο ένα σύνολο αλληλουχιών DNA, βρείτε ένα σύνολο l -μερών, ένα από κάθε αλληλουχία, που μεγιστοποιεί τη συναινετική βαθμολογία. Είσοδος: Η μήτρα DNA διαστάσεων t x n, και το l, δηλαδή το μήκος του μοτίβου που πρέπει να βρεθεί Έξοδος: Ένας πίνακας με t αρχικές θέσεις s = (s 1, s 2, …, s t ) που μεγιστοποιεί τη βαθμολογία Score(s,DNA)

35 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Το πρόβλημα της Εύρεσης μοτίβου : λύση ωμής βίας Υπολογισμός των βαθμολογιών για κάθε πιθανό συνδυασμό αρχικών θέσεων s Η καλύτερη βαθμολογία θα καθορίσει το καλύτερο προφίλ και το συναινετικό μοτίβο στο DNA Ο στόχος είναι να μεγιστοποιήσουμε το Score(s,DNA) μεταβάλλοντας τις αρχικές θέσεις s i, όπου: s i = [1, …, n- l +1] i = [1, …, t]

36 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής BruteForceMotifSearch 1.BruteForceMotifSearch(DNA, t, n, l ) 2.bestScore  0 3.for κάθε s=(s 1,s 2,..., s t ) from (1,1... 1) to (n- l +1,..., n- l +1) 4.if (Score(s,DNA) > bestScore) 5.bestScore  score(s, DNA) 6.bestMotif  (s 1,s 2,..., s t ) 7.return bestMotif

37 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Χρόνος εκτέλεσης του αλγορίθμου BruteForceMotifSearch Μεταβάλλοντας (n - l + 1) θέσεις σε καθεμία από τις t αλληλουχίες, πρέπει να εξετάσουμε (n - l + 1) t σύνολα αρχικών θέσεων Για κάθε σύνολο αρχικών θέσεων, η συνάρτηση βαθμολόγησης εκτελεί l πράξεις, άρα η πολυπλοκότητα είναι l (n – l + 1) t = O( l n t ) Αυτό σημαίνει ότι για t = 8, n = 1000, και l = 10, πρέπει να εκτελέσουμε περίπου υπολογισμούς – θα χρειαστούν δισεκατομμύρια χρόνια

38 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Το πρόβλημα της Μεσαίας Συμβολοσειράς Με δεδομένο ένα σύνολο t αλληλουχιών DNA, βρείτε μια (υπο)αλληλουχία που εμφανίζεται σε όλες τις t αλληλουχίες με τον ελάχιστο αριθμό μεταλλάξεων Αυτή η (υπο)αλληλουχία θα είναι το μοτίβο

39 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Απόσταση Hamming Απόσταση Hamming: d H (v,w). Είναι το πλήθος των ζευγών νουκλεοτιδίων που δεν ταιριάζουν όταν οι v και w είναι στοιχισμένες. Για παράδειγμα: d H (AAAAAA, ACAAAC) = 2

40 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Συνολική απόσταση: ένα παράδειγμα Με δεδομένη τη v = “ acgtacgt ” και το s acgtacgt cctgatagacgctatctggctatccacgtacgtaggtcctctgtgcgaatctatgcgtttccaaccat acgtacgt agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc acgtacgt aaacgtacgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt acgtacgt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca acgtacgt ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtacgtc η v είναι η ακολουθία με κόκκινο, και η x είναι η ακολουθία με μπλε TotalDistance(v, DNA) = 0 d H (v, x) = 0

41 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Συνολική απόσταση: ένα παράδειγμα Με δεδομένη τη v = “ acgtacgt ” και το s acgtacgt cctgatagacgctatctggctatccacgtacAtaggtcctctgtgcgaatctatgcgtttccaaccat acgtacgt agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc acgtacgt aaaAgtCcgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt acgtacgt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca acgtacgt ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtaGgtc η v είναι η ακολουθία με κόκκινο, και η x είναι η ακολουθία με μπλε TotalDistance(v, DNA) = = 4 d H (v, x) = 2 d H (v, x) = 1 d H (v, x) = 0 d H (v, x) = 1

42 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Συνολική απόσταση: ορισμός Για κάθε αλληλουχία i του DNA, υπολογίζουμε όλες τις αποστάσεις d H (v, x), όπου x είναι ένα l -μερές με αρχική θέση s i (1 < s i < n – l + 1) Βρίσκουμε την ελάχιστη d H (v, x) μεταξύ όλων των l - μερών στην αλληλουχία i TotalDistance(v,DNA): είναι το άθροισμα των ελάχιστων αποστάσεων Hamming για κάθε αλληλουχία i του DNA TotalDistance(v,DNA) = min s d H (v, s), όπου s είναι το σύνολο των αρχικών θέσεων s 1, s 2,…, s t

43 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Το πρόβλημα της Μεσαίας Συμβολοσειράς: διατύπωση Στόχος: Με δεδομένο ένα σύνολο αλληλουχιών DNA, βρείτε τη μεσαία συμβολοσειρά Είσοδος: Η μήτρα DNA διαστάσεων t x n, και το l, δηλαδή το μήκος του μοτίβου που πρέπει να βρεθεί Έξοδος: Η συμβολοσειρά v με l νουκλεοτίδια που ελαχιστοποιεί την απόσταση TotalDistance(v,DNA) για όλες τις συμβολοσειρές με το συγκεκριμένο μήκος

44 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Αλγόριθμος αναζήτησης της μεσαίας συμβολοσειράς 1.MedianStringSearch (DNA, t, n, l ) 2.bestWord  AAA…A 3.bestDistance  ∞ 4. for κάθε l -μερές s from AAA…A to TTT…T if TotalDistance(s,DNA) < bestDistance 5. bestDistance  TotalDistance(s,DNA) 6. bestWord  s 7. return bestWord

45 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής πρόβλημα Εύρεσης Μοτίβου == πρόβλημα Μεσαίας Συμβολοσειράς Η Εύρεση Μοτίβου είναι πρόβλημα μεγιστοποίησης ενώ η Μεσαία Συμβολοσειρά είναι πρόβλημα ελαχιστοποίησης Ωστόσο, τα δύο προβλήματα είναι υπολογιστικά ισοδύναμα Πρέπει να δείξουμε ότι η ελαχιστοποίηση της απόστασης TotalDistance είναι ισοδύναμη με τη μεγιστοποίηση της βαθμολογίας Score

46 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Ψάχνουμε το ίδιο πράγμα a G g t a c T t C c A t a c g t Στοίχιση a c g t T A g t a c g t C c A t C c g t a c g G _________________ A Προφίλ C G T _________________ Συναινετική αλληλουχία a c g t a c g t Score TotalDistance Άθροισμα Σε οποιαδήποτε στήλη i Score i + TotalDistance i = t Επειδή υπάρχουν l στήλες Score + TotalDistance = l * t Αναδιάταξη: Score = l * t - TotalDistance Το l * t είναι σταθερό. Άρα, η ελαχιστοποίηση της δεξιάς πλευράς είναι ισοδύναμη με τη μεγιστοποίηση της αριστερής πλευράς l t

47 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Πρόβλημα Εύρεσης Μοτίβου και πρόβλημα Μεσαίας Συμβολοσειράς Γιατί αναδιατυπώσαμε το πρόβλημα της Εύρεσης Μοτίβου σαν πρόβλημα της Μεσαίας Συμβολοσειράς; Το πρόβλημα της Εύρεσης Μοτίβου πρέπει να εξετάσει όλους τους συνδυασμούς για το s. Δηλαδή (n - l + 1) t συνδυασμούς!!! Το πρόβλημα της Μεσαίας Συμβολοσειράς πρέπει να εξετάσει όλους τους 4 l συνδυασμούς για τη v. Ο αριθμός αυτός είναι σχετικά μικρότερος.

48 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Εύρεση Μοτίβου: βελτίωση του χρόνου εκτέλεσης Θυμηθείτε τον αλγόριθμο BruteForceMotifSearch: 1. BruteForceMotifSearch(DNA, t, n, l ) 2.bestScore  0 3.for κάθε s=(s 1,s 2,..., s t ) from (1,1... 1) to (n- l +1,..., n- l +1) 4.if (Score(s,DNA) > bestScore) 5.bestScore  Score(s, DNA) 6.bestMotif  (s 1,s 2,..., s t ) 7.return bestMotif

49 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Οργάνωση της αναζήτησης Πώς μπορούμε να εκτελέσουμε τη γραμμή for κάθε s=(s 1,s 2,..., s t ) from (1,1... 1) to (n- l +1,..., n- l +1) ; Χρειαζόμαστε μια μέθοδο για να οργανώσουμε και να εξετάσουμε αποδοτικά τα πολλά πιθανά μοτίβα Αυτό δεν διαφέρει πολύ από την εξέταση όλων των αριθμών με t ψηφία

50 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Μεσαία Συμβολοσειρά: βελτίωση του χρόνου εκτέλεσης 1.MedianStringSearch (DNA, t, n, l ) 2.bestWord  AAA…A 3.bestDistance  ∞ 4. for κάθε l -μερές s from AAA…A to TTT…T if TotalDistance(s,DNA) < bestDistance 5. bestDistance  TotalDistance(s,DNA) 6. bestWord  s 7. return bestWord


Κατέβασμα ppt "Www.bioalgorithms.info Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Εύρεση ρυθμιστικών μοτίβων σε αλληλουχίες DNA."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google