Εύρεση ρυθμιστικών μοτίβων σε αλληλουχίες DNA

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
ΓΡΑΜΜΑΤΙΚΕΣ ΧΩΡΙΣ ΣΥΜΦΡΑΖΟΜΕΝΑ I
Advertisements

Αλγόριθμοι «διαίρει και βασίλευε»
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Μια Μπεϋζιανή Μέθοδος για την Επαγωγή Πιθανοτικών Δικτύων από Δεδομένα ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ B. Μεγαλοοικονόμου, Χ. Μακρής.
γενετικής πληροφορίας
Αλγόριθμοι και Πολυπλοκότητα
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Μικροσυστοιχίες και ανάλυση δεδομένων
DNA μικροσυστοιχίες: βήμα προς βήμα
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
Γραφήματα & Επίπεδα Γραφήματα
Κοντινότεροι Κοινοί Πρόγονοι α βγ θ δεζ η π ν ι κλμ ρσ τ κκπ(λ,ι)=α, κκπ(τ,σ)=ν, κκπ(λ,π)=η κκπ(π,σ)=γ, κκπ(ξ,ο)=κ ξο κκπ(ι,ξ)=β, κκπ(τ,θ)=θ, κκπ(ο,μ)=α.
Προσεγγιστικοί Αλγόριθμοι
ΤΑΛΑΝΤΩΣΕΙΣ 1. Μεγέθη που χαρακτηρίζουν μια ταλάντωση
ΜΑΘΗΜΑ: ΣΧΕΔΙΑΣΗ ΑΛΓΟΡΙΘΜΩΝ ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ Δευτέρα, 12 Ιανουαρίου 2015Δευτέρα, 12 Ιανουαρίου 2015Δευτέρα, 12 Ιανουαρίου 2015Δευτέρα, 12 Ιανουαρίου.
Κεφάλαιο 2 Κίνηση σε μία διάσταση
ΓΕΝΙΚΟΣ ΜΗΧΑΝΙΣΜΟΣ ΤΗΣ ΜΕΤΑΓΡΑΦΗΣ
Διάλεξη 9η: Εφαρμογή της μεθόδου Simplex στο γραμμικό προγραμματισμό κατά τη μεγιστοποίηση Μέθοδος Simplex 1.Όταν υπάρχουν μέχρι πέντε κλάδοι παραγωγής.
ΒΕΣ 06: Προσαρμοστικά Συστήματα στις Τηλεπικοινωνίες © 2007 Nicolas Tsapatsoulis Προσαρμοστικοί Αλγόριθμοι Υλοποίησης Βέλτιστων Ψηφιακών Φίλτρων: Ο αναδρομικός.
Αλγόριθμοι 2.1.1,
Χωρικοί-χρονικοί συμβιβασμοί
ΓΟΝΙΔΙΑΚΗ ΡΥΘΜΙΣΗ:Ο ΕΛΕΓΧΟΣ ΤΗΣ ΓΟΝΙΔΙΑΚΗΣ ΕΚΦΡΑΣΗΣ
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Quicksort Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο Πολυτεχνείο.
Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - 4ο εξάμηνο1 Ανάλυση Αλγορίθμων b Θέματα: Ορθότητα Χρονική αποδοτικότητα Χωρική αποδοτικότητα Βελτιστότητα b Προσεγγίσεις:
Μέγιστη ροή TexPoint fonts used in EMF. Read the TexPoint manual before you delete this box.: AA A AA A A Συνάρτηση χωρητικότητας Κατευθυνόμενο γράφημα.
Ερωτήσεις & Φύλλο εργασίας
Εισαγωγή στο Linux/Unix Εργαστηριακή Άσκηση 3 Η/Υ 1 ο έτος Γρ. Αμούτζιας.
ΕΠΛ 231 – Δομές Δεδομένων και Αλγόριθμοι13-1 Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα: Ο αλγόριθμος Dijkstra για εύρεση βραχυτέρων μονοπατιών.
Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Χαρτογράφηση του DNA και αλγόριθμοι ωμής βίας.
Μοριακή Ταξινόμηση βακτηρίων
Διάλεξη 14: Εισαγωγή στη ροή ρευστών
I: Σύνθεση και επεξεργασία προκαρυωτικού RNA
Advanced Data Indexing (Προηγμένη ευρετηρίαση δεδομένων) Ροές Δεδομένων (3 ο Μέρος)
Τι είναι η Κατανομή (Distribution)
Συνδετικότητα γραφήματος (graph connectivity). α β Υπάρχει μονοπάτι μεταξύ α και β; Παραδείγματα: υπολογιστές ενός δικτύου ιστοσελίδες ισοδύναμες μεταβλητές.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ Παραδείγματα BP.
Σε ένας τεστ ένας φοιτητής βαθμολογήθηκε με 640. Να βρεθεί το ποσοστό των φοιτητών που είχαν χειρότερες επιδόσεις από αυτόν δεδομένου ότι η κατανομή της.
Εργαστήριο Στατιστικής (7 ο Εργαστήριο) Συσχετίσεις μεταξύ μεταβλητών (ερωτήσεων)
 Ο Νόμος των Μεγάλων Αριθμών είναι το θεώρημα που περιγράφει τον τρόπο με τον οποίο συμπεριφέρεται ένα συγκεκριμένο πείραμα, όταν ο αριθμός των επαναλήψεων.
Ποια τα χαρακτηριστικά του γενετικού κώδικα; 1.Κώδικας τριπλέτας = μια τριάδα νουκλεοτιδίων, το κωδικόνιο, κωδικοποιεί ένα αμινοξύ. Επειδή : – Αριθμός.
Για μτ από ατ μέχρι ττ [με_βήμα β] εντολές Τέλος_επανάληψης : περιοχή εντολών μτ : η μεταβλητή της οποίας η τιμή θα περάσει από την αρχική.
Η ροή της γενετικής πληροφορίας. Στo DNA βρίσκονται αποθηκευμένες οι πληροφορίες που αφορούν : στον αυτοδιπλασιασμό του →εξασφαλίζοντας έτσι τη μεταβίβαση.
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
ΔΥΑΔΙΚΗ ΑΝΑΖΗΤΗΣΗ & ΤΑΞΙΝΟΜΗΣΗ ΜΕ ΣΥΓΧΩΝΕΥΣΗ. Δυαδική αναζήτηση (Binary search) ΔΕΔΟΜΕΝΟ: ένα μεγάλο αρχείο που περιέχει τιμές z [0,1,…,n-1] ταξινομημένες.
ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΔΙΑΣΠΟΡΑΣ - ΑΣΥΜΜΕΤΡΙΑΣ - ΚΥΡΤΩΣΕΩΣ
Στατιστικές Υποθέσεις
Δυναμικός Κατακερματισμός
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ
ΑΛΓΟΡΙΘΜΟΣ ΠΡΟΒΛΗΜΑ ΑΛΓΟΡΙΘΜΟΣ ΛΥΣΗ
Προβλήματα Ικανοποίησης Περιορισμών
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΜΠΣ Τραπεζικής & Χρηματοοικονομικής
Αλληλεπιδράσεις γονιδίων και διατροφικών συστατικών
Διδάσκων: Δρ. Τσίντζα Παναγιώτα
Αλγόριθμοι - Τμήμα Πληροφορικής ΑΠΘ - Εξάμηνο 4ο
Έλεγχος υποθέσεων με την χ2 «χι -τετράγωνο» κατανομή
Η παρουσίαση του στατιστικού υλικού γίνεται με δύο τρόπους. 1 Η παρουσίαση του στατιστικού υλικού γίνεται με δύο τρόπους! 1. Ο πρώτος συνίσταται.
Μέγιστη ροή Κατευθυνόμενο γράφημα 12 Συνάρτηση χωρητικότητας
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Ονοματεπώνυμο Σπουδάστριας: Ευαγγελία Δάπκα
ΑΛΓΟΡΙΘΜΟΣ.
Αναστασία Μυρίσσα, Ιωάννα Πέττα και Κωνσταντίνος Φλυτζάνης
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΑΕΠΠ
Στατιστικές Υποθέσεις
Στατιστικά Περιγραφικά Μέτρα
ΗΜΥ 210: Λογικός Σχεδιασμός
ΗΜΥ-210: Λογικός Σχεδιασμός Εαρινό Εξάμηνο 2005
Μεταγράφημα παρουσίασης:

Εύρεση ρυθμιστικών μοτίβων σε αλληλουχίες DNA

Σύνοψη Εμφύτευση μοτίβου σε τυχαίο κείμενο Γονιδιακή ρύθμιση Ρυθμιστικά μοτίβα Το πρόβλημα του Χρυσού Σκαραβαίου Το πρόβλημα της Εύρεσης Μοτίβου Εύρεση μοτίβων με ωμή βία Το πρόβλημα της Μεσαίας Συμβολοσειράς Δένδρα αναζήτησης Αναζήτηση μοτίβων με διακλάδωση και οριοθέτηση Αναζήτηση μεσαίας συμβολοσειράς με διακλάδωση και οριοθέτηση Consensus και διακλάδωση μοτίβων: άπληστη αναζήτηση μοτίβων PMS: Εξαντλητική αναζήτηση μοτίβων

Τυχαίο δείγμα atgaccgggatactgataccgtatttggcctaggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatactgggcataaggtaca tgagtatccctgggatgacttttgggaacactatagtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgaccttgtaagtgttttccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatggcccacttagtccacttatag gtcaatcatgttcttgtgaatggatttttaactgagggcatagaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtactgatggaaactttcaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttggtttcgaaaatgctctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatttcaacgtatgccgaaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttctgggtactgatagca

Εμφύτεση μοτίβου AAAAAAAGGGGGGG atgaccgggatactgatAAAAAAAAGGGGGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaataAAAAAAAAGGGGGGGa tgagtatccctgggatgacttAAAAAAAAGGGGGGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgAAAAAAAAGGGGGGGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAAAAAAAAGGGGGGGcttatag gtcaatcatgttcttgtgaatggatttAAAAAAAAGGGGGGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtAAAAAAAAGGGGGGGcaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttAAAAAAAAGGGGGGGctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatAAAAAAAAGGGGGGGaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttAAAAAAAAGGGGGGGa

Πού βρίσκεται το εμφυτευμένο μοτίβο; atgaccgggatactgataaaaaaaagggggggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaataaaaaaaaaggggggga tgagtatccctgggatgacttaaaaaaaagggggggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgaaaaaaaagggggggtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaataaaaaaaagggggggcttatag gtcaatcatgttcttgtgaatggatttaaaaaaaaggggggggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtaaaaaaaagggggggcaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttaaaaaaaagggggggctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcataaaaaaaagggggggaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttaaaaaaaaggggggga

Εμφύτευση μοτίβου AAAAAAGGGGGGG με τέσσερις μεταλλάξεις atgaccgggatactgatAgAAgAAAGGttGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacAAtAAAAcGGcGGGa tgagtatccctgggatgacttAAAAtAAtGGaGtGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcAAAAAAAGGGattGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAtAAtAAAGGaaGGGcttatag gtcaatcatgttcttgtgaatggatttAAcAAtAAGGGctGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtAtAAAcAAGGaGGGccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttAAAAAAtAGGGaGccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatActAAAAAGGaGcGGaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttActAAAAAGGaGcGGa

Πού βρίσκεται το μοτίβο;;; atgaccgggatactgatagaagaaaggttgggggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacaataaaacggcggga tgagtatccctgggatgacttaaaataatggagtggtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcaaaaaaagggattgtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatataataaaggaagggcttatag gtcaatcatgttcttgtgaatggatttaacaataagggctgggaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtataaacaaggagggccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttaaaaaatagggagccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatactaaaaaggagcggaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttactaaaaaggagcgga

Γιατί είναι δύσκολη η εύρεση του μοτίβου (15,4); atgaccgggatactgatAgAAgAAAGGttGGGggcgtacacattagataaacgtatgaagtacgttagactcggcgccgccg acccctattttttgagcagatttagtgacctggaaaaaaaatttgagtacaaaacttttccgaatacAAtAAAAcGGcGGGa tgagtatccctgggatgacttAAAAtAAtGGaGtGGtgctctcccgatttttgaatatgtaggatcattcgccagggtccga gctgagaattggatgcAAAAAAAGGGattGtccacgcaatcgcgaaccaacgcggacccaaaggcaagaccgataaaggaga tcccttttgcggtaatgtgccgggaggctggttacgtagggaagccctaacggacttaatAtAAtAAAGGaaGGGcttatag gtcaatcatgttcttgtgaatggatttAAcAAtAAGGGctGGgaccgcttggcgcacccaaattcagtgtgggcgagcgcaa cggttttggcccttgttagaggcccccgtAtAAAcAAGGaGGGccaattatgagagagctaatctatcgcgtgcgtgttcat aacttgagttAAAAAAtAGGGaGccctggggcacatacaagaggagtcttccttatcagttaatgctgtatgacactatgta ttggcccattggctaaaagcccaacttgacaaatggaagatagaatccttgcatActAAAAAGGaGcGGaccgaaagggaag ctggtgagcaacgacagattcttacgtgcattagctcgcttccggggatctaatagcacgaagcttActAAAAAGGaGcGGa AgAAgAAAGGttGGG ..|..|||.|..||| cAAtAAAAcGGcGGG

Δύσκολο πρόβλημα Εύρεση ενός μοτίβου σε δείγμα - 20 «τυχαίων» αλληλουχιών (π.χ., μήκους 600 nt) - κάθε αλληλουχία περιέχει εμφυτευμένο μοτίβο μήκους 15, - κάθε μοτίβο εμφανίζεται με 4 ασυμφωνίες ως το μοτίβο (15,4).

Συνδυαστική γονιδιακή ρύθμιση Ένα πείραμα με μικροσυστοιχίες έδειξε ότι όταν το γονίδιο X εξουδετερώνεται, άλλα 20 γονίδια δεν εκφράζονται Πώς μπορεί ένα γονίδιο να έχει τόσο σοβαρές επιπτώσεις;

Ρυθμιστικές πρωτεΐνες Το γονίδιο X κωδικοποιεί μια ρυθμιστική πρωτεΐνη, που είναι γνωστή και ως μεταγραφικός παράγοντας (Transcription Factor, TF) Τα 20 γονίδια που δεν εκφράζονται στηρίζονται στον TF του γονιδίου X για τη μεταγραφή Ένας μόνος TF ενδέχεται να ρυθμίζει πολλά γονίδια

Ρυθμιστικές περιοχές Κάθε γονίδιο περιέχει μια ρυθμιστική περιοχή (Regulatory Region, RR) που εκτείνεται συνήθως 100-1000 bp άνωθεν της θέσης έναρξης της μεταγραφής Μέσα στη ρυθμιστική περιοχή βρίσκονται οι θέσεις πρόσδεσης μεταγραφικών παραγόντων (TFBS), που είναι επίσης γνωστές ως μοτίβα, και είναι συγκεκριμένες για δεδομένο μεταγραφικό παράγοντα Οι TF επηρεάζουν τη γονιδιακή έκφραση με το να προσδένονται σε συγκεκριμένη θέση μέσα στη ρυθμιστική περιοχή του αντίστοιχου γονιδίου - TFBS

Θέσεις πρόσδεσης μεταγραφικού παράγοντα Μια TFBS μπορεί να βρίσκεται οπουδήποτε μέσα στη ρυθμιστική περιοχή (RR). Οι TFBS ενδέχεται να διαφέρουν λίγο σε διαφορετικές ρυθμιστικές περιοχές, επειδή οι μη κύριες βάσεις μπορούν να μεταλλαχθούν

Μοτίβα και θέσεις έναρξης μεταγραφής ATCCCG γονίδιο TTCCGG γονίδιο ATCCCG γονίδιο ATGCCG γονίδιο ATGCCC γονίδιο

Μεταγραφικοί παράγοντες και μοτίβα

«Λογότυπο» μοτίβου TGGGGGA TGAGAGA TGAGGGA Τα μοτίβα μπορούν να μεταλλάσσονται στις μη σημαντικές βάσεις Τα πέντε μοτίβα σε πέντε διαφορετικά γονίδια έχουν μεταλλάξεις στις θέσεις 3 και 5 Οι αναπαραστάσεις που αποκαλούνται λογότυπα μοτίβου δείχνουν τις συντηρημένες και μεταβλητές περιοχές ενός μοτίβου

Λογότυπα μοτίβου: ένα παράδειγμα (http://www-lmmb.ncifcrf.gov/~toms/sequencelogo.html)

Αναγνώριση μοτίβων Τα γονίδια ενεργοποιούνται ή απενεργοποιούνται από ρυθμιστικές πρωτεΐνες Οι πρωτεΐνες προσδένονται σε άνωθεν ευρισκόμενες ρυθμιστικές περιοχές των γονιδίων είτε για να «ελκύσουν» είτε για να μπλοκάρουν την πολυμεράση RNA Η ρυθμιστική πρωτεΐνη (TF) προσδένεται σε μια μικρή αλληλουχία DNA που ονομάζεται μοτίβο (TFBS) Άρα, η εύρεση του ίδιου μοτίβου σε ρυθμιστικές περιοχές πολλών γονιδίων υποδεικνύει μια ρυθμιστική σχέση μεταξύ των συγκεκριμένων γονιδίων

Αναγνώριση μοτίβων: προβλήματα Δεν γνωρίζουμε την αλληλουχία του μοτίβου Δεν γνωρίζουμε πού βρίσκεται σε σχέση με την αρχή του γονιδίου Τα μοτίβα ενδέχεται να εμφανίζουν μικρές διαφορές από το ένα γονίδιο στο επόμενο Πώς μπορούμε να τα διακρίνουμε από τα «τυχαία» μοτίβα;

Το πρόβλημα της Εύρεσης Μοτίβου Με δεδομένο ένα τυχαίο δείγμα αλληλουχιών DNA: cctgatagacgctatctggctatccacgtacgtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtacgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtacgtc Βρείτε την εμφυτευμένη (υπο)αλληλουχία σε καθεμία από τις διαφορετικές αλληλουχίες, δηλαδή το μοτίβο

Το πρόβλημα της Εύρεσης Μοτίβου (συνέχεια) Πρόσθετες πληροφορίες: Η κρυμμένη ακολουθία έχει μήκος ίσο με 8 Το μοτίβο δεν είναι ακριβώς το ίδιο σε κάθε συστοιχία, επειδή ενδέχεται να εμφανιστούν μεταλλάξεις σε τυχαία σημεία των αλληλουχιών

Το πρόβλημα της Εύρεσης Μοτίβου (συνέχεια) Μοτίβα χωρίς μεταλλάξεις: cctgatagacgctatctggctatccacgtacgtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtacgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtacgtc acgtacgt συναινετική συμβολοσειρά

Το πρόβλημα της Εύρεσης Μοτίβου (συνέχεια) Μοτίβα με μεταλλάξεις σε 2 σημεία: cctgatagacgctatctggctatccaGgtacTtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatCcAtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtTAgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtCcAtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaCcgtacgGc

Το πρόβλημα της Εύρεσης Μοτίβου (συνέχεια) Μοτίβα με μεταλλάξεις σε 2 σημεία: cctgatagacgctatctggctatccaGgtacTtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatCcAtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtTAgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtCcAtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaCcgtacgGc Μπορούμε να βρούμε το μοτίβο, τώρα που έχουμε 2 μεταλλάξεις;

Ορισμός μοτίβων Για να ορίσουμε ένα μοτίβο, ας υποθέσουμε ότι ξέρουμε πού αρχίζει το μοτίβο στην αλληλουχία Οι αρχικές θέσεις του μοτίβου στις αλληλουχίες τους μπορούν να αναπαρασταθούν ως s = (s1,s2,s3,…,st)

Μοτίβα: προφίλ και συναινετική αλληλουχία a G g t a c T t C c A t a c g t Στοίχιση a c g t T A g t a c g t C c A t C c g t a c g G _________________ A 3 0 1 0 3 1 1 0 Προφίλ C 2 4 0 0 1 4 0 0 G 0 1 4 0 0 0 3 1 T 0 0 0 5 1 0 1 4 Συναινετική αλληλουχία A C G T A C G T Στοίχιση των μοτίβων με βάση τους αρχικούς δείκτες s = (s1, s2, …, st) Δημιουργία της μήτρας προφίλ με τις συχνότητες κάθε νουκλεοτιδίου στις στήλες Το συναινετικό νουκλεοτίδιο σε κάθε θέση έχει τη μεγαλύτερη βαθμολογία στη στήλη

Συναινετική αλληλουχία Θεωρήστε τη συναινετική αλληλουχία ως ένα «προγονικό» μοτίβο, από το οποίο προέκυψαν μεταλλαγμένα μοτίβα Η απόσταση μεταξύ ενός πραγματικού μοτίβου και της συναινετικής αλληλουχίας είναι γενικότερα μικρότερη από την απόσταση δύο πραγματικών μοτίβων

Συναινετική αλληλουχία (συνέχεια)

Αξιολόγηση Μοτίβων Έχουμε κάνει μια «εικασία» για τη συναινετική αλληλουχία, αλλά πόσο «καλή» είναι αυτή; Πρέπει να εισαγάγουμε μια συνάρτηση βαθμολόγησης για να συγκρίνουμε διαφορετικές εικασίες και να επιλέξουμε την «καλύτερη».

Μερικοί όροι t - πλήθος αλληλουχιών DNA του δείγματος n - μήκος κάθε αλληλουχίας DNA DNA - δείγμα αλληλουχιών DNA (πίνακας t x n) l - μήκος του μοτίβου (l-μερές) si - αρχική θέση ενός l-μερούς στην αλληλουχία i s=(s1, s2,… st) - πίνακας αρχικών θέσεων του μοτίβου

Παράμετροι l = 8 DNA t=5 s s1 = 26 s2 = 21 s3= 3 s4 = 56 s5 = 60 cctgatagacgctatctggctatccaGgtacTtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatCcAtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtTAgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtCcAtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaCcgtacgGc l = 8 DNA t=5 n = 69 s s1 = 26 s2 = 21 s3= 3 s4 = 56 s5 = 60

Βαθμολόγηση μοτίβου Με δεδομένο το s = (s1, …, st) και το DNA: l Με δεδομένο το s = (s1, …, st) και το DNA: Score(s,DNA) = a G g t a c T t C c A t a c g t a c g t T A g t a c g t C c A t C c g t a c g G _________________ A 3 0 1 0 3 1 1 0 C 2 4 0 0 1 4 0 0 G 0 1 4 0 0 0 3 1 T 0 0 0 5 1 0 1 4 Συναινετική Αλληλουχία a c g t a c g t Βαθμολογία 3+4+4+5+3+4+3+4=30 t

Το πρόβλημα της Εύρεσης Μοτίβου Αν δίνονται οι αρχικές θέσεις s=(s1, s2,…, st), η εύρεση της συναινετικής αλληλουχίας είναι εύκολη ακόμα και με μεταλλάξεις στις αλληλουχίες, επειδή μπορούμε απλώς να κατασκευάσουμε το προφίλ για να βρούμε το μοτίβο (συναινετική αλληλουχία) Όμως… οι αρχικές θέσεις s δεν δίνονται συνήθως. Πώς μπορούμε να βρούμε την «καλύτερη» μήτρα προφίλ;

Το πρόβλημα της Εύρεσης μοτίβου: διατύπωση Στόχος: Με δεδομένο ένα σύνολο αλληλουχιών DNA, βρείτε ένα σύνολο l -μερών, ένα από κάθε αλληλουχία, που μεγιστοποιεί τη συναινετική βαθμολογία. Είσοδος: Η μήτρα DNA διαστάσεων t x n, και το l, δηλαδή το μήκος του μοτίβου που πρέπει να βρεθεί Έξοδος: Ένας πίνακας με t αρχικές θέσεις s = (s1, s2, …, st) που μεγιστοποιεί τη βαθμολογία Score(s,DNA)

Το πρόβλημα της Εύρεσης μοτίβου : λύση ωμής βίας Το πρόβλημα της Εύρεσης μοτίβου : λύση ωμής βίας Υπολογισμός των βαθμολογιών για κάθε πιθανό συνδυασμό αρχικών θέσεων s Η καλύτερη βαθμολογία θα καθορίσει το καλύτερο προφίλ και το συναινετικό μοτίβο στο DNA Ο στόχος είναι να μεγιστοποιήσουμε το Score(s,DNA) μεταβάλλοντας τις αρχικές θέσεις si, όπου: si = [1, …, n-l+1] i = [1, …, t]

BruteForceMotifSearch BruteForceMotifSearch(DNA, t, n, l) bestScore  0 for κάθε s=(s1,s2 , . . ., st) from (1,1 . . . 1) to (n-l+1, . . ., n-l+1) if (Score(s,DNA) > bestScore) bestScore  score(s, DNA) bestMotif  (s1,s2 , . . . , st) return bestMotif

Χρόνος εκτέλεσης του αλγορίθμου BruteForceMotifSearch Μεταβάλλοντας (n - l + 1) θέσεις σε καθεμία από τις t αλληλουχίες, πρέπει να εξετάσουμε (n - l + 1)t σύνολα αρχικών θέσεων Για κάθε σύνολο αρχικών θέσεων, η συνάρτηση βαθμολόγησης εκτελεί l πράξεις, άρα η πολυπλοκότητα είναι l (n – l + 1)t = O(l nt) Αυτό σημαίνει ότι για t = 8, n = 1000, και l = 10, πρέπει να εκτελέσουμε περίπου 1020 υπολογισμούς – θα χρειαστούν δισεκατομμύρια χρόνια

Το πρόβλημα της Μεσαίας Συμβολοσειράς Με δεδομένο ένα σύνολο t αλληλουχιών DNA, βρείτε μια (υπο)αλληλουχία που εμφανίζεται σε όλες τις t αλληλουχίες με τον ελάχιστο αριθμό μεταλλάξεων Αυτή η (υπο)αλληλουχία θα είναι το μοτίβο

Απόσταση Hamming Απόσταση Hamming: dH(v,w). Είναι το πλήθος των ζευγών νουκλεοτιδίων που δεν ταιριάζουν όταν οι v και w είναι στοιχισμένες. Για παράδειγμα: dH(AAAAAA, ACAAAC) = 2

Συνολική απόσταση: ένα παράδειγμα Με δεδομένη τη v = “acgtacgt” και το s acgtacgt cctgatagacgctatctggctatccacgtacgtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaacgtacgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtacgtc η v είναι η ακολουθία με κόκκινο, και η x είναι η ακολουθία με μπλε TotalDistance(v, DNA) = 0 dH(v, x) = 0 dH(v, x) = 0 dH(v, x) = 0 dH(v, x) = 0 dH(v, x) = 0

Συνολική απόσταση: ένα παράδειγμα Με δεδομένη τη v = “acgtacgt” και το s acgtacgt cctgatagacgctatctggctatccacgtacAtaggtcctctgtgcgaatctatgcgtttccaaccat agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc aaaAgtCcgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtaGgtc η v είναι η ακολουθία με κόκκινο, και η x είναι η ακολουθία με μπλε TotalDistance(v, DNA) = 1+0+2+0+1 = 4 dH(v, x) = 1 dH(v, x) = 0 dH(v, x) = 2 dH(v, x) = 0 dH(v, x) = 1

Συνολική απόσταση: ορισμός Για κάθε αλληλουχία i του DNA, υπολογίζουμε όλες τις αποστάσεις dH(v, x), όπου x είναι ένα l-μερές με αρχική θέση si (1 < si < n – l + 1) Βρίσκουμε την ελάχιστη dH(v, x) μεταξύ όλων των l-μερών στην αλληλουχία i TotalDistance(v,DNA): είναι το άθροισμα των ελάχιστων αποστάσεων Hamming για κάθε αλληλουχία i του DNA TotalDistance(v,DNA) = mins dH(v, s), όπου s είναι το σύνολο των αρχικών θέσεων s1, s2,…, st

Το πρόβλημα της Μεσαίας Συμβολοσειράς: διατύπωση Στόχος: Με δεδομένο ένα σύνολο αλληλουχιών DNA, βρείτε τη μεσαία συμβολοσειρά Είσοδος: Η μήτρα DNA διαστάσεων t x n, και το l, δηλαδή το μήκος του μοτίβου που πρέπει να βρεθεί Έξοδος: Η συμβολοσειρά v με l νουκλεοτίδια που ελαχιστοποιεί την απόσταση TotalDistance(v,DNA) για όλες τις συμβολοσειρές με το συγκεκριμένο μήκος

Αλγόριθμος αναζήτησης της μεσαίας συμβολοσειράς MedianStringSearch (DNA, t, n, l) bestWord  AAA…A bestDistance  ∞ for κάθε l-μερές s from AAA…A to TTT…T if TotalDistance(s,DNA) < bestDistance bestDistanceTotalDistance(s,DNA) bestWord  s return bestWord

πρόβλημα Εύρεσης Μοτίβου == πρόβλημα Μεσαίας Συμβολοσειράς Η Εύρεση Μοτίβου είναι πρόβλημα μεγιστοποίησης ενώ η Μεσαία Συμβολοσειρά είναι πρόβλημα ελαχιστοποίησης Ωστόσο, τα δύο προβλήματα είναι υπολογιστικά ισοδύναμα Πρέπει να δείξουμε ότι η ελαχιστοποίηση της απόστασης TotalDistance είναι ισοδύναμη με τη μεγιστοποίηση της βαθμολογίας Score

Ψάχνουμε το ίδιο πράγμα l Σε οποιαδήποτε στήλη i Scorei + TotalDistancei = t Επειδή υπάρχουν l στήλες Score + TotalDistance = l * t Αναδιάταξη: Score = l * t - TotalDistance Το l * t είναι σταθερό. Άρα, η ελαχιστοποίηση της δεξιάς πλευράς είναι ισοδύναμη με τη μεγιστοποίηση της αριστερής πλευράς a G g t a c T t C c A t a c g t Στοίχιση a c g t T A g t a c g t C c A t C c g t a c g G _________________ A 3 0 1 0 3 1 1 0 Προφίλ C 2 4 0 0 1 4 0 0 G 0 1 4 0 0 0 3 1 T 0 0 0 5 1 0 1 4 Συναινετική αλληλουχία a c g t a c g t Score 3+4+4+5+3+4+3+4 TotalDistance 2+1+1+0+2+1+2+1 Άθροισμα 5 5 5 5 5 5 5 5 t

Πρόβλημα Εύρεσης Μοτίβου και πρόβλημα Μεσαίας Συμβολοσειράς Πρόβλημα Εύρεσης Μοτίβου και πρόβλημα Μεσαίας Συμβολοσειράς Γιατί αναδιατυπώσαμε το πρόβλημα της Εύρεσης Μοτίβου σαν πρόβλημα της Μεσαίας Συμβολοσειράς; Το πρόβλημα της Εύρεσης Μοτίβου πρέπει να εξετάσει όλους τους συνδυασμούς για το s. Δηλαδή (n - l + 1)t συνδυασμούς!!! Το πρόβλημα της Μεσαίας Συμβολοσειράς πρέπει να εξετάσει όλους τους 4l συνδυασμούς για τη v. Ο αριθμός αυτός είναι σχετικά μικρότερος.

Εύρεση Μοτίβου: βελτίωση του χρόνου εκτέλεσης Θυμηθείτε τον αλγόριθμο BruteForceMotifSearch: BruteForceMotifSearch(DNA, t, n, l) bestScore  0 for κάθε s=(s1,s2 , . . ., st) from (1,1 . . . 1) to (n-l+1, . . ., n-l+1) if (Score(s,DNA) > bestScore) bestScore  Score(s, DNA) bestMotif  (s1,s2 , . . . , st) return bestMotif

Οργάνωση της αναζήτησης Πώς μπορούμε να εκτελέσουμε τη γραμμή for κάθε s=(s1,s2 , . . ., st) from (1,1 . . . 1) to (n-l+1, . . ., n-l+1) ; Χρειαζόμαστε μια μέθοδο για να οργανώσουμε και να εξετάσουμε αποδοτικά τα πολλά πιθανά μοτίβα Αυτό δεν διαφέρει πολύ από την εξέταση όλων των αριθμών με t ψηφία

Μεσαία Συμβολοσειρά: βελτίωση του χρόνου εκτέλεσης MedianStringSearch (DNA, t, n, l) bestWord  AAA…A bestDistance  ∞ for κάθε l-μερές s from AAA…A to TTT…T if TotalDistance(s,DNA) < bestDistance bestDistanceTotalDistance(s,DNA) bestWord  s return bestWord