Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Εισαγωγή στους αλγορίθμους Βιοπληροφορικής www.bioalgorithms.info Πρόβλεψη γονιδίων: Στατιστικές μέθοδοι.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Εισαγωγή στους αλγορίθμους Βιοπληροφορικής www.bioalgorithms.info Πρόβλεψη γονιδίων: Στατιστικές μέθοδοι."— Μεταγράφημα παρουσίασης:

1 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Πρόβλεψη γονιδίων: Στατιστικές μέθοδοι

2 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Σύνοψη Κωδικόνια Ανακάλυψη των διακεκομμένων γονιδίων Εξώνια και εσώνια Μάτισμα Ανοιχτά πλαίσια ανάγνωσης Χρήση κωδικονίων Σήματα ματίσματος TestCode

3 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Πρόβλεψη γονιδίων: υπολογιστική πρόκληση Γονίδιο: μια αλληλουχία νουκλεοτιδίων που κωδικοποιεί πρωτεΐνες Το πρόβλημα της Πρόβλεψης Γονιδίων: Προσδιορίστε τις θέσεις που αντιστοιχούν στην αρχή και το τέλος των γονιδίων σε ένα γονιδίωμα

4 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Πρόβλεψη γονιδίων: υπολογιστική πρόκληση aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgct aatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggc tatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgc taatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaa tgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgc taatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgc aagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatg acaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgcta agctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcg gctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcat gcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatg ctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggct atgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaat gcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctg ggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctat gcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg

5 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Πρόβλεψη γονιδίων: υπολογιστική πρόκληση aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgct aatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggc tatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgc taatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaa tgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgc taatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgc aagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatg acaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgcta agctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcg gctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcat gcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatg ctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggct atgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaat gcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctg ggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctat gcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg

6 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Πρόβλεψη γονιδίων: υπολογιστική πρόκληση aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgct aatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggc tatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgc taatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaa tgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgc taatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgc aagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatg acaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgcta agctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcg gctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcat gcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatg ctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggct atgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaat gcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctg ggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctat gcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg Γονίδιο!

7 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Πρωτεΐνη RNA DNA μεταγραφή μετάφραση CCTGAGCCAACTATTGATGAA ΠΕΠΤΙΔΙΟΠΕΠΤΙΔΙΟ CCUGAGCCAACUAUUGAUGAA Κεντρικό δόγμα: DNA -> RNA -> Πρωτεΐνη

8 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Το κεντρικό δόγμα προτάθηκε το 1958 από τον Francis Crick Ο Crick διέθετε πολύ λίγα αποδεικτικά στοιχεία υπέρ της πρότασής του στα τέλη της δεκαετίας του 1950 Πριν από την πρωτοποριακή δημοσίευση του Crick, όλες οι δυνατές μεταφορές πληροφοριών θεωρούνταν εφικτές Ο Crick διατύπωσε την άποψη ότι δεν είναι όλες οι μεταφορές εφικτές (βέλη που λείπουν) Το 1970, ο Crick δημοσίευσε ένα άρθρο που υπερασπιζόταν το κεντρικό δόγμα. Κεντρικό δόγμα: αμφιβολίες

9 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Κωδικόνια Το 1961, οι Sydney Brenner και Francis Crick ανακάλυψαν τις μεταλλάξεις μετατόπισης πλαισίου ανάγνωσης (frameshift mutations) Αφαιρούσαν νουκλεοτίδια από το DNA με συστηματικό τρόπο –Οι μονές και διπλές αφαιρέσεις άλλαζαν δραματικά το πρωτεϊνικό προϊόν –Οι επιπτώσεις των τριπλών αφαιρέσεων ήταν ασήμαντες –Συμπέρασμα: κάθε τριάδα νουκλεοτιδίων, δηλαδή κάθε κωδικόνιο, κωδικοποιεί ακριβώς ένα αμινοξύ σε μια πρωτεΐνη

10 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής The Sly Fox Στην ακόλουθη συμβολοσειρά THE SLY FOX AND THE SHY DOG Αφαιρούμε 1, 2, και 3 γράμματα (νουκλεοτίδια) μετά από το πρώτο ‘S’: THE SYF OXA NDT HES HYD OG THE SFO XAN DTH ESH YDO G THE SOX AND THE SHY DOG Ποιο από τα παραπάνω έχει το περισσότερο νόημα;

11 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Μετάφραση νουκλεοτιδίων σε αμινοξέα Κωδικόνιο: 3 διαδοχικά νουκλεοτίδια 4 3 = 64 πιθανά κωδικόνια Ο γενετικός κώδικας είναι εκφυλιστικός και πλεονάζων –Περιλαμβάνει κωδικόνια εκκίνησης και τερματισμού –Περισσότερα από ένα κωδικόνια ενδέχεται να κωδικοποιούν ένα αμινοξύ

12 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Η μεγάλη ανακάλυψη που οδήγησε σε μια εσφαλμένη υπόθεση Το 1964, οι Charles Yanofsky και Sydney Brenner απέδειξαν ότι τα κωδικόνια και τα αντίστοιχα αμινοξέα που παράγονται στις πρωτεΐνες είναι συνευθειακά Το 1967, ο Yanofsky και οι συνεργάτες του απέδειξαν επιπλέον ότι η αλληλουχία των κωδικονίων σε ένα γονίδιο καθορίζει την αλληλουχία των αμινοξέων σε μια πρωτεΐνη Αυτό οδήγησε στην εσφαλμένη υπόθεση ότι οι τριάδες που κωδικοποιούν αλληλουχίες αμινοξέων σχηματίζουν συνεχόμενες λωρίδες πληροφορίας

13 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Κεντρικό δόγμα: DNA -> RNA -> Πρωτεΐνη Πρωτεΐνη RNA DNA μεταγραφή μετάφραση CCTGAGCCAACTATTGATGAA ΠΕΠΤΙΔΙΟΠΕΠΤΙΔΙΟ CCUGAGCCAACUAUUGAUGAA

14 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Η ανακάλυψη των διακεκομμένων γονιδίων Το 1977, οι Phillip Sharp και Richard Roberts πειραματίστηκαν με το mRNA της πρωτεΐνης hexon, μιας ιικής πρωτεΐνης. –Χαρτογράφησαν το mRNA της hexon στο γονιδίωμα του ιού μέσω υβριδοποίησης με DNA αδενοϊού και ηλεκτρονική μικροσκοπία –Τα υβρίδια mRNA-DNA σχημάτιζαν τρεις παράξενες δομές βρόχου αντί για συνεχή διπλά τμήματα

15 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Η ανακάλυψη των διακεκομμένων γονιδίων (συνέχεια) –Το άρθρο “Adenovirus Amazes at Cold Spring Harbor” (1977, Nature 268) τεκμηρίωσε την ύπαρξη «μωσαϊκών μορίων που αποτελούνται από αλληλουχίες συμπληρωματικές ως προς αρκετά μη συνεχόμενα τμήματα του ιικού γονιδιώματος». –Το 1978, ο Walter Gilbert επινόησε τον όρο εσώνιο στο άρθρο του περιορικού Nature με τίτλο «Γιατί υπάρχουν κομματιασμένα γονίδια;»

16 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Εξώνια και εσώνια Στους ευκαρυώτες, το γονίδιο είναι ένας συνδυασμός τμημάτων που κωδικοποιούν (εξώνια), στα οποία παρεμβάλλονται τμήματα που δεν κωδικοποιούν (εσώνια) Αυτό δυσκολεύει περισσότερο την υπολογιστική πρόβλεψη γονιδίων στους ευκαρυώτες Οι προκαρυώτες δεν έχουν εσώνια – τα γονίδια στους προκαρυώτες είναι συνεχή

17 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Κεντρικό δόγμα: DNA -> RNA -> Πρωτεΐνη Πρωτεΐνη RNA DNA μεταγραφή μετάφραση CCTGAGCCAACTATTGATGAA ΠΕΠΤΙΔΙΟΠΕΠΤΙΔΙΟ CCUGAGCCAACUAUUGAUGAA

18 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Κεντρικό δόγμα και μάτισμα εξώνιο1 εξώνιο2εξώνιο3 εσώνιο1εσώνιο2 μεταγραφή μετάφραση μάτισμα εξώνιο = κωδικοποιεί εσώνιο = δεν κωδικοποιεί Batzoglou

19 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Δομή γονιδίων

20 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Σήματα ματίσματος Τα εξώνια εναλλάσσονται με εσώνια, και τα δινουκλεοτίδια AG και GT είναι συνήθως τοποθετημένα και στις δύο πλευρές των εξωνίων

21 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Ανίχνευση θέσεων ματίσματος 5’5’ 3’3’ Θέση δότη Θέση % Από διαλέξεις του Serafim Batzoglou (Stanford)

22 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Συναινετικές θέσεις ματίσματος Δότης: 7,9 bits Δέκτης: 9,4 bits 5’ εξώνιο δότης εσώνιο δέκτης εξώνιο Αυτή η εικόνα αναπαριστά δύο «λογότυπα αλληλουχιών» τα οποία αντιπροσωπεύουν τη συντήρηση της αλληλουχίας στο άκρο 5’ (δότη) και στο άκρο 3’ (δέκτη) των ανθρώπινων εσωνίων. Η περιοχή μεταξύ των μαύρων κάθετων γραμμών αφαιρείται κατά το μάτισμα του mRNA. Τα λογότυπα δείχνουν γραφικά ότι το μεγαλύτερο μέρος του μοτίβου για τον εντοπισμό των άκρων των εσωνίων βρίσκεται στο εσώνιο. Αυτό επιτρέπει περισσότερες επιλογές κωδικονίων στα εξώνια που κωδικοποιούν πρωτεΐνες. Τα λογότυπα δείχνουν επίσης ένα κοινό μοτίβο “CAG|GT” το οποίο δείχνει ότι οι μηχανισμοί που αναγνωρίζουν τα δύο άκρα του εσωνίου έχουν έναν κοινό πρόγονο. Δείτε το άρθρο των R.M. Stephens και T.D. Schneider. “Features of spliceosome evolution and function inferred from an analysis of the information at human splice sites”, J. Mol. Biol., 228, , (1992).

23 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Οι υποκινητές (promoters) είναι τμήματα DNA άνωθεν ευρισκόμενα σε σχέση με τα μετάγραφα που ξεκινούν τη μεταγραφή Ο υποκινητής έλκει την πολυμεράση RNA στη θέση εκκίνησης της μεταγραφής Υποκινητές 5’5’ Υποκινητής 3’3’

24 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Μηχανισμός ματίσματος (http://genes.mit.edu/chris/)

25 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Μηχανισμός ματίσματος Η θέση αναγνώρισης της αδενίνης οριοθετεί το εσώνιο Οι μικρομοριακές ριβονουκλεοπρωτεΐνες (snRNP) προδένονται γύρω από τη θέση αναγνώρισης της αδενίνης Έτσι, σχηματίζεται το σωμάτιο ματίσματος Το σωμάτιο ματίσματος αποκόπτει εσώνια στο mRNA

26 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Ενεργοποίηση των snRNP Από διαλέξεις του Chris Burge (MIT)

27 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Διευκόλυνση του σωματίου ματίσματος Από διαλέξεις του Chris Burge (MIT)

28 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Αποκοπή εσωνίων Από διαλέξεις του Chris Burge (MIT)

29 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Το mRNA είναι πλέον έτοιμο Από διαλέξεις του Chris Burge (MIT)

30 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Αναλογία της πρόβλεψης γονιδίων Εφημερίδα γραμμένη σε άγνωστη γλώσσα –Ορισμένες σελίδες περιέχουν ένα κωδικοποιημένο μήνυμα, έστω 99 γράμματα στη σελ. 7, 30 στη σελ. 12 και 63 στη σελ. 15. Πώς αναγνωρίζετε το μήνυμα; Θα μπορούσατε πιθανώς να διακρίνετε το κείμενο από τις διαφημίσεις (οι διαφημίσεις περιέχουν συχνά το σύμβολο ‘$’); Η στατιστική μέθοδος για την πρόβλεψη γονιδίων προσπαθεί να κάνει παρόμοιες διακρίσεις μεταξύ εξωνίων και εσωνίων.

31 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Παρατηρώντας τις διαφορετικές συχνότητες των συμβόλων (π.χ., των ‘%’, ‘.’, ‘-’) και των αριθμητικών συμβόλων, θα μπορούσατε να διακρίνετε ένα απλό άρθρο από το δελτίου του χρηματιστηρίου σε μια ξένη εφημερίδα; Στατιστική μέθοδος: μεταφορά σε άγνωστη γλώσσα

32 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Δύο μέθοδοι για την πρόβλεψη γονιδίων Στατιστικές: τα τμήματα που κωδικοποιούν (εξώνια) έχουν τυπικές αλληλουχίες σε οποιοδήποτε από τα δύο άκρα και χρησιμοποιούν διαφορετικές υπολέξεις από τα τμήματα που δεν κωδικοποιούν (εσώνια). Βασισμένες στην ομοιότητα: πολλά ανθρώπινα γονίδια είναι παρόμοια με τα γονίδια στα ποντίκια, τις, κότες, ή ακόμα και τα βακτήρια. Επομένως, τα ήδη γνωστά γονίδια του ποντικιού, της κότας, και των βακτηρίων μπορούν να βοηθήσουν στην εύρεση των ανθρώπινων γονιδίων.

33 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Αν μπορούσατε να συγκρίνετε τις ειδήσεις της ημέρας στα Αγγλικά, πλάι-πλάι με τις ίδιες ειδήσεις σε μια ξένη γλώσσα, κάποιες ομοιότητες ενδέχεται να είναι προφανείς Στατιστική μέθοδος: μεταφορά σε διαφορετικές γλώσσες

34 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Τα UAA, UAG και UGA αντιστοιχούν σε 3 κωδικόνια τερματισμού τα οποία (μαζί με το κωδικόνιο εκκίνησης ATG) περιγράφουν τα ανοιχτά πλαίσια ανάγνωσης Γενετικός κώδικας και κωδικόνια τερματισμού

35 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Έξι πλαίσια σε μια αλληλουχία DNA κωδικόνια τερματισμού – TAA, TAG, TGA κωδικόνια εκκίνησης – ATG GACGTCTGCTTTGGAGAACTACATCAACCGGACTGTGGCTGTTATTACTTCTGATGGCAGAATGATTGTG CTGCAGACGAAACCTCTTGATGTAGTTGGCCTGACACCGACAATAATGAAGACTACCGTCTTACTAACAC GACGTCTGCTTTGGAGAACTACATCAACCGGACTGTGGCTGTTATTACTTCTGATGGCAGAATGATTGTG CTGCAGACGAAACCTCTTGATGTAGTTGGCCTGACACCGACAATAATGAAGACTACCGTCTTACTAACAC

36 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Ανοιχτά πλαίσια ανάγνωσης (ORF) Ανιχνεύουμε πιθανές περιοχές που κωδικοποιούν εξετάζοντας τα ORF –Ένα γονιδίωμα μήκους n αποτελείται από (n/3) κωδικόνια –Τα κωδικόνια τερματισμού χωρίζουν το γονιδίωμα σε τμήματα μεταξύ διαδοχικών κωδικονίων τερματισμού –Τα υποτμήματα αυτών που αρχίζουν από το κωδικόνιο εκκίνησης (ATG) είναι ανοιχτά πλαίσια ανάγνωσης (ORF) Τα ORF σε διαφορετικά πλαίσια ενδέχεται να επικαλύπτονται Γονιδιωματική αλληλουχία Ανοιχτό πλαίσιο ανάγνωσης ATGTGA

37 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Μεγάλα και μικρά ORF Τα ανοιχτά πλαίσια ανάγνωσης με μεγάλο μήκος ενδέχεται να αποτελούν ένα γονίδιο –Στην τύχη, θα πρέπει να αναμένουμε ένα κωδικόνιο τερματισμού κάθε (64/3) ~= 21 κωδικόνια –Όμως, τα γονίδια έχουν συνήθως πολύ μεγαλύτερο μήκος από αυτό Μια βασική μέθοδος είναι να ψάχνουμε ORF με μήκος που υπερβαίνει ένα συγκεκριμένο κατώφλι –Απλοϊκή, επειδή μερικά γονίδια (π.χ., ορισμένα γονίδια του νευρικού και του ανοσοποιητικού συστήματος) έχουν σχετικά μικρό μήκος

38 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Έλεγχος των ORF: χρήση κωδικονίων Δημιουργούμε έναν πίνακα κατακερματισμού με 64 στοιχεία και μετράμε τις συχνότητες των κωδικονίων σε ένα ORF Τα αμινοξέα έχουν συνήθως περισσότερα από ένα κωδικόνια, αλλά ορισμένα κωδικόνια χρησιμοποιούνται περισσότερο στη φύση Η ακανόνιστη χρήση των κωδικονίων μπορεί να χαρακτηρίζει ένα πραγματικό γονίδιο Αυτό αντισταθμίζει τους κινδύνους που κρύβει ο έλεγχος μήκους των ORF

39 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Χρήση κωδικονίων στο ανθρώπινο γονιδίωμα

40 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής AA κωδικόνιο /1000 frac Ser TCG 4,31 0,05 Ser TCA 11,44 0,14 Ser TCT 15,70 0,19 Ser TCC 17,92 0,22 Ser AGT 12,25 0,15 Ser AGC 19,54 0,24 Pro CCG 6,33 0,11 Pro CCA 17,10 0,28 Pro CCT 18,31 0,30 Pro CCC 18,42 0,31 AA κωδικόνιο /1000 frac Leu CTG 39,95 0,40 Leu CTA 7,89 0,08 Leu CTT 12,97 0,13 Leu CTC 20,04 0,20 Ala GCG 6,72 0,10 Ala GCA 15,80 0,23 Ala GCT 20,12 0,29 Ala GCC 26,51 0,38 Gln CAG 34,18 0,75 Gln CAA 11,51 0,25 Χρήση κωδικονίων στο γονιδίωμα του ποντικιού

41 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Χρήση κωδικονίων και λόγος πιθανοφάνειας Ένα ORF είναι περισσότερο «αληθοφανές» από κάποιο άλλο αν έχει περισσότερα «πιθανά» κωδικόνια Εκτελούμε υπολογισμούς με κυλιόμενο παράθυρο για να βρούμε ORF που έχουν την «πιθανή» χρήση κωδικονίων Προσδιορίζει με μεγαλύτερη ακρίβεια τα πραγματικά ORF και έχει πολύ καλύτερη απόδοση από τον απλό έλεγχο μήκους Όμως, το μέσο μήκος του εξωνίων στα σπονδυλόζωα είναι ίσο με 130 νουκλεοτίδια, το οποίο είναι συχνά πολύ μικρό για να παραγάγει αξιόπιστες κορυφές στο λόγο πιθανοφάνειας Περαιτέρω βελτίωση: πλήθος ενδοπλαισιακών εξαμερών (συχνότητες για τα ζεύγη συνεχόμενων κωδικονίων)

42 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Πρόβλεψη γονιδίων και μοτίβα Οι περιοχές που βρίσκονται άνωθεν των γονιδίων περιέχουν συχνά μοτίβα τα οποία μπορούν να χρησιμοποιηθούν για την πρόβλεψη γονιδίων -10 STOP ATG TATACT Πλαίσιο Pribnow TTCCAAGGAGG Θέση πρόσδεσης ριβοσώματος Θέση έναρξης μεταγραφής

43 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Δομή υποκινητών στους προκαρυώτες (Ε. Coli ) Η μεταγραφή αρχίζει στη σχετική θέση 0. Πλαίσιο Pribnow (-10) Πλαίσιο Gilbert (-30) Θέση πρόσδεσης ριβοσώματος (+10)

44 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Θέση πρόσδεσης ριβοσώματος Οι 1055 θέσεις πρόσδεσης ριβοσώματος στο βακτήριο E. coli που αναφέρονται στο βιβλίο του Miller

45 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Σήματα ματίσματος Οι ερευνητές έχουν προσπαθήσει να προσδιορίσουν τη θέση των σημάτων ματίσματος στα σημεία συμβολής εσωνίων-εξωνίων –Αυτό αποκάλυψε θέσεις ματίσματος δότη και δέκτη που είναι λιγότερο συντηρημένες Τα σώματα των θέσεων ματίσματος εξακολουθούν να είναι ασθενή, το οποίο κάνει το πρόβλημα κατάλληλο για τις μεθόδους με κρυφά μοντέλα Markov (HMM), οι οποίες αποτυπώνουν τις στατιστικές εξαρτήσεις μεταξύ των θέσεων

46 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Θέσεις δότη και δέκτη: δινουκλεοτίδια GT και AG Η αρχή και το τέλος των εξωνίων σηματοδοτούνται από τις θέσεις δότη και δέκτη, οι οποίες έχουν συνήθως τα δινουκλεοτίδια GT και AC Η ανίχνευση αυτών των θέσεων είναι δύσκολη, επειδή τα GT και AC εμφανίζονται πολύ συχνά εξώνιο 1εξώνιο 2 GTAC Θέση δέκτη Θέση δότη

47 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής (http://www-lmmb.ncifcrf.gov/~toms/sequencelogo.html) Δότης: 7,9 bits Δέκτης: 9,4 bits (Stephens & Schneider, 1996) Θέσεις δότη και δέκτη: λογότυπα μοτίβων εξώνιο δότης εσώνιο δέκτης εξώνιο Αυτή η εικόνα αναπαριστά δύο «λογότυπα αλληλουχιών» τα οποία αντιπροσωπεύουν τη συντήρηση της αλληλουχίας στο άκρο 5’ (δότη) και στο άκρο 3’ (δέκτη) των ανθρώπινων εσωνίων. Η περιοχή μεταξύ των μαύρων κάθετων γραμμών αφαιρείται κατά το μάτισμα του mRNA. Τα λογότυπα δείχνουν γραφικά ότι το μεγαλύτερο μέρος του μοτίβου για τον εντοπισμό των άκρων των εσωνίων βρίσκεται στο εσώνιο. Αυτό επιτρέπει περισσότερες επιλογές κωδικονίων στα εξώνια που κωδικοποιούν πρωτεΐνες. Τα λογότυπα δείχνουν επίσης ένα κοινό μοτίβο “CAG|GT” το οποίο δείχνει ότι οι μηχανισμοί που αναγνωρίζουν τα δύο άκρα του εσωνίου έχουν έναν κοινό πρόγονο. Δείτε το άρθρο των R.M. Stephens και T.D. Schneider. “Features of spliceosome evolution and function inferred from an analysis of the information at human splice sites”, J. Mol. Biol., 228, , (1992).

48 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής TestCode Στατιστικός έλεγχος που περιγράφηκε από τον James Fickett το 1982: τα νουκλεοτίδια στις κωδικοποιούσες περιοχές τείνουν να επαναλαμβάνονται με περιοδικότητα 3 –Κρίνει την τυχαιότητα αντί για τη συχνότητα των κωδικονίων –Βρίσκει «υποθετικές» περιοχές που κωδικοποιούν, και όχι εσώνια, εξώνια, ή θέσεις ματίσματος Το TestCode βρίσκει ORF με βάση τη μεροληψία σύνθεσης (compositional bias), με περιοδικότητα 3

49 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Στατιστικές του TestCode Ορίζουμε ένα μέγεθος παραθύρου όχι μικρότερο από 200 bp, και αφήνουμε το παράθυρο να ολισθήσει στην αλληλουχία 3 βάσεις τη φορά. Σε κάθε παράθυρο: –Υπολογίζουμε για κάθε βάση {A, T, G, C} max (n 3k+1, n 3k+2, n 3k ) / min ( n 3k+1, n 3k+2, n 3k ) Χρησιμοποιούμε αυτές τις τιμές για να βρούμε μια πιθανότητα από έναν πίνακα αναζήτησης (που έχει οριστεί και προσδιοριστεί πειραματικά με γνωστές αλληλουχίες που κωδικοποιούν και αλληλουχίες που δεν κωδικοποιούν

50 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Στατιστικές του TestCode (συνέχεια) Οι πιθανότητες μπορούν να ταξινομηθούν ανάλογα με το αν υποδεικνύουν «περιοχές που κωδικοποιούν» ή «δεν κωδικοποιούν», ή «απροσδιόριστες περιοχές» όταν δεν είναι ξεκάθαρο πόση ανοχή παρουσιάζει μια αλληλουχία στην τυχαιοκρατικότητα Η ακολουθία πιθανοτήτων που προκύπτει μπορεί να απεικονιστεί σε διάγραμμα

51 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Δείγμα εξόδου του TestCode Κωδικοποιούν Απροσδιόριστες Δεν κωδικοποιούν

52 Εισαγωγή στους αλγορίθμους Βιοπληροφορικής Δημοφιλείς αλγόριθμοι πρόβλεψης γονιδίων GENSCAN: χρησιμοποιεί κρυφά μοντέλα Markov (HMM) TWINSCAN –Χρησιμοποιεί και τα HMM και την ομοιότητα (π.χ., μεταξύ των γονιδιωμάτων του ανθρώπου και του ποντικιού)


Κατέβασμα ppt "Εισαγωγή στους αλγορίθμους Βιοπληροφορικής www.bioalgorithms.info Πρόβλεψη γονιδίων: Στατιστικές μέθοδοι."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google