Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Πρόβλεψη γονιδίων: Στατιστικές μέθοδοι

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Πρόβλεψη γονιδίων: Στατιστικές μέθοδοι"— Μεταγράφημα παρουσίασης:

1 Πρόβλεψη γονιδίων: Στατιστικές μέθοδοι

2 Σύνοψη Κωδικόνια Ανακάλυψη των διακεκομμένων γονιδίων
Εξώνια και εσώνια Μάτισμα Ανοιχτά πλαίσια ανάγνωσης Χρήση κωδικονίων Σήματα ματίσματος TestCode

3 Πρόβλεψη γονιδίων: υπολογιστική πρόκληση
Γονίδιο: μια αλληλουχία νουκλεοτιδίων που κωδικοποιεί πρωτεΐνες Το πρόβλημα της Πρόβλεψης Γονιδίων: Προσδιορίστε τις θέσεις που αντιστοιχούν στην αρχή και το τέλος των γονιδίων σε ένα γονιδίωμα

4 Πρόβλεψη γονιδίων: υπολογιστική πρόκληση
aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg

5 Πρόβλεψη γονιδίων: υπολογιστική πρόκληση
aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg

6 Πρόβλεψη γονιδίων: υπολογιστική πρόκληση
aatgcatgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatcctgcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcggctatgctaatgaatggtcttgggatttaccttggaatgctaagctgggatccgatgacaatgcatgcggctatgctaatgaatggtcttgggatttaccttggaatatgctaatgcatgcggctatgctaagctgggaatgcatgcggctatgctaagctgggatccgatgacaatgcatgcggctatgctaatgcatgcggctatgcaagctgggatccgatgactatgctaagctgcggctatgctaatgcatgcggctatgctaagctcatgcgg Γονίδιο!

7 Κεντρικό δόγμα: DNA -> RNA -> Πρωτεΐνη
μεταγραφή μετάφραση CCTGAGCCAACTATTGATGAA CCUGAGCCAACUAUUGAUGAA ΠΕΠΤΙΔΙΟ

8 Κεντρικό δόγμα: αμφιβολίες
Το κεντρικό δόγμα προτάθηκε το 1958 από τον Francis Crick Ο Crick διέθετε πολύ λίγα αποδεικτικά στοιχεία υπέρ της πρότασής του στα τέλη της δεκαετίας του 1950 Πριν από την πρωτοποριακή δημοσίευση του Crick, όλες οι δυνατές μεταφορές πληροφοριών θεωρούνταν εφικτές Ο Crick διατύπωσε την άποψη ότι δεν είναι όλες οι μεταφορές εφικτές (βέλη που λείπουν) Το 1970, ο Crick δημοσίευσε ένα άρθρο που υπερασπιζόταν το κεντρικό δόγμα.

9 Κωδικόνια Το 1961, οι Sydney Brenner και Francis Crick ανακάλυψαν τις μεταλλάξεις μετατόπισης πλαισίου ανάγνωσης (frameshift mutations) Αφαιρούσαν νουκλεοτίδια από το DNA με συστηματικό τρόπο Οι μονές και διπλές αφαιρέσεις άλλαζαν δραματικά το πρωτεϊνικό προϊόν Οι επιπτώσεις των τριπλών αφαιρέσεων ήταν ασήμαντες Συμπέρασμα: κάθε τριάδα νουκλεοτιδίων, δηλαδή κάθε κωδικόνιο, κωδικοποιεί ακριβώς ένα αμινοξύ σε μια πρωτεΐνη

10 The Sly Fox Στην ακόλουθη συμβολοσειρά THE SLY FOX AND THE SHY DOG
THE SYF OXA NDT HES HYD OG THE SFO XAN DTH ESH YDO G THE SOX AND THE SHY DOG Ποιο από τα παραπάνω έχει το περισσότερο νόημα;

11 Μετάφραση νουκλεοτιδίων σε αμινοξέα
Κωδικόνιο: 3 διαδοχικά νουκλεοτίδια 43 = 64 πιθανά κωδικόνια Ο γενετικός κώδικας είναι εκφυλιστικός και πλεονάζων Περιλαμβάνει κωδικόνια εκκίνησης και τερματισμού Περισσότερα από ένα κωδικόνια ενδέχεται να κωδικοποιούν ένα αμινοξύ

12 Η μεγάλη ανακάλυψη που οδήγησε σε μια εσφαλμένη υπόθεση
Το 1964, οι Charles Yanofsky και Sydney Brenner απέδειξαν ότι τα κωδικόνια και τα αντίστοιχα αμινοξέα που παράγονται στις πρωτεΐνες είναι συνευθειακά Το 1967, ο Yanofsky και οι συνεργάτες του απέδειξαν επιπλέον ότι η αλληλουχία των κωδικονίων σε ένα γονίδιο καθορίζει την αλληλουχία των αμινοξέων σε μια πρωτεΐνη Αυτό οδήγησε στην εσφαλμένη υπόθεση ότι οι τριάδες που κωδικοποιούν αλληλουχίες αμινοξέων σχηματίζουν συνεχόμενες λωρίδες πληροφορίας

13 Κεντρικό δόγμα: DNA -> RNA -> Πρωτεΐνη
μεταγραφή μετάφραση CCTGAGCCAACTATTGATGAA CCUGAGCCAACUAUUGAUGAA ΠΕΠΤΙΔΙΟ

14 Η ανακάλυψη των διακεκομμένων γονιδίων
Το 1977, οι Phillip Sharp και Richard Roberts πειραματίστηκαν με το mRNA της πρωτεΐνης hexon, μιας ιικής πρωτεΐνης. Χαρτογράφησαν το mRNA της hexon στο γονιδίωμα του ιού μέσω υβριδοποίησης με DNA αδενοϊού και ηλεκτρονική μικροσκοπία Τα υβρίδια mRNA-DNA σχημάτιζαν τρεις παράξενες δομές βρόχου αντί για συνεχή διπλά τμήματα

15 Η ανακάλυψη των διακεκομμένων γονιδίων (συνέχεια)
Το άρθρο “Adenovirus Amazes at Cold Spring Harbor” (1977, Nature 268) τεκμηρίωσε την ύπαρξη «μωσαϊκών μορίων που αποτελούνται από αλληλουχίες συμπληρωματικές ως προς αρκετά μη συνεχόμενα τμήματα του ιικού γονιδιώματος». Το 1978, ο Walter Gilbert επινόησε τον όρο εσώνιο στο άρθρο του περιορικού Nature με τίτλο «Γιατί υπάρχουν κομματιασμένα γονίδια;»

16 Εξώνια και εσώνια Στους ευκαρυώτες, το γονίδιο είναι ένας συνδυασμός τμημάτων που κωδικοποιούν (εξώνια), στα οποία παρεμβάλλονται τμήματα που δεν κωδικοποιούν (εσώνια) Αυτό δυσκολεύει περισσότερο την υπολογιστική πρόβλεψη γονιδίων στους ευκαρυώτες Οι προκαρυώτες δεν έχουν εσώνια – τα γονίδια στους προκαρυώτες είναι συνεχή

17 Κεντρικό δόγμα: DNA -> RNA -> Πρωτεΐνη
μεταγραφή μετάφραση CCTGAGCCAACTATTGATGAA CCUGAGCCAACUAUUGAUGAA ΠΕΠΤΙΔΙΟ

18 Κεντρικό δόγμα και μάτισμα
εσώνιο1 εσώνιο2 εξώνιο1 εξώνιο2 εξώνιο3 μεταγραφή μάτισμα μετάφραση εξώνιο = κωδικοποιεί εσώνιο = δεν κωδικοποιεί The γονίδιοs themselves are structured in coding bits, that is the stuff that becomes αμινοξέα, called εξώνια, and non-coding stretches of sequence in between, called εσώνια. When the γονίδιο is transcribed the whole thing becomes an RNA molecule, including the garbage in between the εξώνια, and then these εσώνια are cut out in a process called splicing. The resulting bits are glued together and translated into a πρωτεΐνη. Batzoglou

19 Δομή γονιδίων

20 Σήματα ματίσματος Τα εξώνια εναλλάσσονται με εσώνια, και τα δινουκλεοτίδια AG και GT είναι συνήθως τοποθετημένα και στις δύο πλευρές των εξωνίων

21 Ανίχνευση θέσεων ματίσματος
Θέση δότη 5’ 3’ Θέση % Από διαλέξεις του Serafim Batzoglou (Stanford)

22 Συναινετικές θέσεις ματίσματος
εξώνιο δότης εσώνιο δέκτης Αυτή η εικόνα αναπαριστά δύο «λογότυπα αλληλουχιών» τα οποία αντιπροσωπεύουν τη συντήρηση της αλληλουχίας στο άκρο 5’ (δότη) και στο άκρο 3’ (δέκτη) των ανθρώπινων εσωνίων. Η περιοχή μεταξύ των μαύρων κάθετων γραμμών αφαιρείται κατά το μάτισμα του mRNA. Τα λογότυπα δείχνουν γραφικά ότι το μεγαλύτερο μέρος του μοτίβου για τον εντοπισμό των άκρων των εσωνίων βρίσκεται στο εσώνιο. Αυτό επιτρέπει περισσότερες επιλογές κωδικονίων στα εξώνια που κωδικοποιούν πρωτεΐνες. Τα λογότυπα δείχνουν επίσης ένα κοινό μοτίβο “CAG|GT” το οποίο δείχνει ότι οι μηχανισμοί που αναγνωρίζουν τα δύο άκρα του εσωνίου έχουν έναν κοινό πρόγονο. Δείτε το άρθρο των R.M. Stephens και T.D. Schneider. “Features of spliceosome evolution and function inferred from an analysis of the information at human splice sites”, J. Mol. Biol., 228, , (1992). 5’ Δότης: 7,9 bits Δέκτης: 9,4 bits How much info? Find branch sites

23 Υποκινητές Οι υποκινητές (promoters) είναι τμήματα DNA άνωθεν ευρισκόμενα σε σχέση με τα μετάγραφα που ξεκινούν τη μεταγραφή Ο υποκινητής έλκει την πολυμεράση RNA στη θέση εκκίνησης της μεταγραφής 5’ 3’ Υποκινητής

24 Μηχανισμός ματίσματος
(http://genes.mit.edu/chris/)

25 Μηχανισμός ματίσματος
Η θέση αναγνώρισης της αδενίνης οριοθετεί το εσώνιο Οι μικρομοριακές ριβονουκλεοπρωτεΐνες (snRNP) προδένονται γύρω από τη θέση αναγνώρισης της αδενίνης Έτσι, σχηματίζεται το σωμάτιο ματίσματος Το σωμάτιο ματίσματος αποκόπτει εσώνια στο mRNA

26 Ενεργοποίηση των snRNP
Από διαλέξεις του Chris Burge (MIT)

27 Διευκόλυνση του σωματίου ματίσματος
Από διαλέξεις του Chris Burge (MIT)

28 Αποκοπή εσωνίων Από διαλέξεις του Chris Burge (MIT)

29 Το mRNA είναι πλέον έτοιμο
Από διαλέξεις του Chris Burge (MIT)

30 Αναλογία της πρόβλεψης γονιδίων
Εφημερίδα γραμμένη σε άγνωστη γλώσσα Ορισμένες σελίδες περιέχουν ένα κωδικοποιημένο μήνυμα, έστω 99 γράμματα στη σελ. 7, 30 στη σελ. 12 και 63 στη σελ. 15. Πώς αναγνωρίζετε το μήνυμα; Θα μπορούσατε πιθανώς να διακρίνετε το κείμενο από τις διαφημίσεις (οι διαφημίσεις περιέχουν συχνά το σύμβολο ‘$’); Η στατιστική μέθοδος για την πρόβλεψη γονιδίων προσπαθεί να κάνει παρόμοιες διακρίσεις μεταξύ εξωνίων και εσωνίων.

31 Στατιστική μέθοδος: μεταφορά σε άγνωστη γλώσσα
Παρατηρώντας τις διαφορετικές συχνότητες των συμβόλων (π.χ., των ‘%’, ‘.’, ‘-’) και των αριθμητικών συμβόλων, θα μπορούσατε να διακρίνετε ένα απλό άρθρο από το δελτίου του χρηματιστηρίου σε μια ξένη εφημερίδα;

32 Δύο μέθοδοι για την πρόβλεψη γονιδίων
Στατιστικές: τα τμήματα που κωδικοποιούν (εξώνια) έχουν τυπικές αλληλουχίες σε οποιοδήποτε από τα δύο άκρα και χρησιμοποιούν διαφορετικές υπολέξεις από τα τμήματα που δεν κωδικοποιούν (εσώνια). Βασισμένες στην ομοιότητα: πολλά ανθρώπινα γονίδια είναι παρόμοια με τα γονίδια στα ποντίκια, τις, κότες, ή ακόμα και τα βακτήρια. Επομένως, τα ήδη γνωστά γονίδια του ποντικιού, της κότας, και των βακτηρίων μπορούν να βοηθήσουν στην εύρεση των ανθρώπινων γονιδίων.

33 Στατιστική μέθοδος: μεταφορά σε διαφορετικές γλώσσες
Αν μπορούσατε να συγκρίνετε τις ειδήσεις της ημέρας στα Αγγλικά, πλάι-πλάι με τις ίδιες ειδήσεις σε μια ξένη γλώσσα, κάποιες ομοιότητες ενδέχεται να είναι προφανείς

34 Γενετικός κώδικας και κωδικόνια τερματισμού
Τα UAA, UAG και UGA αντιστοιχούν σε 3 κωδικόνια τερματισμού τα οποία (μαζί με το κωδικόνιο εκκίνησης ATG) περιγράφουν τα ανοιχτά πλαίσια ανάγνωσης

35 Έξι πλαίσια σε μια αλληλουχία DNA
CTGCAGACGAAACCTCTTGATGTAGTTGGCCTGACACCGACAATAATGAAGACTACCGTCTTACTAACAC CTGCAGACGAAACCTCTTGATGTAGTTGGCCTGACACCGACAATAATGAAGACTACCGTCTTACTAACAC GACGTCTGCTTTGGAGAACTACATCAACCGGACTGTGGCTGTTATTACTTCTGATGGCAGAATGATTGTG GACGTCTGCTTTGGAGAACTACATCAACCGGACTGTGGCTGTTATTACTTCTGATGGCAGAATGATTGTG κωδικόνια τερματισμού – TAA, TAG, TGA κωδικόνια εκκίνησης – ATG

36 Ανοιχτά πλαίσια ανάγνωσης (ORF)
Ένα γονιδίωμα μήκους n αποτελείται από (n/3) κωδικόνια Τα κωδικόνια τερματισμού χωρίζουν το γονιδίωμα σε τμήματα μεταξύ διαδοχικών κωδικονίων τερματισμού Τα υποτμήματα αυτών που αρχίζουν από το κωδικόνιο εκκίνησης (ATG) είναι ανοιχτά πλαίσια ανάγνωσης (ORF) Τα ORF σε διαφορετικά πλαίσια ενδέχεται να επικαλύπτονται ATG TGA Γονιδιωματική αλληλουχία Ανοιχτό πλαίσιο ανάγνωσης

37 Μεγάλα και μικρά ORF Τα ανοιχτά πλαίσια ανάγνωσης με μεγάλο μήκος ενδέχεται να αποτελούν ένα γονίδιο Στην τύχη, θα πρέπει να αναμένουμε ένα κωδικόνιο τερματισμού κάθε (64/3) ~= 21 κωδικόνια Όμως, τα γονίδια έχουν συνήθως πολύ μεγαλύτερο μήκος από αυτό Μια βασική μέθοδος είναι να ψάχνουμε ORF με μήκος που υπερβαίνει ένα συγκεκριμένο κατώφλι Απλοϊκή, επειδή μερικά γονίδια (π.χ., ορισμένα γονίδια του νευρικού και του ανοσοποιητικού συστήματος) έχουν σχετικά μικρό μήκος

38 Έλεγχος των ORF: χρήση κωδικονίων
Τα αμινοξέα έχουν συνήθως περισσότερα από ένα κωδικόνια, αλλά ορισμένα κωδικόνια χρησιμοποιούνται περισσότερο στη φύση Η ακανόνιστη χρήση των κωδικονίων μπορεί να χαρακτηρίζει ένα πραγματικό γονίδιο Αυτό αντισταθμίζει τους κινδύνους που κρύβει ο έλεγχος μήκους των ORF

39 Χρήση κωδικονίων στο ανθρώπινο γονιδίωμα

40 Χρήση κωδικονίων στο γονιδίωμα του ποντικιού
AA κωδικόνιο /1000 frac Ser TCG 4,31 0,05 Ser TCA 11,44 0,14 Ser TCT 15,70 0,19 Ser TCC 17,92 0,22 Ser AGT 12,25 0,15 Ser AGC 19,54 0,24 Pro CCG 6,33 0,11 Pro CCA 17,10 0,28 Pro CCT 18,31 0,30 Pro CCC 18,42 0,31 AA κωδικόνιο /1000 frac Leu CTG 39,95 0,40 Leu CTA 7,89 0,08 Leu CTT 12,97 0,13 Leu CTC 20,04 0,20 Ala GCG 6,72 0,10 Ala GCA 15,80 0,23 Ala GCT 20,12 0,29 Ala GCC 26,51 0,38 Gln CAG 34,18 0,75 Gln CAA 11,51 0,25

41 Χρήση κωδικονίων και λόγος πιθανοφάνειας
Ένα ORF είναι περισσότερο «αληθοφανές» από κάποιο άλλο αν έχει περισσότερα «πιθανά» κωδικόνια Εκτελούμε υπολογισμούς με κυλιόμενο παράθυρο για να βρούμε ORF που έχουν την «πιθανή» χρήση κωδικονίων Προσδιορίζει με μεγαλύτερη ακρίβεια τα πραγματικά ORF και έχει πολύ καλύτερη απόδοση από τον απλό έλεγχο μήκους Όμως, το μέσο μήκος του εξωνίων στα σπονδυλόζωα είναι ίσο με 130 νουκλεοτίδια, το οποίο είναι συχνά πολύ μικρό για να παραγάγει αξιόπιστες κορυφές στο λόγο πιθανοφάνειας Περαιτέρω βελτίωση: πλήθος ενδοπλαισιακών εξαμερών (συχνότητες για τα ζεύγη συνεχόμενων κωδικονίων)

42 Πρόβλεψη γονιδίων και μοτίβα
Οι περιοχές που βρίσκονται άνωθεν των γονιδίων περιέχουν συχνά μοτίβα τα οποία μπορούν να χρησιμοποιηθούν για την πρόβλεψη γονιδίων ATG STOP -35 -10 10 TTCCAA TATACT Πλαίσιο Pribnow GGAGG Θέση πρόσδεσης ριβοσώματος Θέση έναρξης μεταγραφής

43 Δομή υποκινητών στους προκαρυώτες (Ε. Coli )
Η μεταγραφή αρχίζει στη σχετική θέση 0. Πλαίσιο Pribnow (-10) Πλαίσιο Gilbert (-30) Θέση πρόσδεσης ριβοσώματος (+10)

44 Θέση πρόσδεσης ριβοσώματος
Οι 1055 θέσεις πρόσδεσης ριβοσώματος στο βακτήριο E. coli που αναφέρονται στο βιβλίο του Miller

45 Σήματα ματίσματος Οι ερευνητές έχουν προσπαθήσει να προσδιορίσουν τη θέση των σημάτων ματίσματος στα σημεία συμβολής εσωνίων-εξωνίων Αυτό αποκάλυψε θέσεις ματίσματος δότη και δέκτη που είναι λιγότερο συντηρημένες Τα σώματα των θέσεων ματίσματος εξακολουθούν να είναι ασθενή, το οποίο κάνει το πρόβλημα κατάλληλο για τις μεθόδους με κρυφά μοντέλα Markov (HMM), οι οποίες αποτυπώνουν τις στατιστικές εξαρτήσεις μεταξύ των θέσεων

46 Θέσεις δότη και δέκτη: δινουκλεοτίδια GT και AG
Η αρχή και το τέλος των εξωνίων σηματοδοτούνται από τις θέσεις δότη και δέκτη, οι οποίες έχουν συνήθως τα δινουκλεοτίδια GT και AC Η ανίχνευση αυτών των θέσεων είναι δύσκολη, επειδή τα GT και AC εμφανίζονται πολύ συχνά Θέση δότη Θέση δέκτη GT AC εξώνιο 1 εξώνιο 2

47 Θέσεις δότη και δέκτη: λογότυπα μοτίβων
εξώνιο δότης εσώνιο δέκτης Αυτή η εικόνα αναπαριστά δύο «λογότυπα αλληλουχιών» τα οποία αντιπροσωπεύουν τη συντήρηση της αλληλουχίας στο άκρο 5’ (δότη) και στο άκρο 3’ (δέκτη) των ανθρώπινων εσωνίων. Η περιοχή μεταξύ των μαύρων κάθετων γραμμών αφαιρείται κατά το μάτισμα του mRNA. Τα λογότυπα δείχνουν γραφικά ότι το μεγαλύτερο μέρος του μοτίβου για τον εντοπισμό των άκρων των εσωνίων βρίσκεται στο εσώνιο. Αυτό επιτρέπει περισσότερες επιλογές κωδικονίων στα εξώνια που κωδικοποιούν πρωτεΐνες. Τα λογότυπα δείχνουν επίσης ένα κοινό μοτίβο “CAG|GT” το οποίο δείχνει ότι οι μηχανισμοί που αναγνωρίζουν τα δύο άκρα του εσωνίου έχουν έναν κοινό πρόγονο. Δείτε το άρθρο των R.M. Stephens και T.D. Schneider. “Features of spliceosome evolution and function inferred from an analysis of the information at human splice sites”, J. Mol. Biol., 228, , (1992). Δότης: 7,9 bits Δέκτης: 9,4 bits (Stephens & Schneider, 1996) How much info? Find branch sites (http://www-lmmb.ncifcrf.gov/~toms/sequencelogo.html)

48 TestCode Στατιστικός έλεγχος που περιγράφηκε από τον James Fickett το 1982: τα νουκλεοτίδια στις κωδικοποιούσες περιοχές τείνουν να επαναλαμβάνονται με περιοδικότητα 3 Κρίνει την τυχαιότητα αντί για τη συχνότητα των κωδικονίων Βρίσκει «υποθετικές» περιοχές που κωδικοποιούν, και όχι εσώνια, εξώνια, ή θέσεις ματίσματος Το TestCode βρίσκει ORF με βάση τη μεροληψία σύνθεσης (compositional bias), με περιοδικότητα 3

49 Στατιστικές του TestCode
Ορίζουμε ένα μέγεθος παραθύρου όχι μικρότερο από 200 bp, και αφήνουμε το παράθυρο να ολισθήσει στην αλληλουχία 3 βάσεις τη φορά. Σε κάθε παράθυρο: Υπολογίζουμε για κάθε βάση {A, T, G, C} max (n3k+1, n3k+2, n3k) / min ( n3k+1, n3k+2, n3k) Χρησιμοποιούμε αυτές τις τιμές για να βρούμε μια πιθανότητα από έναν πίνακα αναζήτησης (που έχει οριστεί και προσδιοριστεί πειραματικά με γνωστές αλληλουχίες που κωδικοποιούν και αλληλουχίες που δεν κωδικοποιούν

50 Στατιστικές του TestCode (συνέχεια)
Οι πιθανότητες μπορούν να ταξινομηθούν ανάλογα με το αν υποδεικνύουν «περιοχές που κωδικοποιούν» ή «δεν κωδικοποιούν», ή «απροσδιόριστες περιοχές» όταν δεν είναι ξεκάθαρο πόση ανοχή παρουσιάζει μια αλληλουχία στην τυχαιοκρατικότητα Η ακολουθία πιθανοτήτων που προκύπτει μπορεί να απεικονιστεί σε διάγραμμα

51 Δείγμα εξόδου του TestCode
Κωδικοποιούν Απροσδιόριστες Δεν κωδικοποιούν

52 Δημοφιλείς αλγόριθμοι πρόβλεψης γονιδίων
GENSCAN: χρησιμοποιεί κρυφά μοντέλα Markov (HMM) TWINSCAN Χρησιμοποιεί και τα HMM και την ομοιότητα (π.χ., μεταξύ των γονιδιωμάτων του ανθρώπου και του ποντικιού)


Κατέβασμα ppt "Πρόβλεψη γονιδίων: Στατιστικές μέθοδοι"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google