Μάθημα 7 Σύγκριση και ανάλυση γονιδιωμάτων
Η αποκωδικοποίηση γονιδιωμάτων απέφερε τεράστια ποσότητα βιο-πληροφορίας Ανάγκες επεξεργασίας της βιο-πληροφορίας Ανάπτυξη της βιοπληροφορικής: χαρακτηρισμός λειτουργικών γνωρισμάτων γονιδίων και γονιδιωμάτων χρησιμοποιώντας υπολογιστικά μοντέλα βιολογικών και εξελικτικών διαδικασιών που βρίσκονται πίσω από τα αντίστοιχα δεδομένα
Η συγκριτική ανάλυση αλληλουχιών δείχνει ότι ένα ογκογονίδιο είναι αυξητικός παράγοντας 1980 Russell Doolittle: Βάση δεδομένων 1700 aa αλληλουχιών από επιστημονικές δημοσιεύσεις (σύνολο 250,000 aa) Michael Waterfield: καρκινικά κύτταρα σε κυτταροκαλλιέργειες χρειάζονται λιγότερο PDGF από φυσιολογικά Η αλληλουχία PDGF είναι παρόμοια με αυτή του ογκογονιδίου sis της βάσης δεδομένων του Doolittle
Δημόσιες βάσεις αλληλουχιών Έντυπα περιοδικά, CD Βιβλιοθήκες, mainframe computers, PC Αρχικά τρεις βάσεις δεδομένων: UK, USA, Japan 1980: EMBL-Bank (Heidelberg, Germany) 1982: NCBI (Bethesda, MD) 1986: DDBJ (DNA Data Bank of Japan) 1987: INSDC (Intl Nucleotide Sequence Database Collaboration)
Μάρτιος 2005: 100. 000. 000. 000 bp (100 gigabases) από 165
ΠΙΝΑΚΑΣ 12.1: Ορισμένες από τις βάσεις δεδομένων που περιέχουν γονιδιωματικές πληροφορίες.
Ελεύθερη πρόσβαση ή περιορισμένη; Αν ναι, με ποια κριτήρια; Επίσης: Τεκμηριωμένα σχόλια / υπομνήματα (gene annotation) ESTs SNPs Ελεύθερη πρόσβαση ή περιορισμένη; Αν ναι, με ποια κριτήρια; Ελεύθερη πρόσβαση στις αλληλουχίες παθογόνων οργανισμών; Εκμετάλλευση από ομάδες τρομοκρατών Εκμετάλλευση από εταιρείες ανάπτυξης νέων εμβολίων Δεδομένης της ευκολίας και του χαμηλού κόστους της αλληλούχησης, τα οφέλη από την ελεύθερη πρόσβαση είναι σημαντικότερα
Ομοιότητες σε αλληλουχίες σημαίνει φυλογενετικές σχέσεις Θεμελιώδεις λειτουργίες επιτελούνται από συντηρημένες πρωτεΐνες πχ υπάρχει 65% ομοιότητα ανάμεσα στην αφυδρογονάση της 3-φωσφορικής γλυκεραλδεΰδης (GAPDH) της E. coli και του ανθρώπου
Τυχαιότητα ή κοινή εξελικτική ιστορία;; Η αλληλουχία GATTACA βρίσκεται ανοδικά του +1. Ποια η πιθανότητα η παρουσία μιας τέτοιας αλληλουχίας σε ένα κλώνο να σημαίνει ότι ο κλώνος περιέχει υποκινητή; Το ανθρώπινο γονιδίωμα είναι 60% ΑΤ. Άρα η πιθανότητα εμφάνισης Α ή Τ είναι 0,3 και G ή C είναι 0,2. Επομένως, η πιθανότητα για GATTACA είναι 0,35 x 0,22 = ~0,01% Το ανθρώπινο γονιδίωμα είναι 3 x 109 bp, άρα η αλληλουχία GATTACA εμφανίζεται 300.000 φορές
Για την κατανόηση και ερμηνεία των ομοιοτήτων χρειάζονται επιπρόσθετες πληροφορίες ή/και πειραματικά στοιχεία Επικράτειες και μοτίβα: χρησιμοποίηση με τμηματικό τρόπο
ΕΙΚΟΝΑ 12.1: Παραδείγματα πρωτεϊνικών επικρατειών. (α) Επικράτεια Src Homology Region: protein-protein interaction domain (β) Επικράτεια δακτύλου ψευδραργύρου (γ) Επικράτεια πρόσδεσης ΑΤΡ
Ομολογία / ομοιότητα (homology vs similarity) Ορθόλογα γονίδια Παράλογα γονίδια
ΕΙΚΟΝΑ 12.2: Τα παράλογα και τα ορθόλογα είναι δύο διαφορετικοί τύποι ομόλογων γονιδίων.
ΕΙΚΟΝΑ 12.3: Δενδρόγραμμα που παρουσιάζει τις σχέσεις ανάμεσα σε ορθόλογα και παράλογα γονίδια patched.
Συνήθως τα ορθόλογα γονίδια έχουν παρόμοιες λειτουργίες (και μεγάλη ομοιότητα σε επίπεδο aa) Όταν δύο πρωτεΐνες είναι ορθόλογες, ό,τι ανακαλύψουμε για τη μία πιθανά ισχύει και για την άλλη → πειράματα σε οργανισμούς-μοντέλα
Τα παράλογα γονίδια επιτελούν διαφορετικές λειτουργίες σε έναν οργανισμό πχ οσφρητικοί υποδοχείς: ίδια γενική δομή, αναγνώριση διαφορετικών μορίων
ΕΙΚΟΝΑ 12.4: Οι γενετικοί διπλασιασμοί επιτρέπουν την εξέλιξη νέων γονιδιακών λειτουργιών.
ΕΙΚΟΝΑ 12.5: Ο διπλασιασμός γονιδίων παράγει μια οικογένεια συγγενικών γονιδίων.
Η ορθή στοίχιση αλληλουχιών είναι πρόκληση
The dot matrix technique for sequence alignment
Οι αλληλουχίες των γονιδίων βmaj- και βmin-σφαιρίνης του ποντικού εμφανίζουν μεγάλη ομοιότητα στις κωδικές περιοχές, αλλά διαφέρουν στις γύρω περιοχές και στο μεγάλο ιντρόνιο.
Στοίχιση πολλαπλών αλληλουχιών (multiple sequence alignment)
Ολική στοίχιση: Τοπική στοίχιση: βέλτιστη αντιστοίχιση όλων των δομικών μονάδων σε όλο το μήκος των αλληλουχιών (χρησιμοποιείται κυρίως για στοίχιση ομόλογων αλληλουχιών) Τοπική στοίχιση: εντοπισμός όλων των επί μέρους περιοχών των αλληλουχιών που παρουσιάζουν ομοιότητα μεταξύ τους χρήσιμες για την αποκάλυψη μοτίβων
ΕΙΚΟΝΑ 12.6: Η πολλαπλή στοίχιση γονιδιωματικών αλληλουχιών παρέχει πληροφορίες σχετικά με τη λειτουργία και την εξέλιξη των γονιδίων και των γονιδιωμάτων.
Σύστημα βαθμολόγησης που συνεκτιμά: χάσματα παρουσία θέσεων με διαφορετικές δομικές μονάδες (νουκλεοτίδια ή αμινοξέα)
Χάσματα Υποκαταστάσεις: Πίνακες βαθμολόγησης ποινή έναρξης: μεγάλη ποινή επέκτασης: μικρότερη Υποκαταστάσεις: ισολευκίνη σε λευκίνη: ποινή μικρή ισολευκίνη σε προλίνη: ποινή μέγιστη Πίνακες βαθμολόγησης Νουκλεοτιδικές αλληλουχίες: +5 για αντιστοιχία -4 για αναντιστοιχία Πρωτεϊνικές αλληλουχίες: υψηλή βαθμολογία σε αντιστοιχίσεις σπάνιων ή μοναδικών aa χαμηλή βαθμολογία σε αντιστοιχίσεις κοινών aa στις συντηρητικές υποκαταστάσεις (λυσίνη→αργινίνη): θετική βαθμολογία υποκαταστάσεις δομικά/χημικά διαφορετικών τύπων: αρνητική βαθμολογία
ΕΙΚΟΝΑ 12.7: Ένας πίνακας υποκατάστασης που χρησιμοποιείται για τη βαθμολόγηση στοιχίσεων πρωτεϊνικών αλληλουχιών: η βαθμολογία που θα δινόταν αν κατά τη στοίχιση δυο αλληλουχιών τα αμινοξέα αυτά βρίσκονταν σε αντίστοιχες θέσεις των αλληλουχιών. ala A arg R asn N asp D asx B cys C glu E gln Q glx Z gly G his H ile I leu L lys K met M phe F pro P ser S thr T trp W tyr Y val V
Προγράμματα BLAST Basic Local Alignment Search Algorithm blastn blastp Εντοπισμός "λέξεων" και όχι "γραμμάτων" Οι λέξεις χρησιμοποιούνται ως αφετηρία για υπολογισμό στοιχίσεων μεγαλύτερου μήκους blastn blastp blastx
ΕΙΚΟΝΑ 12.8: Πώς επιτυγχάνεται η σύγκριση αλληλουχιών με το υπολογιστικό εργαλείο BLAST.
ΕΙΚΟΝΑ 12.8: Πώς επιτυγχάνεται η σύγκριση αλληλουχιών με το υπολογιστικό εργαλείο BLAST.
ΕΙΚΟΝΑ 12.9: Το BLAST είναι ένα ισχυρό εργαλείο για την τεκμηρίωση και το χαρακτηρισμό βιομορίων.
An example of a BLASTp output
Πρόσθετες πληροφορίες με ένα κλικ
Οι διαφορετικές μορφές βιοπληροφορικών ενδείξεων για τον εντοπισμό γονιδίων: cDNAs, ESTs, BLAST similarity hits, codon bias, and motif hits. Όταν πολλές από αυτές τις ενδείξεις σχετίζονται με μια συγκεκριμένη αλληλουχία DNA, υπάρχει μεγαλύτερη σιγουριά ότι πράγματι η αλληλουχία αυτή αφορά κάποιο γονίδιο.
Σύγκριση με συνταινικά χρωμοσώματα για τον έλεγχο της αυθεντικότητας ενός μικρού ORF
Αποτελέσματα μιας τυπικής ανάλυσης υπομνηματισμού του γονιδιώματος
Πώς εντοπίζονται τα γονίδια; Τότε (προ-γονιδιωματικής): μελέτη συγκεκριμένης πρωτεΐνης ή διαδικασίας ταυτοποίηση γονιδίων αλληλούχηση cDNA αλληλούχηση αντίστοιχου γενετικού τόπου
Πώς εντοπίζονται τα γονίδια; Τώρα (μετα-γονιδιωματικής): εντοπισμός αναγνωστικών πλαισίων από βάσεις δεδομένων κάθε orf > 100 bp θεωρείται γονίδιο (η πιθανότητα τυχαίας παρουσίας κωδικονίου λήξης είναι 3/64=1/21. Δηλαδή, σε τμήμα 100 bp αναμένονται ~5 κωδικόνια λήξης. Η πιθανότητα μη παρουσίας κωδικονίου λήξης σε 100 bp είναι ~0,8%)
Ένα γονίδιο που κωδικοποιεί πρωτεΐνη είναι ένα ανοιχτό πλαίσιο ανάγνωσης κωδικονίων τριπλέτας
Ένα δίκλωνο μόριο DNA έχει έξι πλαίσια ανάγνωσης
Η σάρωση ORFs είναι ένας αποτελεσματικός τρόπος για τον εντοπισμό γονιδίων σε ένα βακτηριακό γονιδίωμα
Η σάρωση ORFs στα ευκαρυωτικά γονιδιώματα περιπλέκεται από τα ιντρόνια
Joint Genome Institute (California) Για τα γονιδιώματα των σπονδυλωτών η πρόκληση είναι πολύ μεγαλύτερη: ένα μέσο εξόνιο είναι ~150bp και ένα τυπικό γονίδιο έχει 7-10 εξόνια. Άρα χρειάζονται πρόσθετα στοιχεία: σήματα υποκινητή (πχ ΤΑΤΑΑ) πρότυπα εσωτερικών περιοχών γονιδίου (orfs) θέσεις ματίσματος υπογραφή λήξης (σήμα τερματισμού) σύγκριση με ορθόλογα γονίδια πειραματική επαλήθευση Ensembl (UK) Joint Genome Institute (California)
Χάρτες συνταινίας Συνταινιακές ενότητες: χρωμοσωμικές περιοχές με συντηρημένη διάταξη και προσανατολισμό γονιδίων ανάμεσα σε διαφορετικά είδη Ισχυρότατο επιχείρημα περί ορθολογικότητας γονιδίων
Ταυτοποίηση ορθολόγου γονιδίου ΕΙΚΟΝΑ 12.10: Συνταινιακότητα της διάταξης των γονιδίων σε γονιδιώματα διαφορετικών ειδών. Ταυτοποίηση ορθολόγου γονιδίου
Οι περισσότερες αλληλουχίες δεν έχουν λειτουργική σημασία Οι επιβλαβείς μεταλλάξεις τείνουν να εξαλείφονται: αρνητική επιλογή Μεταλλάξεις σε λειτουργικές περιοχές δέχονται αρνητική επιλογή, συνεπώς οι λειτουργικές περιοχές αλλάζουν με πιο αργό ρυθμό. Άρα: εντοπίζοντας περιοχές του γονιδιώματος που είναι συντηρημένες προσδιορίζουμε πιθανά λειτουργικά στοιχεία
Σύγκριση γονιδιωμάτων ανθρώπου και ποντικού Σύγκριση "ουδέτερων" περιοχών (πχ μεταθετών) προσδιόρισε το ρυθμό ουδέτερης εξέλιξης Προσδιορισμός ταυτότητας ανάμεσα σε όλες τις στοιχισμένες αλληλουχίες και σύγκριση με το ρυθμό ουδέτερης εξέλιξης το 95% υφίσταται γενετική παρέκκλιση. Μόνο το 5% βρίσκεται υπό την επίδραση επιλογής μόνο ένα μικρό ποσοστό του γονιδιώματος επιτελεί σημαντικές λειτουργίες ή η πλειοψηφία των σημαντικών λειτουργιών έχει ήδη υποστεί επιλογή πριν το διαχωρισμό ανθρώπου ποντικού
Αφού όλα μαζί τα εξόνια των γονιδίων μας που κωδικοποιούν πρωτεΐνες αποτελούν μόλις το 1,2% του γονιδιώματος, τι είναι το υπόλοιπο 5-1,2=3,8% που είναι συντηρημένο; Ρύθμιση μεταγραφής Ρύθμιση αντιγραφής Micro RNA Άλλα ρυθμιστικά μετάγραφα
Συγκριτική γονιδιωματική: κατανόηση βιολογικών διεργασιών μέσω της σύγκρισης αλληλουχιών από διαφορετικούς οργανισμούς 1. Αρχικά εντοπίστηκε κάποιο γονίδιο (ApoAV) βάσει βαθμού συντήρησης ανάμεσα σε άνθρωπο και ποντικό
ΕΙΚΟΝΑ 12.11: Ο εντοπισμός του γονιδίου ApoAV με τη βοήθεια της συγκριτικής γονιδιωματικής.
2. Η συνέχεια με πειράματα σε ποντικούς: α. περίσσεια ApoAV είναι αρκετή για να προκαλέσει μείωση των επιπέδων των τριγλυκεριδίων β. απενεργοποίηση του γονιδίου ApoAV σε ποντικούς οδηγεί σε αύξηση των επιπέδων των τριγλυκεριδίων γ. σε κλινική μελέτη στον άνθρωπο διαπιστώθηκε ότι πολυμορφισμοί του ApoAV συσχετίζονται με τα επίπεδα τριγλυκεριδίων 3. Άρα: το γονίδιο ApoAV ενέχεται στο μεταβολισμό τριγλυκεριδίων
Συγκριτική ανάλυση aa αποκαλύπτει τα πιο σημαντικά aa των πρωτεϊνών Πολυμορφισμοί της ογκοκατασταλτικής πρωτεΐνης p53 στον άνθρωπο αλλά και σε άλλα θηλαστικά Τμήματα περισσότερο ή λιγότερο συντηρημένα τα πλέον σημαντικά (συντηρημένα) aa είναι αυτά που έρχονται σε επαφή με συγκεκριμένες βάσεις του DNA. Είναι τα ίδια των οποίων η αλλαγή προκαλεί αύξηση του καρκίνου
ΕΙΚΟΝΑ 12.12: Η συγκριτική ανάλυση αλληλουχιών μπορεί να χρησιμοποιηθεί για τον εντοπισμό των σημαντικότερων αμινοξέων των πρωτεϊνών. ρυθμός εξέλιξης
Συγκριτική ανάλυση γονιδιωμάτων για τον εντοπισμό ρυθμιστικών περιοχών Εντοπισμός ρυθμιστικών περιοχών ιδιαίτερα δύσκολος μέγεθος ποικιλία ρυθμιστικών παραγόντων Οι αμιγώς υπολογιστικές προσεγγίσεις δεν προσφέρουν λύση Ωστόσο, σε πολλές περιπτώσεις υπάρχει αρκετά υψηλός βαθμός συντήρησης και έτσι οι υπολογιστικές μέθοδοι υποβοηθούν
ΕΙΚΟΝΑ 12.13: Η συγκριτική ανάλυση αλληλουχιών μπορεί να χρησιμοποιηθεί για τον εντοπισμό περιοχών των γονιδιωμάτων που περιλαμβάνουν cis-δραστικά ρυθμιστικά στοιχεία της μεταγραφής. MCS: Multiple Conserved Sequence, περιοχές με αλληλουχία συντηρημένη σε πολλαπλά αλληλόμορφα διαφορετικών ειδών Το γονίδιο (RET) κωδικοποιεί βασικό παράγοντα προδιάθεσης για τη νόσο Hirschsprung. Μετάλλαξη σε MCS+9,7 επάγει τον υποκινητή 6,3 φορές λιγότερο από το φυσιολογικό αλληλόμορφο. Άρα, η αδυναμία του ενισχυτή να επάγει την παραγωγή επαρκούς RET είναι πιθανό να συμβάλλει στην εμφάνιση της νόσου.
Από "Ανασυνδυασμένο DNA": Κεφάλαιο 12 Από «Γονιδιώματα»: Κεφάλαιο 5.1 και 5.2