ΠΡΟΓΝΩΣΗ GPI-ΑΓΚΥΡΟΒΟΛΗΜΕΝΩΝ ΠΡΩΤΕΪΝΩΝ ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ - ΤΜΗΜΑ ΒΙΟΛΟΓΙΑΣ ΤΟΜΕΑΣ ΒΙΟΛΟΓΙΑΣ ΚΥΤΤΑΡΟΥ & ΒΙΟΦΥΣΙΚΗΣ ΠΡΟΓΝΩΣΗ GPI-ΑΓΚΥΡΟΒΟΛΗΜΕΝΩΝ ΠΡΩΤΕΪΝΩΝ ΜΕ ΧΡΗΣΗ PROFILE HIDDEN MARKOV MODELS Τομάζου Μ.Ε.1, Λίτου Ζ.Ι.1, Μπάγκος Π.Γ.2, Χαμόδρακας Σ.Ι.1, 1 Τομέας Βιολογίας Κυττάρου και Βιοφυσικής, Τμήμα Βιολογίας, Πανεπιστήμιο Αθηνών 2 Τμήμα Πληροφορικής με εφαρμογές στη Βιοϊατρική, Πανεπιστήμιο Στερεάς Ελλάδας GPI – αγκυροβολημένες πρωτεΐνες: Εντοπίζονται στην εξωκυτταρική πλευρά της πλασματικής μεμβράνης πάνω στην οποία προσδένονται ομοιοπολικά, μέσω μιας γλυκολιπιδικής φύσης δομή που ονομάζεται GPI «άγκυρα» (Γλυκοζυλοφωσφατίδυλο ινοσιτόλη) Πολλές λειτουργίες: Κυτταρικά αντιγόνα, υποδοχείς, πεπτίδια για διακυτταρική επικοινωνία και πρόσδεση, εξωκυτταρικά ένζυμα τις πλασματικής μεμβράνης. Συσχέτιση με «λιπιδικές σχεδίες» (lipid rafts – detergent resistant membrane) ΦΩΣΦΑΤΙΔΥΛΙΝΟΣΙΤΟΛΗ ΜΑΝΟΖΗ ΓΛΥΚΟΖΑΜΙΝΗ ΦΩΣΦΟΑΙΘΑΝΟΛΑΜΙΝΗ Υδρόφοβες αλειφατικές αλυσίδες του λιπιδίου βυθισμένες στη μεμβράνη
Σηματοδοτική ακολουθία Για την αγκυροβόληση απαιτείται η αναγνώριση σήματος από το ένζυμο GPI-τρανσαμιδάση, που εμπεριέχεται στη σηματοδοτική ακολουθία του –COOH άκρου.. Η αλληλουχία αυτή φαίνεται να παρουσιάζει μερικά συντηρημένα χαρακτηριστικά: Α) To κατάλοιπο από το οποίο αποκόπτει τη σηματοδοτική ακολουθία η GPI τρανσαμιδάση που αναφέρεται ως ω-site. Τα συνήθη κατάλοιπα στo ω-site είναι τα S,N,G,C. Γ) Ενδιάμεσο τμήμα μέτριας υδροφοβικότητας μέχρι 10 περίπου κατάλοιπων μεταξύ της ουράς και της θέσης αποκοπής της σηματοδοτικής ακολουθίας (ω-site) Β) Μια συνδετική περιοχή περίπου 10 καταλοίπων μεταξύ του ω-site και των αυτοτελών δομικών περιοχών της πρωτεΐνης. Δ) Υδρόφοβη ουρά (πλούσια σε L,I,V) από το –COOH άκρο με μήκος περίπου 20-25 κατάλοιπα ΣΚΟΠΟΣ ΕΡΓΑΣΙΑΣ: Να γίνει ανάλυση της σύστασης και των χαρακτηριστικών της –COOH ακολουθίας και από τα αποτελέσματα να κατασκευάσουμε ένα profile Hidden Markov Model (πιθανοθεωρητικό μοντέλο) ικανό να προβλέπει GPI-αγκυροβολημένες πρωτεΐνες καθώς και το ακριβές ω-site. Σηματοδοτική ακολουθία
ΥΛΙΚΑ ΚΑΙ ΜΕΘΟΔΟΙ Απομονώθηκαν: 285 10630 Από τη βάση πρωτεϊνικών δεδομένων UNIPROT - Swissprot απομονώσαμε όλες τις πειραματικά προσδιορισμένες πρωτεΐνες ως GPI-anchored. Βιβλιογραφική έρευνα για άλλες ακολουθίες και έλεγχο για επαλήθευση όπου ήταν δυνατό. Απομονώθηκαν: Εργαλεία: NON RED (για μείωση του βαθμού ομολογίας) CD HIT (για μείωση του βαθμού ομολογίας) HMMER 2.0 (κατασκευή και έλεγχος του profile HMM) Microsoft Office 2003 (οργάνωση ανάλυση δεδομένων) Perl (διάφορα εργαλεία τα οποία γράψαμε για επίσπευση της ανάλυσης καθώς και για τον τελικό Αλγόριθμο πρόγνωσης) ω-sites + GPI ANCHORED GPI ANCHORED ALL GPI ΣΥΝΟΛΟ ΠΟΥ ΑΠΟΜΟΝΩΘΗΚΕ 27 309 336 ΑΠΟΡΡΙΦΘΕΙΣΕΣ ΑΠΡΟΣΔΙΟΡΙΣΤΗ ΣΗΜΑΤΟΔΟΤΙΚΗ ΑΚΟΛΟΥΘΙΑ 7 ΑΠΟΡΡΙΦΘΕΙΣΕΣ με ομολογία > 80% 3 41 44 Τελικά Σύνολα Α : 24 Β : 261 ALL : 285 Απόδοση τιμών υδροφοβικότητας στα κατάλοιπα της COOH ακολουθίας Σύνολο εκπαίδευσης 285 Αρνητικό σύνολο ελέγχου από PredGpi1 10630 ω-site Υδροφοβικότητα 1Andrea Pierleoni, Pier Luigi Martelli, Rita Casadio, PredGPI: a GPI-anchor predictor BMC Bioinformatics. 2008; 9: 392 Ο θετικός έλεγχος έγινε με έλεγχο Jack knife - COOH άκρο
Έγινε εμπειρική στοίχιση στις ακολουθίες του συνόλου Α (24 με ω-sites πειραματικά προσδιορισμένο) έχοντας στοιχισμένο το ω-site και διαχωρίζοντας εμπειρικά την υδρόφοβη ουρά καθώς και το ενδιάμεσο τμήμα. Ακολούθως κατασκευάστηκε ένα πρώτο pHMM όπου βάση αυτού στοιχίσαμε με ΗMMalign (HMMER 2) το σύνολο Β. Με τα στοιχισμένα πλέον σύνολα Α και Β (σύνολο 285) κατασκευάσαμε το τελικό pHMM. Αποτελέσματα Χρωματισμός με JalView ανάλογα του βαθμού συντήρησης (> 2,0 ) Αξιολόγηση με έλεγχο jack knife: Αναπτύξαμε πρόγραμμα σε γλώσσα Perl όπου: Αφαιρεί από το σύνολο εκπαίδευσης (285) 1 ακολουθία και την κρατά για θετικό σύνολο ελέγχου. Φτιάχνει μοντέλο με τις υπόλοιπες 284. Με HMMsearch (HMMER 2) ελέγχει τη 1 ακολουθία έναντι αυτού του μοντέλου και αποδίδει μια τιμή score ( T-score ). Σύνολο προκύπτουν 285 μοντέλα που προκύπτουν από 284 ακολουθίες. Καταγράφηκε η κατανομή των scores που προέκυψαν.
Εφαρμογή σε πρόγραμμα γραμμένο με PERL Αρνητικός έλεγχος Τρέξαμε το αρνητικό σύνολο 10630 ακολουθιών έναντι του τελικού μοντέλου. Διάγραμμα συσχέτισης Jack Knife και αρνητικού ελέγχου Στο διάγραμμα παρουσιάζεται η σχέση ευαισθησίας, ειδικότητας, Δείκτης Qa και συντελεστής συσχέτισης που προκύπτουν από το θετικό και τον αρνητικό έλεγχο. Με αυτό καθορίστηκαν τα όρια για το τύπο πρόγνωσης που θα δίνει το τελικό πρόγραμμα. Score Cutoff Ευαισθησία Ειδικότητα Συντελεστής Συσχέτισης -6 95,79% 97,03% 0,655 -3 89,82% 98,61% 0,747 80,70% 99,36% 0,781 Εφαρμογή σε πρόγραμμα γραμμένο με PERL Διαβάζει ακολουθίες σε μορφή FASTA. Τρέχει τις ακολουθίες με HMMsearch (HMMER 2) έναντι του μοντέλου. Υπολογίζει με βάση τη στοίχιση τις ακολουθίας με το μοντέλο, τη θέση και τον τύπο καταλοίπου του πιθανότερου ω-site. Βάση του score επιστρέφει πρόγνωση κατά πόσο η ακολουθία μπορεί να είναι GPI-anchored. ΕΞΟΔΟΣ ΠΡΟΓΡΑΜΜΑΤΟΣ
ΣΥΜΠΕΡΑΣΜΑΤΑ-ΣΧΟΛΙΑ Ευαισθησία Ειδικότητα Συντελεστής Συσχέτισης Pred GPI GPI SOM BIG-PI Current Work Jack Knife score cutoff 0 Τελικό μοντέλο score cutoff 0 Ευαισθησία 89,12% 91,93% 68,42% 80,70% 89,82% Ειδικότητα 99,97% 98,29% 99,75% 99,36% Συντελεστής Συσχέτισης 0,937 0,729 0,771 0,781 0,841 Η μέθοδος που αναπτύχθηκε φαίνεται να κάνει επιτυχή πρόγνωση στο μεγαλύτερο μέρος του συνόλου των γνωστών μέχρι στιγμής GPI – αγκυροβολημένων πρωτεϊνών διατηρώντας χαμηλά ποσοστά ψευδώς θετικών αποτελεσμάτων. Μπορεί να χρησιμοποιηθεί έναντι ολόκληρων πρωτεωμάτων σαν μια πρώτη ένδειξη για το ποιες ακολουθίες πιθανό να είναι αγκυροβολημένες στη μεμβράνη με GPI και χρήζουν περαιτέρω πειραματικού ελέγχου. Επίσης τα ποσοστά πρόγνωσης του πιθανότερου ω-site φαίνεται να είναι καλύτερα από τους άλλους αντίστοιχους αλγόριθμους. Πρόγνωσης θέσης ω-site για σύνολο A Pred GPI GPI SOM BIG PI Current Work (Jack Knife) ω 83,33% 58,33% 95,83% ω +/- 1 66,66% 87,50% ω +/- 2 70,83% 91,67%
Συντελεστής Συσχέτισης (Matthews Correlation Coefficient) Ευαισθησία Ειδικότητα Απορριφθείσες λόγω απροσδιόριστου προπεπτιδίου: BGBP1_DROME Δεν αναφέρει καμιά πληροφορία για πιθανό προπεπτίδιο. GPC3_RAT Η σηματοδοτική ακολουθία δεν οριοθετείται και δεν μπορεί να γίνει εμπειρικός υπολογισμός HYALP_MOUSE HYALP_RABIT HYALP_RAT TECTA_CHICK Η σηματοδοτική ακολουθία που δίνει η Uniprot είναι μεγαλύτερο των 60 καταλοίπων. TECTA_MOUSE