Δομή πρωτεϊνών
Θέματα διαλέξεων Εισαγωγή στις πρωτεΐνες Δομή πρωτεϊνών Ταξινόμηση βάσει δομής Βάσεις με δομές πρωτεϊνών Ευθυγράμμιση δομών Πρόβλεψη δομής
Εισαγωγή στις πρωτεΐνες Εισαγωγή στις πρωτεΐνες
Ρόλος πρωτεϊνών Δομικές πρωτεΐνες: περίβλημα ιών, το εξωτερικό στρώμα του δέρματος, Καταλύτες: χημικών αντιδράσεων (ένζυμα) Μεταφορά και αποθήκευση (haemoglobins) Ρυθμιστικές πρωτεΐνες (ορμόνες, reception signal transduction) Αναγνώριση (cell adhesion και αντισώματα)
Πρωτεΐνες Οι πρωτεΐνες είναι μεγάλα μόρια πολυπεπτίδια Active region = η ενεργός περιοχή της πρωτεΐνης= η περιοχή που προσδιορίζει τη λειτουργία τηςη υπόλοιπη πρωτεΐνη έχει δομικό ρόλο Γνωρίζουμε τη δομή 25000 πρωτεϊνών (βάση PDB, Μαρτ. 2004) Μέθοδοι: κρυσταλλογραφία (ακτίνες Χ)/Nuclear Magnetic Resonance
οι πρωτεΐνες είναι πολυπεπτίδια Side chain, διαφέρει σε κάθε πρωτεΐνη Γωνία ω=180 ή σπάνια 0 Γωνία Ψ Mainchain, ίδια για όλες τις πρωτεΐνες Ομάδα αζώτου γωνία Φ Ομάδα άνθρακα υδροξυλίου Τα Rj προσδιορίζουν την πρωτεΐνη, αναφέρονται και ως redisidues
Δομές πρωτεϊνών a-helix b-sheet Loops: Coils μεταξύ α-helices, b-sheets Διαφορετικά μήκη Στην επιφάνεια της πρωτεΐνης Coils
Alpha proteins, παράδειγμα
beta proteins (PDB:1eap)
Alpha and beta proteins (a/b), Mainly parallel beta sheets (beta-alpha-beta units)
a+b, Mainly antiparallel beta sheets (segregated alpha and beta regions)
20 αμινοξέα που απαντώνται στη φύση Υδρόφοβα I: Isoleucine A: Alanine L: Leucine P: Proline F: Phenylamine V: Valine M: Methionine Πολωμένα S: Serine Q: Glutamine C: Cysteine H: Histidine T: Treonine Y: Tyrosine N: Aspargine W: Tryptophan Φορτισμένα D: Aspartic Acid E: Glumatic Acid K: Lusine R: Arginine G: Glycine
Side chain Οι φυσικοχημικές ιδιότητες της side chain δημιουργούν τις δομές των πρωτεϊνών Τα αμινοξέα ταξινομούνται βάσει της ομάδας R
Sasisekharan – Ramakrishnan – Ramachadran plot Περιγράφει δυνατές δομές της κύριας αλυσίδας Oι επιτρεπόμενες τιμές για τις γωνίες φ, ψ, ω Με στίγματα απεικονίζονται τα α/a Τα περισσότερα είναι στις περιοχές β-sheets (πάνω αριστερά) α-helices (κάτω αριστερά)
Ramachadran plot της 1a2q πρωτεΐνης
Ευστάθεια πρωτεϊνών Tι δίνει στις πρωτεΐνες την ευστάθειά τους; Απαντήσεις μέσω μελέτης του denaturation denuaturation: η πρωτεΐνη σε συνθήκες διαφορετικές από τις φυσιολογικές Π.χ. Θερμότητα/ περιβάλλον ουρίας Συμπεράσματα: Πρωτεΐνες οριακά σταθερές
Γιατί οι πρωτεΐνες υιοθετούν τη δομή τους; Δομή πρωτεΐνης ικανοποίηση παρακάτω κριτηρίων Για main και sidechains στερεοχημικά δυνατές δομές Μεταξύ Εμφωλιασμένων πολωμένων ατόμων δεσμοί υδρογόνου Η υδρόφοβη επιφάνεια πρέπει να είναι εμφωλιασμένη
Πως βρίσκουν τη δομή τους; Σε κατάλληλες συνθήκες (διαλύτης/ θερμοκρασία) 3διάστατη δομή.
Εφαρμογές των υδρόφοβων καταλοίπων (residues) Η υδροφοβική ιδιότητα μπορεί να χρησιμοποιηθεί για πρόβλεψη θέσεων turns και άλλων τριδιάστατων δομών Κατασκευάζεται αρχικά το υδροφοβικό προφίλ (γράφημα) της πρωτεΐνης Τα ελάχιστα του γραφήματος δηλώνουν πιθανές θέσεις υδρόφιλων καταλοίπων. Είναι πιθανότατα στην επιφάνεια
Figure 5.4 (hen egg white lusozyme) Ελάχιστα στις θέσεις 17,44, 70, 93, 117
Δομή πρωτεϊνών
Περιγραφή πρωτεϊνών βάσει δομής a Primary structure: ακολουθία α/α Secondary structure: helices, sheets (ουσιαστικά αλληλεπιδράσεις μεταξύ C=0 και ΝΗ) Tertiary structure: σύνθεση από helices, sheets Quaternary structure: πρωτεΐνες που αποτελούνται από πολλές υπομονάδες, κάθε μία έχει μία tertiary structure
Ταξινόμηση πρωτεϊνών
Ταξινόμηση πρωτεϊνών Βάσει Δομής Βάσει Ομοιότητας ακολουθίας (ευθυγραμμίσεις κτλ.)
Λόγος ταξινόμησης βάσει Δομής Δομική ομοιότητα ισχυρή ένδειξη ομολογίας Ταξινόμηση σε διάφορα επίπεδα Παρόμοια διπλώματα πρωτεϊνών (χωρίς οι δομές να σχετίζονται απαραίτητα) Ταξινόμηση μπορεί να χρησιμοποιηθεί για την εύρεση της εξελικτικής σχέσης και πιθανώς της λειτουργίας (ρόλου) Μπορεί να ψάξει τη βάση, βάσει δομής
Ταξινόμηση βάσει δομής SCOP (Structural Classification of Proteins) CATH (Class, Architecture, Topology, Homologous superfamily) FSSP/DDD (Fold classification based on Structure-Structure alignment of Proteins/Dali Domain Director CE (The combinatorial Extension Model)
SCOP, Ιεραρχική Ταξινόμιση: Ταξινομεί βάσει εξελικτικής προέλευσης Δομικής ομοιότητας Κατηγορίες, από το ειδικό στο γενικό Domains Families Supefamilies Folds Class
Domains Λειτουργικός ρόλος:Ένα domain, είναι ένας ανεξάρτητος δομικός λίθος που απαντάται σε πολλές πρωτεΐνες. Φυσικοχημικός ρόλος: Κάθε domain έχει ένα υδρόφοβο πυρήνα. Τοπολογικός: οι αποστάσεις των ατόμων στο ίδιο domain είναι ελάχιστες. Οι αποστάσεις μεταξύ ατόμων διαφορετικών domains είναι μέγιστες Πρωτεΐνες: Mία πρωτεΐνη μπορεί να αποτελείται από πολλά domains. To ίδιο domain απαντάται σε πολλές πρωτεΐνες
Family Κοινή εξελικτική προέλευση=τουλάχιστον 50% ομοιότητα
Superfamily Μικρή ομοιότητα στην primary structure Δομές και λειτουργία υποδεικνύουν κοινή εξελικτική προέλευση, Πιθανότητα να μην σχετίζονται ακολουθίες του ίδιου superfamily < 10-6
Fold, Class Ίδιες κύριες δευτερογενείς δομές Στην ίδια διάταξη E.g. rossman fold=εναλλασσόμενα α helices και β-sheets Τα folds υποδιαιρούνται σε classes α-helices β-sheets α/β α+β Multi domain proteins Membrane and cell surface proteins Small proteins
Παράδειγμα από SCOP, Flavodoxin from Clostridium beijerinckii Root: SCOP Class: Alpha and beta proteins (α/β) Fold: Flavodoxin-like 3 layers, α/β/α parallel β sheet of 5 strands, Superfamily: Flavoproteins Family: Flavodoxin-related binds FMN Protein: Flavodoxin
Βάση ταξινόμησης SCOP Class Number of folds Number of superfamilies Number of families All alpha proteins 179 299 480 All beta proteins 126 248 462 Alpha and beta proteins (a/b) 121 199 542 Alpha and beta proteins (a+b) 234 349 567 Multi-domain proteins 38 53 Membrane and cell surface proteins 36 66 73 Small proteins 95 150 Total 800 1294 2327 1.65 release 20619 PDB Entries (1 August 2003). 54745 Domains.
Βάσεις με δομές πρωτεϊνών
Protein Data Bank (PDB) hepatitis C Virus Ns3 Proteinase 1a1q
PDB format ATOM 1 CA PRO A 2 2.822 89.823 16.221 1.00 20.67 C ATOM 2 CA ILE A 3 5.647 88.252 14.230 1.00 19.75 C ATOM 3 CA THR A 4 6.006 85.090 12.155 1.00 16.60 C ATOM 4 CA ALA A 5 8.960 82.976 11.105 1.00 13.13 C ATOM 5 CA TYR A 6 9.008 80.850 7.969 1.00 15.66 C ATOM 6 CA SER A 7 11.368 78.176 6.772 1.00 13.79 C ATOM 7 CA GLN A 8 11.158 75.727 3.912 1.00 17.66 C ATOM 8 CA GLN A 9 9.871 72.204 4.359 1.00 21.60 C …………. ATOM 532 CA GLU C 176 6.519 43.244 -20.353 1.00 37.50 C ATOM 533 CA THR C 177 10.296 42.851 -20.812 1.00 39.60 C ATOM 534 CA THR C 178 11.885 40.690 -18.167 1.00 40.68 C
Βάση PDB, πρωτεΐνες
Βάση PDB, Folds
Καινούργια Folds
Ευθυγράμμιση πρωτεϊνικών δομών
Ευθυγράμμιση Ευθυγραμμίζουμε δομές για τον ίδιο λόγο που ευθυγραμμίζουμε ακολουθίες Πως βαθμολογούμε την ευθυγράμμιση; Ακολουθίες: π.χ. Τα ποσοστά των αμινοξέων που είναι κοινά. Η μέση απόσταση των αμινοξέων (rmsd=root mean square deviation)
Ποιά είναι η βέλτιστη Ευθυγράμμιση; +
Υπέρθεση δομών Υποθέστε ότι έχουμε τρόπο ευθυγράμμισης δομών Τότε Α. Έχουμε καλύτερα sequence alignments B. Μπορούμε να βρούμε ομοιότητες πάνω στην ενεργή περιοχή (δηλαδή δομικές). Κριτήριο ποιότητας ευθυγράμμισης
Root Mean Squared Distance Μονάδα μέτρησης του RMSD => π.χ Ångstroms Ταυτόσημες δομές => RMSD = “0” Παρόμοιες δομές => RMSD (1 – 3 Å) distant structures => RMSD > 3 Å (1Å=10-10m, συγκριτικά το μέγεθος φύλου χαρτιού είναι 10-4m)
μειονεκτήματα του RMSD Χειριζόμαστε όλα τα άτομα με τον ίδιο τρόπο (ενώ τα άτομα α/α στο εξεωτερικό της πρωτεΐνης έχουν μεγαλύτερη πιθανότητα για αλλαγές, από αυτά στο εσωτερικό) Η βέλτιστη ευθυγράμμιση δεν δίνει πάντα και το μικρότερο RMSD
Πως γίνεται η ευθυγράμμιση δομών; Υπόθεση: αν δύο α/α σε άλλη πρωτεΐνη είναι σε επαφή το ισχύει και σε συγγενική. Μεταλλάξεις που αλλάζουν το μέγεθος α/α αλλαγές στο «πακετάρισμα» helices, sheets.
Distance matrix ALIgnment) DALI Κάνει ευθυγράμμιση δομών Holm & Sander Βρίσκει ομολογίες που είναι στην γκρίζα περιοχή (13% ομοιότητα α/α)
Πως λειτουργεί το Dali; Άτομα Δοσμένων των ατομικών συντεταγμένων δύο δομών Υπολογισμός των πινάκων απόστασης Υπολόγισε για κάθε δομή τις αποστάσεις μεταξύ των αμινοξέων της. Αυτό το βήμα είναι απαραίτητο γιατί οι ενδοαποστάσεις είναι ανεξάρτητες των συντεταγμένων Οι αρχικές συντεταγμένες δεν μπορούν να συγκριθούν για αυτό χρησιμοποιούμε πίνακες απόστασης. Ευθυγράμμιση υποπινάκων Βρές μικρούς υποπίνακες κατά μήκος της διαγωνίου που ταιρίαζουν Ένωσε τα ταιρίασματα για να φτιάξεις το ολικό
Ευθυγράμμιση δομών The regions of common fold, as determined by the program DALI by L. Holm and C. Sander, in the TIM-barrel proteins mouse adenosine deaminase [1fkx] (black) and Pseudomonas diminuta phosphotriesterase [1pta] (red):
Ευθυγραμμίσεις δομών/ακολουθιών
Ευθυγραμμίσεις δομών/ακολουθιών Ο αλγόριθμος Needleman-Wunsch βρίσκει τη βέλτιστη ευθυγράμμιση μεταξύ δύο ακολουθιών ‘βέλτιση’ εξαρτάται από τον πίνακα βαθμολόγισης Δεν λαμβάνει 3-διάστατες δομές : Δευτερογενείς δομές (helices, sheets) Hydrophobicity
Πρόβλεψη δομής
Πρόβλεψη δομής πρωτεΐνης Πρόβλεψη δευτερογενών δομών, χωρίς σύνθεσή τους Αναπαραγωγή των ατομικών αλληλεπιδράσεων & αναζήτηση κατάστασης ελάχιστης ενέργειας Μοντελοποίηση βάσει ομολογίας δηλαδή προκύπτουν συντεταγμένες ατόμων, για mainchain και sidechains Αναγνώριση Folds (fold recognition), Πρέπει να υπάρχει μικρός αριθμός από folds Και είμαστε κοντά στο τέλος Υδροφοβική ιδιότητα .
Υδροφοβικό προφίλ
Υδροφοβικό προφίλ, αλγόριθμος Τι κάνει: Δείχνει Κατανομή polar/apolar α/α για μία πρωτεΐνη Τι χρειαζόμαστε: Δείκτης Υδροφοβικότητας για κάθε α/α Kyte Doolitle, (δείτε και εργαστηρική άσκηση) Ο Δείκτης Τι εκφράζει: Αρνητικές τιμές, υδρόφοβα α/α Θετικές τιμές, υδρόφιλα α/α Κατασκευή: παράθυρο (5-7 surface exposed regions ή 19-21 transmebrane domains). Μετατόπιση παραθύρου, δεξιά, και μέση τιμή Tα ελάχιστα δηλώνουν την πιθανότητα παρουσίας turns. Μπορεί να χρησιμοποιηθεί και για εύρεση ελίκων Προσοχή: Δεν υπάρχει υποχρεωτική 1-1 αντιστοιχία, μεταξύ turns και ελαχίστων
Παράδειγμα Υδροφοβικού, profile Τα ελάχιστα σχετίζονται με την παρουσία turns Μικρές τιμές του κατακόρυφου άξονα, δηλώνουν, χαμηλή υδροφοβικότητα
Membrane proteins Πολλές membrane proteins έχουν δομή 7 helices Συνδεδεμένες με loops Όλη η έλικα αποτελείται από υδρόφοβα α/α γιατί είναι σε μη υδάτινο περιβάλλον Προφίλ υδροφοβικότητας μέγιστες περιοχές, πιθανές έλικες
Παράδειγμα 2 Ptisyn, α-helices σε globular proteins υδρόφιλο τμήμα υδρόφοβο τμήμα Διαφορά 100ο, μεταξύ τους Πρακτικά, 1 υδρόφιλο, 4 υδρόφοβα Οπότε Πρόβλεψη: αν γνωστή η ακολ. α/α και έχει το σχέδιο 1-4, πιθανότατα α-helice
Νευρωνικά Δίκτυα/Πρόβλεψη δομής
Πρόβλεψη δομής με Νευρωνικά Δίκτυα Τι θέλουμε; Από κάποιες πρωτεΐνες των οποίων είναι γνωστή η δομή τους κατασκεύασε ένα μοντέλο Αν έχεις κάποια πρωτεΐνη άγνωστης δομής χρησιμοποίησε το μοντέλο για να προβλέψεις τη δομή της
Πρόβλεψη δομής πρωτεΐνης β Πρόβλεψη δευτερεύουσας δομής μόνο α-helices, β-sheet Πρόβλεψη τριτογενούς δομής (tertiary structure) δυσκολότερο 1 βήμα: helices, b-sheets 2 βήμα: σύνθεσή τους
Πρόβλεψη δομής, παράδειγμα Α/Α ALVEDPPLKVSEGGLIREGYDODKDAKRAAHREGVAYFLELEERERERTG Πρόβλεψη: ΗΗ------------ΕΕΕ------ΗΗΗΗΗΗΗΗΗΗ-ΗΗΗΗΗΗΗΗΗΗΗΗΗΗΗ- Πείραμα: -Ε-------------Ε-----ΗΗΗΗΗΗΗΗΗΗΗΗΗΗΗΗΗΗΗΗΗΗΗΗΗΗΗΗ- H HELIX E STRAND - OTHER
Πως επιτυγχάνεται; Ξεκινούμε από κάποια βάση (π.χ. PDB), που έχει πρωτεΐνες και τη δομή τους. Επιλέγουμε κάποιες πρωτεΐνες που θα χρησιμοποιηθούν για την κατασκευή του μοντέλου Μία καλή επιλογή για την μοντελοποίηση είναι τα Τεχνητά Νευρωνικά δίκτυα (ΤΝΔ) Ένα ΤΝΔ έχει είσοδο, έξοδο και εσωτερική δομή. Στην είσοδο δίνεται η σειρά αμινοξέων Στην έξοδο παίρνουμε τη δομή
Νευρωνικά Δίκτυα, τρόπος λειτουργίας Φάση εκπαίδευσης Είσοδος οι πρωτεΐνες που χρησιμοποιούμε για εκπαίδευση Η διαφορά της επιθυμητής εξόδου και της εξόδου που παράγει το δίκτυο, χρησιμοποιείται για να αλλάξει η δομή του μοντέλου Φάση λειτουργίας Το δίκτυο χρησιμοποιείται
Νευρωνικά Δίκτυα Έξοδος 20 Κόμβοι ανά α/α … … F A N Είσοδος
Αλγόριθμος εκπαίδευσης Στη φάση της εκπαίδευσης Για τις δεδομένες εισόδους Παράγει κάποιες εξόδους Η διαφορά επιθυμητών από τις πραγματικές εξόδους, παράγει σφάλμα Τα σφάλμα χρησιμοποιείται για την προσαρμογή των παραμέτρων (βάρη) Εναλλακτική εκπαίδευση με Support Vector Machines Εύρεση διαχωριστικών επιφανειών μεταξύ των κλάσεων Μη παραμετρικό μοντέλο, δεν χρειάζεται αριθμός κρυμμένων μονάδων
Μοντελοποίηση βάσει Ομολογίας
Μοντελοποίηση βάσει ομολογίας Πότε εφαρμόζεται; Έχω γνωστή αλληλουχία α/α, άγνωστη δομή Έχω σημαντική ομοιότητα με δοσμένη ακολουθία γνωστής δομής Θέλω να κάνω (μικρές) αλλαγές στη γνωστή ακολουθία ώστε να προκύψει η άγνωστη.
Πως εφαρμόζεται η μοντελοποίηση βάσει ομολογίας; ευθυγράμμιση (βάσει ακολουθίας α/α) αγνώστου δομής πρωτεΐνης με αυτήν της γνωστής δομής. Εισαγωγές/διαγραφές προκύπτουν κυρίως σε περιοχές με loops μεταξύ helices και sheets. Πρόβαλε τις περιοχές που έχουν εισαγωγές/διαγραφές στην άγνωστη ακολουθία Αντικατέστησε τα α/α της side chain που έχουν μεταλλαχθεί Εξέτασε το μοντέλο (με υπολογιστικές μεθόδους αλλά και δια γυμνού οφθαλμού) για περίπτωση ατόμων στην ίδια θέση.
Πηγή, http://www.expasy.org/swissmod/
Τελευταία βήματα Επιβεβαίωσε το μοντέλο (π.χ. Να μην υπάρχουν δύο άτομα στην ίδια θέση) Εφάρμοσε αλγόριθμο, ελαχιστοποίησης ενέργειας.
Συμπεράσματα/Προβληματισμοί Η μέθοδος πρόβλεψης δομής λειτουργεί υπό την προϋπόθεση ότι μπορεί να βρεθεί ομοιότητα της τάξης του 40-50%. SWISS-MODEL http://www.expasy.org/swissmod/
Αναγνώριση FOLDS
3-διάστατα προφίλ Παρόμοια με τα προφίλ, για ακολουθίες πρωτεϊνών Φτιάξε προφίλ, ακολουθιών και δομών. Ταξινόμησε το περιβάλλον κάθε α/α βάσει Δευτερογενούς δομής Το βαθμό που είναι εξωτερικό/εσωτερικό σε μία πρωτεΐνη (<40A2, 40-114A2, > 114A2) Polar/non-polar περιβάλλον 6 κλάσεις (polar/non-polar/εσωτερική-εξωτερική) 3 τύποι δευτερογενών δομών 18 κλάσεις
3-διάστατα προφίλ Αλφάβητο 18 χαρακτήρων Ευθυγράμμιση δομής, βάσει 18 χαρακτήρων Δηλαδή δύο πρωτεΐνες μπορούν να ευθυγραμμιστούν βάσει των προφίλ τους Ποιες Ακολουθίες α/α που έχουν το ίδιο fold;
Threading Mέθοδος Αναγνώρισης folds
Αναπαραγωγή ατομικών αλληλεπιδράσεων, ελάχιστη ενέργεια Η δομή της πρωτεΐνης έχει φτάσει σε κατάσταση ελάχιστης ενέργειας Οι αλληλεπιδράσεις των ατόμων δημιουργούν την δομή Δύσκολη αυτή η πρόβλεψη: Το μοντέλο των αλληλεπιδράσεων δεν είναι ακριβές Υπάρχουν έλλειψη γραμμικότητας Η αντικειμενική συνάρτηση έχει πολλά τοπικά ελάχιστα
Σημεία προσοχής Ομοιότητα ακολουθίας ομοιότητα δομής Παρόμοια δομή (όμοια ή διαφορετική ακολουθία)