Εισαγωγή στη Βιοπληροφορική

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Πηγές τάσης/ρεύματος R , L, C
Advertisements

Τέλος Ενότητας.
Μεταγλωττιστές (Compilers) (Θ) Ενότητα 13: Επαναληπτικό μάθημα Κατερίνα Γεωργούλη Τμήμα Μηχανικών Πληροφορικής ΤΕ Το περιεχόμενο του μαθήματος διατίθεται.
Οργάνωση πληροφοριών Ταξινόμηση (Θ) Ενότητα 1: Εισαγωγή (α μέρος) Δάφνη Κυριάκη-Μάνεση Τμήμα Βιβλιοθηκονομίας και Συστημάτων Πληροφόρησης Το περιεχόμενο.
Η ανοσοαποτύπωση ως επιβεβαιωτική μέθοδος
Τριφασικά συμμετρικά δίκτυα σε συνδεσμολογία Υ (1/2)
Διαμόρφωση πεδίων Περιγραφικά πεδία Διαχειριστικά πεδία Δομικά πεδία.
Μεταγλωττιστές (Compilers) (Θ) Ενότητα 11: Βελτιστοποίηση Ενδιάμεσου Κώδικα Κατερίνα Γεωργούλη Τμήμα Μηχανικών Πληροφορικής ΤΕ Ανοικτά Ακαδημαϊκά Μαθήματα.
Καμπυλότητα Φακού P c
Σχεδίαση Ολοκληρωμένων Κυκλωμάτων
Τεχνολογία οφθαλμικών φακών Ι (Ε) Ενότητα 5: Έγχρωμοι φακοί Θεμιστοκλής Γιαλελής, Οπτικός, MSc, PhD candidate ΕΔΙΠ του τμήματος Οπτικής και Οπτομετρίας.
Eιδικά θέματα βάσεων χωρικών δεδομένων και θεωρία συστημάτων
Κανόνες Ασφαλείας Εργοταξίων
ΟΙΚΟΝΟΜΙΚΑ ΤΟΥ ΕΛΕΓΧΟΥ ΤΗΣ ΡΥΠΑΝΣΗΣ
Άλλες μορφές νευρώσεων
Επικοινωνιακός Προγραμματισμός Ι
Άσκηση 8 (1 από 3) Προβολές 1. Να επιλέξετε ένα θέμα βασισμένο σε κάποια παράγραφο / υποπαράγραφο του κεφαλαίου 6 των σημειώσεων και να κάνετε μια εργασία.
Τεχνολογία οφθαλμικών φακών Ι (Ε)
Υπολογιστική Γεωμετρία και Εφαρμογές στις ΒΧΔ
Έρευνα στη Διδακτική των Μαθηματικών και Διδακτική Πράξη
Παρουσίαση ναυπηγικών γραμμών 1/3
Φιλοσοφία της Ιστορίας και του Πολιτισμού
Ενότητα 10: Καμπύλες κόστους
Ταυτότητα και περίγραμμα μαθήματος
Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων
ΠΡΟΤΥΠΟ ΕΛΟΤ EN ISO 3251 Ζύγιση μάζας υγρού μελανιού (m1 g)
Στατική Διάταση Στατική διάταση (isometric, controlled, slow) Διατήρηση συγκεκριμένης θέσης, η οποία είναι πιθανόν να επαναληφθεί ή όχι.
Ενότητα 13 Αξιολόγηση μαθήματος και διδάσκοντος από την εφαρμογή της Μονάδας Ολικής Ποιότητας (ΜΟΔΙΠ) του ΤΕΙ Αθήνας Αξιολόγηση του μαθήματος Αξιολόγηση.
Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων
Διδάσκων: Γεώργιος Στεφανίδης
Εισαγωγή στο Κουκλοθέατρο
Ιχθυολογία Ενότητα 4η. Eργαστηριακή Άσκηση
Περιγραφή Ενότητας Σκοπός του μαθήματος είναι η παρουσίαση δηλώσεων SQL που περιλαμβάνουν EXIST, ANY, ALL. Χ. Σκουρλάς.
Άσκηση 9 (1 από 2) Ανακαλύψτε στο χάρτη σας μερικά χαρτογραφικά αντικείμενα που να ανήκουν στις παρακάτω κατηγορίες : φυσικά, τεχνητές κατασκευές, αφηρημένα.
Φιλοσοφία της Ιστορίας και του Πολιτισμού
Ο Πλάτων και ο Αριστοτέλης για την ψυχή
Σύγχρονη Πρακτική Φιλοσοφία
Εκτίμηση σωματικού βάρους
ΕΦΑΡΜΟΣΜΕΝΗ ΗΘΙΚΗ Ενότητα 9 (PART A): Σχέση Ηθικής και Δικαιοσύνης
Τοπολογικές σχέσεις 1/3 Βρείτε και περιγράψτε τις τοπολογικές σχέσεις σύμφωνα με τους (Pantazis, Donnay 1996) για τα παρακάτω γεω-γραφικά αντικείμενα:
Επιλογή φλέβας για λήψη φλεβικού αίματος 1/7
Κανονικοποίηση ΤΙ ΕΙΝΑΙ ; Τεχνική Διαδικασία
Επικοινωνιακός Προγραμματισμός Ι
Εικαστικές συνθέσεις - Χρώμα στο χώρο
Γενική και Μαθηματική Χαρτογραφία (Ε)
Οργάνωση και Διοίκηση Πρωτοβάθμιας (Θ)
Εισαγωγή στις εικαστικές τέχνες
Λιθογραφία – Όφσετ (Θ) Ενότητα 8.2: Εκτυπωτική Διαδικασία Μηχανής
Επικοινωνιακός Προγραμματισμός Ι
Διδακτική της Πληροφορικής
Εισαγωγή στους Η/Υ Ενότητα 12: Το διάγραμμα ροής και η λειτουργία του
Αριστοτέλης: Γνωσιοθεωρία Μεταφυσική
Τηλεοπτική και Ραδιοφωνική Παραγωγή
Αισθητική Σώματος Ι (Ε)
Ειδικά θέματα βάσεων χωρικών δεδομένων και θεωρία συστημάτων -E
Γενική και Μαθηματική Χαρτογραφία (Ε)
Αισθητική Σώματος Ι (Ε)
Μυθος και Τελετουργία στην Αρχαία Ελλάδα
Ενότητα 8: Συστήματα Υγείας στην Ευρώπη: Γαλλία
Eιδικά θέματα βάσεων χωρικών δεδομένων και θεωρία συστημάτων -Θ
Συστήματα Θεματικής Πρόσβασης (Θ)
Διδάσκων: Γεώργιος Στεφανίδης
Ανοικτά Ακαδημαϊκά Μαθήματα στο ΤΕΙ Ιονίων Νήσων
Ψυχιατρική Ενότητα 7: Συνέχεια σταδίων
Γενικὴ Ἐκκλησιαστικὴ Ἱστορία Α´
Ανοσολογία (Ε) Ενότητα 3: Αιμοσυγκόλληση Πέτρος Καρκαλούσος
Οργανική Χημεία (Ε) Ενότητα 2: Προσδιορισμός σημείου τήξης
Ενότητα 1: ……………….. Όνομα Επώνυμο Τμήμα __
Ιστορία και Θεολογία των Εκκλησιαστικών Ύμνων
Επικοινωνιακός Προγραμματισμός Ι
Μεταγράφημα παρουσίασης:

Εισαγωγή στη Βιοπληροφορική Ενότητα 4: Τεχνικές Ανάλυσης και Σύγκρισης Ακολουθιών Βιολογικών Δεδομένων II Μακρής Χρήστος, Τσακαλίδης Αθανάσιος, Περδικούρη Αικατερίνη Πολυτεχνική Σχολή Τμήμα Μηχανικών Η/Υ και Πληροφορικής

Σκοποί ενότητας H παρουσίαση των αλγορίθμων προσεγγιστικής εύρεσης προτύπου και στοίχισης συμβολοσειρών Η παρουσίαση των αλγορίθμων σύγκρισης ακολουθιών βιολογικών δεδομένων

Περιεχόμενα ενότητας Βασικοί ορισμοί Στοίχιση ακολουθιών Μέθοδος δυναμικού προγραμματισμού Προσεγγιστική εύρεση προτύπου Εφαρμογές στην ανάλυση ακολουθιών βιολογικών δεδομένων Αλγόριθμος BLAST Αλγόριθμος FASTA

Τεχνικές Ανάλυσης και Σύγκρισης Ακολουθιών Βιολογικών Δεδομένων II

Τεχνικές Ανάλυσης και Σύγκρισης Ακολουθιών Βιολογικών Δεδομένων Προσεγγιστική Εύρεση Προτύπου - Approximate Pattern Matching Στοίχιση Ακολουθιών - Multiple Sequence Alignment Εφαρμογές σε Προβλήματα Μοριακής Βιολογίας

Βασικοί Ορισμοί (α) Απόσταση Μετασχηματισμού - Edit Distance: για 2 συμβολοσειρές ορίζουμε το ελάχιστο πλήθος των πράξεων μετασχηματισμού που απαιτούνται για να μετασχηματίσουμε την πρώτη συμβολοσειρά στη δεύτερη. Οι βασικές πράξεις μετασχηματισμού είναι η ένθεση, διαγραφή και αντικατάσταση συμβόλων. Παράδειγμα: S1: vintner και S2: writers edit-distance(S1->S2)=5 Λέγεται και Levenshtein distance, παραμένει το ίδιο είτε αν η ακολουθία πράξεων εφαρμόζεται στο S1 είτε στο S2.

Βασικοί Ορισμοί (β) ένθεση: I διαγραφή: D αντικατάσταση: R Ακολουθία Μετασχηματισμού - Edit Transcript: για το μετασχηματισμό μιας συμβολοσειράς ορίζεται ως η ακολουθία των πράξεων μετασχηματισμού που απαιτούνται για να μετασχηματίσουμε την πρώτη συμβολοσειρά στη δεύτερη. Οι βασικές πράξεις μετασχηματισμού αναπαρίστανται ως εξής: ένθεση: I διαγραφή: D αντικατάσταση: R ταίριασμα: Μ Παράδειγμα: S1: vintner και S2: writers edit-distance(S1->S2)= RIMDMDMMI

Στοίχιση Ακολουθιών Στοίχιση Ακολουθιών- Sequence Alignment: τοποθετούμε τη μια ακολουθία κάτω από την άλλη έτσι ώστε οι κοινοί χαρακτήρες να τοποθετούνται στις ίδιες θέσεις.

Στοίχιση Ακολουθιών επιτρέποντας κενά Στοίχιση δυο ακολουθιών με την εισαγωγή 7 κενών χαρακτήρων σε 4 θέσεις, που μεταφράζεται ως μετάλλαξη της ακολουθίας του DNA στις αντίστοιχες θέσεις.

Η Μέθοδος του Δυναμικού Προγραμματισμού Δυναμικός Προγραμματισμός: Έστω 2 ακολουθίες S1 και S2, θα συμβολίζουμε ως D(i,j) την απόσταση μετασχηματισμού μεταξύ των προθεμάτων S1[1..i] και S2[1..j], δηλαδή τον ελάχιστο αριθμό πράξεων μετασχηματισμού που απαιτούνται για να μετασχηματίσουμε τους i πρώτους χαρακτήρες της ακολουθίας S1 στους j πρώτους χαρακτήρες της ακολουθίας S2. Χρήση 3 βασικών τεχνικών: σχέση αναδρομής- recurrence relation, χρήση πίνακα- tabular computation, σχέση οπισθοχώρησης- traceback.

Παράδειγμα Πίνακα Δυναμικού Πρ/σμου

D(i,j)=min[D(i-1,j)+1,D(i,j-1)+1,D(i-1,j-1)+t(i,j)] Η Σχέση Αναδρομής Σχέση Αναδρομής: D(i,j)=min[D(i-1,j)+1,D(i,j-1)+1,D(i-1,j-1)+t(i,j)] D(i,j-1)+1: πρέπει να ενθέσουμε το χαρακτήρα S2[j] D(i-1,j)+1: πρέπει να διαγράψουμε το χαρακτήρα S1[i], D(i-1,j-1)+1: για να μετασχηματίσουμε το χαρακτήρα S1[i] στο χαρακτήρα S2[j] πρέπει να αντικαταστήσουμε το χαρακτήρα S1[i], με το χαρακτήρα S2[j], D(i-1,j-1): έχουμε ταίριασμα

Παράδειγμα: σχέση αναδρομής

Η Σχέση Οπισθοχώρησης Σχέση Οπισθοχώρησης: από την (i,j) θέση προς την (i,j-1) αν D(i,j)= D(i,j-1)+1 (ένθεση χαρακτήρα) από την (i,j) θέση προς την (i-1,j) αν D(i,j)= D(i-1,j)+1 (διαγραφή χαρακτήρα) από την (i,j) θέση προς την (i-1,j-1) αν D(i,j)= D(i-1,j-1)+t(i,j) (αντικατάσταση χαρακτήρα ή ταίριασμα)

Προσθήκη δεικτών οπισθοχώρησης

Ερμηνεία δεικτών οπισθοχώρησης

Πολυπλοκότητα της μεθόδου Δυναμικού Προγραμματισμού Αρχικοποίηση: O(n) + O(m) Σχέση Αναδρομής: O(n*m) Δείκτες Οπισθοχώρησης: Ο(n+m) Πολυπλοκότητα: Ο(n2) Ισοδυναμία με πρόβλημα της θεωρίας γραφημάτων, όπου κάθε κόμβος έχει ετικέτα ένα ζεύγος (i,j)

Βασικοί Ορισμοί (γ) ένθεση ή διαγραφή: d αντικατάσταση: r Ζυγισμένη Απόσταση Μετασχηματισμού - Weighted Edit Distance: το ελάχιστο κόστος των πράξεων μετασχηματισμού που απαιτούνται για να μετασχηματίσουμε την πρώτη συμβολοσειρά στη δεύτερη. Κάθε πράξη μετασχηματισμού έχει συγκεκριμένο κόστος - βάρος. Έστω ότι οι βασικές πράξεις μετασχηματισμού έχουν τα ακόλουθα βάρη: ένθεση ή διαγραφή: d αντικατάσταση: r ταίριασμα: m. Παράδειγμα: S1: vintner και S2: writers weighted edit-distance(S1->S2)= r+4d+4m.

Η Σχέση Αναδρομής με βάρη Σχέση Αναδρομής: D(i,j)=min[D(i-1,j)+d,D(i,j-1)+d,D(i-1,j-1)+t(i,j)], όπου: t(i,j)= e, αν S1(i)=S2(j), t(i,j)=r, αν S1(i)S2(j) και D(i,0)=i*d και D(0,j)=j*d. Η σχέση μπορεί να υπολογιστεί κινούμενοι κατά στήλες από αριστερά προς τα δεξιά, αφού έχουμε υπολογίσει τη πρώτη γραμμή και τη πρώτη στήλη.

ΕΠΕΚΤΑΣΕΙΣ Ζυγισμένη Απόσταση Μετασχηματισμού βάσει Αλφαβήτου - Weighted Edit Distance. Σε εφαρμογές Μοριακής Βιολογίας τα βάρη αντικατάστασης χαρακτήρων αποθηκεύονται σε Πίνακες Αντικατάστασης - Substitution Matrix: PAM και BLOSUM Καλύτερη (σημασιολογικά) η αντιμετώπιση σαν alignment και η ενσωμάτωση του score. Κατά κανόνα match είναι θετικό, οτιδήποτε άλλο 0 ή αρνητικό

Υπολογισμός score-function στοίχισης ακολουθιών

Δυναμικός Προγραμματισμός & Ομοιότητα Ακολουθιών βάσει αλφαβήτου Σχέση Αναδρομής για την ομοιότητα ακολουθιών: V(i,j)= max[V(i-1,j-1)+s(S1(i), S2(j)), V(i-1,j)+ s(S1(i),_), V(i,j-1)+ s(_,S2(j))], όπου: s(x,y): η τιμή στοίχισης του χαρακτήρα x με τον y V(0,j)=s(_,S2(k)), 1<k<j και V(i,0)=  s(S1(k),_), 1<k<i.

Επεκτάσεις Longest Common Subsequence (match weight 1, otherwise 0) End-space free variant that encourages one string to align in the interior of the other, or the suffix of one to align with the prefix of the other (initial conditions 0, everything is countable in the last row and the last column) – shotgun sequence assembly Approximate occurrence of P in T (the optimal alignment of P to a substring of T has distance δ from the optimal alignment) (initial conditions, as previously 0). -- locate a cell (n,j) with value greater than δ. -- traverse backpointers from (n,j) to (0,k). -- occurrence in T[k,j]

Το Πρόβλημα Τοπικής Στοίχισης Επιθέματος- Local Suffix Alignment Problem Local suffix alignment problem: για δυο ακολουθίες S1 και S2 εντόπισε ένα επίθεμα α του S1[1..i] (με την πιθανότητα να είναι κενό) και ένα επίθεμα β του S2[1..j] (πιθανόν κενό) τέτοια ώστε το V(α,β) να έχει τη μέγιστη τιμή από όλα τα άλλα δυνατά ζεύγη επιθεμάτων των S1[1..i] και S2[1..j]. Συμβολίζουμε ως υ(i,j) τη βέλτιστη τοπική στοίχιση επιθεμάτων για τις τιμές i και ,j ( i<n και j<m). Αρχικές συνθήκες v(i,0)=0 και v(0,j)=0 καθώς μπορούμε να επιλέξουμε κάθε άδειο επίθεμα. υ(i,j)=max[0,υ(i-1,j-1)+s(S1(i), S2(j)), υ(i-1,j)+ s(S1(i),_), υ(i,j-1)+ s(_,S2(j))]

Locally Similar Strings

Παρατηρήσεις Global Alignment is called Needleman-Wunsch alignment Local alignment is called Smith-Waterman alignment Smith-Waterman can find regions with high similarity by simply performing a trace-back from any cell (i,j) backwards and locate a pair with similarity v(i,j).

Στοίχιση Ακολουθιών με κενά Έννοια κενού: συνεχόμενα spaces, θέλουμε να ελέγχουμε την κατανομή των κενών. Εισαγωγή Κενών: Για να συμπεριλάβουμε το κόστος που η εισαγωγή κενών εισάγει στη στοίχιση 2 ακολουθιών, μπορούμε σε μια απλή προσέγγιση να θεωρήσουμε ότι κάθε κενό συνεισφέρει ένα σταθερό βάρος Wg, ανεξάρτητα από το μήκος του. τιμή στοίχισης που περιέχει “k” κενά: μία καλύτερη προσέγγιση είναι η χρησιμοποίηση μίας συνάρτησης του μήκους του κενού. Τότε μπορούμε να γεμίσουμε ένα πίνακα: V(i,j)=max[E(i,j), F(i,j), G(i,j)]

Στοίχιση με arbitrary gap weights j G(i,j)= V(i-1,j-1)+cost(i->j) E(i,j)= maxKV(i,k) - w(j-k) (0<=k<=j-1) i gaps j F(i,j)= maxl{V(l,j) - w(i-l) (0<=l<=i-1) i gaps j

V(i,j)=max{E(i,j), F(i,j), G(i,j)} V(i,0)=-w(i) V(0,j)=-w(j) E(i,0)=-w(i) F(0,j)=-w(j) G(0,0)=0 Assuming that |S1|=n and |S2|=m the recurrences can be evaluated in O(nm2+n2m)

Εφαρμογές σε Προβλήματα Μοριακής Βιολογίας Το Πρόβλημα της Πολλαπλής Στοίχισης- multiple sequence alignment problem: Μία πολλαπλή ολική στοίχιση από k>2 συμβολοσειρές S={ S1, S2,…., Sκ} είναι μία φυσική γενίκευση της στοίχισης για δύο συμβολοσειρές.

Γιατί μας ενδιαφέρει η πολλαπλή στοίχιση ακολουθιών Η πολλαπλή στοίχιση ακολουθιών χρησιμοποιείται: στην αναγνώριση και αναπαράσταση πρωτεϊνικών οικογενειών και υπερ-οικογενειών, στην αναπαράσταση των χαρακτηριστικών που μεταφέρονται στις ακολουθίες DNA ή στις πρωτεϊνικές ακολουθίες, στην αναπαράσταση της εξελικτικής ιστορίας (φυλογενετικά δέντρα) από ακολουθίες DNA ή πρωτεϊνών.

Αλγόριθμοι Πολλαπλής Στοίχισης Ακολουθιών Είδη στοίχισης: Extention of DP approach (too costly) Use of pairwise alignment (center star algorithm) Αλγόριθμοι πολλαπλής στοίχισης ακολουθιών: FASTA BLAST.

Βιολογικές Βάσεις Δεδομένων Γενικευμένες (Generalised) ή Αρχειακές (Archival) βιολογικές βάσεις δεδομένων). Διακρίνονται σε: - Πρωτογενείς βάσεις δεδομένων ακολουθιών (Primary Sequence Databases). Περιέχουν νουκλεοτιδικές και αμινοξικές ακολουθίες από γονιδιώματα οργανισμών που είτε έχουν αποκρυπτογραφηθεί πλήρως είτε όχι - βάσεις δεδομένων που περιέχουν τρισδιάστατες δομές νουκλεϊνικών οξέων και πρωτεϊνών Δευτερευουσες (Secondary) βιολογικές βάσεις δεδομένων που προκύπτουν από ανάλυση των δεδομένων που είναι αποθηκευμένα στις αρχειακές βιολογικές βάσεις δεδομένων και διακρίνονται σε: Δευτερεύουσες ΒΔ ακολουθιών DNA και πρωτεϊνών που προκύπτουν από τις βασικές ΒΔ ακολουθιών και περιλαμβάνουν (α) ΒΔ ακολουθιών στις οποίες έχουν απομακρυνθεί οι ακολουθίες που έχουν αποθηκευτεί περισσότερες από μία φορές (β) ΒΔ που καταγράφουν μεταλλαγές ή παραλλαγές στις ακολουθίες DNA και πρωτεινών (γ) Γονιδιωματικές ΒΔ που είτε ομαδοποιούν συγγενή ή όχι πλήρως αποκρυπτογραφημένα γονιδιώματα είτε ασχολούνται με γονιδιώματα οργανισμών μοντέλων

ΒΔ που ασχολούνται με τις ιεραρχήσεις ή/και συσχετίσεις μεταξύ βιομορίων όπως οικογένειες πρωτεϊνών, κοινές δομές πρωτεϊνών κοινά μοτίβα ακολουθιών DNA και πρωτεϊνών. Εξειδικευμένες Β.Δ., κατηγορία στην οποία ανήκουν: Β.Δ. μικροσυστοιχιών που περιλαμβάνουν πληροφορίες για την έκφραση γονιδίων και πρωτεϊνών Β.Δ. Μεταβολικών μονοπατιών που περιέχουν πληροφορίες για τις χημικές αντιδράσεις που πραγματοποιούνται στο κύτταρο Βιβλιογραφικές βιολογικές βάσεις δεδομένων Βιολογικές βάσεις δεδομένων ιστοσελίδων που περιλαμβάνουν: Β.Δ. που περιλαμβάνουν ως εγγραφές βιολογικές βάσεις Συνδέσμους μεταξύ βιολογικών βάσεων δεδομένων.

Βάσεις Βιολογικών Δεδομένων (1) GenBank: NCBI (http://www.ncbi.nlm.nih.gov) GenBank® is the NIH genetic sequence database, an annotated collection of all publicly available DNA sequences. There are approximately 37,893,844,733 bases in 32,549,400 sequence records as of February 2004. Δείγμα εγγραφής (National Center of Biotechnology Information) PIR: Protein Information Resource (http://pir.georgetown.edu) PIR produces the Protein Sequence Database (PSD) of functionally annotated protein sequences, which grew out of the Atlas of Protein Sequence and Structure (1965-1978) edited by Margaret Dayhoff and has been incorporated into an integrated knowledge base system of value-added databases and analytical tools. Swiss-Prot + TrEMBL: Swiss-Prot.htm (http://tw.expasy.org/sprot/) Swiss-Prot is a curated protein sequence database which strives to provide a high level of annotation (such as the description of the function of a protein, its domains structure, post-translational modifications, variants, etc.), a minimal level of redundancy and high level of integration with other databases TrEMBL is a computer-annotated supplement of Swiss-Prot that contains all the translations of EMBL nucleotide sequence entries not yet integrated in Swiss-Prot.

Βάσεις Βιολογικών Δεδομένων (2) PRODOM: (http://prodes.toulouse.inra.fr/prodom/current/html/home.php) ProDom is a comprehensive set of protein domain families automatically generated from the SWISS-PROT and TrEMBL sequence databases PROTOMAP: (http://protomap.cornell.edu/intro.html) An exhaustive classification of all the proteins in the SWISSPROT and TrEMBL databases, into groups of related proteins. The analysis uses transitivity to identify homologous proteins, and within each group, every two members are either directly or transitively related. PRINTS: (http://umber.sbs.man.ac.uk/dbbrowser/PRINTS/) PRINTS is a compendium of protein fingerprints. A fingerprint is a group of conserved motifs used to characterise a protein family; its diagnostic power is refined by iterative scanning of a SWISS-PROT/TrEMBL composite.

Βάσεις Βιολογικών Δεδομένων (3) PROSITE: Prosite (http://tw.expasy.org/prosite/) PROSITE is a database of protein families and domains. It consists of biologically significant sites, patterns and profiles that help to reliably identify to which known protein family (if any) a new sequence belongs. PDB-Protein Data Bank: PDB (http://www.rcsb.org/pdb/ The PDB is the single worldwide repository for the processing and distribution of 3-D structure data of large molecules of proteins and nucleic acids. GDB: Genome Mapping Data (http://www.gdb.org/gdb/) Genome Mapping Data from the Human Genome Initiative

Βάσεις Βιολογικών Δεδομένων (4) TIGR: http://gnn.tigr.org/ The Institute for Genomic Research (TIGR) is a not-for-profit research institute whose primary research interests are in structural, functional and comparative analysis of genomes and gene products from a wide variety of organisms including viruses, eubacteria (both pathogens and non-pathogens, archaea (the so-called third domain of life), and eukaryotes (plants, animals, fungi and protists such as the malarial parasite). SCOP: (http://scop.berkeley.edu/) Structural Classification of Proteins

Sequence Database Searching Βήματα καθορισμού πρωτεϊνικής ακολουθίας Σύγκριση της νέας ακολουθίας με PROSITE και BLOCKS για εύρεση well-characterized sequence motifs. Ψάξιμο στις DNA και protein sequence databases (Genbank, Swiss-Prot, etc.) για εντοπισμό ακολουθιών τοπικά παρόμοιων (με χρήση ενός κριτηρίου τοπικής ομοιότητας) – χρήση FASTA και BLAST Εάν τα παραπάνω ψαξίματα δίνουν ενδιαφέρον αποτέλεσμα, τότε καταφεύγουμε στη χρήση της τεχνικής του δυναμικού προγραμματισμού. Όταν χρειαστεί να εμπλακούν amino acid substitution matrices, συνήθως χρησιμοποιείται μία παραλλαγή του Dayhoff PAM matrix και του BLOSUM matrix.

Ο Αλγόριθμος BLAST (Συντηρείται από το NCBI) BLAST: Basic Local Alignment Search Tool, Altschul et. Al. 1990 Βασική ιδέα: εντοπισμός κοινών υπο-ακολουθιών ίδιου μήκους (segment pairs) που εμφανίζονται και στη δοσμένη ακολουθία μικρού μήκους (input query sequence) και στο σύνολο των ακολουθιών μίας βάσης δεδομένων. Στη συνέχεια επέκταση για εύρεση maximal segment pairs Αλγόριθμος Είδος query Είδος sequence BLASTP Πρωτείνη Πρωτεϊνη BLASTN Νουκλεοτίδιο BLASTX TBLASTN TBLASTX

O Αλγόριθμος FASTA (φιλοξενείται στο ΕΒΙ) FASTΑ: Fast – All, Lipman et al. 1985 Κεντρική ιδέα: εύρεση μικρών λέξεων (words ή k-tuples) που εμφανίζονται και στις δύο ακολουθίες. Στην περίπτωση πρωτεϊνικών ακολουθιών το μήκος των λέξεων είναι 1-2 βάσεις ενώ για ακολουθίες DNA το μήκος μίας λέξης μπορεί να φτάνει στις 6 βάσεις

Τα βήματα του αλγορίθμου FASTA 1o βήμα: αναζητούμε λέξεις μήκους ktup στον πίνακα δυναμικού προγραμματισμού: ‘hot spots’ (pairs (i,j) ) 2ο βήμα: εντοπίζουμε τις δέκα καλύτερες διαγώνιες τροχιές – diagonal runs από ‘hot-spots’ στον πίνακα (a hot spot define the (i-j)-diagonal, the score is the sum of scores of hot-spots plus weighted decreasing as the distance increases) 3ο βήμα: συνδυάζουμε «καλές υπο-στοιχίσεις» 4ο βήμα: παράγουμε το βέλτιστο μονοπάτι

Άλλα Θέματα Amino Acid Substitution Matrices Dayhoff PAM (Point Accepted Mutation) BLOSUM (derived from the BLOCKS database) BLOCKS is a database of protein motifs that attempts to represent the most highly conserved substrings in aminoacid sequences or related preoteins.

Indexing Approaches k-gram indexing direct indexing vector space indexing

k-gram Indexing Hash tables (FASTP, FASTA, BLAST, BL2SEQ, PSI-BLAST, MegaBLAST, BLASTZ, WU-BLAST, BLAT, SSAHA, SENSEI) ed-tree (the gram size k, the skip interval Δ (which start positions matter), the segment length vector H=[h1, …, ht], where sumi(hi)=k) -- For each sequence, the algorithm generates all k-grams with Δ skips -- Each gram is partitioned according to H, and the partitions are inserted into the ed-tree. The search algorithm partitions accordingly the query string, and initiates a search procedure, beginning from the root. Some important properties: (1) the k-grams are usually longer than that of BLAST, (2) they allow inexact k-gram matches, (3) only one k-gram out of Δ k-grams is indexed, Ed-tree is used by CHAOS, LAGAN, DIALIGN.

Direct Indexing Suffix trees -- MUMmer, AVID, REPuter, MGA, QUASAR VP-trees (Vantage Point tree)

MUMmer Detecting MUM (Maximal Unique Matches), that is pair of substrings (x’,y’) that exactly match and there is no other matching pair that contains x’, y’ simultaneously (just use the GST(x,y)) Find the backbone of the alignment: all the pairs (x’,y’) are sorted in increasing order of the position of x’. Next the longest sequence of MUMs whose subsequences from x, y are in sorted order is found. These form the backbone Closing gaps. The gaps between consecutive MUMs are aligned with the help of Smith-Waterman Similar tools are AVID, REPuter, MGA.

VP-trees (Vantage Point tree) The VP-tree has been adapted to sequence databases where the distance is the edit distance or the block edit distance. It can be applied to other distance functions as long as they are almost metric. The algorithm takes a database, D={s1,…,sn}, and chooses a sequence s as the root, while the median of the distances to s is computed. The two sets are: (i) the sequences that are closer to s than the median, (ii) the rest of the sequences. Given a query q, the sequences at distance r are found as follows: First, q is compared to the vantage sequence s, at the root node. Let M be the median distance. 1. If d(q,s)≤r, s is inserted to the result set 2. If d(q,s)≤r+M, then the left child is searched recursively. 3. If d(q,s)≥M-r, then the right child is searched recursively.

Vector Space Indexing These index structures, map sequences or subsequences to vectors in a vector space. There exist two important index structures: SST (Sequence Search Tree) MRS (Multi Resolution String) index

SST Vector Space Mapping (window size w, shift amount Δ, tuple size k) The parameter k, determines the size of the computed vector (for alphabet size σ this vector has size σκ ) The produced vectors are stored in a so called centroid structure. A query is performed as follows: a query sequence is first divided into subsequences of window size w, using a shift amount of Δ=w/2. Each of the produced query vectors is then searched on the index structure starting from the root node.

Τέλος Ενότητας

Χρηματοδότηση Το παρόν εκπαιδευτικό υλικό έχει αναπτυχθεί στo πλαίσιo του εκπαιδευτικού έργου του διδάσκοντα. Το έργο «Ανοικτά Ακαδημαϊκά Μαθήματα στο Πανεπιστήμιο Αθηνών» έχει χρηματοδοτήσει μόνο την αναδιαμόρφωση του εκπαιδευτικού υλικού. Το έργο υλοποιείται στο πλαίσιο του Επιχειρησιακού Προγράμματος «Εκπαίδευση και Δια Βίου Μάθηση» και συγχρηματοδοτείται από την Ευρωπαϊκή Ένωση (Ευρωπαϊκό Κοινωνικό Ταμείο) και από εθνικούς πόρους.

Σημειώματα

Σημείωμα Ιστορικού Εκδόσεων Έργου Το παρόν έργο αποτελεί την έκδοση 1.0.

Σημείωμα Αναφοράς Copyright Πανεπιστήμιο Πατρών, Μακρής Χρήστος, Περδικούρη Αικατερίνη. «Εισαγωγή στη Βιοπληροφορική. Τεχνικές Ανάλυσης και Σύγκρισης Ακολουθιών Βιολογικών Δεδομένων II». Έκδοση: 1.0. Πάτρα 2015. Όλες οι εικόνες έχουν δημιουργηθεί από την κυρία Περδικούρη Αικατερίνη, εκτός αν αναφέρεται διαφορετικά. Διαθέσιμο από τη δικτυακή διεύθυνση: https://eclass.upatras.gr/courses/CEID1047/

Σημείωμα Αδειοδότησης Το παρόν υλικό διατίθεται με τους όρους της άδειας χρήσης Creative Commons Αναφορά, Μη Εμπορική Χρήση Παρόμοια Διανομή 4.0 [1] ή μεταγενέστερη, Διεθνής Έκδοση. Εξαιρούνται τα αυτοτελή έργα τρίτων π.χ. φωτογραφίες, διαγράμματα κ.λ.π., τα οποία εμπεριέχονται σε αυτό και τα οποία αναφέρονται μαζί με τους όρους χρήσης τους στο «Σημείωμα Χρήσης Έργων Τρίτων». [1] http://creativecommons.org/licenses/by-nc-sa/4.0/ Ως Μη Εμπορική ορίζεται η χρήση: που δεν περιλαμβάνει άμεσο ή έμμεσο οικονομικό όφελος από την χρήση του έργου, για το διανομέα του έργου και αδειοδόχο που δεν περιλαμβάνει οικονομική συναλλαγή ως προϋπόθεση για τη χρήση ή πρόσβαση στο έργο που δεν προσπορίζει στο διανομέα του έργου και αδειοδόχο έμμεσο οικονομικό όφελος (π.χ. διαφημίσεις) από την προβολή του έργου σε διαδικτυακό τόπο Ο δικαιούχος μπορεί να παρέχει στον αδειοδόχο ξεχωριστή άδεια να χρησιμοποιεί το έργο για εμπορική χρήση, εφόσον αυτό του ζητηθεί.

Διατήρηση Σημειωμάτων Οποιαδήποτε αναπαραγωγή ή διασκευή του υλικού θα πρέπει να συμπεριλαμβάνει: το Σημείωμα Αναφοράς το Σημείωμα Αδειοδότησης τη δήλωση Διατήρησης Σημειωμάτων το Σημείωμα Χρήσης Έργων Τρίτων (εφόσον υπάρχει) μαζί με τους συνοδευόμενους υπερσυνδέσμους.