ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
TM accepting strings with equal number of 0s and 1s Thamer Al sulaiman.
Advertisements

ΓΡΑΜΜΑΤΙΚΕΣ ΧΩΡΙΣ ΣΥΜΦΡΑΖΟΜΕΝΑ I
Στατική Συμβολική Παραγώγιση Λάμδα Εκφράσεων στην C++
Εξόρυξη Γνώσης Από Χρονικά Δεδομένα
Αναλογικό • όταν ένα σύστημα είναι…………………… οι τιμές που παίρνει είναι συνεχόμενες.
HMM. Περιγραφή ενός HMM N – πλήθος καταστάσεων –Q = {q 1, q 2, …,q T } - set καταστάσεων M – πλήθος συμβόλων (παρατηρήσεις) –O = {o 1, o 2, …,o T } -
CSS Cascading Style Sheets
Θεωρία Γραφημάτων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές
ΔΟΜΕΣ ΔΕΔΟΜΕΝΩΝ Φροντιστήρια Εισηγητής: Σπύρος Αργυρόπουλος Μέλος ΕΤΕΠ Εργαστήριο Προγραμματισμού & Τεχνολογίας Ευφυών Συστημάτων.
Γειά σας. Say: take a pencil. Πάρε ένα μολύβι. Nick, give me my book.
Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας.
Μια Μπεϋζιανή Μέθοδος για την Επαγωγή Πιθανοτικών Δικτύων από Δεδομένα ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧ/ΚΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ B. Μεγαλοοικονόμου, Χ. Μακρής.
Εισαγωγή στα Conditional Random Fields Κατερίνα Φραγκιαδάκη Εθνικό Μετσόβιο Πολυτεχνείο.
Entity-Relationship Παραδείγματα Πληροφοριακά Συστήματα και Βάσεις Δεδομένων Φροντιστήριο 1 Δαμιανός Χατζηαντωνίου.
ΕΡΩΤΗΜΑΤΑ ΕΠΙΛΟΓΗΣ ΜΕ ΣΥΖΕΥΞΗ ΠΙΝΑΚΩΝ
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Σχεδίαση αλγορίθμων (2ο μέρος)
ΕΠΛ Θεωρία και Πρακτική Μεταγλωττιστών5-1 Επίλυσης ασάφειας με εισαγωγή μη-τερματικών Π.χ. stmt = “if”, expr, “then”, stmt | “if”, expr, “then”,
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
31 Μαρτίου 2015 ΔΙΑΦΑΝΕΙΑ 1 ΤΥΠΙΚΕΣ ΜΕΘΟΔΟΙ ΑΝΑΛΥΣΗΣ ΣΥΣΤΗΜΑΤΩΝ ΤΜ. ΠΛΗΡΟΦΟΡΙΚΗΣ Α.Π.Θ. – ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ ΚΑΤΗΓΟΡΗΜΑΤΙΚΟΣ ΛΟΓΙΣΜΟΣ Ι Για τον προτασιακό.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού Προπτυχιακό.
Θεωρία Γραφημάτων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές Ενότητα 8 Τ ΕΛΕΙΑ Γ ΡΑΦΗΜΑΤΑ Σταύρος Δ. Νικολόπουλος 1.
Principles of programming languages 9: Answers for exercises Isao Sasano Department of Information Science and Engineering.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 4 Σημασιολογία μιας Απλής Προστακτικής Γλώσσας Προπτυχιακό.
1 Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Πανεπιστήμιο Πατρών ΟΝΤΟΚΕΝΤΡΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΙΙ (C++) Τάξεις και Αφαίρεση Δεδομένων.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Λογικός Σχεδιασμός Σχεσιακών Σχημάτων.
ÐñïãíùóôéêÜ íåõñùíéêÜ äßêôõá ( Predictive Modular Neural Networks ) êáé åöáñìïãÝò óå ôáîéíüìçóç êáé ðñüãíùóç ÷ñïíïóåéñþí êáé áíáãíþñéóç äõíáìéêïý óõóôçìÜôùí.
ΗΥ Παπαευσταθίου Γιάννης1 Clock generation.
Βασικά στοιχεία της Java
Week 11 Quiz Sentence #2. The sentence. λαλο ῦ μεν ε ἰ δότες ὅ τι ὁ ἐ γείρας τ ὸ ν κύριον Ἰ ησο ῦ ν κα ὶ ἡ μ ᾶ ς σ ὺ ν Ἰ ησο ῦ ἐ γερε ῖ κα ὶ παραστήσει.
Lesson 6c: Around the City I JSIS E 111: Elementary Modern Greek Sample of modern Greek alphabet, M. Adiputra,
Προσομοίωση Δικτύων 4η Άσκηση Σύνθετες τοπολογίες, διακοπή συνδέσεων, δυναμική δρομολόγηση.
Εισαγωγή στη Βιοπληροφορική Ενότητα 7: Αλγόριθμοι κατηγοριοποίησης βιολογικών δεδομένων Μακρής Χρήστος, Τσακαλίδης Αθανάσιος, Περδικούρη Αικατερίνη Πολυτεχνική.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΙΩΑΝΝΙΝΩΝ ΑΝΟΙΚΤΑ ΑΚΑΔΗΜΑΪΚΑ ΜΑΘΗΜΑΤΑ Εξόρυξη Δεδομένων Απορροφητικοί τυχαίοι περίπατοι. Προβλήματα κάλυψης Διδάσκων: Επίκ. Καθ. Παναγιώτης.
Αριθμητική Επίλυση Διαφορικών Εξισώσεων 1. Συνήθης Δ.Ε. 1 ανεξάρτητη μεταβλητή x 1 εξαρτημένη μεταβλητή y Καθώς και παράγωγοι της y μέχρι n τάξης, στη.
Introduction to Latent Variable Models. A comparison of models X1X1 X2X2 X3X3 Y1Y1 δ1δ1 δ2δ2 δ3δ3 Model AModel B ξ1ξ1 X1X1 X2X2 X3X3 δ1δ1 δ2δ2 δ3δ3.
Μαθαίνω με “υπότιτλους”
Relations Chapter 9.
Μηχανική μάθηση (Machine Learning).
Επίλυση Προβλημάτων με Αναζήτηση
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Τμήμα Εφαρμοσμένης Πληροφορικής και Πολυμέσων Εργαστήριο Ρομποτικής
Matrix Analytic Techniques
9 Η Γλώσσα SQL Εισαγωγή – Βασικές Έννοιες Τύποι Δεδομένων
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Νομική Σχολή
ΧΡΟΝΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΕΡΓΩΝ
Υδρόβια Φυτά Θεοφανώ Κούλεντρου Rippling Water (Basic)
Keystroke-Level Model
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ
Νικήτας Σγούρος Μεταγλωττιστές Νικήτας Σγούρος
Προσαρμοστικά μοντέλα
Δυναμικός Προγραμματισμός
ΣΥΣΤΗΜΑΤΑ ΑΠΑΝΤΗΣΗΣ ΣΤΟ ΣΤΡΕΣ
Γλωσσική ανάπτυξη στη Γ2
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Νομική Σχολή
Ελληνική Εταιρεία Γεωγραφικών Συστημάτων Πληροφοριών
Ερωτήματα Επιλογής σε ACCESS
Find: φ σ3 = 400 [lb/ft2] CD test Δσ = 1,000 [lb/ft2] Sand 34˚ 36˚ 38˚
Τεχνικές της Μοριακής Βιολογίας
aka Mathematical Models and Applications
GLY 326 Structural Geology
Find: angle of failure, α
ΕΝΣΤΑΣΕΙΣ ΠΟΙΟΣ? Όμως ναι.... Ένα σκάφος
Find: minimum B [ft] γcon=150 [lb/ft3] γT=120 [lb/ft3] Q φ=36˚
Find: ρc [in] from load γT=110 [lb/ft3] γT=100 [lb/ft3]
Υπο-τύποι και πολυμορφισμός
Αναδρομή Στην ενότητα αυτή θα μελετηθούν τα εξής επιμέρους θέματα:
Δοκοί Διαγράμματα Τεμνουσών Δυνάμεων και Καμπτικών Ροπών
Find: ρc [in] from load (4 layers)
Μεταγράφημα παρουσίασης:

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός Παντελής Μπάγκος

Δυναμικός Προγραμματισμός Στοίχιση (τοπική-ολική) RNA secondary structure prediction Διαμεμβρανικά τμήματα Hidden Markov Models Άλλες εφαρμογές

Στοίχιση Ολική Τοπική Ειδικές περιπτώσεις

Δυναμικός προγραμματισμός

Δυο περιπτώσεις στοιχίσεων F(i,0)=-id, F(0,j)=-jd F(i,0)=0, F(0,j)=0

Ποινές για τα κενά (gap penalties) Απλή ποινή για τα κενά: Σύνθετη ποινή για τα κενά:

Παράδειγμα A A G T – T A G C A G C A G T A T C G C A - d=1 Έστω δυο ακολουθίες: Αν έχουμε για τα κενά: d=1 Τότε η καλύτερη ολική στοίχιση θα είναι: A A G T – T A G C A G C A G T A T C G C A -

Ολική στοίχιση… A A G T – T A G C A G C A G T A T C G C A -

Τοπική στοίχιση… A G T – T A G C A A G T A T C G C A

Άλλοι αλγόριθμοι Υπάρχουν επίσης ειδικές περιπτώσεις στοίχισης (π.χ. προσαρμογή) Θέλουμε δηλαδή να εντοπίσουμε, μια μικρή ακολουθία αν συναντάται σε μια μεγαλύτερη Έστω ότι θέλουμε να ανιχνεύσουμε αν στην αλληλουχία του γονιδίου lacI της E.coli υπάρχει η γνωστή αλληλουχία του υποκινητή (promoter). Έστω ακόμα ότι το τμήμα του γονιδίου έχει αλληλουχία: και η αλληλουχία του υποκινητή είναι

συνέχεια… F(i,0)=-id F(0,j)=0.

Και η ακολουθία του πιθανού υποκινητή είναι: C A T G A T

RNA secondary structure prediction

Nussinov

Διαμεμβρανικά τμήματα N C IN OUT

Τα 3 βασικά ερωτήματα σε ένα ΗΜΜ ... Εκτίμηση Δεδομένου του μοντέλου, πως θα υπολογίσουμε την ολική πιθανότητα μιας ακολουθίας συμβόλων. P(x|θ) Αποκωδικοποίηση Πως θα βρούμε την πιο πιθανή αλληλουχία καταστάσεων (path) από την οποία έχει διέλθει το μοντέλο, για να δώσει την συγκεκριμμένη ακολουθία συμβόλων. Εκπαίδευση Πως θα τροποποιήσουμε τις παραμέτρους του μοντέλου, έτσι ώστε να μεγιστοποιηθεί η συνολική πιθανοφάνεια των ακολουθιών θML=argmaxP(x|θ)

... και οι απαντήσεις τους Εκτίμηση Αλγόριθμος FORWARD, αλγόριθμος δυναμικού προγραμματισμού, που υπολογίζει την συνολική πιθανότητα της ακολουθίας, χωρίς να διέλθει από όλα τα δυνατά μονοπάτια (αλληλουχίες καταστάσεων). Αποκωδικοποίηση Αλγόριθμος του VITERBI, αλγόριθμος δυναμικού προγραμματισμού, που μέσω αναδρομής (recursion) υπολογίζει την πιο πιθανή αλληλουχία καταστάσεων για τη δεδομένη ακολουθία και το δεδομένο μοντέλο. (Εναλλακτικά NBEST). Εκπαίδευση Αλγόριθμος των BAUM-WELCH (η αλλιώς FORWARD-BACKWARD), ειδική περίπτωση του αλγόριθμου ΕΜ (Expectation-Maximization), ο οποίος χειρίζεται τα δεδομένα σαν δεδομένα με ελλειπής τιμές (missing values) και υπολογίζει Ε.Μ.Π. για τις παραμέτρους του μοντέλου (Εναλλακτικά Gradient Descent).

Αλγόριθμος Forward

Αλγόριθμος Viterbi

Αποκωδικοποίηση forward

“Εκ των υστέρων” αποκωδικοποίηση Εναλλακτικά μπορεί να υπολογισθεί η πιθανότητα: δηλαδή, η εκ των υστέρων πιθανότητα το συγκεκριμμένο νουκλεοτίδιο να προήλθε απο μια κατάσταση Κάνοντας χρήση των Forward και Backward:

Πλεονεκτήματα: στις περιπτώσεις που τα εναλλακτικά μονοπάτια έχουν πολύ μικρές διαφορές στις προβλεπόμενες πιθανότητες. όταν μια κατάσταση έχει πολύ μικρή πιθανότητα και το μονοπάτι με την μέγιστη πιθανότητα, δεν την «επισκέπτεται» ποτέ. Μειονεκτήματα: Μπορεί να προβλεφθεί μια πιθανότητα η οποία δεν είναι έγκυρη για το μοντέλο (μια μη επιτρεπτή μετάβαση).

Συνοπτικά ο αλγόριθμος Υπολογισμός των Α και Ε Υπολογισμός των ΕΜΠ Επανάληψη μέχρι να συγκλίνει

Ένα παράδειγμα...

συνέχεια... Πιθανότητες μεταβάσεως: 1 0 0.90 0.10 0.10 0.90 1 1 0 0.90 0.10 0.10 0.90 Πιθανότητες γεννήσεως : Α Τ G C 0.70 0.10 0.10 0.10 0.25 0.25 0.25 0.25 1 1

συνέχεια... Έστω μια ακολουθία DNA, η οποία προέρχεται από το παραπάνω μοντέλο: AAACAAGAATGCGCACACTACGCAAAAACAATTAGTCGCACTCACGATGAAACAAATTACCACGGTGAA 111111111100000000000001111111111100000000000000111111110000000000001   AACGAATAAACCTCAGAGGCCCAGCGTATATAAACAAGATAAAAACCTAGTCAGCACTCTGACCAGACG 111111111100000000000000000000011111111111111100000000000000000000000 AGCTCACGACTTGAGGATAAGAAAAAAACAACAGCTCACGACTTGAGGATAAGAAAAAAACA 00000000000000001111111111111100000000000000000011111111111111

συνέχεια...

συνέχεια... Πιθανότητες μεταβάσεως: 1 0 0.98 0.02 0.03 0.97 Αν όμως οι πιθανότητες μεταβάσεως άλλαζαν: Πιθανότητες μεταβάσεως: 1 0 0.98 0.02 0.03 0.97 Πιθανότητες γεννήσεως : Α Τ G C 0.60 0.10 0.10 0.10 0.25 0.25 0.25 0.25 1 1

συνέχεια...

Posterior-Viterbi decoding Ορίζονται οι επιτρεπτές μεταβάσεις:

Optimal Accuracy Posterior Decoding Παραλλαγή του Posterior-Viterbi, η οποία υπολογίζει το μονοπάτι: Συνολικά:

Άλλες εφαρμογές Fold recognition Threading Domain recognition

Fold recognition

Threading Protein threading is the problem of aligning a protein sequence whose structure we want to elucidate (the target protein) with a protein sequence whose structure is known (the template protein) in such a way that mapping residues of the target onto a template according to the alignment affords an accurate model of the backbone structure of the target.

Domain recognition

Transformational Grammars “Colourless green ideas sleep furiously” Chomsky

A transformational grammar consists of a number of symbols and a number of rewriting rules (productions) of the form: a→b, where a and b are both strings of symbols. i.e.: C → cN, C → E There are two types of symbols: -abstract nonterminal symbols -terminal (observable) symbols)

Production rules Regular grammars: only productions of the form W →aW or W →a Context-free grammars: productions of the form W →β. Left: just one non-terminal, right: any string Context-sensitive grammars: productions of the form α1Wα2 →a1βa2 Unrestricted grammars: any production of the form α1Wα2 →γ W: any non terminal, a: any terminal, α, γ: any string of nonterminals and/or terminals including null string β: any string of nonterminals and/or terminals not including null string

Regular Expressions [RK]-G-{EDRKHPCG}-[AGSCI]-[FY]-[LIVA]-x-[FYM]

Ισοδυναμία… S → rW1|kW1 W1 → gW2 W2 → [afilmnqrstvwy]W3 W3 → [agsci]W4 W4 → fW5|yW5 W5 → lW6|iW6|vW6|aW6 W6 → [acdefghiklmnpqrstvwy]W7 W7 → f|y|m [RK]-G-{EDRKHPCG}-[AGSCI]-[FY]-[LIVA]-x-[FYM]

Stochastic Grammars? …the notion “probability of a sentence” is an entirely useless one, under any known interpretation of this term. — Noam Chomsky (famed linguist) Every time I fire a linguist, the performance of the recognizer improves. — Fred Jelinek (former head of IBM speech recognition group)

HMMs and Regular grammars

Modeling (allowed) transitions explicitly: B → L | F | E L → L | F | E In the notation of the grammars, these are the nonterminal symbols Modeling emission explicitly (no probab. here): in state F: a | c | g | t in state L: a | c | g | t In the notation of the grammars, these are the terminal symbols

Όλα μαζί… Together: Modelling each combination of state and transition explicitly: B → aL | cL | gL | tL | aF | cF | gF | tF | E L → aL | cL | gL | tL | aF | cF | gF | tF | E F → aL | cL | gL | tL | aF | cF | gF | tF | E P( B → aL ) = P(B) * P(a|L) P( L → aF ) = P(F| L) *P(a|F) These are the – so called – rewriting rules

That‘s all we need to define a stochastic regular grammar ! Finite alphabet of terminal symbols (a,c,g,t) Finite set of nonterminal symbols (B,L,F,E) A set of rewriting rules (B -> aF, L -> cF, ...) Probabilities P(B->aL) …

Hidden states Non-terminals Transition matrix Rewriting rules Emission matrix Terminals Probabilities

Example: possible regular grammar N → aF | cF | gF | tF | aL | cL | gL | tL | E 0,1 0,1 0,3 ... B → aF | cF | gF | tF | aL | cL | gL | tL | E 0,2 0,1 0,2 ... C → aF | cF | gF | tF | aL | cL | gL | tL | E 0,1 0,3 0,2 ... An example derivation from the above grammar is: B → aF → aaL → aacL → aactF → aactE Finite State Automata: Meale, Moore

Αδυναμίες των Regular Grammars Regular language a b a a a b Palindrome language a a b b a a Copy language a a b a a b

Παλίνδρομες Γλώσσες “ΝΙΨΟΝ ΑΝΟΜΗΜΑΤΑ ΜΗ ΜΟΝΑΝ ΟΨΙΝ.” “Doc, note. I dissent. A fast never prevents a fatness. I diet on cot.” RNA secondary structure aggccuaaauagaucuag... ((()))...(((())))....

Context-free grammars Στο context-free grammar, στο αριστερό σκέλος πρέπει να έχουμε ένα και μόνο non-terminal, αλλά στο αριστερό οποιόνδήποτε συνδυασμό terminal και non-terminal S →aSa|bSb|aa|bb S⇒aSa ⇒aaSaa ⇒aabSbaa ⇒aabaabaa To parsing γίνεται με τα Push-down automata

Context-free grammars for RNA

Chomsky Normal form W1→W2W3 or W1→a Κάθε γραμματική μπορεί να πάρει τη μορφή αυτή Ιδιαίτερα χρήσιμη για τους αλγορίθμους

Stochastic Context-free grammars (SCFGs) Σε κάθε κανόνα ανατίθεται μια πιθανότητα Βασικό πλεονέκτημα, η προφανής επέκταση και εκλέπτυνση των αποτελεσμάτων (όπως για παράδειγμα από Regular expression σε ΗΜΜ) Παράδειγμα: Μπορεί να επιτρέπουμε (με διαφορετικές, και μικρές πιθανότητες) το «λαθεμένο» ζευγάρωμα G-U, C-A

Τα βασικά ερωτήματα σε ένα SCFG Πως θα επιτύχουμε την καλύτερη στοίχιση μιας ακολουθίας με μια γραμματική (alignment-parsing problem) Υπολογισμός της πιθανότητας μιας ακολουθίας δεδομένης μιας γραμματικής (scoring problem) Εύρεση των καλύτερων παραμέτρων μιας γραμματικής αν υπάρχουν γνωστά παραδείγματα (training problem)

Οι απαντήσεις τους Cocke-Younger-Kasami (CYK) algorithm ⇒Αντίστοιχος του Viterbi στα ΗΜΜ Inside (outside) algorithm ⇒ Αντίστοιχος του Forward (Backward) Inside-Outside algorithm⇒ Αντίστοιχος του Baum-Welch (Forward-Backward)

Αντιστοιχίες… Στόχος ΗΜΜ SCFG Βέλτιστη στοίχιση Viterbi CYK P(x|θ) Forward Inside EM algorithm Baum-Welch Inside-Outside Memory complexity O(LM) O(L2M) Time complexity O(LM2) O(L3M3)

Άλλες προσεγγίσεις Nusinov algorithm Μεγιστοποιεί το σύνολο των ζευγαριών βάσεων Zuker algorithm Μεγιστοποιεί μια συνάρτηση ενέργειας (ΔG), η οποία αποδίδει καλύτερα Και οι δυο αλγόριθμοι, μπορούν να γραφούν σε μια ίσοδύναμη μορφη SCFG

Ειδικές περιπτώσεις

Περιπτώσεις pseudoknots Απαιτούνται ειδικές τροποποιήσεις για να ενσωματωθούν σε ένα SCFG

Επεκτάσεις ΗΜΜ→profile HMM SCFG→Covariance Model (CM) Eddy and Durbin, 1994

Τι γίνεται με τις πρωτεΐνες?

Παραλλαγές Ranked Node Rewriting Grammar (RNRG) Multi-Tape S-Attributed Grammars (MTSAG)

Ranked Node Rewriting Grammar (RNRG)

Ranked Node Rewriting Grammar (RNRG)

Multi-Tape S-Attributed Grammars (MTSAG)

Αποτελέσματα Prediction of Bacteriorhodopsin (1AP9) QAQITGRPEWIWLALGTALMGLGTLYFLVKGMGVSDPDAKKFYAITTLVPAIAFTMYLSMLLGYGLTMVPFGGEQNPIYWARYADWLFTTPLLLLDLALLVDAD .......TTHHHHHHHHHHHTTHHHHHHHHSS..S.HHHHHHHHHHHHTHHHHHHHHHHHHTT.....SSS.SSS....STTHHHHTTTHHHHTTTTSTTTT.. .........MMMMMMMMMMMMMMMMMMMMMMMMMM......PMMPMMPPMMPPMMPPMMPMMPMMPMMP........PPMPPMPPMPPMPPMMPPMPPMPP... .........PMMPMMPMMPMMPMMPMMPPMMPMMP......PMMPMMPPMMPPMMPPMMPPMMPPMMPP........PPMPPMPPMPPMPPMPPMMPMMPP... QGTILALVGADGIMIGTGLVGALTKVYSYRFVWWAISTAAMLYILYVLFFGFTSKAESMRPEVASTFKVLRNVTVVLWSAYPVVWLIGSEGAGIVPLNIETLLF HHHHHHHHHHHHHHHHHHHHHHS..SSS.HHHHHHHHHHHHHHHHHHHTTTTTTT..TT.SHHHHTTHHHHHHHHHHHHHHHHHHTTTTSSSSSS.SHHHHHHH PPMPPMPPMPPMPPMMPMMPMMP.....PMMPMMPMMPMMPMMPPMMPPMPP..........PPMMPMMPMMPMMPMMPPMMPPMMP......PPMMPPMMPPM PMMPPMPPMPPMMPMMPMMPMMP.....PMMPMMPMMPMMPPMPPMMPPMMP..........PMMPMMPPMMPMMPPMMPPMPPMPP......MMMMMMMMMMM MVLDVSAKVGFGLILLRSRAIFGEAEAPEPSAGDGAAATS HHHHHHHTHHHHTTTT........................ MPPMPPMMPMMPMMPP........................ MMMMMMMMMMMMMMMM........................ P residues brought into conctact by the helix pairing Mresidues exposed to the membrane environment

Software INFERNAL RNACAD CONUS http://infernal.wustl.edu/ RNACAD http://www.cse.ucsc.edu/~mpbrown/rnacad/ CONUS http://www.genetics.wustl.edu/eddy/people/robin/conus/ PKNOTS ftp://ftp.genetics.wustl.edu/pub/eddy/software/pknots.tar.gz mtsag2c http://bioweb.pasteur.fr/docs/doc-gensoft/mtsag2c/ RNAUI http://www.uga.edu/RNA-Informatics/software/rnaui0_2.tar