Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός Παντελής Μπάγκος.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός Παντελής Μπάγκος."— Μεταγράφημα παρουσίασης:

1 ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός Παντελής Μπάγκος

2 Δυναμικός Προγραμματισμός Στοίχιση (τοπική-ολική) RNA secondary structure prediction Διαμεμβρανικά τμήματα Hidden Markov Models Άλλες εφαρμογές

3 Στοίχιση Ολική Τοπική Ειδικές περιπτώσεις

4 Δυναμικός προγραμματισμός

5 Δυο περιπτώσεις στοιχίσεων F(i,0)=-id, F(0,j)=-jd F(i,0)=0, F(0,j)=0

6 Ποινές για τα κενά (gap penalties) Απλή ποινή για τα κενά: Σύνθετη ποινή για τα κενά:

7 Παράδειγμα d=1d=1 A A G T – T A G C A G C A G T A T C G C A - Έστω δυο ακολουθίες: Αν έχουμε για τα κενά: Τότε η καλύτερη ολική στοίχιση θα είναι:

8 Ολική στοίχιση… A A G T – T A G C A G C A G T A T C G C A -

9 Τοπική στοίχιση… A G T – T A G C A A G T A T C G C A

10 Άλλοι αλγόριθμοι Υπάρχουν επίσης ειδικές περιπτώσεις στοίχισης (π.χ. προσαρμογή) Θέλουμε δηλαδή να εντοπίσουμε, μια μικρή ακολουθία αν συναντάται σε μια μεγαλύτερη Έστω ότι θέλουμε να ανιχνεύσουμε αν στην αλληλουχία του γονιδίου lacI της E.coli υπάρχει η γνωστή αλληλουχία του υποκινητή (promoter). Έστω ακόμα ότι το τμήμα του γονιδίου έχει αλληλουχία: και η αλληλουχία του υποκινητή είναι

11 συνέχεια… F(i,0)=-id F(0,j)=0.

12 C A T G A T Και η ακολουθία του πιθανού υποκινητή είναι:

13 RNA secondary structure prediction

14 Nussinov

15

16 Διαμεμβρανικά τμήματα

17

18

19

20

21 Τα 3 βασικά ερωτήματα σε ένα ΗΜΜ... Εκτίμηση Δεδομένου του μοντέλου, πως θα υπολογίσουμε την ολική πιθανότητα μιας ακολουθίας συμβόλων. P(x|θ) Αποκωδικοποίηση Πως θα βρούμε την πιο πιθανή αλληλουχία καταστάσεων (path) από την οποία έχει διέλθει το μοντέλο, για να δώσει την συγκεκριμμένη ακολουθία συμβόλων. Εκπαίδευση Πως θα τροποποιήσουμε τις παραμέτρους του μοντέλου, έτσι ώστε να μεγιστοποιηθεί η συνολική πιθανοφάνεια των ακολουθιών θ ML =argmaxP(x|θ)

22 ... και οι απαντήσεις τους Εκτίμηση Αλγόριθμος FORWARD, αλγόριθμος δυναμικού προγραμματισμού, που υπολογίζει την συνολική πιθανότητα της ακολουθίας, χωρίς να διέλθει από όλα τα δυνατά μονοπάτια (αλληλουχίες καταστάσεων). Αποκωδικοποίηση Αλγόριθμος του VITERBI, αλγόριθμος δυναμικού προγραμματισμού, που μέσω αναδρομής (recursion) υπολογίζει την πιο πιθανή αλληλουχία καταστάσεων για τη δεδομένη ακολουθία και το δεδομένο μοντέλο. (Εναλλακτικά NBEST). Εκπαίδευση Αλγόριθμος των BAUM-WELCH (η αλλιώς FORWARD-BACKWARD), ειδική περίπτωση του αλγόριθμου ΕΜ (Expectation-Maximization), ο οποίος χειρίζεται τα δεδομένα σαν δεδομένα με ελλειπής τιμές (missing values) και υπολογίζει Ε.Μ.Π. για τις παραμέτρους του μοντέλου (Εναλλακτικά Gradient Descent).

23 Αλγόριθμος Forward

24

25

26 Αλγόριθμος Viterbi

27 Αποκωδικοποίηση forward

28 “Εκ των υστέρων” αποκωδικοποίηση Εναλλακτικά μπορεί να υπολογισθεί η πιθανότητα: δηλαδή, η εκ των υστέρων πιθανότητα το συγκεκριμμένο νουκλεοτίδιο να προήλθε απο μια κατάσταση Κάνοντας χρήση των Forward και Backward:

29 Πλεονεκτήματα: στις περιπτώσεις που τα εναλλακτικά μονοπάτια έχουν πολύ μικρές διαφορές στις προβλεπόμενες πιθανότητες. όταν μια κατάσταση έχει πολύ μικρή πιθανότητα και το μονοπάτι με την μέγιστη πιθανότητα, δεν την «επισκέπτεται» ποτέ. Μειονεκτήματα: Μπορεί να προβλεφθεί μια πιθανότητα η οποία δεν είναι έγκυρη για το μοντέλο (μια μη επιτρεπτή μετάβαση).

30 Συνοπτικά ο αλγόριθμος Υπολογισμός των Α και Ε Υπολογισμός των ΕΜΠ Επανάληψη μέχρι να συγκλίνει

31 Ένα παράδειγμα...

32 συνέχεια... Πιθανότητες μεταβάσεως: Πιθανότητες γεννήσεως : Α Τ G C

33 συνέχεια... AAACAAGAATGCGCACACTACGCAAAAACAATTAGTCGCACTCACGATGAAACAAATTACCACGGTGAA AACGAATAAACCTCAGAGGCCCAGCGTATATAAACAAGATAAAAACCTAGTCAGCACTCTGACCAGACG AGCTCACGACTTGAGGATAAGAAAAAAACAACAGCTCACGACTTGAGGATAAGAAAAAAACA Έστω μια ακολουθία DNA, η οποία προέρχεται από το παραπάνω μοντέλο:

34 συνέχεια...

35 Αν όμως οι πιθανότητες μεταβάσεως άλλαζαν: Πιθανότητες μεταβάσεως: Πιθανότητες γεννήσεως : Α Τ G C

36 συνέχεια...

37 Posterior-Viterbi decoding Ορίζονται οι επιτρεπτές μεταβάσεις:

38 Optimal Accuracy Posterior Decoding Παραλλαγή του Posterior-Viterbi, η οποία υπολογίζει το μονοπάτι: Συνολικά:

39

40

41 Άλλες εφαρμογές Fold recognition Threading Domain recognition

42 Fold recognition

43 Threading Protein threading is the problem of aligning a protein sequence whose structure we want to elucidate (the target protein) with a protein sequence whose structure is known (the template protein) in such a way that mapping residues of the target onto a template according to the alignment affords an accurate model of the backbone structure of the target.

44 Domain recognition

45

46 Transformational Grammars “Colourless green ideas sleep furiously” Chomsky

47

48 A transformational grammar consists of a number of symbols and a number of rewriting rules (productions) of the form: a→b, where a and b are both strings of symbols. i.e.: C → cN, C → E There are two types of symbols: -abstract nonterminal symbols -terminal (observable) symbols)

49 Production rules Regular grammars: only productions of the form W →aW or W →a Context-free grammars: productions of the form W →β. Left: just one non-terminal, right: any string Context-sensitive grammars: productions of the form α 1 Wα 2 →a 1 βa 2 Unrestricted grammars: any production of the form α 1 Wα 2 →γ W: any non terminal, a: any terminal, α, γ: any string of nonterminals and/or terminals including null string β: any string of nonterminals and/or terminals not including null string

50

51 Regular Expressions [RK]-G-{EDRKHPCG}-[AGSCI]-[FY]-[LIVA]-x-[FYM]

52 Ισοδυναμία… S→rW 1 |kW 1 W 1 →gW 2 W 2 →[afilmnqrstvwy]W 3 W 3 →[agsci]W 4 W 4 →fW 5 |yW 5 W 5 →lW 6 |iW 6 |vW 6 |aW 6 W 6 →[acdefghiklmnpqrstvwy]W 7 W 7 →f|y|m [RK]-G-{EDRKHPCG}-[AGSCI]-[FY]-[LIVA]-x-[FYM]

53 Stochastic Grammars? …the notion “probability of a sentence” is an entirely useless one, under any known interpretation of this term. — Noam Chomsky (famed linguist) Every time I fire a linguist, the performance of the recognizer improves. — Fred Jelinek (former head of IBM speech recognition group)

54 HMMs and Regular grammars

55 Modeling (allowed) transitions explicitly: B → L | F | E L → L | F | E In the notation of the grammars, these are the nonterminal symbols Modeling emission explicitly (no probab. here): in state F: a | c | g | t in state L: a | c | g | t In the notation of the grammars, these are the terminal symbols

56 Όλα μαζί… Together: Modelling each combination of state and transition explicitly: B → aL | cL | gL | tL | aF | cF | gF | tF | E L → aL | cL | gL | tL | aF | cF | gF | tF | E F → aL | cL | gL | tL | aF | cF | gF | tF | E P( B → aL ) = P(B) * P(a|L) P( L → aF ) = P(F| L) *P(a|F) These are the – so called – rewriting rules

57 That‘s all we need to define a stochastic regular grammar ! Finite alphabet of terminal symbols (a,c,g,t) Finite set of nonterminal symbols (B,L,F,E) A set of rewriting rules (B -> aF, L -> cF,...) Probabilities P(B->aL) …

58 Hidden statesNon-terminals Transition matrixRewriting rules Emission matrixTerminals Probabilities

59 Example: possible regular grammar N → aF | cF | gF | tF | aL | cL | gL | tL | E 0,1 0,1 0,3... B → aF | cF | gF | tF | aL | cL | gL | tL | E 0,2 0,1 0,2... C → aF | cF | gF | tF | aL | cL | gL | tL | E 0,1 0,3 0,2... An example derivation from the above grammar is: B → aF → aaL → aacL → aactF → aactE Finite State Automata: Meale, Moore

60 Αδυναμίες των Regular Grammars Regular language a b a a a b Palindrome language a a b b a a Copy language a a b

61 “ΝΙΨΟΝ ΑΝΟΜΗΜΑΤΑ ΜΗ ΜΟΝΑΝ ΟΨΙΝ.” “Doc, note. I dissent. A fast never prevents a fatness. I diet on cot.” RNA secondary structure aggccuaaauagaucuag... ((()))...(((()))).... Παλίνδρομες Γλώσσες

62

63 Context-free grammars Στο context-free grammar, στο αριστερό σκέλος πρέπει να έχουμε ένα και μόνο non-terminal, αλλά στο αριστερό οποιόνδήποτε συνδυασμό terminal και non-terminal S →aSa|bSb|aa|bb S ⇒ aSa ⇒ aaSaa ⇒ aabSbaa ⇒ aabaabaa To parsing γίνεται με τα Push-down automata

64 Context-free grammars for RNA

65

66 Chomsky Normal form W 1 →W 2 W 3 or W 1 →a Κάθε γραμματική μπορεί να πάρει τη μορφή αυτή Ιδιαίτερα χρήσιμη για τους αλγορίθμους

67 Stochastic Context-free grammars (SCFGs) Σε κάθε κανόνα ανατίθεται μια πιθανότητα Βασικό πλεονέκτημα, η προφανής επέκταση και εκλέπτυνση των αποτελεσμάτων (όπως για παράδειγμα από Regular expression σε ΗΜΜ) Παράδειγμα: Μπορεί να επιτρέπουμε (με διαφορετικές, και μικρές πιθανότητες) το «λαθεμένο» ζευγάρωμα G-U, C-A

68 Τα βασικά ερωτήματα σε ένα SCFG 1.Πως θα επιτύχουμε την καλύτερη στοίχιση μιας ακολουθίας με μια γραμματική (alignment- parsing problem) 2.Υπολογισμός της πιθανότητας μιας ακολουθίας δεδομένης μιας γραμματικής (scoring problem) 3.Εύρεση των καλύτερων παραμέτρων μιας γραμματικής αν υπάρχουν γνωστά παραδείγματα (training problem)

69 Οι απαντήσεις τους 1.Cocke-Younger-Kasami (CYK) algorithm ⇒ Αντίστοιχος του Viterbi στα ΗΜΜ 2.Inside (outside) algorithm ⇒ Αντίστοιχος του Forward (Backward) 3.Inside-Outside algorithm ⇒ Αντίστοιχος του Baum-Welch (Forward-Backward)

70 Αντιστοιχίες… ΣτόχοςΗΜΜSCFG Βέλτιστη στοίχισηViterbiCYK P(x|θ)ForwardInside EM algorithmBaum-WelchInside-Outside Memory complexity O(LM)O(L 2 M) Time complexityO(LM 2 )O(L 3 M 3 )

71 Άλλες προσεγγίσεις Nusinov algorithm Μεγιστοποιεί το σύνολο των ζευγαριών βάσεων Zuker algorithm Μεγιστοποιεί μια συνάρτηση ενέργειας (ΔG), η οποία αποδίδει καλύτερα Και οι δυο αλγόριθμοι, μπορούν να γραφούν σε μια ίσοδύναμη μορφη SCFG

72 Ειδικές περιπτώσεις

73 Περιπτώσεις pseudoknots Απαιτούνται ειδικές τροποποιήσεις για να ενσωματωθούν σε ένα SCFG

74 Επεκτάσεις ΗΜΜ→profile HMM SCFG→Covariance Model (CM) Eddy and Durbin, 1994

75 Τι γίνεται με τις πρωτεΐνες?

76 Παραλλαγές Ranked Node Rewriting Grammar (RNRG) Multi-Tape S-Attributed Grammars (MTSAG)

77 Ranked Node Rewriting Grammar (RNRG)

78

79 Multi-Tape S-Attributed Grammars (MTSAG)

80

81

82 Αποτελέσματα Prediction of Bacteriorhodopsin (1AP9) QAQITGRPEWIWLALGTALMGLGTLYFLVKGMGVSDPDAKKFYAITTLVPAIAFTMYLSMLLGYGLTMVPFGGEQNPIYWARYADWLFTTPLLLLDLALLVDAD TTHHHHHHHHHHHTTHHHHHHHHSS..S.HHHHHHHHHHHHTHHHHHHHHHHHHTT.....SSS.SSS....STTHHHHTTTHHHHTTTTSTTTT MMMMMMMMMMMMMMMMMMMMMMMMMM......PMMPMMPPMMPPMMPPMMPMMPMMPMMP PPMPPMPPMPPMPPMMPPMPPMPP PMMPMMPMMPMMPMMPMMPPMMPMMP......PMMPMMPPMMPPMMPPMMPPMMPPMMPP PPMPPMPPMPPMPPMPPMMPMMPP... QGTILALVGADGIMIGTGLVGALTKVYSYRFVWWAISTAAMLYILYVLFFGFTSKAESMRPEVASTFKVLRNVTVVLWSAYPVVWLIGSEGAGIVPLNIETLLF HHHHHHHHHHHHHHHHHHHHHHS..SSS.HHHHHHHHHHHHHHHHHHHTTTTTTT..TT.SHHHHTTHHHHHHHHHHHHHHHHHHTTTTSSSSSS.SHHHHHHH PPMPPMPPMPPMPPMMPMMPMMP.....PMMPMMPMMPMMPMMPPMMPPMPP PPMMPMMPMMPMMPMMPPMMPPMMP......PPMMPPMMPPM PMMPPMPPMPPMMPMMPMMPMMP.....PMMPMMPMMPMMPPMPPMMPPMMP PMMPMMPPMMPMMPPMMPPMPPMPP......MMMMMMMMMMM MVLDVSAKVGFGLILLRSRAIFGEAEAPEPSAGDGAAATS HHHHHHHTHHHHTTTT MPPMPPMMPMMPMMPP MMMMMMMMMMMMMMMM P residues brought into conctact by the helix pairing Mresidues exposed to the membrane environment

83 Software INFERNAL RNACAD CONUS PKNOTS ftp://ftp.genetics.wustl.edu/pub/eddy/software/pknots.tar.gz mtsag2c RNAUI


Κατέβασμα ppt "ΒΙΟΠΛΗΡΟΦΟΡΙΚΗ ΙΙ Δυναμικός Προγραμματισμός Παντελής Μπάγκος."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google