Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

HMM. Περιγραφή ενός HMM N – πλήθος καταστάσεων –Q = {q 1, q 2, …,q T } - set καταστάσεων M – πλήθος συμβόλων (παρατηρήσεις) –O = {o 1, o 2, …,o T } -

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "HMM. Περιγραφή ενός HMM N – πλήθος καταστάσεων –Q = {q 1, q 2, …,q T } - set καταστάσεων M – πλήθος συμβόλων (παρατηρήσεις) –O = {o 1, o 2, …,o T } -"— Μεταγράφημα παρουσίασης:

1 HMM

2 Περιγραφή ενός HMM N – πλήθος καταστάσεων –Q = {q 1, q 2, …,q T } - set καταστάσεων M – πλήθος συμβόλων (παρατηρήσεις) –O = {o 1, o 2, …,o T } - set συμβόλων

3 Περιγραφή ενός HMM A – Πίνακας πιθανοτήτων μετάβασης –a ij = P(q t+1 = j|q t = i) B- κατανομή πιθανοτήτων παρατήρησης –b j (k) = P(o t = k|q t = j) i ≤ k ≤ M π – κατανομή αρχικών καταστάσεων

4 Περιγραφή ενός HMM Άρα ένα HMM περιγράφεται πλήρως από την τριάδα: –λ = (A,B,π)

5 5 Markov Chains Sunny Rain Cloudy State transition matrix : The probability of the weather given the previous day's weather. Initial Distribution : Defining the probability of the system being in each of the states at time 0. States : Three states - sunny, cloudy, rainy.

6 6 Hidden Markov Models Hidden states : the (TRUE) states of a system that may be described by a Markov process (e.g., the weather). Observable states : the states of the process that are `visible' (e.g., seaweed dampness).

7 7 Components of HMM Output matrix : containing the probability of observing a particular observable state given that the hidden model is in a particular hidden state. Initial Distribution : contains the probability of the (hidden) model being in a particular hidden state at time t = 1. State transition matrix : holding the probability of a hidden state given the previous hidden state.

8 Προβλήματα μοντελοποίησης με HMM Πρόβλημα 1 Αξιολόγηση: –Πιθανότητα εμφάνισης της συγκεκριμένης ακολουθίας παρατήρησης, O = {o 1,…,o k }, δεδομένου του μοντέλου –P(O|λ) –Πολύπλοκο– κρυφές καταστάσεις –Χρήσιμο στο classification ακολουθιών

9 9 Problems With HMM Scoring problem: Given an existing HMM and observed sequence, what is the probability that the HMM can generate the sequence

10 Προβλήματα μοντελοποίησης με HMM Πρόβλημα 2 Αποκωδικοποίηση: –Βέλτιστη ακολουθία καταστάσεων για την παραγωγή δεδομένων παρατηρήσεων, O = {o 1,…,o k }, δεδομένου του μοντέλου –Κριτήριο βελτιστοποίησης –Χρήσιμο σε προβλήματα αναγνώρισης

11 11 Problems With HMM Alignment Problem Given a sequence, what is the optimal state sequence that the HMM would use to generate it

12 Προβλήματα μοντελοποίησης με HMM Πρόβλημα 3 Μάθηση: –Καθορίστε το βέλτιστo μοντέλο, λαμβάνοντας υπόψη τις παρατηρήσεις του συνόλου εκπαίδευσης –Βρες λ, τέτοιο ώστε η P(O|λ) να μεγιστοποιείται

13 Πρόβλημα 1: απλοϊκή λύση Ακολουθία καταστάσεων Q = (q 1,…q T ) Υποθέτουμε ανεξάρτητες παρατηρήσεις: Οι παρατηρήσεις είναι ανεξάρτητες μεταξύ τους, δεδομένων των κρυμμένων καταστάσεων. (Η κοινή κατανομή των ανεξάρτητων μεταβλητών παραγοντοποιείται στις κατανομές των ανεξάρτητων μεταβλητών.)

14 Πρόβλημα 1: απλοϊκή λύση Παρατηρήστε ότι: και:

15 Πρόβλημα 1: απλοϊκή λύση Τελικά: -Το πιο πάνω άθροισμα αφορά όλα τις διαδρομές καταστάσεων -Υπάρχουν N T διαδρομές καταστάσεων, όπου η καθεμία ‘κοστίζει’ O(T) υπολογισμούς, που δίνει πολυπλοκότητα O(TN T )

16 Πρόβλημα 1: Αποτελεσματική λύση Ορίζουμε βοηθητική forward μεταβλητή α: α t (i) είναι η πιθανότητα παρατήρησης της μερικής ακολουθίας των παρατηρήσεων o 1,…o t ώστε τη στιγμή t, η κατάσταση q t =i Forward αλγόριθμος:

17 Πρόβλημα 1: Αποτελεσματική λύση Αναδρομικός αλγόριθμος: –Αρχικοποίηση: –Υπολογισμός: Πολυπλοκότητα O(N 2 T)

18 Πρόβλημα 1: Εναλλακτική λύση Ορίζουμε βοηθητική μεταβλητή β: Backward αλγόριθμος:  t (i) είναι η πιθανότητα παρατήρησης της ακολουθίας των παρατηρήσεων o t+1,…,o T δεδομένου τη στιγμή t, η κατάσταση q t =i

19 Αναδρομικός αλγόριθμος: –Αρχικοποίηση: –Υπολογισμός: Πολυπλοκότητα O(N 2 T) Πρόβλημα 1: Εναλλακτική λύση

20 Πρόβλημα 2: Αποκωδικοποίηση Επιλέγουμε ακολουθία καταστάσεων για τη μεγιστοποίηση της πιθανότητας της ακολουθίας παρατήρησης Ο Viterbi είναι επαγωγικός αλγόριθμος που κρατά την καλύτερο ακολουθία καταστάσεων σε κάθε περίπτωση

21 Πρόβλημα 2: Αποκωδικοποίηση Ακολουθία καταστάσεων που μεγιστοποιεί το P(O,Q| ): Ορίζουμε βοηθητική μεταβλητή δ : Viterbi αλγόριθμος: δ t (i) το πιο πιθανό μονοπάτι που λήγει στην κατάσταση q t =i

22 Πρόβλημα 2: Αποκωδικοποίηση Αναδρομή: Αλγόριθμος: –1. Αρχικοποίηση: Για να πάρουμε την ακολουθία κατάστασεων, πρέπει να παρακολουθούμε τα ορίσματα που τη μεγιστοποιούν, για κάθε t και j. Γίνεται μέσω του πίνακα ψ t (j).

23 Πρόβλημα 2: Αποκωδικοποίηση –2. Αναδρομή: –3. Τερματισμός: P*: δίνει τη βέλτιστη πιθανότητα ως προς την κατάσταση Q* βέλτιστη ακολουθία (Q* = {q1*,q2*,…,qT*})

24 Πρόβλημα 2: Αποκωδικοποίηση –4. Backtrack ακολουθία: O(N 2 T) πολυπλοκότητα

25 Πρόβλημα 3: Μάθηση Εκπαίδευση του HMM ώστε να κωδικοποιήσει ακολουθίες παρατηρήσεων ώστε να εντοπίσει μια παρόμοια ακολουθία στο μέλλον Εύρεση λ=(A,B,π), που μεγιστοποιεί το P(O|λ) Αλγόριθμος: –Αρχικοποίηση: λ 0 –Υπολογίζουμε νέο μοντέλο λ, χρησιμοποιώντας τα λ 0 και O –λ0λ–λ0λ –Επαναλαμβάνουμε τη διαδικασία εώς:

26 Πρόβλημα 3: Μάθηση Έστω ξ(i,j) η πιθανότητα να είμαστε στην κατάσταση i τη στιγμή t και τη j όταν t+1, δεδομένου των λ και O Baum-Welch αλγόριθμος Βήμα 1:

27 Πρόβλημα 3: Μάθηση Δραστηριότητες που απαιτούνται για τον υπολογισμό της κοινής περίπτωση που το σύστημα βρίσκεται στην κατάσταση Si για t και Sj για t+1

28 Πρόβλημα 3: Μάθηση Έστω γ t (i) η πιθανότητα να είμαστε στην κατάσταση i τη στιγμή t, δεδομένου του O - αναμενόμενο πλήθος μεταβάσεων από i - αναμενόμενο πλήθος μεταβάσεων

29 Πρόβλημα 3: Μάθηση αναμενόμενη συχνότητα κατάστασης i για t=1 Αναλογία αναμενομένων μεταβάσεων από την κατάσταση i στην j προς αναμενόμενες μεταβάσεις από i Αναλογία αναμενόμενο πλήθος φορών που στην κατάσταση j παρατηρείται το k προς πλήθος φορών στη j Baum-Welch αλγόριθμος Βήμα 2:

30 Πρόβλημα 3: Μάθηση Baum-Welch αλγόριθμος χρησιμοποιεί τους forward και backward αλγορίθμους για τον υπολογισμό των βοηθητικών μεταβλητών α, β Ο BW είναι μια ειδική περίπτωση του αλγορίθμου EM: –E-βήμα: υπολογισμός των ξ και γ –M-βήμα: επαναληπτικός υπολογισμός των Πρακτικά ζητήματα: –Μπορεί να κολλήσει σε τοπικά μέγιστα

31 31 HMMs in Biology Gene finding and prediction Protein-Profile Analysis Secondary Structure prediction Advantages Limitations

32 32 Protein mRNA DNA transcription translation CCTGAGCCAACTATTGATGAA PEPTIDEPEPTIDE CCUGAGCCAACUAUUGAUGAA Relationship Between DNA, RNA And Proteins

33 33 Protein Structure Primary Structure of Proteins The primary structure of peptides and proteins refers to the linear number and order of the amino acids present.

34 34 Protein Structure Secondary Structure Protein secondary structure refers to regular, repeated patters of folding of the protein backbone. How a protein folds is largely dictated by the primary sequence of amino acids

35 35 What is a (protein-coding) gene? Protein mRNA DNA transcription translation CCTGAGCCAACTATTGATGAA PEPTIDEPEPTIDE CCUGAGCCAACUAUUGAUGAA

36 36 In more detail (color ~state) (Removed) (Left)

37 37 Gene Finding HMMs Our Objective: –To find the coding and non-coding regions of an unlabeled string of DNA nucleotides Our Motivation: –Assist in the annotation of genomic data produced by genome sequencing methods –Gain insight into the mechanisms involved in transcription, splicing and other processes

38 38 Why HMMs Classification: Classifying observations within a sequence Order: A DNA sequence is a set of ordered observations Grammar : Our grammatical structure (and the beginnings of our architecture) is right here: Success measure: # of complete exons correctly labeled Training data: Available from various genome annotation projects

39 HMMs for gene finding An HMM for unspliced genes. x : non-coding DNA c : coding state Training - Expectation Maximization (EM) Parsing – Viterbi algorithm

40 40 Protein Profile HMMs Motivation –Given a single amino acid target sequence of unknown structure, we want to infer the structure of the resulting protein. Use Profile Similarity What is a Profile? –Proteins families of related sequences and structures –Same function –Clear evolutionary relationship –Patterns of conservation, some positions are more conserved than the others

41 41 Aligned Sequences Build a Profile HMM (Training) Database search Multiple alignments (Viterbi) Query against Profile HMM database (Forward) An Overview

42 A HMM model for a DNA motif alignments, The transitions are shown with arrows whose thickness indicate their probability. In each state, the histogram shows the probabilities of the four bases. ACA - - - ATG TCA ACT ATC ACA C - - AGC AGA - - - ATC ACC G - - ATC Building – from an existing alignment Transition probabilities Output Probabilities insertion

43 43 Given HMM, M, for a sequence family, find all members of the family in data base. LL – score LL(x) = log P(x|M) (LL score is length dependent – must normalize or use Z-score) Database Searching

44 Consensus sequence: P (ACACATC) = 0.8x1 x 0.8x1 x 0.8x0.6 x 0.4x0.6 x 1x1 x 0.8x1 x 0.8 = 4.7 x 10 -2 Suppose I have a query protein sequence, and I am interested in which family it belongs to? There can be many paths leading to the generation of this sequence. Need to find all these paths and sum the probabilities. ACAC - - ATC Query a new sequence

45 45 Multiple Alignments Try every possible path through the model that would produce the target sequences –Keep the best one and its probability. –Output : Sequence of match, insert and delete states Viterbi alg. Dynamic Programming

46 46 Building – unaligned sequences Baum-Welch Expectation-maximization method –Start with a model whose length matches the average length of the sequences and with random output and transition probabilities. –Align all the sequences to the model. –Use the alignment to alter the output and transition probabilities –Repeat. Continue until the model stops changing By-product: It produced a multiple alignment

47 47 PHMM Example An alignment of 30 short amino acid sequences chopped out of a alignment of the SH3 domain. The shaded area are the most conserved and were represented by the main states in the HMM. The unshaded area was represented by an insert state.SH3 domain

48 48 Prediction of Protein Secondary structures Prediction of secondary structures is needed for the prediction of protein function. Analyze the amino-acid sequences of proteins Learn secondary structures –helix, sheet and turn Predict the secondary structures of sequences

49 49 Advantages Characterize an entire family of sequences. Position-dependent character distributions and position-dependent insertion and deletion gap penalties. Built on a formal probabilistic basis Can make libraries of hundreds of profile HMMs and apply them on a large scale (whole genome)

50 Demos Speech synthesis http://www.cstr.ed.ac.uk/projects/festival/onlinedemo.html


Κατέβασμα ppt "HMM. Περιγραφή ενός HMM N – πλήθος καταστάσεων –Q = {q 1, q 2, …,q T } - set καταστάσεων M – πλήθος συμβόλων (παρατηρήσεις) –O = {o 1, o 2, …,o T } -"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google