Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Μηχανική μάθηση (Machine Learning).

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Μηχανική μάθηση (Machine Learning)."— Μεταγράφημα παρουσίασης:

1 Μηχανική μάθηση (Machine Learning)

2 Μηχανική Μάθηση “The field of study that gives computers the ability to learn without being explicitly programmed“ Arthur Samuel (1959) "A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E“ Tom M. Mitchell (1997)

3 Αλγόριθμοι Μηχανικής Μάθησης
Artificial Neural Networks (ANNs) Dynamic Bayesian Networks (DBNs) Support Vector Machines (SVMs) Decision Trees , Random Forests Conditional Random Fields Hidden Markov Models (HMMs) Hidden Neural Networks (HNNs)

4 Μηχανική Μάθηση Επιβλεπόμενη Μάθηση (Supervised Learning)
Στη µάθηση µε επίβλεψη το σύστηµα καλείται να "µάθει" µια έννοια ή συνάρτηση από ένα σύνολο δεδοµένων (labeled data), η οποία αποτελεί περιγραφή ενός µοντέλου. Μη επιβλεπόμενη Μάθηση (Unsupervised Learning) Στη µάθηση χωρίς επίβλεψη το σύστηµα πρέπει µόνο του να ανακαλύψει συσχετίσεις ή οµάδες σε ένα σύνολο δεδοµένων (unlabeled data), δηµιουργώντας πρότυπα, χωρίς να είναι γνωστό αν υπάρχουν, πόσα και ποια είναι. Μερικώς επιβλεπόμενη Μάθηση (Semi-supervised Learning) Το σύστημα σε αυτή την περίπτωση καλείται να μάθει τόσο από γνωστά δεδομένα (labeled data) όσο και από άγνωστα (unlabeled data). Μάθηση εννοιών στον Άνθρωπο!

5 Μηχανική Μάθηση "A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E“ Tom M. Mitchell (1997) Μοντέλο Παρατήρηση, ανάλυση του προβλήματος Σύνολο εκπαίδευσης Αντιπροσωπευτικό, αξιόπιστο Σύνολο ελέγχου Ανεξάρτητο από σύνολο εκπαίδευσης Δείκτες επιτυχίας Κατάλληλοι για την φύση του προβλήματος

6 Hidden Markov Models (HMMs)

7 Μαρκοβιανά Μοντέλα Εξάρτησης (Markov Models)
Πιθανοθεωρητικά (στοχαστικά) μοντέλα Η θεώρηση μιας ακολουθίας ενδεχομένων ως αλυσίδα Markov πολύ απλά στηρίζεται στην ιδέα ότι κάθε ένα από τα ενδεχόμενα εξαρτάται μόνο από το αμέσως προηγούμενό του, ή αλλιώς το κάθε ενδεχόμενο καθορίζει με κάποια πιθανότητα το αμέσως επόμενό του. Κατάλληλα μοντέλα για βιολογικές ακολουθίες, καθώς αντικατοπτρίζουν την έννοια της πληροφορίας που αυτές περιέχουν.

8 Μαρκοβιανά Μοντέλα Εξάρτησης (Markov Models)
Παραδείγματα από τις φυσικές γλώσσες (στα αγγλικά το Q ακολουθείται με μεγαλύτερη πιθανότητα από U, παρά από κάποιο άλλο). Ο Markov εμπνεύστηκε τις ομώνυμες αλυσίδες απο ένα ποίημα του Pushkin (Eugene Onegin). > γράμματα 57% σύμφωνα 43% φωνήεντα αλλά Φ --> Σ 87% Σ --> Φ 66% ``My uncle -- high ideals inspire him; but when past joking he fell sick, he really forced one to admire him – and never played a shrewder trick. Let others learn from his example! But God, how deadly dull to sample sickroom attendance night and day and never stir a foot away! ...”

9 Μαρκοβιανά Μοντέλα Εξάρτησης (Markov Models)

10 Μαρκοβιανά Μοντέλα Εξάρτησης (Markov Models)
ATTGTAATCTCACGGTGTACGCGCATGCACAGTCAGT

11 Μαρκοβιανά Μοντέλα Εξάρτησης (Markov Models)
States (καταστάσεις) Transitions (μεταβάσεις)

12 --------++++++++++------
Hidden Markov Models Αν φανταστούμε ένα καζίνο, το οποίο χρησιμοποιεί κάθε φορά με συγκεκριμένη πιθανότητα, ένα αμερόληπτο (fair) ζάρι και ένα μεροληπτικό (loaded) ζάρι. + = μεροληπτικό - = αμερόληπτο Ο παίχτης κάθε φορά γνωρίζει μόνο το αποτέλεσμα, και όχι την φύση του ζαριού. Το μοντέλο που μπορεί να περιγράψει αυτή την κατάσταση είναι το Hidden Markov Model, και ονομάζεται έτσι (κρυμμένο) γιατί πλέον δεν υπάρχει 1-1 αντιστοίχηση του αποτελέσματος, με την πραγματική κατάσταση.

13 Hidden Markov Models Ένα Hidden Markov Model (ΗΜΜ), αποτελείται από ένα σύνολο κρυφών καταστάσεων, ένα σύνολο παρατηρούμενων συμβόλων, και δυο σύνολα πιθανοτήτων, τις πιθανότητες μετάβασης και τις πιθανότητες εκπομπής (ή γεννήσεως). Observed symbols Hidden states ! Πρέπει να τονιστεί, ότι σε ένα ΗΜΜ η μαρκοβιανή ιδιότητα ισχύει για τις καταστάσεις του μοντέλου (states), και όχι για τα σύμβολα.

14 Αμερόληπτο ζάρι (FAIR)
Hidden Markov Models 0.95 0.9 1: 1/6 2: 1/6 3: 1/6 4: 1/6 5: 1/6 6: 1/6 1: 1/10 2: 1/10 3: 1/10 4: 1/10 5: 1/10 6: 1/2 0.05 0.1 Αμερόληπτο ζάρι (FAIR) Μεροληπτικό ζάρι (LOADED)

15

16

17

18 Τα 3 βασικά ερωτήματα σε ένα HMM . . .

19 . . . και οι απαντήσεις τους

20 Hidden Markov Models Ενα ΗΜΜ, αφού υπολογιστούν οι παραμέτροι του (πιθανότητες μεταβάσεως κλπ) απο ένα σύνολο πρωτεϊνών γνωστής δομής (training set), χρησιμοποιείται για την πρόγνωση-αποκωδικοποίηση, σε ένα σύνολο πρωτεϊνών άγνωστης δομής (test set). Οι μέθοδοι αποκωδικοποίησης, δηλαδή εύρεσης της αλληλουχίας των καταστάσεων εάν είναι γνωστή η αλληλουχία των συμβόλων, είναι βασικά 2, η αποκωδικοποίηση Viterbi, και η εκ των υστέρων αποκωδικοποίηση (posterior decoding). Συνήθως σε περιπτώσεις πολύπλοκων μοντέλων , είναι πιο χρήσιμη η εκ των υστέρων αποκωδικοποίηση.

21 Hidden Markov Models (πλεονεκτήματα)

22 Hidden Markov Models (εφαρμογές)

23 Hidden Markov Models A E K . L Y A E K . L Y A E K . L Y H C E

24 Hidden Markov Models

25 (αντιπροσωπευτικό, μη ομόλογο, labeled data)
Hidden Markov Models Σύνολο εκπαίδευσης (αντιπροσωπευτικό, μη ομόλογο, labeled data) >protein1 KRAIYPGTFDPITNGHIDIVTRATQMFDHVILAIAASPSKKPMFTLEERVALAQQAT CEEEEEECCCCCCHHHHHHHHHHHHHCCEEEEEEECCCCCCCCCCHHHHHHHHHHHC >protein2 NSTVVSNSELILNLTPIALAYTVQSLPLIATQPAWLGTIADNYSKWRWVSLRI CCEEEEEEEEEEECCEECCCCEEEEEECCCCCCHHHHHHHCCEEEEEEEEEEE . >protein200 MVSKLSQLQTELLAALLESGLSKEALIQALG CCCCCCHHHHHHHHHHHHCCCCHHHHHHHCC

26 (αντιπροσωπευτικό, μη ομόλογο, ανεξάρτητο από το σύνολο εκπαίδευσης !)
Hidden Markov Models Σύνολο ελέγχου (αντιπροσωπευτικό, μη ομόλογο, ανεξάρτητο από το σύνολο εκπαίδευσης !) >P MNNSTNSSNNSLALTSPYKTFEVVFIVLVAGSLSLVTIIGNILVMVSIKVNRHLQTVNNYFLFSLTNSSNNSLALTSPYKTFEVVFIVLVAGSLSLVTIIGNILVMVSIKVNRHLQTVNNYFLFSLACADLIIGVF >P MANFTPVNGSSGNQSVRLVTSSSHNRYETVEMVFIATVTGSLSLVTVVGNILVMLSIKVNRQLQTVNNYFLFSLA . >P MKGNSTLATTSKNITSKNITSKNITSKNITSKNITSGLHFGLVNISGNNESTLNCSQKPSDKHLDAIPILYYIIFVIGFLVNIVVVTLFCCQIVVVTLFCCQKGP

27 Hidden Markov Models

28 Hidden Markov Models

29 Hidden Markov Models (εφαρμογές)

30 Hidden Markov Models (εφαρμογές)

31 Hidden Markov Models (εφαρμογές)

32 Hidden Markov Models (εφαρμογές)

33 Hidden Markov Models (εφαρμογές)

34 Hidden Markov Models (εφαρμογές)

35 profile Hidden Markov Models (pHMMs)
Begin End k

36 profile Hidden Markov Models (pHMMs)
Ένα HMM με “left-to-right” αρχιτεκτονική (μονόδρομη κατεύθυνση των μεταβάσεων). Διαθέτει ειδικά states τα οποία δεν έχουν emissions (non-emitting states) Περιγράφουν στατιστικά μια πολλαπλή στοίχιση. Προτάθηκαν απο τους Hughey και Krogh (1996).

37 profile Hidden Markov Models (pHMMs)
Begin End k

38 profile Hidden Markov Models (pHMMs)
Ιδιαιτερότητες

39 profile Hidden Markov Models (pHMMs)

40 profile Hidden Markov Models (pHMMs)
Πλεονεκτήματα

41 profile Hidden Markov Models (pHMMs)

42 profile Hidden Markov Models (pHMMs)
Χρήσεις Πολλαπλή στοίχιση Κατασκευή χαρακτηριστικών profiles Εντοπισμός remote homologues Αναζητήσεις σε βάσεις δεδομένων

43 Software http://www.cfar.umd.edu/~kanungo/software/software.html
• HMMER – ( • SAM – ( pftools package – (

44 HMMER GNU license Ποικιλία εργαλείων Ανανεώνεται συνεχώς
Ευέλικτη αρχιτεκτονική Τρέχει σε όλες τις πλατφόρμες

45 HMMER hmmbuild: Πρόγραμμα με χρήση του οποίου, ξεκινώντας από μια αρχική πολλαπλή στοίχιση, κατασκευάζεται ένα μοντέλο ΗΜΜ το οποίο να την περιγράφει. hmmalign: Πρόγραμμα με το οποίο μια σειρά ακολουθιών οι οποίες προέρχονται από ένα ΗΜΜ, στοιχίζονται σε μια πολλαπλή στοίχιση. Η πολλαπλή στοίχιση, επιτυγχάνεται μέσω διαδοχικών στοιχίσεων των ακολουθιών με το μοντέλο. hmmsearch: Πρόγραμμα το οποίο, πραγματοποιεί αναζητήσεις ενός μοντέλου ΗΜΜ έναντι μιας βάσης ακολουθιών πρωτεϊνών. phmmer: Πρόγραμμα το οποίο πραγματοποιεί αναζήτηση μια πρωτεϊνικής αλληλουχίας έναντι μιας βάσης δεδομένων πρωτεϊνών (ανάλογο με το BLASTP) jackhmmer: Πρόγραμμα το οποίο πραγματοποιεί επαναληπτικές αναζητήσεις μια πρωτεϊνικής αλληλουχίας έναντι μιας βάσης δεδομένων πρωτεϊνών (ανάλογο με το PSI-BLAST) hmmscan: Πρόγραμμα με το οποίο πραγματοποιούνται αναζητήσεις μιας η περισσότερων ακολουθιών έναντι μιας βάσης δεδομένων από μοντέλα ΗΜΜ. Πρέπει να τονιστεί εδώ, ότι αν έχουμε μια ακολουθία και ένα ΗΜΜ, τα δυο παραπάνω προγράμματα επιστρέφουν ακριβώς το ίδιο αποτέλεσμα. Αν διαφέρουν, είτε οι ακολουθίες είτε τα μοντέλα, τότε δίνουν άλλο αποτέλεσμα, λόγω του διαφορετικού τρόπου υπολογισμού της στατιστικής σημαντικότητας.

46 HMMER nhmmer: Πρόγραμμα που πραγματοποιεί αναζήτηση μιας ακολουθίας DNA, μιας στοίχισης ή ενός pHMM, έναντι μιας βάσης ακολουθιών DNA. (ανάλογο με το BLASTN) nhmmscan: Πρόγραμμα που πραγματοποιεί αναζήτηση μιας ακολουθίας DNA έναντι μιας βάσης δεδομένων από DNA profile HMΜ. hmmconvert: Πρόγραμμα που μετατρέπει μοντέλα ΗΜΜ από και προς τη μορφή του HMMER3. hmmemit: Πρόγραμμα, με το οποίο ‘εκπέμπεται’ η καλύτερη (ανάλογα με τον ορισμό) ακολουθία η οποία θα μπορούσε να παραχθεί από το μοντέλο. hmmpress: Μετατρέπει μια βάση δεδομένων HMM σε δυαδικό κώδικα για το hmmscan. hmmstat: δείχνει συνοπτικά στατιστικά για μια βάση δεδομένων ΗΜΜ.

47 Lawrence R. Rabiner (February 1989)
Lawrence R. Rabiner (February 1989). A tutorial on Hidden Markov Models and selected applications in speech recognition. Proceedings of the IEEE 77 (2): 257–28 Airoldi EM (2007) Getting Started in Probabilistic Graphical Models. PLoS Comput Biol 3(12): e252. B. H. Juang, L. R. Rabiner. The segmental K-means algorithm for estimating parameters of hidden Markov models. IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 38, No B. Merialdo, Phonetic recognition using hidden Markov models and maximum mutual information training, in Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, 1988, pp. 111–114. Mamitsuka H. Supervised learning of hidden Markov models for sequence discrimination. Proceedings of the first annual international conference on Computational molecular biology.1997, Santa Fe, New Mexico, United State. Pages: R. Schlüter, W. Macherey, S. Kanthak, H. Ney, L. Welling, Comparison Of Optimization Methods For Discriminative Training Criteria. In In Proc. EUROSPEECH’97, Vol. 1 (1997), pp Pierre Baldi ,  Yves Chauvin. Smooth On-Line Learning Algorithms for Hidden Markov Models (1994) Neural Computation, 6 (2). pp   Anders Krogh. An Introduction to Hidden Markov Models for Biological Sequences. In Computational Methods in Molecular Biology, edited by S. L. Salzberg, D. B.Searls and S. Kasif, pages Elsevier, 1998 A. Krogh and S. K. Riis.  Hidden neural networks. Neural Computation, 11(2): , 1999. A. Krogh. Two methods for improving performance of a HMM and their application for gene finding. In T. Gaasterland, P. Karp, K. Karplus, C. Ouzounis, C. Sander, and A. Valencia, editors, Proceedings of the Fifth International Conference on Intelligent Systems for Molecular Biology, pages , Menlo Park, CA, AAAI Press. A. Krogh. Hidden Markov models for labeled sequences. In Proceedings of the 12th IAPR International Conference on Pattern Recognition, pages , Los Alamitos, California, October IEEE Computer Society Press. S. R. Eddy. Profile Hidden Markov Models. Bioinformatics, 14: , 1998. S. R. Eddy. Multiple Alignment Using Hidden Markov Models. In: Proc. Third Int. Conf. Intelligent Systems for Molecular Biology,  AAAI Press, 1995. L. Käll, A. Krogh, and E. L. Sonnhammer. An HMM posterior decoder for sequence feature prediction that includes homology information. Bioinformatics, 21(Suppl. 1):i251-i257, 2005. Piero Fariselli, Pier Luigi Martelli and Rita Casadio. A new decoding algorithm for hidden Markov models improves the prediction of the topology of all-beta membrane proteins.BMC Bioinformatics 2005, 6(Suppl 4):S12 Bagos PG, Liakopoulos TD, Hamodrakas SJ. Algorithms for incorporating prior topological information in HMMs: Application to transmembrane proteins. 2006, BMC Bioinformatics; 7:189 Bagos PG, Liakopoulos TD, Hamodrakas SJ. Faster Gradient Descent Training of Hidden Markov Models, Using Individual Learning Rate Adaptation. Proceedings of ICGI 2004 Lecture Notes In Artificial Intelligence, Vol. 3264, pp Bahl, L.  Brown, P.  de Souza, P.  Mercer, R. Maximum mutual information estimation of hidden Markov model parameters for speech recognition Proceedings of IEEE International Conference on ICASSP '86 Acoustics, Speech, and Signal Processing, 1986 (11): 

48


Κατέβασμα ppt "Μηχανική μάθηση (Machine Learning)."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google