Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
ΔημοσίευσεThomasa Linard Τροποποιήθηκε πριν 9 χρόνια
1
1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Αλεξανδρίδου Αναστασία Επιβλέπων Καθηγητής: Βλαχάβας Ιωάννης
2
2 Θέματα Παρουσίασης Ανακάλυψη Γνώσης από Βάσεις Δεδομένων Βιοπληροφορική Σημείο Έναρξης Μετάφρασης Υλοποίηση Συγκρίσεις - Συμπεράσματα
3
3 Ανακάλυψη Γνώσης από Βάσεις Δεδομένων Πρότυπα Πληροφόρησης από μάθηση χωρίς επίβλεψη. Κανόνες Συσχέτισης Ομαδοποίηση Πρότυπα Πρόβλεψης από μάθηση με επίβλεψη Κατηγοριοποίηση Παλινδρόμηση (Γραμμική - Νευρωνικά Δίκτυα) Bayes
4
4 Βιοπληροφορική Είναι η νέα επιστημονική περιοχή, αφοσιωμένη στη διαχείριση, ανάλυση, οργάνωση και ερμηνεία των βιολογικών δεδομένων με τη χρήση προηγμένων υπολογιστικών τεχνικών. Γενωμική Πρωτεωμική Μικροσυστοιχίες Τεχνική SAGE Τράπεζες Δεδομένων
5
5 Σημείο Έναρξης Μετάφρασης (TIS)
6
6
7
7 Πρόβλεψη των TIS Με Νευρωνικά Δίκτυα Pedersen και Nielsen Χατζηγεωργίου Με Μηχανές Διανυσμάτων Υποστήριξης Zien et al. Με Δημιουργία και Επιλογή Χαρακτηριστικών Zeng et al. Liu et al.
8
8 Δημιουργία Χαρακτηριστικών Εφαρμόζεται σε κάθε υποψήφιο TIS ένα παράθυρο 203 θέσεων κεντραρισμένο στο TIS και αριθμούνται οι βάσεις. A C C G T A C ATG G G C A T -7 -6 -5 -4 -3 -2 -1 1 2 3 4 5 6 7 8 Θέσεις νουκλεοτιδικών βάσεων k-grams (k=1…5) In-frame 3-grams
9
9 Επιλογή Χαρακτηριστικών Επιλογή χαρακτηριστικών βασισμένη στη συσχέτιση (CFS) με 3-fold cross validation. Κρίνονται σημαντικά 9 χαρακτηριστικά. pos –3 in-frame upstream ATG in-frame downstream TAA, TAG, TGA, CTG, GAC,GAG, GCC Ακολουθία Kozak GCC[A/G]CCATGG
10
10 Εκπαίδευση-Δοκιμή Ακολουθιών Μετά την επιλογή των χαρακτηριστικών, γίνεται η κατηγοριοποίηση με NB, SVM και C4.5 και υπολογισμός των Ευαισθησία (sensitivity) Ειδικότητα (specificity) Ορθότητα (precision) Ακρίβεια (accuracy)
11
11 Υλοποίηση Ακολουθήθηκε η προσέγγιση των Zeng et al. Χρησιμοποιήθηκαν 3312 ακολουθίες με 13503 ATGs. Στα δεδομένα εφαρμόζεται παράθυρο των 21, 33, 69, 201 θέσεων. Δημιουργία Χαρακτηριστικών Διαφορές μεταξύ των βάσεων Θέση μιας βάσης σε ένα κωδικόνιο Ύπαρξη Α ή G στη θέση –3 Απόσταση ATG από την αρχή της ακολουθίας και αύξουσα σειρά του ΑTG Απόσταση κωδικονίου λήξης από το ATG Συνολικά 524 χαρακτηριστικά
12
12 Υλοποίηση Για την επιλογή των χαρακτηριστικών εφαρμόζεται ο εκτιμητής Information Gain με αναζήτηση ταξινόμησης. Η πρόβλεψη γίνεται με κατηγοριοποίηση (C4.5) και 10- fold cross validation. Τα αποτελέσματα της ακρίβειας των προβλέψεων σε παράθυρο των 33 είναι 78,22%, των 69 είναι 80,99% και των 201 θέσεων είναι 89,98%.
13
13 Υλοποίηση Η προσθήκη του χαρακτηριστικού της απόστασης, της σειράς του ATG στην ακολουθία και η ύπαρξη κωδικονίου λήξης βελτιώνει τα αποτελέσματα. down 1G up ATG in down TGA pos –3 up down A-G difference down 2T up down C-T difference pos –1 down 3C a.Ευαισθησία (Sensitivity)= 0,944. b.Ειδικότητα (Specificity)= 0,738. c.Ορθότητα (Precision)= 0,917. d.Ακρίβεια (Accuracy)= 0,894.
14
14 Συγκρίσεις-Συμπεράσματα
15
15 Μελλοντική Εργασία Μεγαλύτερα παράθυρα Περισσότερα σύνολα δεδομένων Περισσότερα χαρακτηριστικά που δε μελετήθηκαν
16
16 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Ευχαριστώ
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.