Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Εισαγωγή στη Βιοπληροφορική

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Εισαγωγή στη Βιοπληροφορική"— Μεταγράφημα παρουσίασης:

1 Εισαγωγή στη Βιοπληροφορική
Εισαγωγικό Φροντιστήριο

2 Τι είναι Βιοπληροφορική
Βιο μοριακή βιολογία Πληροφορική επιστήμη των υπολογιστών Βιοπληροφορική επιλύει προβλήματα που προκύπτουν από τη βιολογία χρησιμοποιώντας μεθοδολογία από την επιστήμη υπολογιστών

3 Βιοπληροφορική και συναφείς επιστήμες
Βιοπληροφορική και συναφείς επιστήμες Επιστήμη των υπολογιστών Μαθηματικά και Στατιστική Βιολογία Ιατρική Χημεία Φυσική

4 Η Βιοπληροφορική σχετίζεται με:
Εξαγωγή ακολουθιών DNA από το γενετικό υλικό Σχολιασμός ακολουθιών (π.χ. με πληροφορίες από πειράματα) Κατανόηση του ελέγχου της έκφρασης των γονιδίων (δηλαδή κάτω από ποιες συνθήκες δημιουργούνται οι πρωτεΐνες από το DNA Τη σχέση μεταξύ την αλληλουχία αμινοξέων των πρωτεϊνών και τη δομή τους

5 Στόχος της έρευνας στη Βιοπληροφορική
Η κατανόηση της λειτουργίας των ζωντανών όντων Σχεδιασμός φαρμάκων Αναγνώριση γενετικών παραγόντων κινδύνου Γονιδιακή θεραπεία Γενετική τροποποίηση φυτών και ζώων Βελτίωση μέσων βιολογικού πολέμου

6 Βασικές Έννοιες Βιοπληροφορική είναι η διαχείριση της Βιολογίας σε όρους μορίων (με την έννοια της Φυσικής Χημείας) και η εφαρμογή “τεχνικών πληροφορικής” (εφαρμοσμένα μαθηματικά, επιστήμη των υπολογιστών και στατιστική) για την κατανόηση και οργάνωση πληροφορίας που σχετίζεται με τα μόρια σε μεγάλη κλίμακα. Figure from “Bioinformatics, from Genomes to Drugs”. T. Lengauer

7 DNA Το DNA αποτελείται από 1 διπλή έλικα βάσεων.
Οι βάσεις ενώνονται σε συγκεκριμένη σειρά και αποθηκεύουν τη γενετική πληροφορία κάθε οργανισμού: Α (αδενίνη), Τ (θυμίνη), C (κυτοσίνη), G (γουανίνη) Κάθε μόριο του DNA μπορεί να θεωρηθεί ως μία συμβολοσειρά με αλφάβητο {A,C,T,G} Διπλή έλικα, η γνώση της μίας έλικας συνεπάγεται και τη γνώση της άλλης (Α-Τ, C-G)

8 DNA

9 Γονιδιώματα (Genomes)
Ο όρος γονιδίωµα-genome, αναφέρεται σε ολόκληρη την ακολουθία DNA ενός ζωντανού οργανισµού, Το ανθρώπινο γονιδίωµα αποτελείται από 46 χρωµοσώµατα, Κάθε κύτταρο περιλαµβάνει ολόκληρο το γονιδίωµα ενός οργανισµού (διαφοροποίηση ευκαρυωτικών από προκαρυωτικά κύτταρα)

10 Human Genome Project Παγκόσμια προσπάθεια χαρτογράφησης του ανθρώπινου DNA To project άρχισε το 1990 και ολοκληρώθηκε το 2003 Στόχος να αναγνωριστούν και τα περίπου γονίδια του ανθρώπινου οργανισμού και να διαβαστούν όλες οι ακολουθίες DNA Στόχος επίσης να τοποθετηθεί όλη η πληροφορία σε βάσεις δεδομένων και να βελτιωθούν τα εργαλεία για την ανάλυσή της

11 Ακολουθία βάσεων DNA

12 Γονίδιο Βασική μονάδα κληρονομικότητας
Ακολουθία βάσεων η οποία μεταφέρει την πληροφορία που απαιτείται για να δημιουργηθεί μια συγκεκριμένη πρωτεΐνη. Ένα γονίδιο κωδικοποιεί μια πρωτεΐνη ή ένα μόριο RNA

13 Από το γονίδιο στην πρωτεΐνη

14 Πρωτεΐνες - Proteins Οι πρωτεΐνες είναι µόρια που αποτελούνται από ένα ή περισσότερα πολυπεπτίδια, Ένα πολυπεπτίδιο, είναι ένα πολυµερές που δοµείται από αμινοξέα, Τα κύτταρα κατασκευάζουν τις πρωτεΐνες τους από 20 διαφορετικά αμινοξέα, Μια ακολουθία πρωτεΐνης μπορεί να θεωρηθεί ως µια συμβολοσειρά, από ένα αλφάβητο 20 χαρακτήρων, Σ= {Ala, Arg, Asp, Asn, Cys, Glu, Gln, Gly, Hsi,Ile, Leu, Lys, Met, Phe, Pro, Ser, Thr, Trp, Tyr, Val}.

15 Δομή Πρωτεΐνης Η λειτουργία των πρωτεϊνών καθορίζεται από τη δομή τους. Η δομή τους καθορίζεται από την αλληλουχία των αμινοξέων.

16 Επίπεδα δομής πρωτεϊνών
Πρωτογενής δομή (γραμμική ακολουθία αμινοξέων) Δευτερογενής δομή Τριτογενής δομή δομές αμινοξέων στο Τεταρτογενής δομή χώρο ολοένα και πιο σύνθετες

17 Επίπεδα δομής πρωτεϊνών

18 Στόχοι Μοριακής Βιολογίας
Ακολουθιοποίηση και σύγκριση των γονιδιωµάτων διαφορετικών οργανισµών (εξελικτική πορεία, επακριβής συσχέτιση). Αναγνώριση γονιδίων και καθορισµός των λειτουργιών που ρυθµίζουν (αναγνώριση σημείων πρόσδεσης πρωτεινών, και από εκεί αναγνώριση γονιδίων). Κατανόηση της γονιδιακής έκφρασης (κάθε γονίδιο δραστηριοποιείται μετά την παραγωγή της αντίστοιχης έκφρασης, μελέτη της διαδικασίας δραστηριοποίησης). Κατανόηση Γενετικών Ασθενειών (μετάλλαξη γονιδίων).

19 Τομείς Έρευνας Βιοπληροφορικής
Στόχοι της Βιοπληροφορικής: Αποδοτική οργάνωση των δεδομένων ώστε να είναι δυνατή η αποθήκευση, ανάκτηση και ενημέρωσή τους. Παράδειγμα: Protein Data Bank.

20 Τομείς Έρευνας Βιοπληροφορικής
Υλοποίηση και Σχεδιασµός υπολογιστικών εργαλείων για αυτόµατη ανάκτηση γνώσης από Βάσεις Βιολογικών ∆εδοµένων. Ανάλυση Ακολουθιών Βιολογικών∆εδοµένων Κατηγοριοποίηση Βιολογικών ∆εδοµένων Μοριακή Μοντελοποίηση Ανάλυση Πρωτεϊνών Σχεδιασµός Φαρµάκων µε χρήση Η/Υ

21 Διάγραμμα Ύλης Α’ Μέρος
Κεφάλαιο 1: Εισαγωγή στη χρήση αλγορίθµων για αποτελεσµατική διαχείριση και αποθήκευση συµβολοσειρών (strings) και ακολουθιών βιολογικών δεδοµένων. Κεφάλαιο2: Αλγόριθµοι ακριβούς ταιριάσµατος προτύπου (Boyer-Moore, Knuth-Morris-Pratt, Shift-Or, Πολλαπλών Προτύπων). Κεφάλαιο 3: Εισαγωγή στο δέντρο επιθεµάτων (suffix tree) και στις εφαρµογές του. Κεφάλαιο 4:Αλγόριθµοι προσεγγιστικού ταιριάσµατος προτύπου και στοίχισης συµβολοσειρών/ακολουθιών (Sequence Alignment). Κεφάλαιο 5: Αλγόριθµοι αναζήτησης σε Βάσεις ∆εδοµένων ακολουθιών (FASTA, BLAST, PROSITE)

22 Διάγραμμα Ύλης Β’ Μέρος Η Θεωρητική Βάση του Μοριακού Σχεδιασµού
Διάγραμμα Ύλης Β’ Μέρος Η Θεωρητική Βάση του Μοριακού Σχεδιασµού Μοριακά Μοντέλα και Βιοχηµική Πληροφορία Η Βασιζόµενη στη ∆οµή Σχεδίαση Φαρµάκων Ανοικτά Προβλήµατα Γ’ Μέρος Τεχνικές ομαδοποίησης και κατηγοριοποίησης βιολογικών δεδοµένων (clustering and categorization techniques) µε σκοπό την πρόβλεψη της συµπεριφοράς βιολογικών µορίων.

23 Εξέταση Μαθήματος Η εξέταση του μαθήματος συνίσταται:
Στην παράδοση µιας εργασίας από οµάδες ατόµων → 30% βαθµού Παρουσίαση & Προφορική Εξέταση πάνω στις σηµειώσεις του µαθήµατος και σε μία επιπλέον εργασία → 70% βαθµού

24 Προτεινόμενη Βιβλιογραφία
Πανεπιστημιακές Σημειώσεις: Α. Περδικούρη, Α. Τσακαλίδη,  με τίτλο "Εισαγωγή στη Βιοπληροφορική" Dan Gusfield, “Algorithms on Strings, Trees and Sequences: Computer Science and Computational Biology”

25 Αλγόριθμοι Ακριβούς Εύρεσης Προτύπου
Απλοϊκή Προσέγγιση Η απλοϊκή προσέγγιση αναζήτησης ενός προτύπου- pattern P μήκους n σε ένα κείμενο ή βιολογική ακολουθία X μήκους m, στοιχίζει το πρότυπο στην πρώτη θέση της ακολουθίας και εξετάζει έναν προς έναν τους χαρακτήρες του προτύπου Σε περίπτωση μη ταιριάσματος- mismatch, η σύγκριση ξαναρχίζει με μετατόπιση του προτύπου κατά μια θέση. Η απλοϊκή αυτή προσέγγιση στοιχίζει O(n*m) χρόνο.

26 Αλγόριθμοι Ακριβούς Εύρεσης Προτύπου
Απλοϊκή Προσέγγιση

27 Αλγόριθμοι Ακριβούς Εύρεσης Προτύπου
Αλγόριθμοι που χρησιμοποιούν διάφορες τεχνικές επιτάχυνσης της διαδικασίας αναζήτησης. Boyer-Moore, συγκρίνει τους χαρακτήρες του προτύπου (pattern) ως προς την ακολουθία από δεξιά προς τα αριστερά, Knuth-Morris-Pratt, αποτελεί το πιο σημαντικό αλγόριθμο γραμμικής πολυπλοκότητας Shift-Or, χρησιμοποιεί αριθμητικές μεθόδους.

28 Suffix Trees Δέντρο Επιθεμάτων (Suffix Tree) και
Γενικευμένο Δέντρο Επιθεμάτων (Generalized Suffix Tree) Επιτρέπουν την αποδοτική αποθήκευση και διαχείριση συμβολοσειρών. Εφαρμογές

29 Suffix Trees Το Δέντρο Επιθεμάτων (Suffix Tree), αποθηκεύει όλα τα δυνατά επιθέματα της συμβολοσειράς S, όπως φαίνεται και στο ακόλουθο σχήμα.

30 Γενικευμένο Δέντρο Επιθεμάτων
Το Γενικευμένο Δέντρο Επιθεμάτων (Generalized Suffix Tree), αποτελεί ένα Γενικευμένο Δέντρο Επιθεμάτων το οποίο αποθηκεύει όλα τα δυνατά επιθέματα ενός συνόλου συμβολοσειρών S={S1,S2,…Sn}

31 Αλγόριθμοι προσεγγιστικής εύρεσης προτύπου και στοίχισης συμβολοσειρών.
Επιτρέπεται η ύπαρξη διαφοροποιήσεων στις εμφανίσεις του προτύπου, που προκύπτουν από την αντικατάσταση, προσθήκη ή διαγραφή συμβόλων. Τοπική - local sequence alignment Ολική - global sequence alignment

32 Μέθοδος του Δυναμικού Προγραμματισμού
Αναδρομική μέθοδος, η οποία μας επιτρέπει να υπολογίσουμε την απόσταση μετασχηματισμού μεταξύ 2 ακολουθιών και ταυτόχρονα την ακολουθία μετασχηματισμού ή κάτω από ένα διαφορετικό πρίσμα τη στοίχιση-ομοιότητα 2 ακολουθιών.

33 Αλγόριθμοι Κατηγοριοποίησης Βιολογικών Δεδομένων
Ξεκινώντας από ένα σύνολο δεδομένων, επιχειρεί να το οργανώσει σε ομάδες ομοειδών στοιχείων που ονομάζουμε συστάδες (clusters). Οι ομάδες αυτές δεν είναι εκ των προτέρων γνωστές αλλά προκύπτουν δυναμικά. Αντίθετα σε μια διαδικασία ταξινόμησης ή επιβλεπόμενης μάθησης (supervised learning), οι κλάσεις/ κατηγορίες στις οποίες αντιστοιχίζονται τα δεδομένα, είναι εκ των προτέρων γνωστές και αποτελούν είσοδο στην αντίστοιχη μέθοδο.

34 Ιεραρχικές Μέθοδοι Ομαδοποίησης
Ιεραρχική Συσσωρευτική Κατηγοριοποίηση- Hierarchical Agglomerative Clustering Ιεραρχική Διαιρετική Κατηγοριοποίηση- Hierarchical Divisive Clustering

35 Επαναληπτική Διαιρετική Κατηγοριοποίηση- Iterative Divisive Partitioning
Ξεκινάμε διαχωρίζοντας το σύνολο των δεδομένων σε έναν αριθμό συστάδων και υπολογίζουμε τα κέντρα βάρους τους. Στη συνέχεια κάθε στοιχείο αντιστοιχίζεται στη συστάδα με το κοντινότερο κέντρο βάρους και υπολογίζουμε εκ νέου τα νέα κέντρα βάρους. Η διαδικασία επαναλαμβάνεται έως ότου τα στοιχεία δεν αλλάζουν συστάδα. Ο πιο αντιπροσωπευτικός αλγόριθμος αυτής της κατηγορίας είναι ο k-means.


Κατέβασμα ppt "Εισαγωγή στη Βιοπληροφορική"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google