Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Δημήτριος Ι. Φωτιάδης Καθηγητής Βιοϊατρικής Τεχνολογίας Πανεπιστήμιο Ιωαννίνων Τμήμα Μηχανικών Επιστήμης Υλικών Βιοτεχνολογία - Βιοπληροφορική.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Δημήτριος Ι. Φωτιάδης Καθηγητής Βιοϊατρικής Τεχνολογίας Πανεπιστήμιο Ιωαννίνων Τμήμα Μηχανικών Επιστήμης Υλικών Βιοτεχνολογία - Βιοπληροφορική."— Μεταγράφημα παρουσίασης:

1 Δημήτριος Ι. Φωτιάδης Καθηγητής Βιοϊατρικής Τεχνολογίας Πανεπιστήμιο Ιωαννίνων Τμήμα Μηχανικών Επιστήμης Υλικών Βιοτεχνολογία - Βιοπληροφορική

2 Περιεχόμενα  Εισαγωγή  Υπολογιστικά εργαλεία  Τεχνικές Ανάλυσης και Σύγκρισης Ακολουθιών Βιολογικών Δεδομένων  Βιολογικές Βάσεις Δεδομένων  Βασικοί Ορισμοί  Προβλήματα Ταιριάσματος Προτύπου  Εξόρυξη Γνώσης  Μικροσυστοιχίες

3 Εισαγωγή  Η Βιοτεχνολογία είναι ο διεπιστημονικός κλάδος που αφορά στην αξιοποίηση των κυττάρων ( μικροβιακών, ζωϊκών, φυτικών ), των συστατικών τους ( ενζύμων ) ή / και ολόκληρων οργανισμών με στόχο την παραγωγή προϊόντων, αγαθών και στην προσφορά υπηρεσιών. - Κόκκινη βιοτεχνολογία : Αφορά στην εφαρμογή βιολογικών συστημάτων για τη βελτίωση ιατρικών διαδικασιών. Περιλαμβάνει :  το σχεδιασμό οργανισμών για τη βελτίωση για την παραγωγή φαρμάκων ( αντιβιοτικά, εμβόλια κ. ά.),  την ανάπτυξη θεραπειών μέσω της μηχανικής των γονιδίων ( γονιδιακή και κυτταρική θεραπεία )  την ανάπτυξη υπηρεσιών στην ιατροδικαστική μέσω της ανάλυσης του DNA.

4 Εισαγωγή - Πράσινη βιοτεχνολογία : Αφορά στις εφαρμογές της Βιοτεχνολογίας στη γεωργία και γενικότερα την αγροτική ανάπτυξη.  Περιλαμβάνει το σχεδιασμό διαγονιδιακών φυτών με στόχο τη βελτίωση των ιδιοτήτων τους ή των προϊόντων τους.  Στοχεύει στην ανάπτυξη περισσότερο περιβαλλοντικά φιλικών λύσεων σε σχέση με την παραδοσιακή βιομηχανοποιημένη γεωργία ( π. χ. μείωση της χρήσης εντομοκτόνων ).

5 Εισαγωγή - Λευκή ή βιομηχανική βιοτεχνολογία : Αφορά στην βελτίωση της παραγωγής βιομηχανικών προϊόντων, στην παραγωγή προϊόντων υψηλής προστιθέμενης αξίας ( βιοδραστικά μόρια - φάρμακα, διατροφικά πρόσθετα, εξειδικευμένα χημικά, μεταβολικά προϊόντα κλπ ), βιοχημικά, βιοϋλικά και βιοενέργεια από ανανεώσιμες πηγές ή ακόμη και την αποδόμηση ρύπων και τοξικών ενώσεων με τη χρήση κυττάρων ή και ενζύμων. - Περιβαλλοντική βιοτεχνολογία : Αφορά την βιοαποκατάσταση, τον βιολογικό καθαρισμό, τα βιοφίλτρα.

6 Εισαγωγή

7 Βιοτεχνολογικά προϊόντα υψηλής προστιθέμενης αξίας Εισαγωγή

8 Εισαγωγή php/DSGL-C112/52/390,1510/ Στάδια παραγωγής προϊόντων με τη χρήση μικροοργανισμών

9 Εισαγωγή  Βιοπληροφορική είναι η διαχείριση της Βιολογίας σε όρους μορίων ( με την έννοια της Φυσικής Χημείας ) και η εφαρμογή “ τεχνικών πληροφορικής ” ( εφαρμοσμένα μαθηματικά, επιστήμη των υπολογιστών και στατιστική ) για την κατανόηση και οργάνωση πληροφορίας που σχετίζεται με τα μόρια σε μεγάλη κλίμακα. Τομείς έρευνας Βιοπληροφορικής :  Υλοποίηση και σχεδιασ µ ός υπολογιστικών εργαλείων για αυτό µ ατη ανάκτηση γνώσης από Βάσεις Βιολογικών ∆ εδο µ ένων.  Ανάλυση Ακολουθιών Βιολογικών ∆ εδο µ ένων.  Κατηγοριοποίηση Βιολογικών ∆ εδο µ ένων.  Μοριακή Μοντελοποίηση.  Ανάλυση Πρωτεϊνών.  Σχεδιασ µ ός Φαρ µ άκων µ ε χρήση Η / Υ.

10 Εισαγωγή

11 Εισαγωγή Βασικές Έννοιες  To DNA αποτελείται από 1 διπλή έλικα βάσεων. Οι βάσεις ενώνονται σε συγκεκριµένη σειρά και αποθηκεύουν τη γενετική πληροφορία κάθε οργανισµού: Α (αδενίνη), Τ (θυμίνη), C (κυτοσίνη), G (γουανίνη).  Κάθε μόριο του DNA μπορεί να θεωρηθεί ως μία συμβολοσειρά με αλφάβητο {A,C,T,G}.

12 Εισαγωγή  Kάθε αλυσίδα του DNA σχηματίζεται όταν το σάκχαρο ενός νουκλεοτιδίου συνδέεται με τη φωσφορική ομάδα του επόμενου.  Ασθενείς χημικοί δεσμοί αναπτύσσονται ανάμεσα στις συμπληρωματικές βάσεις των απέναντι αλυσίδων.  Το δίκλωνο, πλέον, μόριο του DNA περιελίσσεται στον χώρο, σχηματίζοντας διπλή έλικα.

13 Εισαγωγή Γονιδιώματα (Genomes)  Ο όρος γονιδίω µ α -genome, αναφέρεται σε ολόκληρη την ακολουθία DNA ενός ζωντανού οργανισ µ ού.  Το ανθρώπινο γονιδίω µ α αποτελείται από 46 χρω µ οσώ µ ατα.  Κάθε κύτταρο περιλα µ βάνει ολόκληρο το γονιδίω µ α ενός οργανισ µ ού ( διαφοροποίηση ευκαρυωτικών από προκαρυωτικά κύτταρα ). Γονίδια (Genes)  Τα γονίδια αποτελούν τις βασικές µ ονάδες της κληρονο µ ικότητας.  Ένα γονίδιο κωδικοποιεί -encodes µ ία πρωτεΐνη αφού αποθηκεύει τις απαραίτητες πληροφορίες για την κατασκευή της.  Το ανθρώπινο γονιδίω µ α αποτελείται από περίπου ~ γονίδια.

14 Εισαγωγή

15 Εισαγωγή Πρωτεϊνες (Proteins)  Οι πρωτεΐνες είναι µ όρια που αποτελούνται από ένα ή περισσότερα πολυπεπτίδια.  Ένα πολυπεπτίδιο, είναι ένα πολυ µ ερές που δο µ είται από α µ ινοξέα.  Τα κύτταρα κατασκευάζουν τις πρωτεΐνες τους από 20 διαφορετικά α µ ινοξέα.  Μια ακολουθία πρωτεΐνης µ πορεί να θεωρηθεί ως µ ια συ µ βολοσειρά, από ένα αλφάβητο 20 χαρακτήρων, Σ = {Ala, Arg, Asp, Asn, Cys, Glu, Gln, Gly, Hsi,Ile, Leu, Lys, Met, Phe, Pro, Ser, Thr, Trp, Tyr, Val}.  Genomics: μελέτη γονιδίων  Proteomics: μελέτη πρωτεϊνών

16 Εισαγωγή

17 Στόχοι μοριακής βιολογίας  Ακολουθιοποίηση και σύγκριση των γονιδιω µ άτων διαφορετικών οργανισ µ ών ( εξελικτική πορεία, επακριβής συσχέτιση ).  Αναγνώριση γονιδίων και καθορισ µ ός των λειτουργιών που ρυθ µ ίζουν ( αναγνώριση σημείων πρόσδεσης πρωτεινών, και από εκεί αναγνώριση γονιδίων ).  Κατανόηση της γονιδιακής έκφρασης ( κάθε γονίδιο δραστηριοποιείται μετά την παραγωγή της αντίστοιχης έκφρασης, μελέτη της διαδικασίας δραστηριοποίησης ).  Κατανόηση Γενετικών Ασθενειών ( μετάλλαξη γονιδίων ). Εισαγωγή

18 Επίλυση Υπολογιστικών Προβλημάτων με εργαλεία Βιοπληροφορικής  ∆ ιασύνδεση της γονιδιακής πληροφορίας ( σταδιακή ανάγνωση και επανασύνδεση ).  Σύγκριση ακολουθιών ( αλγόριθμοι ανάκτησης πληροφορίας μέσω σχηματικών ομοιοτήτων ).  Κατηγοριοποίηση πρωτεϊνών.  Εξαγωγή πληροφοριών από γονιδιακές εκφράσεις. Τα δεδομένα από τα οποία προκύπτουν τα συμπεράσματα προέρχονται είτε από πειράματα, είτε από βιολογικές βάσεις δεδομένων.

19 Υπολογιστικά Εργαλεία  Στόχος είναι ο σχεδιασ µ ός και υλοποίηση ενός µ οντέλου που επιτρέπει την αυτό µ ατη ανάκτηση γνώσης (automated knowledge discovery) από µ εγάλο όγκο δεδο µ ένων.  Αναγνώριση κοινών δο µ ικών χαρακτηριστικών, όχι µ όνο σε επίπεδο ακολουθίας, αλλά και σε δισδιάστατο (2D) ή τρισδιάστατο (3D) επίπεδο.  Ανίχνευση της ο µ οιότητας µ εταξύ 2D ή 3D σχη µ άτων.

20 Ανάλυση Ακολουθιών  Ακριβές Ταίριασμα  Προσεγγιστικό Ταίριασμα  Στοίχιση (ολική ή τοπική)  Ψάξιμο για μέγιστες κοινές υποακολουθίες  Βάσεις δεδομένων βιολογικών μακρομορίων (συμπίεση) Υπολογιστικά Εργαλεία Κατηγοριοποίηση / Ομαδοποίηση Βιολογικών Δεδομένων  Η κατηγοριοποίηση γίνεται βάσει κοινών µ οτίβων, δο µ ικών ή λειτουργικών.  Μας ενδιαφέρουν και οι εφαρ µ ογές ολοκλήρωσης διαφορετικού τύπου δεδο µ ένων (data integration: sequences, 3D co-ordinates, functional knowledge).

21 Μοντελοποίηση  Επιλογή του κατάλληλου µ οντέλου που περιγράφει ικανοποιητικά τις ενδο µ οριακές συσχετίσεις του βιολογικού συστήματος που μελετάται.  Υπολογισ µ ός της ενεργειακής κατάστασης του συστή µ ατος και η ελαχιστοποίησή της.  Ανάλυση των παραπάνω υπολογισ µ ών και έλεγχος της τελικής δια µ όρφωσης ώστε να ικανοποιούνται όλες οι συνθήκες και περιορισ µ οί που ο σχεδιαστής έχει θέσει. Υπολογιστικά Εργαλεία  Καθορισ µ ός της τρισδιάστατης δο µ ής µ ιας πρωτεΐνης από την α µ ινοξεϊκή της ακολουθία.  Μελέτη της προσάραξης πρωτεϊνών (Protein Docking Problem) & πρωτεϊνών -DNA (DNA-Protein Docking Problem). Ανάλυση πρωτεϊνών

22 Σχεδιασμός Φαρμάκων με Η / Υ  Οι σύγχρονοι ηλεκτρονικοί υπολογιστές αποθηκεύουν πολύτιμες πληροφορίες σχετικά με : 1) την τρισδιάστατη αρχιτεκτονική των μορίων, 2) τις φυσικοχημικές τους ιδιότητες, 3) τη σύγκριση ενός μορίου με άλλα μόρια, 4) τα σύμπλοκα μικρομορίων - μακρομορίων, 5) τις προβλέψεις για νέα μόρια.  Ως πρώτος στόχος τίθεται η αποτελεσματική απεικόνιση των δομών κανονικών και παθολογικών μορίων τα οποία στη συνέχεια συγκρίνονται με παθογενή ένζυμα και ενεργούς υποδοχείς αντίστοιχα οπότε και καθορίζεται ο στόχος σχεδιασμού.  Έτσι αν γνωρίζουμε τη δομή μιας πρωτεΐνης και τον τρόπο που ο υποδοχέας ή η ενεργός περιοχή της δρα, μπορούμε να « χτίσουμε » και να προσομοιώσουμε την λειτουργία τους στην οθόνη του ηλεκτρονικού υπολογιστή εξοικονομώντας τον χρόνο και το κόστος που θα απαιτούσαν αντίστοιχες πειραματικές δοκιμές. Υπολογιστικά Εργαλεία

23 Τεχνικές Ανάλυσης και Σύγκρισης Ακολουθιών Βιολογικών Δεδομένων  Παραδείγματα Βάσεων Δεδομένων Βιολογικών Ακολουθιών  Το πρόβλημα του ακριβούς ταιριάσματος προτύπου  Απλοϊκή Μέθοδος  Αλγόριθμος Boyer-Moore  Αλγόριθμος Knuth-Morris-Pratt  Αλγόριθμος Shift-Or/Shift And  Το Αυτόματο Aho-Corasick  Εφαρμογές σε Προβλήματα Μοριακής Βιολογίας

24 Βιολογικές Βάσεις Δεδομένων  Γενικευμένες ( Generalized ) ή Αρχειακές ( Archival ) βιολογικές βάσεις δεδομένων. Διακρίνονται σε : - Πρωτογενείς βάσεις δεδομένων ακολουθιών (Primary Sequence Databases ). Περιέχουν νουκλεοτιδικές και αμινοξικές ακολουθίες από γονιδιώματα οργανισμών που έχουν αποκρυπτογραφηθεί πλήρως. - Βάσεις δεδομένων που περιέχουν τρισδιάστατες δομές νουκλεϊνικών οξέων και πρωτεϊνών (GENBANK, EMBL-Bank, DDJB, Swiss-Prot, PIR-PSD). Τεχνικές Ανάλυσης και Σύγκρισης Ακολουθιών Βιολογικών Δεδομένων

25 Βιολογικές Βάσεις Δεδομένων  Δευτερεύουσες ( Secondary) βιολογικές βάσεις δεδομένων που προκύπτουν από ανάλυση των δεδομένων που είναι αποθηκευμένα στις αρχειακές βιολογικές βάσεις δεδομένων και διακρίνονται σε : - Δευτερεύουσες ΒΔ ακολουθιών DNA και πρωτεϊνών που προκύπτουν από τις βασικές ΒΔ ακολουθιών και περιλαμβάνουν : ( α ) ΒΔ ακολουθιών στις οποίες έχουν απομακρυνθεί οι ακολουθίες που έχουν αποθηκευτεί περισσότερες από μία φορές, ( β ) ΒΔ που καταγράφουν μεταλλαγές ή παραλλαγές στις ακολουθίες DNA και πρωτεινών, ( γ ) Γονιδιωματικές ΒΔ που είτε ομαδοποιούν συγγενή ή όχι πλήρως αποκρυπτογραφημένα γονιδιώματα είτε ασχολούνται με γονιδιώματα οργανισμών μοντέλων. - ΒΔ που ασχολούνται με τις ιεραρχήσεις ή / και συσχετίσεις μεταξύ βιομορίων όπως οικογένειες πρωτεϊνών, κοινές δομές πρωτεϊνών κοινά μοτίβα ακολουθιών DNA και πρωτεϊνών. Τεχνικές Ανάλυσης και Σύγκρισης Ακολουθιών Βιολογικών Δεδομένων

26  Εξειδικευμένες ΒΔ, κατηγορία στην οποία ανήκουν : - ΒΔ μικροσυστοιχιών που περιλαμβάνουν πληροφορίες για την έκφραση γονιδίων και πρωτεϊνών - ΒΔ μεταβολικών μονοπατιών που περιέχουν πληροφορίες για τις χημικές αντιδράσεις που πραγματοποιούνται στο κύτταρο  Βιβλιογραφικές βιολογικές βάσεις δεδομένων  Βιολογικές βάσεις δεδομένων ιστοσελίδων που περιλαμβάνουν : - ΒΔ που περιλαμβάνουν ως εγγραφές βιολογικές βάσεις. - Συνδέσμους μεταξύ βιολογικών βάσεων δεδομένων. Βιολογικές Βάσεις Δεδομένων

27 Βασικοί Ορισμοί  Συμβολοσειρά-string: x=x[1]x[2]…..x[n], x[i]  Σ & |x|=n x= acgttaaaca, |x|=10 & Σ={Α,C,G,T}  (Αδενίνη, Θυμίνη, Κυτοσίνη, Γουανίνη)  Σ + : το σύνολο των συμβολοσειρών που ορίζονται στο αλφάβητο Σ  Κενή συμβολοσειρά: ε  Υπο-συμβολοσειρά-substring w: x=uwv  Πρόθεμα –Prefix w: x=wu  Επίθεμα-Suffix w: x=uw

28  Border συμβολοσειράς x: συμβολοσειρά w που είναι πρόθεμα και επίθεμα του x.  x k =x…x, κ-οστή δύναμη του x  y=x k, k>1  το y περιοδικό με περίοδo x  Περίοδος y= η μικρότερη τέτοια συμβολοσειρά  Primitive (πρωταρχική) συμβολοσειρά  Κάλυμμα (Cover) συμβολοσειράς  Φύτρο (Seed) συμβολοσειράς κ φορές Βασικοί Ορισμοί

29 Προβλήματα Ταιριάσματος Προτύπου  Ακριβές Ταίριασμα : ενδιαφερό µ αστε να εντοπίσου µ ε όλες τις ε µ φανίσεις ενός δοσ µ ένου προτύπου (µ οτίβου ) P (“ δο µ η µ ένου ” ή “µ η - δο µ η µ ένου ”) σε µ ια συμβολοσειρά ( βιολογική αλληλουχία ) Τ.  Προσεγγιστικό Ταίριασμα : Για ένα κεί µ ενο T, ένα µ οτίβο P, µ ια παρά µ ετρο k και µ ια συνάρτηση ο µ οιότητας d( ), εντόπισε τις θέσεις i, j στο κεί µ ενο, έτσι ώστε d(P, T i..j ) >=k.

30  Η διαδικασία σύγκρισης της ο µ οιότητας δυο ακολουθιών στηρίζεται σε πίνακες που βαθ µ ολογούν τις ο µ οιότητες (matches) και διαφορές (mismatches) µ εταξύ διαδοχικών συ µ βόλων. Τέτοιου τύπου πίνακες είναι οι : Dayhoff Mutation Data Matrix, BLOSUM κτλ.  Επίσης η σύγκριση ακολουθιών µ πορεί να κατηγοριοποιηθεί σε : α ) τοπική ευθυγρά µµ ιση -local alignment και β ) ολική ευθυγρά µµ ιση - global alignment. Στην τοπική ευθυγρά µµ ιση αναζητού µ ε περιοχές τοπικής ο µ οιότητας. Γνωστοί τέτοιοι αλγόριθμοι είναι των Smith-Waterman ( τοπικοί ), Needleman & Wunsch ( ολικοί ). Και στις δυο περιπτώσεις υπάρχουν παραπάνω από µ ια δυνατές ευθυγρα µµ ίσεις. Η βέλτιστη λύση πρέπει να ελαχιστοποιεί τις διαφορές ανά µ εσα στις δυο ακολουθίες ή διαφορετικά να µ εγιστοποιεί τη συνάρτηση ο µ οιότητας. Προβλήματα Ταιριάσματος Προτύπου

31 Στοίχιση Ακολουθιών  Συνέκρινε δύο ή περισσότερες ακολουθίες ελέγχοντας για μία ακολουθία ατομικών χαρακτήρων που είναι με την ίδια σειρά στις ακολουθίες.  Ανακάλυψε λειτουργική, δομική και εξελεκτική πληροφορία. L G P S S K Q T G K G S – S R I W D N L N – I T K S A G K G A I M R L G D A ολική στοίχιση T K G S – – A K G A τοπική στοίχιση Προβλήματα Ταιριάσματος Προτύπου

32 Οι επαναλήψεις σε βιολογικές ακολουθίες κατηγοριοποιούνται στις εξής 3 βασικές κατηγορίες :  επαναλήψεις περιορισμένου μήκους που εμφανίζονται σε τοπικό επίπεδο, και των οποίων η λειτουργία είναι γνωστή,  επαναλήψεις περιορισμένου μήκους που εμφανίζονται σε όλο το μήκος της ακολουθίας, και των οποίων η λειτουργία δεν είναι απόλυτα γνωστή,  δομημένες επαναλήψεις μεγάλου μήκους των οποίων η λειτουργία δεν έχει προσδιοριστεί. Επαναλήψεις σε βιολογικές ακολουθίες Προβλήματα Ταιριάσματος Προτύπου

33 Πρότυπα  Μοτίβα DNA TRANSFAC, JASPAR, SCPD, DBTBS, RegulonDB  Μοτίβα πρωτεϊνών PROSITE, Pfam, ProDom, BLOCKS, TIGRFAM, Interpro Προβλήματα Ταιριάσματος Προτύπου

34 Ακριβές Ταίριασμα ( εφαρμογές )  Επεξεργαστές κειμένου  Utilities (grep στο Unix)  Textual Information Retrieval (Medline, Lexis, Nexis)  Internet News Readers  On-line dictionaries και θησαυρούς  Molecular Biology Databases Προβλήματα Ταιριάσματος Προτύπου

35 Ακριβής Εύρεση Προτύπου The Exact Pattern Matching Problem Ορισμός : « έστω μια ακολουθία χαρακτήρων T. Αναζητούμε τις θέσεις εμφάνισης του προτύπου / λέξης P μέσα στην ακολουθία ». P= acgttaaaca

36 Η απλοϊκή μέθοδος επίλυσης – Naive Method gcatgcagagagtatacagtacg gcagagag 1o βήμα : Στοιχίζουμε την ακολουθία και το πρότυπο & συγκρίνουμε τους χαρακτήρες 2o βήμα : Στο πρώτο mismatch – 4 η θέση μετατοπίζουμε το πρότυπο κατά 1 θέση gcatgcagagagtatacagtacg gcagagag

37 gcatgcagagagtatacagtacg gcagagag 3o βήμα : Σε κάθε mismatch μετατοπίζουμε το πρότυπο κατά 1 θέση 4 ο βήμα : gcatgcagagagtatacagtacg gcagagag Η απλοϊκή μέθοδος επίλυσης – Naive Method

38 gcatgcagagagtatacagtacg gcagagag 5 ο βήμα : 1 η εύρεση του προτύπου L {X} ={5,…} 6o βήμα: gcatgcagagagtatacagtacg gcagagag Η απλοϊκή μέθοδος επίλυσης – Naive Method

39 Ο αλγόριθμος Boyer-Moore gcatcgcagagagtatacagtacg gcagagag 1 η ιδέα : Στοιχίζουμε την ακολουθία και το πρότυπο & συγκρίνουμε τους χαρακτήρες από δεξιά προς τα αριστερά 2 η ιδέα : Σε κάθε mismatch μετατοπίζω το πρότυπο περισσότερες από 1 θέσεις βάσει 2 κανόνων gcatcgcagagagtatacagtacg gcagagag

40 α ’ κανόνας : “ good suffix shift” T  bu P  au shift PP cu ιδέα : ας στοιχίσουμε την επόμενη εμφάνιση του u με το αντίστοιχο τμήμα T[j+1-1, …, j+m] P[i-1]  T [j+i-2] P[i… m] = T[j+i-1…j+m] Ο αλγόριθμος Boyer-Moore

41 β ’ κανόνας : “ bad character shift” TT bu shift ιδέα : ας στοιχίσουμε το χαρακτήρα T[i+j-2] =b με τη δεξιότερη εμφάνισή του - αν υπάρχει - στο πρότυπο P P[i-1]  T [i+j-2] T[i+j-2] = b PP bδεν περιέχει b Ο αλγόριθμος Boyer-Moore

42 P  vc Ο αλγόριθμος Knuth-Morris-Pratt ιδέα: ας στοιχίσουμε το μέγιστο πρόθεμα prefix(P)=v με το αντίστοιχο τμήμα από το επίθεμα u της ακολουθίας P[i+1]  T [i+1+j] P[1… i] = T [j…i+j-1] = u Τ Τ  ub PP ua shift

43 xyabcxabcxadcdqfegagtacg abcxabcde 1 ο βήμα : Στοιχίζουμε την ακολουθία και το πρότυπο & συγκρίνουμε τους χαρακτήρες από αριστερά προς τα δεξιά 2 ο βήμα : Μετατοπίζω το πρότυπο κατά 4 θέσεις xyabcxabcxadcdqfegagtacg abcxabcde Ο αλγόριθμος Knuth-Morris-Pratt

44 Εφαρμογές εύρεσης προτύπων σε προβλήματα Βιοπληροφορικής  Αναζήτηση Sequence-tagged-site (STS) & Expressed Sequence Tags (ESTs) σε ακολουθίες γονιδιωμάτων.  STS: τμήματα του DNA μήκους νουκλεοτιδίων.  ESTs: τμήματα mRNA & cDNA ακολουθίες που αντιπροσωπεύουν τα τμήματα κωδικοποίησης μιας πρωτεΐνης σε μια ακολουθία γονιδίων.  Αναζήτηση “ κανονικών εκφράσεων ” ( regular expressions )  [ED]-[EN]-L-[SAN]-x-x-[DE]-x-E-L  ENLSSEDEEL

45  Εξόρυξη Γνώσης  Ανακάλυψη γνώσης από βάσεις δεδομένων  Τεχνικές για την ανάλυση και εξόρυξη δεδομένων  Μέθοδοι Εξόρυξης Γνώσης Εξόρυξη Γνώσης από Δεδομένα (Data Mining)

46  Κατηγοριοποίηση (Classification)  Βασίζεται στην εξέταση των χαρακτηριστικών ενός αντικειμένου και στην αντιστοίχηση του βάση αυτών των χαρακτηριστικών σε ένα προκαθορισμένο σύνολο κλάσεων.  Συσταδοποίηση (Clustering)  Διαχωρισμός ενός συνόλου δεδομένων σε ένα σύνολο συστάδων (clusters).  Διαφοροποιείται από την κατηγοριοποίηση διότι η συσταδοποίηση δεν διαθέτει προκαθορισμένες κατηγορίες.  Τα δεδομένα οργανώνονται σε συστάδες με βάση τις ομοιότητες που έχουν μεταξύ τους. Εξόρυξη Γνώσης από Δεδομένα (Data Mining)

47 Text Mining  Αποσκοπεί στην εξαγωγή χρήσιμης πληροφορίας από πηγές δεδομένων μέσω της αναγνώρισης και της διερεύνησης ενδιαφερόντων προτύπων.  Οι πηγές δεδομένων είναι συλλογές κειμένων.  Τα ενδιαφέροντα πρότυπα αναζητούνται σε μη δομημένα δεδομένα κειμένων, δηλαδή στα έγγραφα της συλλογής και όχι σε δομημένα δεδομένα Βάσεων Δεδομένων. Εξόρυξη Γνώσης από Κείμενα(Text Mining)

48  Πρόβλημα  Ο όγκος των δημοσιεύσεων βιοϊατρικής έρευνας και οι αντίστοιχες βάσεις βιοϊατρικών δεδομένων, επεκτείνονται και αυξάνονται ραγδαία.  Στόχος της βιοϊατρικής έρευνας είναι η ανακάλυψη γνώσης και η χρησιμοποίηση της στη διάγνωση και θεραπεία. Εξόρυξη Γνώσης από κείμενα βιολογικού περιεχομένου

49  Εξόρυξη κειμένου (Text Mining)  Τομέας της επιστήμης των υπολογιστών που μπορεί να βοηθήσει τους ερευνητές στην αντιμετώπιση της πληθώρας πληροφοριών.  Ο στόχος είναι μέσω της εφαρμογής αλγοριθμικών, στατιστικών μεθόδων και μεθόδων διαχείρισης δεδομένων:  Αναγνώριση της πληροφορίας με αποδοτικό τρόπο.  Αναγνώριση των σχέσεων που υποσκιάζονται από τον μεγάλο όγκο πληροφορίας. Εξόρυξη Γνώσης από κείμενα βιολογικού περιεχομένου

50  Τα βασικά βήματα για την ανάλυση κειμένων είναι :  Προεπεξεργασία Κειμένων  Αναπαράσταση Κειμένων  Εξαγωγή Χαρακτηριστικών Γνωρισμάτων των κειμένων Εξόρυξη Γνώσης από κείμενα βιολογικού περιεχομένου

51  Αφαίρεση Δομής  πχ. Μετατροπή των PDF και HTML αρχείων σε απλό κείμενο.txt.  Λημματοποίηση ( Tokenization)  Διαχωρισμός των προτάσεων σε ξεχωριστούς όρους (tokens) που μπορεί να είναι λέξεις ή σημεία στίξης ή αριθμοί.  Αφαίρεση Stopwords:  Σύγκριση κάθε όρου με μια γνωστή συλλογή από stopwords.  Λεξικογραφική Ανάλυση ( POS Tagging )  Αναγνώριση του μέρους του λόγου που ανήκει η κάθε λέξη, δηλαδή ουσιαστικό, ρήμα, επίθετο κλπ.  Επιλογή των ουσιαστικών  Τα ουσιαστικά επιφέρουν τη σημαντικότερη πληροφορία των κειμένων. Προεπεξεργασία Κειμένων Εξόρυξη Γνώσης από κείμενα βιολογικού περιεχομένου

52  Αναπαριστούμε τα κείμενα σε μια μορφή που να είναι επεξεργάσιμη.  Η πιο γνωστή μέθοδος αναπαράστασης κειμένων είναι η διανυσματική αναπαράσταση.  Κάθε κείμενο και κάθε ερώτημα αναπαρίσταται ως ένα διάνυσμα m όρων, όπου m είναι ο αριθμός των μοναδικών όρων (unique terms) της συλλογής.  Για κάθε όρο υπολογίζουμε το βάρος. Διανυσματικό Μοντέλο (Vector Space Model) Εξόρυξη Γνώσης από κείμενα βιολογικού περιεχομένου

53  Η πιο γνωστή μέθοδος απόδοσης βάρους.  Το TF-IDF αποτελείται από τις εξής ποσότητες :  TF είναι η συχνότητα εμφάνισης ενός όρου σε ένα κείμενο.  IDF αποτελεί ένα βάρος που δηλώνει τη σημαντικότητα ενός όρου στο κείμενο, σε σχέση με ολόκληρη τη συλλογή κειμένων.  Το τελικό βάρος TF-IDF προκύπτει από τον πολλαπλασιασμό των TF και IDF.  Η μέθοδος TF-IDF είναι σημαντική για ένα κείμενο, όταν ένας όρος εμφανίζεται συχνά σε ένα κείμενο και σπάνια στα υπόλοιπα κείμενα της συλλογής. TF-IDF Εξόρυξη Γνώσης από κείμενα βιολογικού περιεχομένου

54 Η πιο γνωστή μέθοδος υπολογισμού της ομοιότητας, βασίζεται στο συνημίτονο της εμπεριεχόμενης γωνίας των δυο διανυσμάτων. Ομοιότητα Συνημιτόνου t1t1 t2t2 t3t3 θ Εξόρυξη Γνώσης από κείμενα βιολογικού περιεχομένου

55  Το πρόβλημα της συσταδοποίησης σχετίζεται με την τμηματοποίηση ( partitioning, clustering ) ενός συνόλου δεδομένων σε συστάδες, έτσι ώστε τα στοιχεία που ανήκουν σε μία συστάδα να είναι περισσότερο όμοια μεταξύ τους από ότι είναι με τα στοιχεία των άλλων συστάδων.  Δεν υπάρχουν προκαθορισμένες κατηγορίες ούτε κάποια άλλη προηγούμενη γνώση σχετικά με την σχέση μεταξύ των στοιχείων.  Αντίθετα, η κατηγοριοποίηση είναι η διαδικασία με την οποία ένα σύνολο αντικειμένων αντιστοιχίζεται σε ένα σύνολο προκαθορισμένων κατηγοριών εξετάζοντας τα χαρακτηριστικά κάθε αντικειμένου. Συσταδοποίηση ( Clustering )

56  Διαιρετική Συσταδοποίηση (Partitional Clustering)  Ασαφής Συσταδοποίηση (Fuzzy Clustering)  Μη ασαφής Συσταδοποίησης (Crisp Clustering)  Συσταδοποίηση με δίκτυα Kohonen  Ιεραρχική Συσταδοποίηση (Hierarchical Clustering) Μέθοδοι Συσταδοποίησης

57 Hard Clustering  Tα στοιχεία διαχωρίζονται σε μη ασαφείς συστάδες (crisp clusters), όπου κάθε στοιχείο ανήκει σε ακριβώς μία συστάδα. Με τον τρόπο αυτό παράγονται συστάδες που είναι μη επικαλυπτόμενες (crisp clustering). Αλγόριθμοι Ασαφούς Συσταδοποίησης (Fuzzy Clustering)  Θεωρούν ότι ένα στοιχείο μπορεί να ανήκει σε περισσότερες από μια συστάδες ορίζοντας ένα βαθμό συμμετοχής κάθε στοιχείου σε κάθε συστάδα.  Η τιμή του βαθμού συμμετοχής ενός στοιχείου i στην συστάδα j, δείχνει την πιθανότητα να ανήκει το στοιχείο αυτό στην συγκεκριμένη συστάδα. Ασαφής Συσταδοποίηση (Fuzzy Clustering)

58  Το αποτέλεσμα της Fuzzy Clustering τεχνικής μπορεί να μετατραπεί σε Hard Clustering.  Κάθε στοιχείο ανήκει σε μία μόνο συστάδα, στη συστάδα στην οποία έχει τον μεγαλύτερο βαθμό συμμετοχής. Ασαφής Συσταδοποίηση (Fuzzy Clustering)

59  Παράγουν μια ακολουθία διχοτομήσεων ή συγχωνεύσεων, η οποία μπορεί να αναπαρασταθεί ως ένα δέντρο, το οποίο ονομάζεται δενδρόγραμμα.  Κάθε επίπεδο του δενδρογράμματος απεικονίζει τη συγχώνευση δύο συστάδων του χαμηλότερου επιπέδου. Ιεραρχικοί Αλγόριθμοι (Hierarchical Algorithms)

60  Συσσωρευτικοί Ιεραρχικοί Αλγόριθμοι  Αρχικά κάθε στοιχείο ως μια ξεχωριστή συστάδα.  Σε κάθε βήμα, συγχωνεύουν το ζεύγος συστάδων με την μεγαλύτερη ομοιότητα ή το πλησιέστερο ζεύγος συστάδων.  Για να βρεθεί η ομοιότητα ή η απόσταση δύο συστάδων απαιτείται ο προσδιορισμός ενός κριτηρίου.  Διαιρετικοί Ιεραρχικοί Αλγόριθμοι  Αρχικά όλα τα στοιχεία ως μια μοναδική συστάδα.  Σε κάθε βήμα διαχωρίζουν μια συστάδα έως ότου καταλήξουμε σε ένα σύνολο συστάδων, όπου κάθε μια αποτελείται από ένα μόνο στοιχείο.  Σε αυτή την περίπτωση, θα πρέπει να ορίσουμε ποια συστάδα θα διαχωριστεί σε κάθε βήμα, καθώς και τον τρόπο διαχωρισμού της. Ιεραρχικοί Αλγόριθμοι (Hierarchical Algorithms)

61  Υπολογίζουμε την ομοιότητα όλων των ζευγών συστάδων (δηλαδή υπολογίζουμε έναν πίνακα ομοιότητας, όπου το στοιχείο (i,j) ορίζει την ομοιότητα των συστάδων i και j.  Συγχωνεύουμε τις δύο πιο όμοιες (πιο κοντινές) συστάδες.  Ανανεώνουμε τον πίνακα ομοιότητας για να απεικονίζει την ομοιότητα μεταξύ της νέας συστάδας και των αρχικών συστάδων.  Επαναλαμβάνουμε τα βήματα 2 και 3 έως ότου μείνει μια μόνο συστάδα. Απλός Συσσωρευτικός Ιεραρχικός Αλγόριθμος

62  Ο αλγόριθμος ξεκινά αρχικοποιώντας με τυχαίο τρόπο τα κέντρα των συστάδων.  Στη συνέχεια, αναθέτει κάθε στοιχείο του συνόλου δεδομένων στη συστάδα της οποίας το κέντρο βρίσκεται πιο κοντά και ξανα - υπολογίζει τα νέα κέντρα που προκύπτουν.  Τα νέα κέντρα των συστάδων υπολογίζονται χρησιμοποιώντας τον μέσο όρο των σημείων της κάθε συστάδας.  Η διαδικασία αυτή επαναλαμβάνεται έως ότου τα να κέντρα των συστάδων σταματήσουν να αλλάζουν. Αλγόριθμος K-means

63  Παραλλαγή του αλγόριθμου K-means.  Αρχικά, αντιστοιχεί όλα τα αντικείμενα - δεδομένα σε μια συστάδα.  Επανάληψη 3 βημάτων έως ότου επιτύχουμε τον επιθυμητό αριθμό συστάδων  Επιλογή της συστάδας που θα διασπαστεί.  Διαχωρισμός αυτής της συστάδας σε δυο υπο - συστάδες χρησιμοποιώντας τον βασικό Αλγόριθμο K-means.  Bisecting βήμα τ o οποίο επαναλαμβάνεται για έναν αριθμό επαναλήψεων, προκειμένου να επιλέξουμε το διαχωρισμό με την υψηλότερη συνολική ομοιότητα. K-means με Διχοτόμηση (Bisecting K- means)

64  K-means  Χρησιμοποιεί την ευκλείδεια απόσταση, ωστόσο αυτή η μετρική απόστασης είναι συχνά ακατάλλλη για την συσταδοποίηση κειμένων.  Spherical K-means  Χρησιμοποιεί την ομοιότητα συνημιτόνου, η οποία υπολογίζει το συνημίτονο της εσωτερικής γωνίας των διανυσμάτων των κειμένων.  Τα διανύσματα βρίσκονται πάνω στην μοναδιαία σφαίρα. Spherical K-means

65 Βάση Δεδομένων του Συστήματος  Ο χρήστης δίνει τις λέξεις-κλειδιά (keywords) στη φόρμα αναζήτησης.  Οι λέξεις-κλειδιά δίνονται στη συνέχεια ως ερώτημα στις βάσεις δεδομένων του PubMed και του Springerlink.  Αποθήκευση των κορυφαίων αποτελεσμάτων που επιστρέφονται στη βάση δεδομένων του συστήματος.  Εύρεση του Impact Factor των περιοδικών από τη βάση δεδομένων του ISI Web of Knowledge.  Στη Βάση Δεδομένων αποθηκεύονται επίσης πληροφορίες για κάθε άρθρο όπως (Url του περιοδικού και της περίληψης, τίτλος περιοδικού, ονόματα συγγραφέων κλπ.).

66 Διανυσματικό Μοντέλο ( Vector Space Model )  Κάθε κείμενο και κάθε ερώτημα αναπαρίσταται ως ένα διάνυσμα m όρων, όπου m είναι ο αριθμός των μοναδικών όρων (unique terms) της συλλογής.  Για κάθε όρο υπολογίζουμε το βάρος TF-IDF που αντιστοιχεί για κάθε κείμενο.  Στο σχήμα TF-IDF, η συχνότητα εμφάνισης TF του όρου στο κείμενο πολλαπλασιάζεται με την αντίστροφη συχνότητα (IDF - inverse document frequency) του όρου αυτού στα κείμενα της συλλογής.  Αποτέλεσμα : Η δημιουργία ενός πίνακα Α mxn, όπου m είναι ο αριθμός των μοναδικών όρων και n ο αριθμός των κειμένων.

67 Ιεραρχικός Αλγόριθμος ( Hierarchical Algorithm)  Μείωση του αριθμού των συστάδων που προέκυψαν από το Fuzzy Clustering από k σε Κ.  Κ είναι μια παράμετρος που παρέχεται από τον χρήστη. Κ είναι επίσης και ο αριθμός των αρχικών συστάδων που δίνονται ως είσοδος στον Spherical K-means, στο επόμενο βήμα.  Ο Ιεραρχικός Συσσωρευτικός Αλγόριθμος, σε κάθε βήμα του, ενώνει τις δύο πιο όμοιες συστάδες, έως ότου ο αριθμός των συστάδων να είναι Κ.  Δημιουργείται ένα δενδρόγραμμα.

68 Ιεραρχικός Αλγόριθμος ( Hierarchical Algorithm) Παράδειγμα δενδρογράμματος-Ιεραρχικό δέντρο

69 Δενδρογράφημα Αναπαράσταση συστάδων γονιδίων με χρωματικό δενδρογράφημα course.uoi.gr/pluginfile.php/55078/mod_resource/content/1/BI_b10.pdf

70 Μικροσυστοιχίες  Microarrays: δεδομένα έκφρασης γονιδίων. Κύριες πειραματικές τεχνικές  Microarrays -προσέγγιση spot-blotting -(μικρές) αντιδράσεις PCR  DNA chips -απευθείας σύνθεση ολιγονουκλεοτιδίων: -φωτολιθογραφία (Affymetrix) -ηλεκτροχημική διαδικασία

71 Μικροσυστοιχίες Επεξεργασία δεδομένων έκφρασης  Μέτρηση δείκτη φθορισμού - laser & Η/Υ - φασματομετρία  Ψηφιακή ανάλυση -τεχνικές απεικόνισης -διαγράμματα διασποράς, ιστογράμματα -νευρωνικά δίκτυα -χρονοσειρές, κύριες συνιστώσες, συστάδες

72 Μικροσυστοιχίες Ανακατασκευή δικτύου Πρόβλημα: Σχεδιασμός δικτύων βάσει περιορισμένων δεδομένων  Ιδιότητες δικτύων - Στοχαστικότητα-σύνθετες αλληλεπιδράσεις - Αντιγραφή (γονιδιακή) - Οργάνωση και δυναμική (γενωμική)  Βασικές τεχνικές -Συσταδοποίηση -Μοντελοποίηση (πίνακες βαρών, δίκτυα λογικής, διαφορικές εξισώσεις) -Κανονικοποίηση -Πρότυπα (έκφρασης)

73 Βιβλιογραφία  Jacques Cohen, Bioinformatics—An Introduction for Computer Scientists, ACM Computing Surveys,  Pavel Berkhinm, Survey of Clustering Data Mining Techniques.  Jason T. L. Wang, Data Mining in Bioinformatics Advanced Information and Knowledge Processing,    https://eclass.duth.gr/courses/ALEX01101/   df 


Κατέβασμα ppt "Δημήτριος Ι. Φωτιάδης Καθηγητής Βιοϊατρικής Τεχνολογίας Πανεπιστήμιο Ιωαννίνων Τμήμα Μηχανικών Επιστήμης Υλικών Βιοτεχνολογία - Βιοπληροφορική."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google