Δημήτριος Ι. Φωτιάδης Πανεπιστήμιο Ιωαννίνων

Δημήτριος Ι. Φωτιάδης Πανεπιστήμιο Ιωαννίνων
Καθηγητής Βιοϊατρικής Τεχνολογίας Πανεπιστήμιο Ιωαννίνων Τμήμα Μηχανικών Επιστήμης Υλικών Βιοτεχνολογία-Βιοπληροφορική

Περιεχόμενα Εισαγωγή Υπολογιστικά εργαλεία
Τεχνικές Ανάλυσης και Σύγκρισης Ακολουθιών Βιολογικών Δεδομένων Βιολογικές Βάσεις Δεδομένων Βασικοί Ορισμοί Προβλήματα Ταιριάσματος Προτύπου Εξόρυξη Γνώσης Μικροσυστοιχίες

Εισαγωγή Η Βιοτεχνολογία είναι ο διεπιστημονικός κλάδος που αφορά στην αξιοποίηση των κυττάρων (μικροβιακών, ζωϊκών, φυτικών), των συστατικών τους (ενζύμων) ή/και ολόκληρων οργανισμών με στόχο την παραγωγή προϊόντων, αγαθών και στην προσφορά υπηρεσιών. - Κόκκινη βιοτεχνολογία: Αφορά στην εφαρμογή βιολογικών συστημάτων για τη βελτίωση ιατρικών διαδικασιών. Περιλαμβάνει: το σχεδιασμό οργανισμών για τη βελτίωση για την παραγωγή φαρμάκων (αντιβιοτικά, εμβόλια κ.ά.), την ανάπτυξη θεραπειών μέσω της μηχανικής των γονιδίων (γονιδιακή και κυτταρική θεραπεία) την ανάπτυξη υπηρεσιών στην ιατροδικαστική μέσω της ανάλυσης του DNA.

Εισαγωγή - Πράσινη βιοτεχνολογία: Αφορά στις εφαρμογές της Βιοτεχνολογίας στη γεωργία και γενικότερα την αγροτική ανάπτυξη. Περιλαμβάνει το σχεδιασμό διαγονιδιακών φυτών με στόχο τη βελτίωση των ιδιοτήτων τους ή των προϊόντων τους. Στοχεύει στην ανάπτυξη περισσότερο περιβαλλοντικά φιλικών λύσεων σε σχέση με την παραδοσιακή βιομηχανοποιημένη γεωργία (π.χ. μείωση της χρήσης εντομοκτόνων).

Εισαγωγή - Λευκή ή βιομηχανική βιοτεχνολογία: Αφορά στην βελτίωση της παραγωγής βιομηχανικών προϊόντων, στην παραγωγή προϊόντων υψηλής προστιθέμενης αξίας (βιοδραστικά μόρια-φάρμακα, διατροφικά πρόσθετα, εξειδικευμένα χημικά, μεταβολικά προϊόντα κλπ), βιοχημικά, βιοϋλικά και βιοενέργεια από ανανεώσιμες πηγές ή ακόμη και την αποδόμηση ρύπων και τοξικών ενώσεων με τη χρήση κυττάρων ή και ενζύμων. - Περιβαλλοντική βιοτεχνολογία: Αφορά την βιοαποκατάσταση, τον βιολογικό καθαρισμό, τα βιοφίλτρα.

Εισαγωγή

Εισαγωγή Βιοτεχνολογικά προϊόντα υψηλής προστιθέμενης αξίας

Στάδια παραγωγής προϊόντων με τη χρήση μικροοργανισμών
Εισαγωγή Στάδια παραγωγής προϊόντων με τη χρήση μικροοργανισμών

Εισαγωγή Βιοπληροφορική είναι η διαχείριση της Βιολογίας σε όρους μορίων (με την έννοια της Φυσικής Χημείας) και η εφαρμογή “τεχνικών πληροφορικής” (εφαρμοσμένα μαθηματικά, επιστήμη των υπολογιστών και στατιστική) για την κατανόηση και οργάνωση πληροφορίας που σχετίζεται με τα μόρια σε μεγάλη κλίμακα. Τομείς έρευνας Βιοπληροφορικής: Υλοποίηση και σχεδιασµός υπολογιστικών εργαλείων για αυτόµατη ανάκτηση γνώσης από Βάσεις Βιολογικών ∆εδοµένων. Ανάλυση Ακολουθιών Βιολογικών ∆εδοµένων. Κατηγοριοποίηση Βιολογικών ∆εδοµένων. Μοριακή Μοντελοποίηση. Ανάλυση Πρωτεϊνών. Σχεδιασµός Φαρµάκων µε χρήση Η/Υ.

Εισαγωγή

Εισαγωγή Βασικές Έννοιες
To DNA αποτελείται από 1 διπλή έλικα βάσεων. Οι βάσεις ενώνονται σε συγκεκριµένη σειρά και αποθηκεύουν τη γενετική πληροφορία κάθε οργανισµού: Α (αδενίνη), Τ (θυμίνη), C (κυτοσίνη), G (γουανίνη). Κάθε μόριο του DNA μπορεί να θεωρηθεί ως μία συμβολοσειρά με αλφάβητο {A,C,T,G}.

Εισαγωγή Kάθε αλυσίδα του DNA σχηματίζεται όταν το σάκχαρο ενός νουκλεοτιδίου συνδέεται με τη φωσφορική ομάδα του επόμενου. Ασθενείς χημικοί δεσμοί αναπτύσσονται ανάμεσα στις συμπληρωματικές βάσεις των απέναντι αλυσίδων. Το δίκλωνο, πλέον, μόριο του DNA περιελίσσεται στον χώρο, σχηματίζοντας διπλή έλικα.

Εισαγωγή Γονιδιώματα (Genomes) Γονίδια (Genes)
Ο όρος γονιδίωµα-genome, αναφέρεται σε ολόκληρη την ακολουθία DNA ενός ζωντανού οργανισµού. Το ανθρώπινο γονιδίωµα αποτελείται από 46 χρωµοσώµατα. Κάθε κύτταρο περιλαµβάνει ολόκληρο το γονιδίωµα ενός οργανισµού (διαφοροποίηση ευκαρυωτικών από προκαρυωτικά κύτταρα). Γονίδια (Genes) Τα γονίδια αποτελούν τις βασικές µονάδες της κληρονοµικότητας. Ένα γονίδιο κωδικοποιεί-encodes µία πρωτεΐνη αφού αποθηκεύει τις απαραίτητες πληροφορίες για την κατασκευή της. Το ανθρώπινο γονιδίωµα αποτελείται από περίπου ~ γονίδια.

Εισαγωγή

Εισαγωγή Πρωτεϊνες (Proteins) Genomics: μελέτη γονιδίων
Οι πρωτεΐνες είναι µόρια που αποτελούνται από ένα ή περισσότερα πολυπεπτίδια. Ένα πολυπεπτίδιο, είναι ένα πολυµερές που δοµείται από αµινοξέα. Τα κύτταρα κατασκευάζουν τις πρωτεΐνες τους από 20 διαφορετικά αµινοξέα. Μια ακολουθία πρωτεΐνης µπορεί να θεωρηθεί ως µια συµβολοσειρά, από ένα αλφάβητο 20 χαρακτήρων, Σ= {Ala, Arg, Asp, Asn, Cys, Glu, Gln, Gly, Hsi,Ile, Leu, Lys, Met, Phe, Pro, Ser, Thr, Trp, Tyr, Val}. Genomics: μελέτη γονιδίων Proteomics: μελέτη πρωτεϊνών

Εισαγωγή

Εισαγωγή Στόχοι μοριακής βιολογίας
Ακολουθιοποίηση και σύγκριση των γονιδιωµάτων διαφορετικών οργανισµών (εξελικτική πορεία, επακριβής συσχέτιση). Αναγνώριση γονιδίων και καθορισµός των λειτουργιών που ρυθµίζουν (αναγνώριση σημείων πρόσδεσης πρωτεινών, και από εκεί αναγνώριση γονιδίων). Κατανόηση της γονιδιακής έκφρασης (κάθε γονίδιο δραστηριοποιείται μετά την παραγωγή της αντίστοιχης έκφρασης, μελέτη της διαδικασίας δραστηριοποίησης). Κατανόηση Γενετικών Ασθενειών (μετάλλαξη γονιδίων).

Επίλυση Υπολογιστικών Προβλημάτων με εργαλεία Βιοπληροφορικής
∆ιασύνδεση της γονιδιακής πληροφορίας (σταδιακή ανάγνωση και επανασύνδεση). Σύγκριση ακολουθιών (αλγόριθμοι ανάκτησης πληροφορίας μέσω σχηματικών ομοιοτήτων). Κατηγοριοποίηση πρωτεϊνών. Εξαγωγή πληροφοριών από γονιδιακές εκφράσεις. Τα δεδομένα από τα οποία προκύπτουν τα συμπεράσματα προέρχονται είτε από πειράματα, είτε από βιολογικές βάσεις δεδομένων.

Υπολογιστικά Εργαλεία
Στόχος είναι ο σχεδιασµός και υλοποίηση ενός µοντέλου που επιτρέπει την αυτόµατη ανάκτηση γνώσης (automated knowledge discovery) από µεγάλο όγκο δεδοµένων. Αναγνώριση κοινών δοµικών χαρακτηριστικών, όχι µόνο σε επίπεδο ακολουθίας, αλλά και σε δισδιάστατο (2D) ή τρισδιάστατο (3D) επίπεδο. Ανίχνευση της οµοιότητας µεταξύ 2D ή 3D σχηµάτων.

Υπολογιστικά Εργαλεία Κατηγοριοποίηση/Ομαδοποίηση Βιολογικών Δεδομένων
Ανάλυση Ακολουθιών Ακριβές Ταίριασμα Προσεγγιστικό Ταίριασμα Στοίχιση (ολική ή τοπική) Ψάξιμο για μέγιστες κοινές υποακολουθίες Βάσεις δεδομένων βιολογικών μακρομορίων (συμπίεση) Κατηγοριοποίηση/Ομαδοποίηση Βιολογικών Δεδομένων Η κατηγοριοποίηση γίνεται βάσει κοινών µοτίβων, δοµικών ή λειτουργικών. Μας ενδιαφέρουν και οι εφαρµογές ολοκλήρωσης διαφορετικού τύπου δεδοµένων (data integration: sequences, 3D co-ordinates, functional knowledge).

Υπολογιστικά Εργαλεία
Μοντελοποίηση Επιλογή του κατάλληλου µοντέλου που περιγράφει ικανοποιητικά τις ενδοµοριακές συσχετίσεις του βιολογικού συστήματος που μελετάται. Υπολογισµός της ενεργειακής κατάστασης του συστήµατος και η ελαχιστοποίησή της. Ανάλυση των παραπάνω υπολογισµών και έλεγχος της τελικής διαµόρφωσης ώστε να ικανοποιούνται όλες οι συνθήκες και περιορισµοί που ο σχεδιαστής έχει θέσει. Ανάλυση πρωτεϊνών Καθορισµός της τρισδιάστατης δοµής µιας πρωτεΐνης από την αµινοξεϊκή της ακολουθία. Μελέτη της προσάραξης πρωτεϊνών (Protein Docking Problem) &πρωτεϊνών-DNA (DNA-Protein Docking Problem).

Σχεδιασμός Φαρμάκων με Η/Υ
Υπολογιστικά Εργαλεία Σχεδιασμός Φαρμάκων με Η/Υ Οι σύγχρονοι ηλεκτρονικοί υπολογιστές αποθηκεύουν πολύτιμες πληροφορίες σχετικά με: 1) την τρισδιάστατη αρχιτεκτονική των μορίων, 2) τις φυσικοχημικές τους ιδιότητες, 3) τη σύγκριση ενός μορίου με άλλα μόρια, 4) τα σύμπλοκα μικρομορίων-μακρομορίων, 5) τις προβλέψεις για νέα μόρια. Ως πρώτος στόχος τίθεται η αποτελεσματική απεικόνιση των δομών κανονικών και παθολογικών μορίων τα οποία στη συνέχεια συγκρίνονται με παθογενή ένζυμα και ενεργούς υποδοχείς αντίστοιχα οπότε και καθορίζεται ο στόχος σχεδιασμού. Έτσι αν γνωρίζουμε τη δομή μιας πρωτεΐνης και τον τρόπο που ο υποδοχέας ή η ενεργός περιοχή της δρα, μπορούμε να «χτίσουμε» και να προσομοιώσουμε την λειτουργία τους στην οθόνη του ηλεκτρονικού υπολογιστή εξοικονομώντας τον χρόνο και το κόστος που θα απαιτούσαν αντίστοιχες πειραματικές δοκιμές.

Τεχνικές Ανάλυσης και Σύγκρισης Ακολουθιών Βιολογικών Δεδομένων
Παραδείγματα Βάσεων Δεδομένων Βιολογικών Ακολουθιών Το πρόβλημα του ακριβούς ταιριάσματος προτύπου Απλοϊκή Μέθοδος Αλγόριθμος Boyer-Moore Αλγόριθμος Knuth-Morris-Pratt Αλγόριθμος Shift-Or/Shift And Το Αυτόματο Aho-Corasick Εφαρμογές σε Προβλήματα Μοριακής Βιολογίας

Βιολογικές Βάσεις Δεδομένων
Τεχνικές Ανάλυσης και Σύγκρισης Ακολουθιών Βιολογικών Δεδομένων Βιολογικές Βάσεις Δεδομένων Γενικευμένες (Generalized) ή Αρχειακές (Archival) βιολογικές βάσεις δεδομένων. Διακρίνονται σε: - Πρωτογενείς βάσεις δεδομένων ακολουθιών (Primary Sequence Databases). Περιέχουν νουκλεοτιδικές και αμινοξικές ακολουθίες από γονιδιώματα οργανισμών που έχουν αποκρυπτογραφηθεί πλήρως. - Βάσεις δεδομένων που περιέχουν τρισδιάστατες δομές νουκλεϊνικών οξέων και πρωτεϊνών (GENBANK, EMBL-Bank, DDJB, Swiss-Prot, PIR-PSD).

Τεχνικές Ανάλυσης και Σύγκρισης Ακολουθιών Βιολογικών Δεδομένων Βιολογικές Βάσεις Δεδομένων Δευτερεύουσες (Secondary) βιολογικές βάσεις δεδομένων που προκύπτουν από ανάλυση των δεδομένων που είναι αποθηκευμένα στις αρχειακές βιολογικές βάσεις δεδομένων και διακρίνονται σε: - Δευτερεύουσες ΒΔ ακολουθιών DNA και πρωτεϊνών που προκύπτουν από τις βασικές ΒΔ ακολουθιών και περιλαμβάνουν : (α) ΒΔ ακολουθιών στις οποίες έχουν απομακρυνθεί οι ακολουθίες που έχουν αποθηκευτεί περισσότερες από μία φορές, (β) ΒΔ που καταγράφουν μεταλλαγές ή παραλλαγές στις ακολουθίες DNA και πρωτεινών, (γ) Γονιδιωματικές ΒΔ που είτε ομαδοποιούν συγγενή ή όχι πλήρως αποκρυπτογραφημένα γονιδιώματα είτε ασχολούνται με γονιδιώματα οργανισμών μοντέλων. - ΒΔ που ασχολούνται με τις ιεραρχήσεις ή/και συσχετίσεις μεταξύ βιομορίων όπως οικογένειες πρωτεϊνών, κοινές δομές πρωτεϊνών κοινά μοτίβα ακολουθιών DNA και πρωτεϊνών.

Εξειδικευμένες ΒΔ, κατηγορία στην οποία ανήκουν: - ΒΔ μικροσυστοιχιών που περιλαμβάνουν πληροφορίες για την έκφραση γονιδίων και πρωτεϊνών - ΒΔ μεταβολικών μονοπατιών που περιέχουν πληροφορίες για τις χημικές αντιδράσεις που πραγματοποιούνται στο κύτταρο Βιβλιογραφικές βιολογικές βάσεις δεδομένων Βιολογικές βάσεις δεδομένων ιστοσελίδων που περιλαμβάνουν: - ΒΔ που περιλαμβάνουν ως εγγραφές βιολογικές βάσεις. - Συνδέσμους μεταξύ βιολογικών βάσεων δεδομένων.

Βασικοί Ορισμοί Συμβολοσειρά-string: x=x[1]x[2]…..x[n], x[i]Σ & |x|=n
x= acgttaaaca, |x|=10 & Σ={Α,C,G,T} (Αδενίνη, Θυμίνη, Κυτοσίνη, Γουανίνη) Σ+: το σύνολο των συμβολοσειρών που ορίζονται στο αλφάβητο Σ Κενή συμβολοσειρά: ε Υπο-συμβολοσειρά-substring w: x=uwv Πρόθεμα –Prefix w: x=wu Επίθεμα-Suffix w: x=uw

Βασικοί Ορισμοί Border συμβολοσειράς x: συμβολοσειρά w που είναι πρόθεμα και επίθεμα του x. xk=x…x , κ-οστή δύναμη του x y=xk, k>1  το y περιοδικό με περίοδo x Περίοδος y= η μικρότερη τέτοια συμβολοσειρά Primitive (πρωταρχική) συμβολοσειρά Κάλυμμα (Cover) συμβολοσειράς Φύτρο (Seed) συμβολοσειράς κ φορές

Προβλήματα Ταιριάσματος Προτύπου
Ακριβές Ταίριασμα: ενδιαφερόµαστε να εντοπίσουµε όλες τις εµφανίσεις ενός δοσµένου προτύπου (µοτίβου) P (“δοµηµένου” ή “µη-δοµηµένου”) σε µια συμβολοσειρά (βιολογική αλληλουχία) Τ . Προσεγγιστικό Ταίριασμα: Για ένα κείµενο T , ένα µοτίβο P , µια παράµετρο k και µια συνάρτηση οµοιότητας d( ) , εντόπισε τις θέσεις i, j στο κείµενο , έτσι ώστε d(P, Ti..j ) >=k.

Η διαδικασία σύγκρισης της οµοιότητας δυο ακολουθιών στηρίζεται σε πίνακες που βαθµολογούν τις οµοιότητες (matches) και διαφορές (mismatches) µεταξύ διαδοχικών συµβόλων. Τέτοιου τύπου πίνακες είναι οι: Dayhoff Mutation Data Matrix, BLOSUM κτλ. Επίσης η σύγκριση ακολουθιών µπορεί να κατηγοριοποιηθεί σε: α) τοπική ευθυγράµµιση -local alignment και β) ολική ευθυγράµµιση - global alignment. Στην τοπική ευθυγράµµιση αναζητούµε περιοχές τοπικής οµοιότητας. Γνωστοί τέτοιοι αλγόριθμοι είναι των Smith-Waterman (τοπικοί), Needleman & Wunsch (ολικοί). Και στις δυο περιπτώσεις υπάρχουν παραπάνω από µια δυνατές ευθυγραµµίσεις. Η βέλτιστη λύση πρέπει να ελαχιστοποιεί τις διαφορές ανάµεσα στις δυο ακολουθίες ή διαφορετικά να µεγιστοποιεί τη συνάρτηση οµοιότητας.

Στοίχιση Ακολουθιών Συνέκρινε δύο ή περισσότερες ακολουθίες ελέγχοντας για μία ακολουθία ατομικών χαρακτήρων που είναι με την ίδια σειρά στις ακολουθίες. Ανακάλυψε λειτουργική, δομική και εξελεκτική πληροφορία. L G P S S K Q T G K G S – S R I W D N ολική στοίχιση L N – I T K S A G K G A I M R L G D A T K G S – τοπική στοίχιση – A K G A

Επαναλήψεις σε βιολογικές ακολουθίες
Προβλήματα Ταιριάσματος Προτύπου Επαναλήψεις σε βιολογικές ακολουθίες Οι επαναλήψεις σε βιολογικές ακολουθίες κατηγοριοποιούνται στις εξής 3 βασικές κατηγορίες: επαναλήψεις περιορισμένου μήκους που εμφανίζονται σε τοπικό επίπεδο, και των οποίων η λειτουργία είναι γνωστή, επαναλήψεις περιορισμένου μήκους που εμφανίζονται σε όλο το μήκος της ακολουθίας, και των οποίων η λειτουργία δεν είναι απόλυτα γνωστή, δομημένες επαναλήψεις μεγάλου μήκους των οποίων η λειτουργία δεν έχει προσδιοριστεί.

Πρότυπα Μοτίβα DNA TRANSFAC, JASPAR, SCPD, DBTBS, RegulonDB Μοτίβα πρωτεϊνών PROSITE, Pfam, ProDom, BLOCKS, TIGRFAM, Interpro

Ακριβές Ταίριασμα (εφαρμογές)
Προβλήματα Ταιριάσματος Προτύπου Ακριβές Ταίριασμα (εφαρμογές) Επεξεργαστές κειμένου Utilities (grep στο Unix) Textual Information Retrieval (Medline, Lexis, Nexis) Internet News Readers On-line dictionaries και θησαυρούς Molecular Biology Databases

Ακριβής Εύρεση Προτύπου The Exact Pattern Matching Problem
P= acgttaaaca

Η απλοϊκή μέθοδος επίλυσης – Naive Method
g c a t 1 2 3 4 5 6 7 8 2o βήμα: Στο πρώτο mismatch – 4η θέση μετατοπίζουμε το πρότυπο κατά 1 θέση g c a t 1 2 3 4 5 6 7 8

3o βήμα: Σε κάθε mismatch μετατοπίζουμε το πρότυπο κατά 1 θέση g c a t 1 2 3 4 5 6 7 8 4ο βήμα: g c a t 1 2 3 4 5 6 7 8

5ο βήμα: 1η εύρεση του προτύπου L{X}={5,…} g c a t 1 2 3 4 5 6 7 8 6o βήμα: g c a t 1 2 3 4 5 6 7 8

Ο αλγόριθμος Boyer-Moore
1η ιδέα: Στοιχίζουμε την ακολουθία και το πρότυπο & συγκρίνουμε τους χαρακτήρες από δεξιά προς τα αριστερά g c a t 1 2 3 4 5 6 7 8 2η ιδέα: Σε κάθε mismatch μετατοπίζω το πρότυπο περισσότερες από 1 θέσεις βάσει 2 κανόνων g c a t 1 2 3 4 5 6 7 8

α’ κανόνας: “good suffix shift”
Ο αλγόριθμος Boyer-Moore α’ κανόνας: “good suffix shift” T  b u P[i-1] T [j+i-2] P[i… m] = T[j+i-1…j+m] P  a u ιδέα: ας στοιχίσουμε την επόμενη εμφάνιση του u με το αντίστοιχο τμήμα T[j+1-1, …, j+m] shift P c u

β’ κανόνας: “bad character shift”
Ο αλγόριθμος Boyer-Moore β’ κανόνας: “bad character shift” T b u P[i-1] T [i+j-2] T[i+j-2] = b ιδέα: ας στοιχίσουμε το χαρακτήρα T[i+j-2] =b με τη δεξιότερη εμφάνισή του -αν υπάρχει- στο πρότυπο P shift P b δεν περιέχει b

Ο αλγόριθμος Knuth-Morris-Pratt
Τ  u b P[i+1] T [i+1+j] P[1… i] = T [j…i+j-1] = u P u a ιδέα: ας στοιχίσουμε το μέγιστο πρόθεμα prefix(P)=v με το αντίστοιχο τμήμα από το επίθεμα u της ακολουθίας shift P  v c

Ο αλγόριθμος Knuth-Morris-Pratt
1ο βήμα: Στοιχίζουμε την ακολουθία και το πρότυπο & συγκρίνουμε τους χαρακτήρες από αριστερά προς τα δεξιά x y a b c d q f e g t 1 2 3 4 5 6 7 8 9 2ο βήμα: Μετατοπίζω το πρότυπο κατά 4 θέσεις x y a b c d q f e g t 1 2 3 4 5 6 7 8 9

Εφαρμογές εύρεσης προτύπων σε προβλήματα Βιοπληροφορικής
Αναζήτηση Sequence-tagged-site (STS) & Expressed Sequence Tags (ESTs) σε ακολουθίες γονιδιωμάτων. STS: τμήματα του DNA μήκους νουκλεοτιδίων. ESTs: τμήματα mRNA & cDNA ακολουθίες που αντιπροσωπεύουν τα τμήματα κωδικοποίησης μιας πρωτεΐνης σε μια ακολουθία γονιδίων. Αναζήτηση “κανονικών εκφράσεων” (regular expressions) [ED]-[EN]-L-[SAN]-x-x-[DE]-x-E-L  ENLSSEDEEL

Εξόρυξη Γνώσης από Δεδομένα (Data Mining)
Ανακάλυψη γνώσης από βάσεις δεδομένων Τεχνικές για την ανάλυση και εξόρυξη δεδομένων Μέθοδοι Εξόρυξης Γνώσης

Εξόρυξη Γνώσης από Δεδομένα (Data Mining)
Κατηγοριοποίηση (Classification) Βασίζεται στην εξέταση των χαρακτηριστικών ενός αντικειμένου και στην αντιστοίχηση του βάση αυτών των χαρακτηριστικών σε ένα προκαθορισμένο σύνολο κλάσεων. Συσταδοποίηση (Clustering) Διαχωρισμός ενός συνόλου δεδομένων σε ένα σύνολο συστάδων (clusters). Διαφοροποιείται από την κατηγοριοποίηση διότι η συσταδοποίηση δεν διαθέτει προκαθορισμένες κατηγορίες. Τα δεδομένα οργανώνονται σε συστάδες με βάση τις ομοιότητες που έχουν μεταξύ τους.

Εξόρυξη Γνώσης από Κείμενα(Text Mining)
Αποσκοπεί στην εξαγωγή χρήσιμης πληροφορίας από πηγές δεδομένων μέσω της αναγνώρισης και της διερεύνησης ενδιαφερόντων προτύπων. Οι πηγές δεδομένων είναι συλλογές κειμένων. Τα ενδιαφέροντα πρότυπα αναζητούνται σε μη δομημένα δεδομένα κειμένων, δηλαδή στα έγγραφα της συλλογής και όχι σε δομημένα δεδομένα Βάσεων Δεδομένων.

Εξόρυξη Γνώσης από κείμενα βιολογικού περιεχομένου
Πρόβλημα Ο όγκος των δημοσιεύσεων βιοϊατρικής έρευνας και οι αντίστοιχες βάσεις βιοϊατρικών δεδομένων, επεκτείνονται και αυξάνονται ραγδαία. Στόχος της βιοϊατρικής έρευνας είναι η ανακάλυψη γνώσης και η χρησιμοποίηση της στη διάγνωση και θεραπεία.

Εξόρυξη κειμένου (Text Mining) Τομέας της επιστήμης των υπολογιστών που μπορεί να βοηθήσει τους ερευνητές στην αντιμετώπιση της πληθώρας πληροφοριών. Ο στόχος είναι μέσω της εφαρμογής αλγοριθμικών, στατιστικών μεθόδων και μεθόδων διαχείρισης δεδομένων: Αναγνώριση της πληροφορίας με αποδοτικό τρόπο. Αναγνώριση των σχέσεων που υποσκιάζονται από τον μεγάλο όγκο πληροφορίας.

Τα βασικά βήματα για την ανάλυση κειμένων είναι: Προεπεξεργασία Κειμένων Αναπαράσταση Κειμένων Εξαγωγή Χαρακτηριστικών Γνωρισμάτων των κειμένων

Προεπεξεργασία Κειμένων
Εξόρυξη Γνώσης από κείμενα βιολογικού περιεχομένου Προεπεξεργασία Κειμένων Αφαίρεση Δομής πχ. Μετατροπή των PDF και HTML αρχείων σε απλό κείμενο .txt. Λημματοποίηση (Tokenization) Διαχωρισμός των προτάσεων σε ξεχωριστούς όρους (tokens) που μπορεί να είναι λέξεις ή σημεία στίξης ή αριθμοί. Αφαίρεση Stopwords: Σύγκριση κάθε όρου με μια γνωστή συλλογή από stopwords. Λεξικογραφική Ανάλυση (POS Tagging) Αναγνώριση του μέρους του λόγου που ανήκει η κάθε λέξη, δηλαδή ουσιαστικό, ρήμα, επίθετο κλπ. Επιλογή των ουσιαστικών Τα ουσιαστικά επιφέρουν τη σημαντικότερη πληροφορία των κειμένων.

Διανυσματικό Μοντέλο (Vector Space Model)
Εξόρυξη Γνώσης από κείμενα βιολογικού περιεχομένου Διανυσματικό Μοντέλο (Vector Space Model) Αναπαριστούμε τα κείμενα σε μια μορφή που να είναι επεξεργάσιμη. Η πιο γνωστή μέθοδος αναπαράστασης κειμένων είναι η διανυσματική αναπαράσταση. Κάθε κείμενο και κάθε ερώτημα αναπαρίσταται ως ένα διάνυσμα m όρων, όπου m είναι ο αριθμός των μοναδικών όρων (unique terms) της συλλογής. Για κάθε όρο υπολογίζουμε το βάρος.

TF-IDF Η πιο γνωστή μέθοδος απόδοσης βάρους. Το TF-IDF αποτελείται από τις εξής ποσότητες: TF είναι η συχνότητα εμφάνισης ενός όρου σε ένα κείμενο. IDF αποτελεί ένα βάρος που δηλώνει τη σημαντικότητα ενός όρου στο κείμενο, σε σχέση με ολόκληρη τη συλλογή κειμένων. Το τελικό βάρος TF-IDF προκύπτει από τον πολλαπλασιασμό των TF και IDF. Η μέθοδος TF-IDF είναι σημαντική για ένα κείμενο, όταν ένας όρος εμφανίζεται συχνά σε ένα κείμενο και σπάνια στα υπόλοιπα κείμενα της συλλογής.

Ομοιότητα Συνημιτόνου
Εξόρυξη Γνώσης από κείμενα βιολογικού περιεχομένου Ομοιότητα Συνημιτόνου Η πιο γνωστή μέθοδος υπολογισμού της ομοιότητας, βασίζεται στο συνημίτονο της εμπεριεχόμενης γωνίας των δυο διανυσμάτων. t 1 t 2 t 3 θ

Συσταδοποίηση (Clustering)
Το πρόβλημα της συσταδοποίησης σχετίζεται με την τμηματοποίηση (partitioning, clustering) ενός συνόλου δεδομένων σε συστάδες, έτσι ώστε τα στοιχεία που ανήκουν σε μία συστάδα να είναι περισσότερο όμοια μεταξύ τους από ότι είναι με τα στοιχεία των άλλων συστάδων. Δεν υπάρχουν προκαθορισμένες κατηγορίες ούτε κάποια άλλη προηγούμενη γνώση σχετικά με την σχέση μεταξύ των στοιχείων. Αντίθετα, η κατηγοριοποίηση είναι η διαδικασία με την οποία ένα σύνολο αντικειμένων αντιστοιχίζεται σε ένα σύνολο προκαθορισμένων κατηγοριών εξετάζοντας τα χαρακτηριστικά κάθε αντικειμένου.

Μέθοδοι Συσταδοποίησης
Διαιρετική Συσταδοποίηση (Partitional Clustering) Ασαφής Συσταδοποίηση (Fuzzy Clustering) Μη ασαφής Συσταδοποίησης (Crisp Clustering) Συσταδοποίηση με δίκτυα Kohonen Ιεραρχική Συσταδοποίηση (Hierarchical Clustering)

Ασαφής Συσταδοποίηση (Fuzzy Clustering)
Hard Clustering Tα στοιχεία διαχωρίζονται σε μη ασαφείς συστάδες (crisp clusters), όπου κάθε στοιχείο ανήκει σε ακριβώς μία συστάδα. Με τον τρόπο αυτό παράγονται συστάδες που είναι μη επικαλυπτόμενες (crisp clustering). Αλγόριθμοι Ασαφούς Συσταδοποίησης (Fuzzy Clustering) Θεωρούν ότι ένα στοιχείο μπορεί να ανήκει σε περισσότερες από μια συστάδες ορίζοντας ένα βαθμό συμμετοχής κάθε στοιχείου σε κάθε συστάδα. Η τιμή του βαθμού συμμετοχής ενός στοιχείου i στην συστάδα j, δείχνει την πιθανότητα να ανήκει το στοιχείο αυτό στην συγκεκριμένη συστάδα.

Ασαφής Συσταδοποίηση (Fuzzy Clustering)
Το αποτέλεσμα της Fuzzy Clustering τεχνικής μπορεί να μετατραπεί σε Hard Clustering. Κάθε στοιχείο ανήκει σε μία μόνο συστάδα, στη συστάδα στην οποία έχει τον μεγαλύτερο βαθμό συμμετοχής.

Ιεραρχικοί Αλγόριθμοι (Hierarchical Algorithms)
Παράγουν μια ακολουθία διχοτομήσεων ή συγχωνεύσεων, η οποία μπορεί να αναπαρασταθεί ως ένα δέντρο, το οποίο ονομάζεται δενδρόγραμμα. Κάθε επίπεδο του δενδρογράμματος απεικονίζει τη συγχώνευση δύο συστάδων του χαμηλότερου επιπέδου.

Ιεραρχικοί Αλγόριθμοι (Hierarchical Algorithms)
Συσσωρευτικοί Ιεραρχικοί Αλγόριθμοι Αρχικά κάθε στοιχείο ως μια ξεχωριστή συστάδα. Σε κάθε βήμα, συγχωνεύουν το ζεύγος συστάδων με την μεγαλύτερη ομοιότητα ή το πλησιέστερο ζεύγος συστάδων. Για να βρεθεί η ομοιότητα ή η απόσταση δύο συστάδων απαιτείται ο προσδιορισμός ενός κριτηρίου. Διαιρετικοί Ιεραρχικοί Αλγόριθμοι Αρχικά όλα τα στοιχεία ως μια μοναδική συστάδα. Σε κάθε βήμα διαχωρίζουν μια συστάδα έως ότου καταλήξουμε σε ένα σύνολο συστάδων, όπου κάθε μια αποτελείται από ένα μόνο στοιχείο. Σε αυτή την περίπτωση, θα πρέπει να ορίσουμε ποια συστάδα θα διαχωριστεί σε κάθε βήμα, καθώς και τον τρόπο διαχωρισμού της.

Απλός Συσσωρευτικός Ιεραρχικός Αλγόριθμος
Υπολογίζουμε την ομοιότητα όλων των ζευγών συστάδων (δηλαδή υπολογίζουμε έναν πίνακα ομοιότητας, όπου το στοιχείο (i,j) ορίζει την ομοιότητα των συστάδων i και j. Συγχωνεύουμε τις δύο πιο όμοιες (πιο κοντινές) συστάδες. Ανανεώνουμε τον πίνακα ομοιότητας για να απεικονίζει την ομοιότητα μεταξύ της νέας συστάδας και των αρχικών συστάδων. Επαναλαμβάνουμε τα βήματα 2 και 3 έως ότου μείνει μια μόνο συστάδα.

Αλγόριθμος K-means Ο αλγόριθμος ξεκινά αρχικοποιώντας με τυχαίο τρόπο τα κέντρα των συστάδων. Στη συνέχεια, αναθέτει κάθε στοιχείο του συνόλου δεδομένων στη συστάδα της οποίας το κέντρο βρίσκεται πιο κοντά και ξανα- υπολογίζει τα νέα κέντρα που προκύπτουν. Τα νέα κέντρα των συστάδων υπολογίζονται χρησιμοποιώντας τον μέσο όρο των σημείων της κάθε συστάδας. Η διαδικασία αυτή επαναλαμβάνεται έως ότου τα να κέντρα των συστάδων σταματήσουν να αλλάζουν.

K-means με Διχοτόμηση (Bisecting K-means)
Αρχικά, αντιστοιχεί όλα τα αντικείμενα-δεδομένα σε μια συστάδα. Επανάληψη 3 βημάτων έως ότου επιτύχουμε τον επιθυμητό αριθμό συστάδων Επιλογή της συστάδας που θα διασπαστεί. Διαχωρισμός αυτής της συστάδας σε δυο υπο-συστάδες χρησιμοποιώντας τον βασικό Αλγόριθμο K-means. Bisecting βήμα τo οποίο επαναλαμβάνεται για έναν αριθμό επαναλήψεων, προκειμένου να επιλέξουμε το διαχωρισμό με την υψηλότερη συνολική ομοιότητα.

Spherical K-means K-means
Χρησιμοποιεί την ευκλείδεια απόσταση, ωστόσο αυτή η μετρική απόστασης είναι συχνά ακατάλλλη για την συσταδοποίηση κειμένων. Spherical K-means Χρησιμοποιεί την ομοιότητα συνημιτόνου, η οποία υπολογίζει το συνημίτονο της εσωτερικής γωνίας των διανυσμάτων των κειμένων. Τα διανύσματα βρίσκονται πάνω στην μοναδιαία σφαίρα.

Βάση Δεδομένων του Συστήματος
Ο χρήστης δίνει τις λέξεις-κλειδιά (keywords) στη φόρμα αναζήτησης. Οι λέξεις-κλειδιά δίνονται στη συνέχεια ως ερώτημα στις βάσεις δεδομένων του PubMed και του Springerlink. Αποθήκευση των κορυφαίων αποτελεσμάτων που επιστρέφονται στη βάση δεδομένων του συστήματος. Εύρεση του Impact Factor των περιοδικών από τη βάση δεδομένων του ISI Web of Knowledge. Στη Βάση Δεδομένων αποθηκεύονται επίσης πληροφορίες για κάθε άρθρο όπως (Url του περιοδικού και της περίληψης, τίτλος περιοδικού, ονόματα συγγραφέων κλπ.).

Διανυσματικό Μοντέλο (Vector Space Model)
Κάθε κείμενο και κάθε ερώτημα αναπαρίσταται ως ένα διάνυσμα m όρων, όπου m είναι ο αριθμός των μοναδικών όρων (unique terms) της συλλογής. Για κάθε όρο υπολογίζουμε το βάρος TF-IDF που αντιστοιχεί για κάθε κείμενο. Στο σχήμα TF-IDF, η συχνότητα εμφάνισης TF του όρου στο κείμενο πολλαπλασιάζεται με την αντίστροφη συχνότητα (IDF - inverse document frequency) του όρου αυτού στα κείμενα της συλλογής. Αποτέλεσμα: Η δημιουργία ενός πίνακα Α mxn, όπου m είναι ο αριθμός των μοναδικών όρων και n ο αριθμός των κειμένων.

Ιεραρχικός Αλγόριθμος (Hierarchical Algorithm)
Μείωση του αριθμού των συστάδων που προέκυψαν από το Fuzzy Clustering από k σε Κ. Κ είναι μια παράμετρος που παρέχεται από τον χρήστη. Κ είναι επίσης και ο αριθμός των αρχικών συστάδων που δίνονται ως είσοδος στον Spherical K-means, στο επόμενο βήμα. Ο Ιεραρχικός Συσσωρευτικός Αλγόριθμος, σε κάθε βήμα του, ενώνει τις δύο πιο όμοιες συστάδες, έως ότου ο αριθμός των συστάδων να είναι Κ. Δημιουργείται ένα δενδρόγραμμα.

Ιεραρχικός Αλγόριθμος (Hierarchical Algorithm)
Παράδειγμα δενδρογράμματος-Ιεραρχικό δέντρο

Δενδρογράφημα Αναπαράσταση συστάδων γονιδίων με χρωματικό δενδρογράφημα course.uoi.gr/pluginfile.php/55078/mod_resource/content/1/BI_b10.pdf

Μικροσυστοιχίες Microarrays: δεδομένα έκφρασης γονιδίων.
Κύριες πειραματικές τεχνικές Microarrays -προσέγγιση spot-blotting -(μικρές) αντιδράσεις PCR DNA chips -απευθείας σύνθεση ολιγονουκλεοτιδίων: -φωτολιθογραφία (Affymetrix) -ηλεκτροχημική διαδικασία

Μικροσυστοιχίες Επεξεργασία δεδομένων έκφρασης
Μέτρηση δείκτη φθορισμού - laser & Η/Υ - φασματομετρία Ψηφιακή ανάλυση -τεχνικές απεικόνισης -διαγράμματα διασποράς, ιστογράμματα -νευρωνικά δίκτυα -χρονοσειρές, κύριες συνιστώσες, συστάδες

Μικροσυστοιχίες Ανακατασκευή δικτύου
Πρόβλημα: Σχεδιασμός δικτύων βάσει περιορισμένων δεδομένων Ιδιότητες δικτύων - Στοχαστικότητα-σύνθετες αλληλεπιδράσεις - Αντιγραφή (γονιδιακή) - Οργάνωση και δυναμική (γενωμική) Βασικές τεχνικές -Συσταδοποίηση -Μοντελοποίηση (πίνακες βαρών, δίκτυα λογικής, διαφορικές εξισώσεις) -Κανονικοποίηση -Πρότυπα (έκφρασης)

Βιβλιογραφία Jacques Cohen, Bioinformatics—An Introduction for Computer Scientists, ACM Computing Surveys, 2004. Pavel Berkhinm, Survey of Clustering Data Mining Techniques . Jason T. L. Wang, Data Mining in Bioinformatics Advanced Information and Knowledge Processing, 2005.

Δημήτριος Ι. Φωτιάδης Πανεπιστήμιο Ιωαννίνων

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Δημήτριος Ι. Φωτιάδης Πανεπιστήμιο Ιωαννίνων"— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Δημήτριος Ι. Φωτιάδης Πανεπιστήμιο Ιωαννίνων

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Δημήτριος Ι. Φωτιάδης Πανεπιστήμιο Ιωαννίνων"— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια