Συστήματα Βιο-πληροφορικής

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Διδακτικά Εργαλεία.
Advertisements

ΤΡΟΠΟΣ ΑΞΙΟΛΟΓΗΣΗΣ ΤΩΝ ΟΡΓΑΝΩΤΙΚΩΝ ΚΑΙ ΔΙΟΙΚΗΤΙΚΩΝ ΔΕΞΙΟΤΗΤΩΝ ΤΟΥ ΟΡΓΑΝΙΣΜΟΥ  Εκπαιδευτικό Κεφάλαιο 1.1 Τεχνικές δεξιότητες και προσόντα.
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Τεχνολογίες ανάκτησης και εξαγωγής δεδομένων με γλωσσική υποστήριξη - Εφαρμογές στο e-government και e-business - Εφαρμογές στο e-government και e-business.
ΘΕΩΡΙΑ ΤΩΝ ΑΣΑΦΩΝ ΣΥΝΟΛΩΝ ΚΑΚΑΛΟΥ ΔΙΟΝΥΣΙΑ ΑΕΜ: 4403
Η ΓΛΩΣΣΑ ΤΗΣ ΧΗΜΕΙΑΣ Project A λυκείου ομάδα Μαρούλι Γκουρνέλος Χρήστος Ευάγγελος Μέριανος Κωνσταντίνος Πάνος Κνισοβίτης Χρήστος.
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
ΕΦΑΡΜΟΣΜΕΝΗ ΜΟΡΙΑΚΗ ΒΙΟΛΟΓΙΑ
Ολυμπία Νίκου Α.Μ. Μ956 Διπλωματική Εργασία
Εφαρμογές της Θεωρίας της Πληροφορίας σε διαδικασίες ανάκτησης εικόνας Μακεδόνας Ανδρέας Μεταδιδακτορικός Ερευνητής Τμ. Φυσικής, Εργαστήριο Ηλεκτρονικής.
Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας.
γενετικής πληροφορίας
ΠΕΡΙΒΑΛΛΟΝΤΙΚΟΣ ΘΟΡΥΒΟΣ
Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
ΚΕΦΑΛΑΙΟ 1ο ΓΕΝΕΤΙΚΟ ΥΛΙΚΟ ΜΕΡΟΣ Α
ΣΧΕΣΙΑΚΟ ΜΟΝΤΕΛΟ ΜΑΘΗΜΑ 3.
Οι λειτουργίες του γενετικού υλικού.
Το έργο «Εθνικό Πληροφοριακό Σύστημα Έρευνας και Τεχνολογίας (ΕΠΣΕ+Τ) - Γ' ΦΑΣΗ "Αποθετήρια και Επιστημονικά Ηλεκτρονικά Περιοδικά Ανοικτής Πρόσβασης"»
ΑΝΤΙΓΡΑΦΗ, ΕΚΦΡΑΣΗ ΚΑΙ ΡΥΘΜΙΣΗ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ
ΚΕΦΑΛΑΙΟ 1ο ΓΕΝΕΤΙΚΟ ΥΛΙΚΟ ΜΕΡΟΣ Α.
Κεφάλαιο 1ο Ανάλυση Προβλήματος.
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Η μάθηση από κείμενα 1 Τρίτη, 5 Ιουλίου 2011  Η μάθηση από κείμενα είναι μια πολύπλοκη διαδικασία η οποία μέχρι σήμερα δεν έχει γίνει πλήρως κατανοητή.
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
Διαδικτυακή εφαρμογή ανάλυσης και επεξεργασίας δεδομένων κυβερνητικών διαβουλεύσεωνgov.insight Η. Ζαβιτσάνος, Γ. Γιαννακόπουλος, Γ. Παλιούρας Ινστιτούτο.
Center for Collaboration and Exchange (cce): Ένα εργαλείο για την υποστήριξη κοινοτήτων δράσης Χ. Κυνηγός, Ε. Τρούκη, Ν. Γιαννούτσου, Μ. Φουντάνα, Τ. Αθανασίου.
Οργάνωση πληροφοριών Ευρετηρίαση Μέρος Β Σχεδιασμός ευρετηρίων.
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
ΛΕΙΤΟΥΡΓΙΕΣ ΤΟΥ ΓΕΝΕΤΙΚΟΥ ΥΛΙΚΟΥ
ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ –ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ : ΥΠΗΡΕΣΙΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΕ ΨΗΦΙΑΚΟ ΠΕΡΙΒΑΛΛΟΝ ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ.
Δομές Δεδομένων.
Ζαχαροπούλου Μαρίζα Λεκκός Βασίλης Στόγιος Κων/νος Μα τι είναι επιτέλους αυτό το DNA;
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ «ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ» ΜΕ ΘΕΜΑ: A Comparison of Methodic Segmentation Techniques for.
ΡΟΗ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ
Μετατροπή Μουσικών Συλλογών σε Ψηφιακές Βιβλιοθήκες Το Πρόγραμμα MUSESCAPE Ιόνιο Πανεπιστήμιο Ιανουάριος 2005 Χριστιανούδης Ιωάννης.
Προηγμένη Εφαρμογή Ιστού Διαχείρισης Δεδομένων Βιοεπιστημών Διπλωματική Εργασία του Γεωργίου Πρέκα ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ.
3/4/2015Μαθηματικές έννοιες και Φυσικές Επιστήμες 1 ΜΑΘΗΜΑΤΙΚΕΣ ΕΝΝΟΙΕΣ ΚΑΙ ΦΥΣΙΚΕΣ ΕΠΙΣΤΗΜΕΣ Συνάντηση 5η.
Βασικες Εννοιες Φυσικής. Προηγουμενο μάθημα Δεξιότητες – Δεξιότητες: Δυνάμεις του 10 και λιγη άλγεβρα – Δεξιότητες: Λύση απλών σχέσεων – Ασκηση: μια άσκηση.
1 Διαχείριση Γνώσης Μ. Γεργατσούλης Χ. Παπαθεοδώρου.
Μοριακή Ταξινόμηση βακτηρίων
Η ροή της γενετικής πληροφορίας
Απομόνωση DNA Mια πλήρης σειρά όλης της γενετικής πληροφορίας ενός ιού ή ενός κυττάρου αποτελεί το γονιδίωμα. Στα σωματικά κύτταρα ενός ευκαρυωτικού οργανισμού.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
1 η Ενότητα 2 η Ενότητα 3 η Ενότητα.  Μαθητής που εργάστηκε: Μουχταρόπουλος Πέτρος  Μαθητής που εργάστηκε: Μουχταρόπουλος Πέτρος.
ΒΙΟΧΗΜΕΙΑ, ΠΕΚ 2014 Γενετική μηχανική, ανασυνδυασμένο DNA, ΑΑΠ (PCR)
Ποια τα χαρακτηριστικά του γενετικού κώδικα; 1.Κώδικας τριπλέτας = μια τριάδα νουκλεοτιδίων, το κωδικόνιο, κωδικοποιεί ένα αμινοξύ. Επειδή : – Αριθμός.
1.4 Καθορισμός απαιτήσεων Είναι η διαδικασία κατά την οποία πρέπει να κάνουμε: ✗ τον επακριβή προσδιορισμό των δεδομένων που παρέχει το πρόβλημα ✗ την.
Η ροή της γενετικής πληροφορίας. Στo DNA βρίσκονται αποθηκευμένες οι πληροφορίες που αφορούν : στον αυτοδιπλασιασμό του →εξασφαλίζοντας έτσι τη μεταβίβαση.
Ανάλυση κρίσιμου συμβάντος
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Η βιοσύνθεση τω πρωτεϊνών στα ριβοσώματα
ΕΘΝΙΚΟ & ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ Τμήμα Τεχνολόγων Περιβάλλοντος
Επεξεργασία Κειμένου Διδακτική προσέγγιση των λογισμικών γενικής χρήσης Ζωγραφική Λογιστικά φύλλα Βάσεις δεδομένων.
Αρχεσ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Η/Υ ΤΑξη Β΄
Εφαρμογές της Βιολογίας στην Ιατρική
ΑΝΤΙΓΡΑΦΗ, ΕΚΦΡΑΣΗ ΚΑΙ ΡΥΘΜΙΣΗ ΤΗΣ ΓΕΝΕΤΙΚΗΣ ΠΛΗΡΟΦΟΡΙΑΣ
Γαριπίδης Ιορδάνης Βιολόγος 3ο ΓΕΛ Χαϊδαρίου
Μουσικό Σχολείο Σερρών Μάθημα: Βιολογία Τάξη: Α΄ Λυκείου
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
ΦΥΛΟΓΕΩΓΡΑΦΙΑ ΤΟΥ ΕΙΔΟΥΣ PORCELLIO FLAVOMARGINATUS (LUCAS, 1853) ΣΤΗΝ ΠΕΡΙΟΧΗ ΤΟΥ ΑΙΓΑΙΟΥ Στέφανος Μαρτιμιανάκης, Έλενα Κλώσσα- Κίλια, Γεώργιος Κίλιας.
ΚΥΤΤΑΡΟ 2ο ΓΕΛ ΧΑΪΔΑΡΙΟΥ.
ΝΟΥΚΛΕΪΚΑ ΟΞΕΑ 2ο ΓΕΛ ΧΑΪΔΑΡΙΟΥ.
Ερωτήματα Επιλογής σε ACCESS
Εννοιολογική Χαρτογράφηση
Διδάσκοντας με στόχο την κατανόηση ΄ Δρ. Μ. Λάτση – ΠΕ 70
Διδάσκοντας με στόχο την κατανόηση ΄ Δρ. Μ. Λάτση – ΠΕ 70
Μεταγράφημα παρουσίασης:

Συστήματα Βιο-πληροφορικής Δρ. Γιάννης Αλμυράντης Δρ. Γιώργος Παλιούρας Δρ. Γιώργος Γιαννακόπουλος Κοινή δουλειά με: Δρ. Χριστόφορο Νικολάου Δημήτρη Πολυχρονόπουλο

Διεπιστημονικότητα Επιστήμονες ...διαφόρων ειδικοτήτων ...που συναντώνται ...και συνεργάζονται ...μοιραζόμενοι ιδέες και δεξιότητες ...με κοινό στόχο

ΕΚΕΦΕ Δημόκριτος Αντιδραστήρια: Χώρος πολλών επιστημών Μικρές(;) αποστάσεις Πρωτοβουλία Καταλύτες: Καλή διάθεση Ανοιχτό μυαλό Επαναπροσδιορισμός προβλημάτων/εργαλείων

Βιο-πληροφορική Τι θα δούμε: Μια ιστορία από τον Πλάτωνα στο γονιδίωμα, στους γράφους ν- γραμμάτων, στην αυτόματη απάντηση ερωτήσεων.

Στον Φαίδρο του Πλάτωνα, έχουμε μια πρώτη – και περίφημη – αποτίμηση του ρόλου της γραφής στην παγκόσμια γραμματεία: Ο Θευθ έφθασε στον Θαμούς, βασιλιά της Άνω Αιγύπτου (Θήβες), προκειμένου να δείξει την ανακάλυψή του (τη γραφή) και να υποστηρίξει τη διάδοσή της στους Αιγυπτίους. Στη συνέχεια, κοντολογίς, ο Φαραώ τον «κατσαδιάζει» αφού η γραφή θα κάνει τους ανθρώπους απλά να «νομίζουν» ότι είναι σοφοί (επειδή και μόνον θα διαθέτουν γνώσεις σε γραπτή μορφή), χωρίς να κατέχουν από στήθους αυτή τη γνώση... Ο διάλογος σε άλλο σημείο εμφανίζει τον Φαίδρο να έχει ένα αγαπημένο γράμμα φυλαγμένο “υπό το ιμάτιον” ... Ο Πλάτων ίσως και να γνώριζε πολύ καλά το αναπόδραστο της διάδοσης και γενίκευσης της γραφής. Κανείς όμως τότε δεν μπορούσε να υποψιαστεί ότι ο άνθρωπος – και κάθε έμβιο ον – έχει “υπό το ιμάτιον” ένα κείμενο, μια “γραφή” (λόγους εν βιβλίοις) που τον συνέχει, τον κατασκευάζει και τον διατηρεί με την μνήμη της “γραπτής ύλης” - και ακόμη – καθορίζει την ίδια την εξέλιξη, αφού η εξέλιξη γίνεται δυνατή από τα λάθη στην αναπαραγωγή απο γενιά σε γενιά αυτού του γραπτού μηνύματος, του γονιδιώματος...

Και άλλες φυσικές επιστήμες, εκτός από τη βιολογία, χαρακτηρίζον-ται επίσης από το στοιχείο της ιστορικότητας/μη-αντιστρεπτότητας, όπως η γεωλογία και η αστροφυσική. Εν τούτοις, μοναδικότητα της βιολογίας αποτελεί το γεγονός ότι είναι ταυτόχρονα επιστήμη «ιστοριογραφική», με την έννοια ότι σε όλες τις χρονικές κλίμακες (εξελικτική, αναπτυξιακή, λειτουργική κλπ), η βιολογική δραστηριό-τητα χωρεί μέσω αλληλεπίδρασης του οργανισμού (φαινοτύπου) με μία ψηφιακή, μοριακή, κληρονομήσιμη και με πεπερασμένη ακρίβεια αναπαραγόμενη εγγραφή, το γενετικό μήνυμα (γονιδίωμα), το οποίο κατά συνέπεια έχει, σε ένα τουλάχιστον σημαντικό βαθμό, τα χαρακτηριστικά κειμένου. Ακριβώς η ύπαρξη αυτού το «γενετικού κειμένου» συνδέεται καίρια τόσο με τις ιδιότητες βιολογικής «αμετατροπίας» (αναλλοίωτου) όσο και με την προσαρμοστικότητα και την εξελικτική δυναμική του εμβίου

Αλληλουχία DNA: …..AGCTTAATAGCCTCA TGGCTACTATATATATACAGT….. Και έτσι για 3x109 χαρακτήρες στο ανθρώπινο γονιδίωμα, που κατανέμονται σε 23 μακρομόρια (χρωματοσώματα). Κύτταρο: Ανάλογο ενός εργοστασίου, όπου το DNA αποτελεί τη βιβλιοθήκη: Φωτοτυπίες επιμέρους κεφαλαίων (m-RNA) μεταφέρονται στο χώρο των συνεργείων/ εργαλειομηχανών (ριβοσώματα κλπ) όπου κατασκευάζονται με συγκεκριμένες προδιαγραφές (ρυθμιστικές επισημειώσεις) οι πρωτείνες, τα λειτουργικά μόρια RNA κλπ κλπ... Μόριο DNA πρωτείνη λειτουργικό RNA Ενα κείμενο δεν είναι κείμενο παρά μόνον εάν κρύβει σε πρώτη όψη, στον πρώτο τυχόντα, το νόμο της σύνθεσής του και τους κανόνες του παιχνιδιού του. Jacques Derrida

Παράδειγμα εφαρμογής του “Chaos Game Representation (CGR)” Jeffrey, J (1990). Chaos Game Representation of gene structure. NAR, 18, 2163.

Εδώ αναπαριστώντας σε κάθε “pixel” την “σχετική αφθονία” κάθε ολιγο-νουκλεοτιδίου (κατά τη χωροταξία του CGR) λαμβάνουμε μοτίβα δηλωτικά της λειτουργικότητας κάθε εξεταζόμενης αλληλουχίας ΤΑ “ΚΩΔΙΚΑ ΠΡΩΤΕΙΝΩΝ” ΤΜΗΜΑΤΑ ΚΕΙΜΕΝΟΥ ΕΙΝΑΙ “NEAR-RANDOM” Nikolaou C, Almirantis Y (2005). “Word” preference in the genomic text and genome evolution. Different modes of n-tuplet usage in coding & noncoding sequences” J Mol Evol 61, 23-35. Ενώ στο προηγούμενο εγχείρημα διάκρισης λειτουργίας περιοχών γονιδιωματικού κειμένου DNA βάσει αλληλουχίας, βασισμένο σε μήκη κειμένου πέραν του μήκους «λέξης» η τυχαιότητα συμβαδίζει με την μεταφορά μηνύματος, εδώ όπου η μεθοδολογία  βασίζεται στην άνιση χρήση «τριπλετών» (που στο κωδικό για πρωτείνες DNA είναι οι “λέξεις”), ΤΑ “ΜΗ-ΚΩΔΙΚΑ ΠΡΩΤΕΙΝΩΝ” ΤΜΗΜΑΤΑ ΚΕΙΜΕΝΟΥ ΕΙΝΑΙ ΤΑ “NEAR-RANDOM” Η αλλαγή στην κλίμακα όπου το “φέρον-πληροφορία” τμήμα του κειμένου έχει σύσταση που προσειδιάζει στην τυχαιότητα, είναι χαρακτηριστική της πολυπλοκότητας και του “γλωσικού χαρακτήρα” του γενετικού μηνύματος Nikolaou C, Almirantis Y (2003). Mutually symmetric and complementary triplets: differences in their use distinguish systematically between coding and non-coding genomic sequences. J.Theor.Biol. 223, 477-487.

Συντηρημένες αλληλουχίες Μόλις 1% του ανθρώπινου γονιδιώματος έχει κάποια γνωστή λειτουργία Στα πλαίσια της αναζήτησης λειτουργικών περιοχών εξετάζουμε τη συντήρηση της αλληλουχίας τους ως την πιο ισχυρή ένδειξη

Συντηρημένες μη-κωδικές αλληλουχίες (CNEs) Διασπείρονται εντός διαφόρων λειτουργικών κατηγοριών (διαγονιδιακές περιοχές, σημεία συρραφής RNA, εσώνια, αμετάφραστες περιοχές γονιδίων) Το πλήθος τους μεγαλώνει όσο μεγαλώνει η πολυπλοκότητα και το μέγεθος του γονιδιώματος Stephen, S., et al., Mol Biol Evol (2008)

Ιστορία των CNE Πρώτες αναφορές ήδη από το 1981 (Pavetch et al.) Διαφορές ονομασίες ανάλογα με τον τρόπο προσδιορισμού τους Ο ορισμός τους είναι ημι- αυθαίρετος σύμφωνα με το μήκος, την έκταση της ομοιότητας και το εξελικτικό βάθος στο οποίο αναζητείται Elgar, G. and T. Vavouri, Trends Genet, 2008

Τελικά...τί ρόλο παίζουν τα CNE; Ενισχυτές της μεταγραφής. Woolfe, Elgar et al. Θέσεις πρόσδεσης στην πυρηνική μεμβράνη (MAR), Glazko et al., Trends in Genetics, (2003) Χρωματινικοί Μονωτές (insulators) Xie et al., PNAS (2007) Τίποτα από τα παραπάνω;

Ερωτήματα και Στόχοι Ερωτήματα 1. Πώς μπορούμε να εντοπίσουμε CNE στο γονιδίωμα πέρα από την προφανή συντήρηση; 2. Ποια είναι τα βασικά συστατικά/δομικά τους χαρακτηριστικά; 3. Σε τί διαφέρουν από άλλες συντηρημένες αλληλουχίες; 4. Σε τί διαφέρουν μεταξύ τους; Στόχοι 1. Διάκριση από άλλες αλληλουχίες 2. Κατηγοριοποίηση 3. Εξαγωγή χαρακτηριστικών τους Μέχρι σήμερα: Μοντελοποίηση κατανομής βάσεων ως ιστόγραμμα Διαχωρισμός CNEs από άλλες αλληλουχίες ανέφικτος Σήμερα: Γράφοι ν-γραμμάτων

Συστάσεις: ο γράφος ν-γραμμάτων Περιγράφει γειτνίαση συμβόλων (π.χ. βάσεων) Οι ακμές είναι σημαντικές Τα βάρη υποδεικνύουν συχνότητα (συνήθως)

Κατασκευή γράφων ν-γραμμάτων Εξάγουμε Ν-γράμματα διαφόρων τάξεων (Ν μεταξύ Lmin και Lmax) Βρίσκουμε τις γειτνιάσεις (απόσταση Dwin κατά μέγιστο) Αναθέτουμε βάρη (συχνότητα γειτνίασης) Π.χ. Συμβολοσειρά: abcde Τριγράμματα (Lmin=Lmax=3): abc, bcd, cde Ακμές γειτνίασης (Dwin=1): abc-bcd, bcd-cde Βάρη (συχνότητα): abc-bcd (1.0), bcd-cde (1.0)

Τι (δεν) είναι ο γράφος ν-γραμμάτων; ΔΕΝ ΕΙΝΑΙ Ντετερμινιστικό Αυτόματο Πιθανοτικό μοντέλο (HMM, CRF) Σακίδιο λέξεων (bag-of-words), ιστόγραμμα συχνοτήτων Υποσύνολο του διανυσματικού χώρου αλλά ΕΙΝΑΙ: Σύνολο περιορισμών γειτνίασης Γενίκευση μίας συμβολοσειράς Εκφραστικά πιο πλούσιος από το διανυσματικό χώρο Αναπαράσταση με χρήση αβεβαιότητας

Αναπαράσταση αλληλουχιών με γράφους ν-γραμμάτων Κάθε αλληλουχία, ένας γράφος ν- γραμμάτων Κάθε ομάδα αλληλουχιών, ένας μέσος γράφος Κάθε αλληλουχία περιγράφεται από ομοιότητες σε σχέση με μέσους γράφους

Διάκριση CNE από τυχαίες αλληλουχίες Αναλύσαμε: α) 490 CNE από το ανθρώπινο γονιδίωμα β) 490 φυσικές τυχαίες αλληλουχίες ίσου μήκους και σύστασης γ) 490 συνθετικές αλληλουχίες ίσου μήκους και σύστασης Κατηγοριοποιήσαμε: 1. ~77% των CNE στη σωστή κατηγορία 2. ~86% των συνθετικών στη σωστή κατηγορία 3. Οι φυσικές αλληλουχίες “ανθίστανται”. Αναρωτιόμαστε: Ποιοι επιπλέον περιορισμοί υπάρχουν στο ανθρώπινο γονιδίωμα; CNE Τυχαίες αλληλουχίες

Ομαδοποίηση CNE με βάση την απόσταση από το μέσο γράφο Αναλύσαμε: α) 457 CNE από το ανθρώπινο γονιδίωμα (μεγάλου μήκους) β) 13670 CNE από το ανθρώπινο γονιδίωμα (διαφόρων μηκών) γ) 2082 CNE από το γονιδίωμα του C. elegans Παρατηρήσαμε ότι: α) Οι μεγάλου μήκους ανθρώπινες αλληλουχίες έχουν πολύ ξεκάθαρα χαρακτηριστικά β) Οι ανθρώπινες αλληλουχίες διαφέρουν από αυτές του C. elegans. Υπάρχει πιθανόν ένα υποκείμενο “λεξιλόγιο” που σχετίζεται με το είδος

Ταξινόμηση CNE ανα είδος με βάση την απόσταση από το μέσο γράφο Ταξινόμηση με βάση την απόσταση από τον μέσο γράφο δίνει εξαιρετικά αποτελέσματα (ΑUC=0.94) Μπορεί κάποιο άλλο μέτρο να δώσει ανάλογα; Χρειάζομαστε συγκρίσεις

Specific Support Action (SA) A challenge on large-scale biomedical semantic indexing and question answering ICT Call 8: FP7-ICT-2011-8 Specific Support Action (SA) ICT-2011.4.4(d) Luxembourg, 23 May 2012

Motivating example Scenario: THIRST (PONTE project) Issue: Evaluate the safety and the effects of T3 treatment in patients with acute myocardial infarction. The PI formulates Questions in natural language: Q1: What is the role of thyroid hormones administration in the treatment of heart failure? Unfortunately, the questions cannot be submitted directly to current bibliographic databases ... BioASQ

BioASQ

Motivating example Translate the questions to collections of terms T1: heart failure infarction thyroid hormone treatment therapy Retrieve and select relevant snippets from a document retrieval engine Signaling Mechanisms in Thyroid Hormone-Induced Cardiac Hypertrophy ... possibility of their therapeutic utility in the treatment of the post-infarcted heart or in heart failure. ... Cardiac growth in response to thyroid hormones (L-thyroxine, T4 ... … [PMIDs: 20005976, 21860776] Consolidate relevant snippets as answers Cardiac growth may be a response to thyroid hormones. Thus, administration of thyroid hormones may be useful in the treatment of heart failure. Subclinical hypothyroidism may be a cause of heart failure. BioASQ

What we will do BIOASQ will set up a challenge on biomedical semantic indexing and question answering (QA). Participants will be required to index semantically content from large-scale biomedical sources (e.g., MEDLINE) and to assemble data from multiple heterogeneous sources (e.g., scientific articles, ontologies, databases) to compose informative answers to biomedical natural language questions. BioASQ

Objectives BIOASQ will set up a challenge (competition) on biomedical semantic indexing and question answering involving: large-scale classification of biomedical documents onto ontology concepts, in order to automate semantic indexing, classification of biomedical questions onto the same concepts, integration of relevant document snippets, information databases and knowledge bases, and delivery of the retrieved information in a concise and user-understandable form. BioASQ

NCSR “Demokritos” Background: Leading: Institute of Informatics and Telecommunications  intelligent information management (machine learning, text classification, information extraction) Institute of Biology  expertise in the biomedical domain (analysis of high-throughput genomic data) Leading: WP1: Management T3.1: Establishment of Biomedical Expert Team T3.5: Creation of Benchmark Sets BioASQ

Σύνοψη ΕΚΕΦΕ Δημόκριτος: Δυνητικό εκκολαπτήριο διεπιστημονικότητας ΕΚΕΦΕ Δημόκριτος: Δυνητικό εκκολαπτήριο διεπιστημονικότητας Βιο-πληροφορική: Επιτυχής τομέας εφαρμογής BioASQ: Από τη συνεργασία στη χρηματοδότηση Και αυτά είναι μόνο η αρχή...

Συστήματα Βιο-πληροφορικής Ευχαριστούμε Συστήματα Βιο-πληροφορικής Δρ. Γιάννης Αλμυράντης Δρ. Γιώργος Παλιούρας Δρ. Γιώργος Γιαννακόπουλος Κοινή δουλειά με: Δρ. Χριστόφορο Νικολάου Δημήτρη Πολυχρονόπουλο