Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Συστήματα Βιο-πληροφορικής

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Συστήματα Βιο-πληροφορικής"— Μεταγράφημα παρουσίασης:

1 Συστήματα Βιο-πληροφορικής
Δρ. Γιάννης Αλμυράντης Δρ. Γιώργος Παλιούρας Δρ. Γιώργος Γιαννακόπουλος Κοινή δουλειά με: Δρ. Χριστόφορο Νικολάου Δημήτρη Πολυχρονόπουλο

2 Διεπιστημονικότητα Επιστήμονες ...διαφόρων ειδικοτήτων
...που συναντώνται ...και συνεργάζονται ...μοιραζόμενοι ιδέες και δεξιότητες ...με κοινό στόχο

3 ΕΚΕΦΕ Δημόκριτος Αντιδραστήρια: Χώρος πολλών επιστημών
Μικρές(;) αποστάσεις Πρωτοβουλία Καταλύτες: Καλή διάθεση Ανοιχτό μυαλό Επαναπροσδιορισμός προβλημάτων/εργαλείων

4 Βιο-πληροφορική Τι θα δούμε:
Μια ιστορία από τον Πλάτωνα στο γονιδίωμα, στους γράφους ν- γραμμάτων, στην αυτόματη απάντηση ερωτήσεων.

5 Στον Φαίδρο του Πλάτωνα, έχουμε μια πρώτη – και περίφημη – αποτίμηση του ρόλου της γραφής στην παγκόσμια γραμματεία: Ο Θευθ έφθασε στον Θαμούς, βασιλιά της Άνω Αιγύπτου (Θήβες), προκειμένου να δείξει την ανακάλυψή του (τη γραφή) και να υποστηρίξει τη διάδοσή της στους Αιγυπτίους. Στη συνέχεια, κοντολογίς, ο Φαραώ τον «κατσαδιάζει» αφού η γραφή θα κάνει τους ανθρώπους απλά να «νομίζουν» ότι είναι σοφοί (επειδή και μόνον θα διαθέτουν γνώσεις σε γραπτή μορφή), χωρίς να κατέχουν από στήθους αυτή τη γνώση... Ο διάλογος σε άλλο σημείο εμφανίζει τον Φαίδρο να έχει ένα αγαπημένο γράμμα φυλαγμένο “υπό το ιμάτιον” ... Ο Πλάτων ίσως και να γνώριζε πολύ καλά το αναπόδραστο της διάδοσης και γενίκευσης της γραφής. Κανείς όμως τότε δεν μπορούσε να υποψιαστεί ότι ο άνθρωπος – και κάθε έμβιο ον – έχει “υπό το ιμάτιον” ένα κείμενο, μια “γραφή” (λόγους εν βιβλίοις) που τον συνέχει, τον κατασκευάζει και τον διατηρεί με την μνήμη της “γραπτής ύλης” - και ακόμη – καθορίζει την ίδια την εξέλιξη, αφού η εξέλιξη γίνεται δυνατή από τα λάθη στην αναπαραγωγή απο γενιά σε γενιά αυτού του γραπτού μηνύματος, του γονιδιώματος...

6 Και άλλες φυσικές επιστήμες, εκτός από τη βιολογία, χαρακτηρίζον-ται επίσης από το στοιχείο της ιστορικότητας/μη-αντιστρεπτότητας, όπως η γεωλογία και η αστροφυσική. Εν τούτοις, μοναδικότητα της βιολογίας αποτελεί το γεγονός ότι είναι ταυτόχρονα επιστήμη «ιστοριογραφική», με την έννοια ότι σε όλες τις χρονικές κλίμακες (εξελικτική, αναπτυξιακή, λειτουργική κλπ), η βιολογική δραστηριό-τητα χωρεί μέσω αλληλεπίδρασης του οργανισμού (φαινοτύπου) με μία ψηφιακή, μοριακή, κληρονομήσιμη και με πεπερασμένη ακρίβεια αναπαραγόμενη εγγραφή, το γενετικό μήνυμα (γονιδίωμα), το οποίο κατά συνέπεια έχει, σε ένα τουλάχιστον σημαντικό βαθμό, τα χαρακτηριστικά κειμένου. Ακριβώς η ύπαρξη αυτού το «γενετικού κειμένου» συνδέεται καίρια τόσο με τις ιδιότητες βιολογικής «αμετατροπίας» (αναλλοίωτου) όσο και με την προσαρμοστικότητα και την εξελικτική δυναμική του εμβίου

7 Αλληλουχία DNA: …..AGCTTAATAGCCTCA
TGGCTACTATATATATACAGT….. Και έτσι για 3x109 χαρακτήρες στο ανθρώπινο γονιδίωμα, που κατανέμονται σε 23 μακρομόρια (χρωματοσώματα). Κύτταρο: Ανάλογο ενός εργοστασίου, όπου το DNA αποτελεί τη βιβλιοθήκη: Φωτοτυπίες επιμέρους κεφαλαίων (m-RNA) μεταφέρονται στο χώρο των συνεργείων/ εργαλειομηχανών (ριβοσώματα κλπ) όπου κατασκευάζονται με συγκεκριμένες προδιαγραφές (ρυθμιστικές επισημειώσεις) οι πρωτείνες, τα λειτουργικά μόρια RNA κλπ κλπ... Μόριο DNA πρωτείνη λειτουργικό RNA Ενα κείμενο δεν είναι κείμενο παρά μόνον εάν κρύβει σε πρώτη όψη, στον πρώτο τυχόντα, το νόμο της σύνθεσής του και τους κανόνες του παιχνιδιού του Jacques Derrida

8 Παράδειγμα εφαρμογής του “Chaos Game Representation (CGR)”
Jeffrey, J (1990). Chaos Game Representation of gene structure. NAR, 18, 2163.

9 Εδώ αναπαριστώντας σε κάθε “pixel” την “σχετική αφθονία” κάθε ολιγο-νουκλεοτιδίου (κατά τη χωροταξία του CGR) λαμβάνουμε μοτίβα δηλωτικά της λειτουργικότητας κάθε εξεταζόμενης αλληλουχίας ΤΑ “ΚΩΔΙΚΑ ΠΡΩΤΕΙΝΩΝ” ΤΜΗΜΑΤΑ ΚΕΙΜΕΝΟΥ ΕΙΝΑΙ “NEAR-RANDOM” Nikolaou C, Almirantis Y (2005). “Word” preference in the genomic text and genome evolution. Different modes of n-tuplet usage in coding & noncoding sequences” J Mol Evol 61, Ενώ στο προηγούμενο εγχείρημα διάκρισης λειτουργίας περιοχών γονιδιωματικού κειμένου DNA βάσει αλληλουχίας, βασισμένο σε μήκη κειμένου πέραν του μήκους «λέξης» η τυχαιότητα συμβαδίζει με την μεταφορά μηνύματος, εδώ όπου η μεθοδολογία  βασίζεται στην άνιση χρήση «τριπλετών» (που στο κωδικό για πρωτείνες DNA είναι οι “λέξεις”), ΤΑ “ΜΗ-ΚΩΔΙΚΑ ΠΡΩΤΕΙΝΩΝ” ΤΜΗΜΑΤΑ ΚΕΙΜΕΝΟΥ ΕΙΝΑΙ ΤΑ “NEAR-RANDOM” Η αλλαγή στην κλίμακα όπου το “φέρον-πληροφορία” τμήμα του κειμένου έχει σύσταση που προσειδιάζει στην τυχαιότητα, είναι χαρακτηριστική της πολυπλοκότητας και του “γλωσικού χαρακτήρα” του γενετικού μηνύματος Nikolaou C, Almirantis Y (2003). Mutually symmetric and complementary triplets: differences in their use distinguish systematically between coding and non-coding genomic sequences. J.Theor.Biol. 223,

10 Συντηρημένες αλληλουχίες
Μόλις 1% του ανθρώπινου γονιδιώματος έχει κάποια γνωστή λειτουργία Στα πλαίσια της αναζήτησης λειτουργικών περιοχών εξετάζουμε τη συντήρηση της αλληλουχίας τους ως την πιο ισχυρή ένδειξη

11 Συντηρημένες μη-κωδικές αλληλουχίες (CNEs)
Διασπείρονται εντός διαφόρων λειτουργικών κατηγοριών (διαγονιδιακές περιοχές, σημεία συρραφής RNA, εσώνια, αμετάφραστες περιοχές γονιδίων) Το πλήθος τους μεγαλώνει όσο μεγαλώνει η πολυπλοκότητα και το μέγεθος του γονιδιώματος Stephen, S., et al., Mol Biol Evol (2008)

12 Ιστορία των CNE Πρώτες αναφορές ήδη από το 1981 (Pavetch et al.)
Διαφορές ονομασίες ανάλογα με τον τρόπο προσδιορισμού τους Ο ορισμός τους είναι ημι- αυθαίρετος σύμφωνα με το μήκος, την έκταση της ομοιότητας και το εξελικτικό βάθος στο οποίο αναζητείται Elgar, G. and T. Vavouri, Trends Genet, 2008

13 Τελικά...τί ρόλο παίζουν τα CNE;
Ενισχυτές της μεταγραφής. Woolfe, Elgar et al. Θέσεις πρόσδεσης στην πυρηνική μεμβράνη (MAR), Glazko et al., Trends in Genetics, (2003) Χρωματινικοί Μονωτές (insulators) Xie et al., PNAS (2007) Τίποτα από τα παραπάνω;

14 Ερωτήματα και Στόχοι Ερωτήματα
1. Πώς μπορούμε να εντοπίσουμε CNE στο γονιδίωμα πέρα από την προφανή συντήρηση; 2. Ποια είναι τα βασικά συστατικά/δομικά τους χαρακτηριστικά; 3. Σε τί διαφέρουν από άλλες συντηρημένες αλληλουχίες; 4. Σε τί διαφέρουν μεταξύ τους; Στόχοι 1. Διάκριση από άλλες αλληλουχίες 2. Κατηγοριοποίηση 3. Εξαγωγή χαρακτηριστικών τους Μέχρι σήμερα: Μοντελοποίηση κατανομής βάσεων ως ιστόγραμμα Διαχωρισμός CNEs από άλλες αλληλουχίες ανέφικτος Σήμερα: Γράφοι ν-γραμμάτων

15 Συστάσεις: ο γράφος ν-γραμμάτων
Περιγράφει γειτνίαση συμβόλων (π.χ. βάσεων) Οι ακμές είναι σημαντικές Τα βάρη υποδεικνύουν συχνότητα (συνήθως)

16 Κατασκευή γράφων ν-γραμμάτων
Εξάγουμε Ν-γράμματα διαφόρων τάξεων (Ν μεταξύ Lmin και Lmax) Βρίσκουμε τις γειτνιάσεις (απόσταση Dwin κατά μέγιστο) Αναθέτουμε βάρη (συχνότητα γειτνίασης) Π.χ. Συμβολοσειρά: abcde Τριγράμματα (Lmin=Lmax=3): abc, bcd, cde Ακμές γειτνίασης (Dwin=1): abc-bcd, bcd-cde Βάρη (συχνότητα): abc-bcd (1.0), bcd-cde (1.0)

17 Τι (δεν) είναι ο γράφος ν-γραμμάτων;
ΔΕΝ ΕΙΝΑΙ Ντετερμινιστικό Αυτόματο Πιθανοτικό μοντέλο (HMM, CRF) Σακίδιο λέξεων (bag-of-words), ιστόγραμμα συχνοτήτων Υποσύνολο του διανυσματικού χώρου αλλά ΕΙΝΑΙ: Σύνολο περιορισμών γειτνίασης Γενίκευση μίας συμβολοσειράς Εκφραστικά πιο πλούσιος από το διανυσματικό χώρο Αναπαράσταση με χρήση αβεβαιότητας

18 Αναπαράσταση αλληλουχιών με γράφους ν-γραμμάτων
Κάθε αλληλουχία, ένας γράφος ν- γραμμάτων Κάθε ομάδα αλληλουχιών, ένας μέσος γράφος Κάθε αλληλουχία περιγράφεται από ομοιότητες σε σχέση με μέσους γράφους

19 Διάκριση CNE από τυχαίες αλληλουχίες
Αναλύσαμε: α) 490 CNE από το ανθρώπινο γονιδίωμα β) 490 φυσικές τυχαίες αλληλουχίες ίσου μήκους και σύστασης γ) 490 συνθετικές αλληλουχίες ίσου μήκους και σύστασης Κατηγοριοποιήσαμε: 1. ~77% των CNE στη σωστή κατηγορία 2. ~86% των συνθετικών στη σωστή κατηγορία 3. Οι φυσικές αλληλουχίες “ανθίστανται”. Αναρωτιόμαστε: Ποιοι επιπλέον περιορισμοί υπάρχουν στο ανθρώπινο γονιδίωμα; CNE Τυχαίες αλληλουχίες

20 Ομαδοποίηση CNE με βάση την απόσταση από το μέσο γράφο
Αναλύσαμε: α) 457 CNE από το ανθρώπινο γονιδίωμα (μεγάλου μήκους) β) CNE από το ανθρώπινο γονιδίωμα (διαφόρων μηκών) γ) 2082 CNE από το γονιδίωμα του C. elegans Παρατηρήσαμε ότι: α) Οι μεγάλου μήκους ανθρώπινες αλληλουχίες έχουν πολύ ξεκάθαρα χαρακτηριστικά β) Οι ανθρώπινες αλληλουχίες διαφέρουν από αυτές του C. elegans. Υπάρχει πιθανόν ένα υποκείμενο “λεξιλόγιο” που σχετίζεται με το είδος

21 Ταξινόμηση CNE ανα είδος με βάση την απόσταση από το μέσο γράφο
Ταξινόμηση με βάση την απόσταση από τον μέσο γράφο δίνει εξαιρετικά αποτελέσματα (ΑUC=0.94) Μπορεί κάποιο άλλο μέτρο να δώσει ανάλογα; Χρειάζομαστε συγκρίσεις

22 Specific Support Action (SA)
A challenge on large-scale biomedical semantic indexing and question answering ICT Call 8: FP7-ICT Specific Support Action (SA) ICT (d) Luxembourg, 23 May 2012

23 Motivating example Scenario: THIRST (PONTE project)
Issue: Evaluate the safety and the effects of T3 treatment in patients with acute myocardial infarction. The PI formulates Questions in natural language: Q1: What is the role of thyroid hormones administration in the treatment of heart failure? Unfortunately, the questions cannot be submitted directly to current bibliographic databases ... BioASQ

24 BioASQ

25 Motivating example Translate the questions to collections of terms
T1: heart failure infarction thyroid hormone treatment therapy Retrieve and select relevant snippets from a document retrieval engine Signaling Mechanisms in Thyroid Hormone-Induced Cardiac Hypertrophy ... possibility of their therapeutic utility in the treatment of the post-infarcted heart or in heart failure. ... Cardiac growth in response to thyroid hormones (L-thyroxine, T4 ... [PMIDs: , ] Consolidate relevant snippets as answers Cardiac growth may be a response to thyroid hormones. Thus, administration of thyroid hormones may be useful in the treatment of heart failure. Subclinical hypothyroidism may be a cause of heart failure. BioASQ

26 What we will do BIOASQ will set up a challenge on biomedical semantic indexing and question answering (QA). Participants will be required to index semantically content from large-scale biomedical sources (e.g., MEDLINE) and to assemble data from multiple heterogeneous sources (e.g., scientific articles, ontologies, databases) to compose informative answers to biomedical natural language questions. BioASQ

27 Objectives BIOASQ will set up a challenge (competition) on biomedical semantic indexing and question answering involving: large-scale classification of biomedical documents onto ontology concepts, in order to automate semantic indexing, classification of biomedical questions onto the same concepts, integration of relevant document snippets, information databases and knowledge bases, and delivery of the retrieved information in a concise and user-understandable form. BioASQ

28 NCSR “Demokritos” Background: Leading:
Institute of Informatics and Telecommunications  intelligent information management (machine learning, text classification, information extraction) Institute of Biology  expertise in the biomedical domain (analysis of high-throughput genomic data) Leading: WP1: Management T3.1: Establishment of Biomedical Expert Team T3.5: Creation of Benchmark Sets BioASQ

29 Σύνοψη ΕΚΕΦΕ Δημόκριτος: Δυνητικό εκκολαπτήριο διεπιστημονικότητας
ΕΚΕΦΕ Δημόκριτος: Δυνητικό εκκολαπτήριο διεπιστημονικότητας Βιο-πληροφορική: Επιτυχής τομέας εφαρμογής BioASQ: Από τη συνεργασία στη χρηματοδότηση Και αυτά είναι μόνο η αρχή...

30 Συστήματα Βιο-πληροφορικής
Ευχαριστούμε Συστήματα Βιο-πληροφορικής Δρ. Γιάννης Αλμυράντης Δρ. Γιώργος Παλιούρας Δρ. Γιώργος Γιαννακόπουλος Κοινή δουλειά με: Δρ. Χριστόφορο Νικολάου Δημήτρη Πολυχρονόπουλο


Κατέβασμα ppt "Συστήματα Βιο-πληροφορικής"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google