Μικροσυστοιχίες και ανάλυση δεδομένων

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Advertisements

Ανακτηση Πληροφοριασ σε νεφη Υπολογιστων
ΔΙΔΑΚΤΙΚΕΣ ΔΥΣΚΟΛΙΕΣ ΣΤΟΥΣ ΠΙΝΑΚΕΣ ΠΕΚ ΠΕΙΡΑΙΑ Α΄φάση Επιμόρφωσης Εκπ/κών κλάδου ΠΕ19 Διδακτική της Πληροφορικής Ρόδος, Νοέμβρης 2007.
Φυλογενετικά δέντρα.
Αναγνώριση Προτύπων.
DNA μικροσυστοιχίες: βήμα προς βήμα
Εργαστηριακό Κέντρο Φυσικών Επιστημών Αγίων Αναργύρων 28/02/2007
Συνιστώσες δεδομένων  Αντίληψη(concept):το αντικείμενο μάθησης  Υπόδειγμα(instance):το ξεχωριστό και ανεξάρτητο παράδειγμα(example) ενός concept  Χαρακτηριστικό(attribute):η.
Proteomics and Genomics for Drug Discovery / Personalized Medicine
Αριθμητικές Μέθοδοι Βελτιστοποίησης Θεωρία & Λογισμικό Τμήμα Πληροφορικής - Πανεπιστήμιο Ιωαννίνων Ι. Η. Λαγαρής.
Αναγνώριση Προτύπων.
Το έργο «Εθνικό Πληροφοριακό Σύστημα Έρευνας και Τεχνολογίας (ΕΠΣΕ+Τ) - Γ' ΦΑΣΗ "Αποθετήρια και Επιστημονικά Ηλεκτρονικά Περιοδικά Ανοικτής Πρόσβασης"»
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
ΚΕΦΑΛΑΙΟ 7 ΔΕΙΓΜΑΤΟΛΗΨΙΑ
ΚΕΦΑΛΑΙΟ 5 ΧΩΡΙΚΗ ΔΕΙΓΜΑΤΟΛΗΨΙΑ
Αλγόριθμοι Συσταδοποίησης και Κατηγοριοποίησης Βιολογικών Δεδομένων
ΚΕΦΑΛΑΙΟ 5 ΧΩΡΙΚΗ ΔΕΙΓΜΑΤΟΛΗΨΙΑ
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
Διάλεξη 9η: Εφαρμογή της μεθόδου Simplex στο γραμμικό προγραμματισμό κατά τη μεγιστοποίηση Μέθοδος Simplex 1.Όταν υπάρχουν μέχρι πέντε κλάδοι παραγωγής.
ΑΝΑΛΥΣΗ ΕΠΙΦΑΝΕΙΩΝ ΩΣ ΣΗΜΕΙΑ
Σύγχρονες τάσεις στη διδακτική της βιολογίας Ο τεράστιος όγκος γνώσεων στον τομέα των βιολογικών μαθημάτων, η συνεχής αλλαγή δεδομένων και ο αναγκαστικά.
Εξόρυξη Δεδομένων και Αλγόριθμοι Μάθησης. K-means k-windows k-means: 2 φάσεις 1. Μια διαμέριση των στοιχείων σε k clusters 2. Η ποιότητα της διαμέρισης.
ΠΤΥΧΙΑΚΗ ΕΡΓΑΣΙΑ ΥΛΟΠΟΙΗΣΗ ΚΑΙ ΣΥΓΚΡΙΤΙΚΗ ΜΕΛΕΤΗ
ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΑΛΓΟΡΙΘΜΩΝ
ΚΕΦΑΛΑΙΟ 6 ΓΕΩΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΙ ΚΑΙ ΤΕΧΝΙΚΕΣ: ΣΗΜΕΙΑ
IΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ: «ΔΙΟΙΚΗΣΗ & ΟΡΓΑΝΩΣΗ ΒΙΒΛΙΟΘΗΚΩΝ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
Θεωρία Γραφημάτων Θεμελιώσεις-Αλγόριθμοι-Εφαρμογές Ενότητα 4 Δ ΕΝΔΡΑ Σταύρος Δ. Νικολόπουλος 1.
ΚΕΦΑΛΑΙΟ 10 ΠΑΛΙΝΔΡΟΜΗΣΗ
Μάθημα 8 Από την αλληλουχία του γονιδιώματος στη λειτουργία των γονιδίων.
1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Αλεξανδρίδου Αναστασία.
Χρονική Πολυπλοκότητα
ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΒΙΟΛΟΓΙΑΣ & Η ΔΙΔΑΚΤΙΚΗ ΤΗΣ Dr. ΜΙΧΜΙΖΟΣ ΔΗΜΗΤΡΗΣ
Μοριακή Ταξινόμηση βακτηρίων
Στατιστική – Πειραματικός Σχεδιασμός Βασικά. Πληθυσμός – ένα μεγάλο σετ από Ν παρατηρήσεις (πιθανά δεδομένα) από το οποίο το δείγμα λαμβάνεται. Δείγμα.
ΕΙΣΑΓΩΓΗ Η επιδίωξη: βελτίωση ποιότητας με συνεχή βελτίωση των διεργασιών με βάση τις οποίες παράγονται τα προϊόντα Παράγοντες: ελεγχόμενες μεταβλητές.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ Παραδείγματα BP.
ΒΙΟΧΗΜΕΙΑ, ΠΕΚ 2014 Γενετική μηχανική, ανασυνδυασμένο DNA, ΑΑΠ (PCR)
Υβριδοποίηση νουκλεϊνικών οξέων- Ανίχνευση αλληλουχιών Όταν ένα υδατικό διάλυμα DNA θερμανθεί στους 100 ο C ή εκτεθεί σε πολύ αλακαλικό pH, σπάζουν οι.
ΥΝ Ι: ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ 1 ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ (Τεχνητά Νευρωνικά Δίκτυα και Γενετικοί Αλγόριθμοι) ΣΠΥΡΟΣ ΛΥΚΟΘΑΝΑΣΗΣ, ΚΑΘΗΓΗΤΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ.
Η ροή της γενετικής πληροφορίας. Στo DNA βρίσκονται αποθηκευμένες οι πληροφορίες που αφορούν : στον αυτοδιπλασιασμό του →εξασφαλίζοντας έτσι τη μεταβίβαση.
Σήματα και Συστήματα 11 10η διάλεξη. Σήματα και Συστήματα 12 Εισαγωγικά (1) Έστω γραμμικό σύστημα που περιγράφεται από τη σχέση: Αν η είσοδος είναι γραμμικός.
Αναδιάρθρωση και εξορθολογισμός της διδακτέας ύλης Μαθηματικά Α΄ - Στ ΄ Δρ. Μ. Λάτση – ΠΕ 70.
Ψηφιακή Επεξεργασία Εικόνας
Ψηφιακή Επεξεργασία Εικόνας
ΟΜΑΔΕΣ Δημιουργία Ομάδων
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΤΜΗΜΑ ΜΗΧΑΝΙΚΩΝ Η/Υ ΚΑΙ ΠΛΗΡΟΦΟΡΙΚΗΣ
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Ψηφιακή Επεξεργασία Εικόνας
Μέθοδος ελαχίστων τετραγώνων – Μεθοδολογία παλινδρόμησης
Βασικές Μέθοδοι Μηχανικής Μάθησης και Εξόρυξης Δεδομένων
Μεθοδολογία έρευνας και στατιστική – Δείγμα – Πληθυσμός
Πού χρησιμοποιείται ο συντελεστής συσχέτισης (r) pearson
ΔΙΑΧΩΡΙΣΤΙΚΗ ΟΜΑΔΟΠΟΙΗΣΗ Εισαγωγή
Η Έννοια της τυχαίας Διαδικασίας
Έλεγχος υποθέσεων με την χ2 «χι -τετράγωνο» κατανομή
Η παρουσίαση του στατιστικού υλικού γίνεται με δύο τρόπους. 1 Η παρουσίαση του στατιστικού υλικού γίνεται με δύο τρόπους! 1. Ο πρώτος συνίσταται.
ΕΙΣΑΓΩΓΗ ΣΤΟΥΣ ΕΞΕΛΙΚΤΙΚΟΥΣ ΑΛΓΟΡΙΘΜΟΥΣ
Ταξινόμηση Πολυφασματικών Εικόνων
Κατασκευή cDNA βιβλιοθήκης.
Ερωτήσεις από όλη την ύλη
Συντομότερα Μονοπάτια
Πως φτιάχνουμε γραφική παράσταση
Ανάπτυξη Εφαρμογών σε Προγραμματιστικό Περιβάλλον ΑΕΠΠ
ΥΠΟΛΟΓΙΣΜΟΣ ΚΑΘΑΡΟΥ ΚΕΡΔΟΥΣ ΑΠΌ ΤΗΝ ΑΓΡΟΤΙΚΗ ΔΡΑΣΤΗΡΙΟΤΗΤΑ
Φοιτητής: Γκούλης Ευάγγελος ΑΕΜ: 3342
ΤΑΞΙΝΟΜΗΣΗ ΠΡΟΤΥΠΩΝ ΜΕ ΣΥΝΑΡΤΗΣΕΙΣ ΑΠΟΣΤΑΣΗΣ Απλοί Ταξινομητές
ΤΜΗΜΑ ΙΑΤΡΙΚΩΝ ΕΡΓΑΣΤΗΡΙΩΝ
Τεχνικές της Μοριακής Βιολογίας
Μεταγράφημα παρουσίασης:

Μικροσυστοιχίες και ανάλυση δεδομένων

Βιολογικό υπόβαθρο, Μεταγραφή (transcription) G U A A U C C RNA polymerase mRNA Transcription DNA G T A A T C C T C | | | | | | | | | C A T T A G G A G G T A A T C C T C | | | | | | | | | C A T T A G G A G

Θέμα: μέτρηση της παρουσίας mRNA, για να δείς ποια γονίδια εκφράζονται στο κύτταρο Μέτρηση πρωτεΐνης, μπορεί να είναι καλύτερο, αλλά τεχνικά δυσκολότερο

Αντίστροφη μεταγραφή (reverse transcription) Δημιουργία αλυσίδων cDNA, συμπληρωματικών προς το mRNA mRNA G U A A U C C U C Reverse transcriptase cDNA T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G

Πειράματα με μικροσυστοιχίες (microarrays) cDNA Συγκέντρωση mRNA, σε διαφορετικά περιβάλλοντα Διαφορετικοί ιστοί, ίδιος οργανισμός (εγκέφαλος, συκώτι) Ίδιος ιστός, ίδιος οργανισμός (π.χ καρκινικά, μη καρκινικά) Ίδιος ιστός, διαφορετικοί οργανισμοί Πειράματα στο χρόνο

Μικροσυστοιχίες cDNA Κλώνοι cDNA

cDNA microarrays Σύγκριση έκφρασης, δύο δειγμάτων PRINT Δείγματα cDNA κατηγορ. red/green e.g. Rna αναφοράς (reference)/ Rna μελέτης (target)

Υβριδοποίηση Βάλε ίσες ποσότητες κατηγοριοποιημένου δειγμάτων cDNA στην μικροσυστοιχία SCAN Laser Detector

16-bit TIFF files (Rfg, Rbg), (Gfg, Gbg) R, G Βιολογική Ερώτηση Differentially expressed genes Πρόβλεψη κατηγορίας Σχεδιασμός Πειράματος Πείραμα Microarray 16-bit TIFF files Επεξεργασία Εικόνας (Rfg, Rbg), (Gfg, Gbg) Κανονικοποίηση R, G Estimation Testing Clustering Discrimination Επαλήθευση και ερμηνεία

Δεδομένα μικροσυστοιχίας Στόχος: Άγνωστη ακολουθία DNA Probe: γνωστή ακολουθία DNA Υβριδοποίηση στόχου και probeσήμαδηλώνει επίπεδο έκφρασης Κατηγορίες Δυνατότητα ανάθεσης «χρωμάτων» στις δύο ακολουθίες

Αποτέλεσμα, πειράματος

Ερμηνεία αποτελεσμάτων Ερμηνεία εικόνας Κόκκινο (Cy5)=υπερβάλλουσα έκφραση Πράσινο (Cy3)=χαμηλή έκφραση Κίτρινο = ίση έκφραση Εντοπισμός ορίων κουκίδων (spots) των περιοχών της μικρο συστοιχίας Παραμόρφωση κουκίδων Μεταβλητή φωτεινότητα

Μετατροπή εικόνας Γονίδιο 1 Γονίδιο 2 Γονίδιο 3 Πείραμα 1 Πείραμα 2 Πείραμα 3 ... Πείραμα 4 Γονίδιο 1 Log2(Cy5/Cy3)=2.3 Γονίδιο 2 Γονίδιο 3

Ομαδοποίηση γονιδίων Μεγάλα σύνολα δεδομένων, ομαδοποίηση γονιδίων Επιβλεπόμενη μάθηση: Δοσμένων γονιδίων γνωστών κατηγοριών Κατασκεύασε μοντέλο, που γενικεύει Αλγόριθμοι: Νευρωνικά Δίκτυα, Μηχανές υποστήριξης Διανυσμάτων, δένδρα απόφασης Μη επιβλεπόμενη μάθηση Δεν είναι γνωστές οι κατηγ. Των γονιδίων Αλγόριθμοι: Ιεραρχική ομαδοποίηση, k-means, μείωση διαστάσεων

Προεπεξεργασία Δεδομένων Κανονικοποίηση = απομάκρυνση, συστηματικού σφάλματος από τα δεδομένα

Προκαταρκτικά βήματα ανάλυσης α’ Υπολογισμός για κάθε γραμμή και κάθε στήλη της μέσης τιμής και της διασποράς. Μέσες τιμές Ποια γονίδια έχουν εκφράζονται περισσότερο, κατά μέσο όρο; Σε ποια πειράματα είχαμε κατά μέσο όρο τις υψηλότερες/χαμηλότερες τιμές Διασπορά Ποια έχουν τη μεγαλύτερη/μικρότερη διαφορά Ποιες πειραματικές συνθήκες ποικίλουν πολύ/λίγο;

Προκαταρκτικά βήματα β’ Γραφήματα επιλεγμένων γονιδίων

Ανακάλυψη μορφωμάτων: ομαδοποίηση (pattern discovery: cluster analysis)

Απόσταση και ομοιότητα Έστω Χ, Υ δύο γονίδια, χι, yi, τα επίπεδα έκφρασης γονιδίων (συγκέντρωση RNA) σε μία σειρά d πειραμάτων Αποστάσεις d-διάστατων διανυσμάτων μέτρο διαφοράς Συντελεστής αυτοσυσχέτισης μέτρο διαφοράς, αν πάρω το 1-R Με καθένα από τα δύο μπορώ να φτιάξω τον πίνακα αποστάσεων για να χρησιμοποιηθεί για ανάλυση clusters

Ιεραρχική ομαδοποίηση Αλγόριθμος Ιεραρχικής ομαδοποίησης Επανάληψη Βρες δύο ομάδες (Ci, Cj), όπου d(Ci, Cj) είναι ελάχιστο Συγχώνευσε τα (Ci, Cj), σε μία νέα ομάδα Cq Αντικατέστησε τα Ci, Cj με το Cq Φτιάξε (ανανέωσε) τον πίνακα αποστάσεων Τερμάτισε, αν όλα τα γονίδια είναι στο ίδια ομάδα, αλλιώς πήγαινε στο βήμα επανάληψη Ορισμός απόστασης ομάδων: H ελάχιστη Η μέγιστη Ο μέσος όρος βάρη

Παράδειγμα Ιεραρχικής Ομαδοποίησης

Μειονεκτήματα Ιεραρχικής Ομαδοποίησης Επιβάλλεται φυλογενετικό δέντρο Δεν είναι καλή μέθοδος για οπτικοποίηση (visualisation) πολλών δεδομένων

Ομαδοποίηση k-means Σκοπός: εύρεση των κέντρων των ομάδων. k ομάδες Μέθοδος: ελαχιστοποίηση του σφάλματος, E

Αξιολόγηση ομαδοποίησης Silhouette method: Εξετάζει πόσο καλά βρίσκεται ένα γονίδιο σε μία ομάδα (cluster) s(i) μεγάλοκαλή ομαδοποίηση s(i) κοντά στο 0 ανήκει σε δύο ομάδες s(i) μικρό  κακή ομαδοποίηση α(i)=μέση ανομοιότητα (dissimilarity) Του γονιδιου α, από όλα της ίδιας ομάδας d(i,C)= μέση ανομοιότητα (dissimilarity) Του γονιδιου α, από όλα τα άλλα των άλλων ομάδων. Και b(i) η μικρότερη από όλα

Μείωση Διαστάσεων Έχοντας δεδομένα πολλών διαστάσεων, μείωσε τις διαστάσεις με το ελάχιστο δυνατό σφάλμα Μέθοδος Πρωτευουσών Συνιστωσών (Principal Component Analysis) Είσοδος: Πολυδιάστατα δεδομένα Μέθοδος: Περιστρέφει τα δεδομένα στο χώρο, ώστε ο άξονας με τη μέγιστη διασπορά να ευθυγραμμιστεί με τον x. To ίδιο επαναλαμβάνεται για τους άλλους άξονες

Ανάλυση Πρωτευουσών Συνιστωσών

Ταξινόμηση δειγμάτων: Πρόβλεψη και ταξινόμηση Ταξινόμηση βιολογικών δειγμάτων σε γνωστές κατηγορίες Δεδομένα μικρο-συστοιχιών=πίνακας nxd n γονίδια, d-πειράματα/χρονικές στιγμές

K-Nearest Neighbour Δοσμένων δειγμάτων γνωστών κατηγοριών Βρές κατηγορία αγνώστου δείγματος Αλγόριθμος: Βρες τα k-κοντινότερα δείγματα Η κατηγορία του αγνώστου, είναι η κατηγορία που δείχνει η πλειοψηφία των δειγμάτων

Support Vector Machines Κατασκευή μοντέλου για πρόβλεψη κατηγορίας αγνώστου δείγματος Εύρεση επιφάνειας που διαχωρίζει τις κατηγορίες Ακριβέστερο, από k-Neighbour, αλλά απαιτεί πολλά δείγματα για εκπαίδευση.