Μικροσυστοιχίες και ανάλυση δεδομένων
Βιολογικό υπόβαθρο, Μεταγραφή (transcription) G U A A U C C RNA polymerase mRNA Transcription DNA G T A A T C C T C | | | | | | | | | C A T T A G G A G G T A A T C C T C | | | | | | | | | C A T T A G G A G
Θέμα: μέτρηση της παρουσίας mRNA, για να δείς ποια γονίδια εκφράζονται στο κύτταρο Μέτρηση πρωτεΐνης, μπορεί να είναι καλύτερο, αλλά τεχνικά δυσκολότερο
Αντίστροφη μεταγραφή (reverse transcription) Δημιουργία αλυσίδων cDNA, συμπληρωματικών προς το mRNA mRNA G U A A U C C U C Reverse transcriptase cDNA T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G C A T T A G G A G
Πειράματα με μικροσυστοιχίες (microarrays) cDNA Συγκέντρωση mRNA, σε διαφορετικά περιβάλλοντα Διαφορετικοί ιστοί, ίδιος οργανισμός (εγκέφαλος, συκώτι) Ίδιος ιστός, ίδιος οργανισμός (π.χ καρκινικά, μη καρκινικά) Ίδιος ιστός, διαφορετικοί οργανισμοί Πειράματα στο χρόνο
Μικροσυστοιχίες cDNA Κλώνοι cDNA
cDNA microarrays Σύγκριση έκφρασης, δύο δειγμάτων PRINT Δείγματα cDNA κατηγορ. red/green e.g. Rna αναφοράς (reference)/ Rna μελέτης (target)
Υβριδοποίηση Βάλε ίσες ποσότητες κατηγοριοποιημένου δειγμάτων cDNA στην μικροσυστοιχία SCAN Laser Detector
16-bit TIFF files (Rfg, Rbg), (Gfg, Gbg) R, G Βιολογική Ερώτηση Differentially expressed genes Πρόβλεψη κατηγορίας Σχεδιασμός Πειράματος Πείραμα Microarray 16-bit TIFF files Επεξεργασία Εικόνας (Rfg, Rbg), (Gfg, Gbg) Κανονικοποίηση R, G Estimation Testing Clustering Discrimination Επαλήθευση και ερμηνεία
Δεδομένα μικροσυστοιχίας Στόχος: Άγνωστη ακολουθία DNA Probe: γνωστή ακολουθία DNA Υβριδοποίηση στόχου και probeσήμαδηλώνει επίπεδο έκφρασης Κατηγορίες Δυνατότητα ανάθεσης «χρωμάτων» στις δύο ακολουθίες
Αποτέλεσμα, πειράματος
Ερμηνεία αποτελεσμάτων Ερμηνεία εικόνας Κόκκινο (Cy5)=υπερβάλλουσα έκφραση Πράσινο (Cy3)=χαμηλή έκφραση Κίτρινο = ίση έκφραση Εντοπισμός ορίων κουκίδων (spots) των περιοχών της μικρο συστοιχίας Παραμόρφωση κουκίδων Μεταβλητή φωτεινότητα
Μετατροπή εικόνας Γονίδιο 1 Γονίδιο 2 Γονίδιο 3 Πείραμα 1 Πείραμα 2 Πείραμα 3 ... Πείραμα 4 Γονίδιο 1 Log2(Cy5/Cy3)=2.3 Γονίδιο 2 Γονίδιο 3
Ομαδοποίηση γονιδίων Μεγάλα σύνολα δεδομένων, ομαδοποίηση γονιδίων Επιβλεπόμενη μάθηση: Δοσμένων γονιδίων γνωστών κατηγοριών Κατασκεύασε μοντέλο, που γενικεύει Αλγόριθμοι: Νευρωνικά Δίκτυα, Μηχανές υποστήριξης Διανυσμάτων, δένδρα απόφασης Μη επιβλεπόμενη μάθηση Δεν είναι γνωστές οι κατηγ. Των γονιδίων Αλγόριθμοι: Ιεραρχική ομαδοποίηση, k-means, μείωση διαστάσεων
Προεπεξεργασία Δεδομένων Κανονικοποίηση = απομάκρυνση, συστηματικού σφάλματος από τα δεδομένα
Προκαταρκτικά βήματα ανάλυσης α’ Υπολογισμός για κάθε γραμμή και κάθε στήλη της μέσης τιμής και της διασποράς. Μέσες τιμές Ποια γονίδια έχουν εκφράζονται περισσότερο, κατά μέσο όρο; Σε ποια πειράματα είχαμε κατά μέσο όρο τις υψηλότερες/χαμηλότερες τιμές Διασπορά Ποια έχουν τη μεγαλύτερη/μικρότερη διαφορά Ποιες πειραματικές συνθήκες ποικίλουν πολύ/λίγο;
Προκαταρκτικά βήματα β’ Γραφήματα επιλεγμένων γονιδίων
Ανακάλυψη μορφωμάτων: ομαδοποίηση (pattern discovery: cluster analysis)
Απόσταση και ομοιότητα Έστω Χ, Υ δύο γονίδια, χι, yi, τα επίπεδα έκφρασης γονιδίων (συγκέντρωση RNA) σε μία σειρά d πειραμάτων Αποστάσεις d-διάστατων διανυσμάτων μέτρο διαφοράς Συντελεστής αυτοσυσχέτισης μέτρο διαφοράς, αν πάρω το 1-R Με καθένα από τα δύο μπορώ να φτιάξω τον πίνακα αποστάσεων για να χρησιμοποιηθεί για ανάλυση clusters
Ιεραρχική ομαδοποίηση Αλγόριθμος Ιεραρχικής ομαδοποίησης Επανάληψη Βρες δύο ομάδες (Ci, Cj), όπου d(Ci, Cj) είναι ελάχιστο Συγχώνευσε τα (Ci, Cj), σε μία νέα ομάδα Cq Αντικατέστησε τα Ci, Cj με το Cq Φτιάξε (ανανέωσε) τον πίνακα αποστάσεων Τερμάτισε, αν όλα τα γονίδια είναι στο ίδια ομάδα, αλλιώς πήγαινε στο βήμα επανάληψη Ορισμός απόστασης ομάδων: H ελάχιστη Η μέγιστη Ο μέσος όρος βάρη
Παράδειγμα Ιεραρχικής Ομαδοποίησης
Μειονεκτήματα Ιεραρχικής Ομαδοποίησης Επιβάλλεται φυλογενετικό δέντρο Δεν είναι καλή μέθοδος για οπτικοποίηση (visualisation) πολλών δεδομένων
Ομαδοποίηση k-means Σκοπός: εύρεση των κέντρων των ομάδων. k ομάδες Μέθοδος: ελαχιστοποίηση του σφάλματος, E
Αξιολόγηση ομαδοποίησης Silhouette method: Εξετάζει πόσο καλά βρίσκεται ένα γονίδιο σε μία ομάδα (cluster) s(i) μεγάλοκαλή ομαδοποίηση s(i) κοντά στο 0 ανήκει σε δύο ομάδες s(i) μικρό κακή ομαδοποίηση α(i)=μέση ανομοιότητα (dissimilarity) Του γονιδιου α, από όλα της ίδιας ομάδας d(i,C)= μέση ανομοιότητα (dissimilarity) Του γονιδιου α, από όλα τα άλλα των άλλων ομάδων. Και b(i) η μικρότερη από όλα
Μείωση Διαστάσεων Έχοντας δεδομένα πολλών διαστάσεων, μείωσε τις διαστάσεις με το ελάχιστο δυνατό σφάλμα Μέθοδος Πρωτευουσών Συνιστωσών (Principal Component Analysis) Είσοδος: Πολυδιάστατα δεδομένα Μέθοδος: Περιστρέφει τα δεδομένα στο χώρο, ώστε ο άξονας με τη μέγιστη διασπορά να ευθυγραμμιστεί με τον x. To ίδιο επαναλαμβάνεται για τους άλλους άξονες
Ανάλυση Πρωτευουσών Συνιστωσών
Ταξινόμηση δειγμάτων: Πρόβλεψη και ταξινόμηση Ταξινόμηση βιολογικών δειγμάτων σε γνωστές κατηγορίες Δεδομένα μικρο-συστοιχιών=πίνακας nxd n γονίδια, d-πειράματα/χρονικές στιγμές
K-Nearest Neighbour Δοσμένων δειγμάτων γνωστών κατηγοριών Βρές κατηγορία αγνώστου δείγματος Αλγόριθμος: Βρες τα k-κοντινότερα δείγματα Η κατηγορία του αγνώστου, είναι η κατηγορία που δείχνει η πλειοψηφία των δειγμάτων
Support Vector Machines Κατασκευή μοντέλου για πρόβλεψη κατηγορίας αγνώστου δείγματος Εύρεση επιφάνειας που διαχωρίζει τις κατηγορίες Ακριβέστερο, από k-Neighbour, αλλά απαιτεί πολλά δείγματα για εκπαίδευση.