Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

GCR_Oct-2006 1 Τράπεζες δεδομένων, ταυτοποίηση & ανάλυση αλληλουχιών DNA με ηλεκτρονικό υπολογιστή... μέσω διαδικτύου “Affordable biocomputing for everyone:

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "GCR_Oct-2006 1 Τράπεζες δεδομένων, ταυτοποίηση & ανάλυση αλληλουχιών DNA με ηλεκτρονικό υπολογιστή... μέσω διαδικτύου “Affordable biocomputing for everyone:"— Μεταγράφημα παρουσίασης:

1 GCR_Oct Τράπεζες δεδομένων, ταυτοποίηση & ανάλυση αλληλουχιών DNA με ηλεκτρονικό υπολογιστή... μέσω διαδικτύου “Affordable biocomputing for everyone: using the Internet, freeware and open-source software. How to build your own complete working biocomputing platform with nothing more than a desktop computer and an Internet connection” Mads Wichmann Matthiessen Trends in Biochemical Sciences, September

2 GCR_Oct Περιεχόμενα Ο ορισμός της Βιοπληροφορικής. Βάσεις δεδομένων πρωτεϊνών και DNA, εξειδικευμένες βάσεις δεδομένων, μορφές και προβλήματα σχολιασμού (annotation). Χρήση του Διαδικτύου για πρόσβαση και on line ανάλυση δεδομένων. Μηχανές αναζήτησης - εξόρρυξης δεδομένων, ειδικά προγράμματα ιστοτόπων.

3 GCR_Oct Ένας ορισμός της Βιοπληροφορικής NIH Biomedical Information Science and Technology Initiative Consortium agreement: Bioinformatics: Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data Computational Biology: The development and application of data-analytical and theoretical methods, mathematical modeling and computational simulation techniques to the study of biological, behavioral, and social systems. back

4 GCR_Oct Περιεχόμενα Η έννοια της Βιοπληροφορικής, ορισμοί. Βάσεις δεδομένων πρωτεϊνών και DNA, εξειδικευμένες βάσεις δεδομένων, μορφές και προβλήματα σχολιασμού (annotation). Χρήση του Διαδικτύου για πρόσβαση και on line ανάλυση δεδομένων. Μηχανές αναζήτησης - εξόρρυξης δεδομένων, ειδικά προγράμματα ιστοτόπων.

5 GCR_Oct Τράπεζες δεδομένων Οι επίσημες τράπεζες αλληλουχιών, με νομοθετικά κατοχυρωμένη την ελεύθερη και δημόσια πρόσβαση, είναι τρεις:  GenBank (NIH, ΗΠΑ)  EMBL (Cambridge, Ηνωμένο Βασίλειο)  DDBJ (Ιαπωνία) Εκτός από αυτές υπάρχουν αρκετές άλλες, οι οποίες φιλοξενούνται σε δημόσιους ή ιδιωτικούς φορείς, π.χ. Παν/μια, Ερευνητικά Ιδρύματα, Εταιρείες, και κατά κανόνα αφορούν ειδικού τύπου δεδομένα.

6 GCR_Oct Τράπεζες δεδομένων (συνέχεια) Η νομική κατάσταση αυτών των τραπεζών επιτρέπει την κατοχύρωση όσων καταθέτουν αλληλουχίες, παρέχοντας για κάθε μια ένα μοναδικό αριθμό πρόσβασης (accession number, Acc#). Η κατάθεση γίνεται σε μία από τις τρεις, αλλά οι διαχειριστές αναλαμβάνουν την ενημέρωση των άλλων. Το όνομα μιας αλληλουχίας διαφέρει από τράπεζα σε τράπεζα, όχι όμως ο αριθμός πρόσβασης (... οι Ιάπωνες... «NID» ή «ΝΙ»!). Σε όλα τα έγκυρα διεθνή επιστημονικά περιοδικά ισχύει ως προϋπόθεση αποδοχής μιας εργασίας για δημοσίευση (που αφορά προσδιορισμό αλληλουχιών) η συνυποβολή των αντίστοιχων Acc#.

7 GCR_Oct Τράπεζες δεδομένων (συνέχεια) Στις επίσημες τράπεζες διατηρούνται δύο βασικές και αρκετές επιμέρους (ειδικές) τράπεζες αλληλουχιών. Οι βασικές είναι (α) νουκλεοτιδικών, και (β) αμινοξικών αλληλουχιών. Οι επιμέρους (ειδικές) τράπεζες περιέχουν δεδομένα που έτσι κι αλλιώς βρίσκονται (έχουν κατατεθεί) στις βασικές, αλλά διαφέρουν σε ένα ή και στα δύο από τα επόμενα στοιχεία:  Το είδος των αλληλουχιών (π.χ., αλληλουχίες μόνο από Drosophila, Human, C. elegans, υποκινητών, Alu families, κλπ)  Τη μορφή (format) και το σχολιασμό (annotation) των αλληλουχιών, που τις καθιστούν συμβατές προς αντίστοιχα ειδικά προγράμματα πρόσβασης (π.χ., ειδικός τρόπος γραφής αλληλουχιών tRNA, 2ταγείς δομές πρωτεϊνικών μορίων, κλπ).

8 GCR_Oct Μορφή γραφής (format) αλληλουχιών Υπάρχουν πολλές μορφές γραφής, ανάλογα με Την τράπεζα καταχώρησης Τα προγράμματα ανάλυσης ΠΑΡΑΔΕΙΓΜΑΤΑ: WWW READSEQ Conversion 1. IG/Stanford 10. Olsen GenBank/GB 2. GenBank/GB 11. Phylip NBRF 12. Phylip EMBL 4. EMBL 13. Plain/Raw 5. GCG 14. PIR/CODATA 6. DNAStrider 15. MSF 7. Fitch 16. PAUP/NEXUS FastaCLUSTAL 8. Pearson/Fasta 17. CLUSTAL MEGA 9. Zuker 18. MEGA

9 GCR_Oct Fasta (απλό, αλλά φτωχό σε πληροφορίες) > Όνομα (πρόσθετες πληροφορίες - σχόλια) CAGCTACCGTCGCGTACGGCGATCGCGCATCGATCGCAGTACTCGTACAAAACGTTCCCCT GCATTGGGGGGGTATATCG GATG GAT CAGTCGGGTAGCG TCACG TAAG TCAG ATCG TAACGTTTCAGTCTGCTATCTGC ACGTCGATCGCT CGATC C AACGATCGA ACCTAGGCCCTAAAAGCCCCAGCTATCTGCATTC > όνομα(10)+πληροφορίες = 256 χαρακτήρες σε μια γραμμή

10 GCR_Oct GenBank EMBL Αυστηρή δομή κειμένου Πληροφοριών & Αλληλουχίας, αλλά, μεγιστοποίηση της δυνατότητας δομημένων πληροφοριών LOCUS MIACDNA bp DNA circular INV 31-MAR-1998 DEFINITION A.coerulea complete mitochondrial genome. ACCESSION X83390 NID g KEYWORDS ATPase 6; ATPase 8; COI gene; COII gene; COIII gene; cytb gene; lrRNA; ND1 gene; ND3 gene; ND4 gene; ND4L gene; ND5 gene; ND6 gene; srRNA; tRNA-Ala; tRNA-Arg; tRNA-Asn; tRNA-Asp; tRNA-Cys; tRNA-Gln; tRNA-Glu; tRNA-Gly; tRNA-His; tRNA-Ile; tRNA-Leu; tRNA-Lys; tRNA-Met; tRNA-Phe; tRNA-Pro; tRNA-Ser; tRNA-Thr; tRNA-Trp; tRNA-Tyr; tRNA-Val. SOURCE Albinaria coerulea. ORGANISM Mitochondrion Albinaria coerulea Eukaryota; Metazoa; Mollusca; Gastropoda; Pulmonata; Stylommatophora; Clausiliidae; Alopiinae; Albinaria. REFERENCE 1 (bases 1 to 14130) AUTHORS Hatzoglou,E., Rodakis,G.C. and Lecanidou,R. TITLE Complete sequence and gene organization of the mitochondrial genome of the land snail Albinaria coerulea JOURNAL Genetics 140 (4), (1995) MEDLINE REFERENCE 2 (bases 1 to 14130) AUTHORS Rodakis,G.C. TITLE Direct Submission JOURNAL Submitted (12-DEC-1994) G.C. Rodakis, Univ.of Athens, Dep. of Biochemistry, Cell and Mol. Biology and Genetics, Panepistimiopolis, Athens , GREECE FEATURES Location/Qualifiers DEFINITION A.coerulea complete mitochondrial genome. ACCESSION X83390 NID g KEYWORDS ATPase 6; ATPase 8; COI gene; COII gene; COIII gene; cytb gene; lrRNA; ND1 gene; ND3 gene; ND4 gene; ND4L gene; ND5 gene; ND6 gene; srRNA; tRNA-Ala; tRNA-Arg; tRNA-Asn; tRNA-Asp; tRNA-Cys; tRNA-Gln; tRNA-Glu; tRNA-Gly; tRNA-His; tRNA-Ile; tRNA-Leu; tRNA-Lys; tRNA-Met; tRNA-Phe; tRNA-Pro; tRNA-Ser; tRNA-Thr; tRNA-Trp; tRNA-Tyr; tRNA-Val. SOURCE Albinaria coerulea. ORGANISM Mitochondrion Albinaria coerulea Eukaryota; Metazoa; Mollusca; Gastropoda; Pulmonata; Stylommatophora; Clausiliidae; Alopiinae; Albinaria. REFERENCE 1 (bases 1 to 14130) AUTHORS Hatzoglou,E., Rodakis,G.C. and Lecanidou,R. TITLE Complete sequence and gene organization of the mitochondrial genome of the land snail Albinaria coerulea JOURNAL Genetics 140 (4), (1995) MEDLINE REFERENCE 2 (bases 1 to 14130) AUTHORS Rodakis,G.C. TITLE Direct Submission JOURNAL Submitted (12-DEC-1994) G.C. Rodakis, Univ.of Athens, Dep. of Biochemistry, Cell and Mol. Biology and Genetics, Panepistimiopolis, Athens , GREECE (10)......(8)...

11 GCR_Oct FEATURES Location/Qualifiers source /organism="Albinaria coerulea" /mitochondrion /db_xref="taxon:42349" gene /gene="ND5" CDS /gene="ND5" /note="starting codon=ATT, termination codon=TAG" /codon_start=1 /transl_table=5 /db_xref="PID:g975669" /db_xref="SWISS-PROT:P48918" /translation="MLLGVLCAIMGVIYMVLNMQNSSYLLMFNLFSTQSVNFNLALIC DKVSTSFLVVVLLISSCVFLFANEYMSEDHYNIRFGWILISFVASMGILILSGSIFTL LLGWDGLGLTSFALIAYYDNYNASSSAFLTLMTNRLGDVLIIATFSVILVTGLTVHFP PYTLVWLSSILFTIASFTKSAQYPFSAWLPAAMAAPTPVSALVHSSTLVTAGIYLMIR CFMVDGAPAEMYSLMGLVGSITCLLGGSVALFEYDLKKVIALSTLSQLGVMMYSLSLN LPYLALLHLYGHAMFKAMLFLGAGLILMMSYGTQDLRLLGSLLYSSPIVISLLNISML CLMGFPFVSSFYSKHLILEKMLDMNCNFFTSMMFMLGTLLTGMYSIRLMKFLCWGNNN NKPSYCNMSWQSKMSMFPLAALAVLSGQLMSYLDSSYMTFSWSTNQYNLILWGVLFLS IFFGIVMKFGNFYPTLMSSMMFLGPTSYNLLHYTKSLLIYMKRIDLSISEPNWVMSNL MYSSSWRVMSLFNWLTNYMLVTWFLLVWLMIMSILMW" gene /gene="ND1" CDS /gene="ND1" /note="starting codon=ATG, termination codon=TAA" /codon_start=1 /transl_table=5 /db_xref="PID:g975670" /db_xref="SWISS-PROT:P48897" /translation="MVVFKSLLLNLCILLSVAFYTLLERKVLSSMQIRKGPNKVGLYG

13 GCR_Oct EMBL ID MIACDNA standard; circular DNA; ORG; BP. AC X83390; NI g DT 05-SEP-1995 (Rel. 45, Created) DT 31-MAR-1998 (Rel. 55, Last updated, Version 6) DE A.coerulea complete mitochondrial genome KW ATPase 6; ATPase 8; COI gene; COII gene; COIII gene; cytb gene; lrRNA; KW ND1 gene; ND3 gene; ND4 gene; ND4L gene; ND5 gene; ND6 gene; srRNA; KW tRNA-Ala; tRNA-Arg; tRNA-Asn; tRNA-Asp; tRNA-Cys; tRNA-Gln; tRNA-Glu; KW tRNA-Gly; tRNA-His; tRNA-Ile; tRNA-Leu; tRNA-Lys; tRNA-Met; tRNA-Phe; KW tRNA-Pro; tRNA-Ser; tRNA-Thr; tRNA-Trp; tRNA-Tyr; tRNA-Val. OS Albinaria coerulea OC Eukaryota; Metazoa; Mollusca; Gastropoda; Pulmonata; Stylommatophora; OC Clausiliidae; Alopiinae; Albinaria. OG Mitochondrion RN [1] RX MEDLINE; RA Hatzoglou E., Rodakis G.C., Lecanidou R.; RT "The complete sequence of the mitochondrial genome of the land snail RT Albinaria coerulea."; RL Genetics 140: (1995). RN [2] RP RA Rodakis G.C.; RT ; RL Submitted (12-DEC-1994) to the EMBL/GenBank/DDBJ databases. RL G.C. Rodakis, Univ.of Athens, Dep. of Biochemistry, Cell and Mol. RL Biology and Genetics, Panepistimiopolis, Athens , GREECE XX DR SWISS-PROT; P48884; CYB_ALBCO.

14 GCR_Oct DR SWISS-PROT; P48884; CYB_ALBCO. DR SWISS-PROT; P48887; COX1_ALBCO. DR SWISS-PROT; P48889; COX2_ALBCO. DR SWISS-PROT; P48891; COX3_ALBCO. DR SWISS-PROT; P48893; ATP6_ALBCO. DR SWISS-PROT; P48895; ATP8_ALBCO. DR SWISS-PROT; P48897; NU1M_ALBCO. DR SWISS-PROT; P48902; NU2M_ALBCO. DR SWISS-PROT; P48907; NU3M_ALBCO. DR SWISS-PROT; P48914; NU4M_ALBCO. DR SWISS-PROT; P48918; NU5M_ALBCO. DR SWISS-PROT; P48922; NU6M_ALBCO. DR SWISS-PROT; P48928; NULM_ALBCO. FH Key Location/Qualifiers FT source FT /organism="Albinaria coerulea" FT /mitochondrion FT CDS FT /db_xref="PID:g975669" FT /db_xref="SWISS-PROT:P48918" FT /note="starting codon=ATT, termination codon=TAG" FT /gene="ND5" FT /translation="MLLGVLCAIMGVIYMVLNMQNSSYLLMFNLFSTQSVNFNLALICD FT KVSTSFLVVVLLISSCVFLFANEYMSEDHYNIRFGWILISFVASMGILILSGSIFTLLL FT GWDGLGLTSFALIAYYDNYNASSSAFLTLMTNRLGDVLIIATFSVILVTGLTVHFPPYT FT LVWLSSILFTIASFTKSAQYPFSAWLPAAMAAPTPVSALVHSSTLVTAGIYLMIRCFMV FT DGAPAEMYSLMGLVGSITCLLGGSVALFEYDLKKVIALSTLSQLGVMMYSLSLNLPYLA FT LLHLYGHAMFKAMLFLGAGLILMMSYGTQDLRLLGSLLYSSPIVISLLNISMLCLMGFP FT FVSSFYSKHLILEKMLDMNCNFFTSMMFMLGTLLTGMYSIRLMKFLCWGNNNNKPSYCN FT MSWQSKMSMFPLAALAVLSGQLMSYLDSSYMTFSWSTNQYNLILWGVLFLSIFFGIVMK FT FGNFYPTLMSSMMFLGPTSYNLLHYTKSLLIYMKRIDLSISEPNWVMSNLMYSSSWRVM FT SLFNWLTNYMLVTWFLLVWLMIMSILMW" FT CDS

15 GCR_Oct FT CDS FT /db_xref="PID:g975670" FT /db_xref="SWISS-PROT:P48897" FT /note="starting codon=ATG, termination codon=TAA" FT /gene="ND1" FT /translation="MVVFKSLLLNLCILLSVAFYTLLERKVLSSMQIRKGPNKVGLYGI FT IQPIADALKLFLKEFFIPVNSNSFMFMILPLLGLTLSLMLWAVFPSMWMFNFHSYLLML FT FVALTGTFVYVIIFAGWSSNSKYSFLGGMRAAAQTISYEVSMLLLLFFAVLMYRTYSWY FT EAGLSSPIGIIIFIIMFIWFASCLAETNRAPFDFAEGESELVSGFNIEYYGGMFALLFL FT AEYSSILFMCMMSTVWFLYSDMIFIMTLLILLIAMAFLFARGVYPRHRYDLLMNLCWKS FT FLPFSLCCICYSMLLWIV" FT CDS FT CDS FT tRNA FT /anticodon=(pos: ,aa:Asp) FT /product="tRNA-Asp". FT rRNA complement( ). FT rRNA FT /product="lrRNA"nnnnnnpppppnnnppppp XX SQ Sequence BP; 4628 A; 1951 C; 2196 G; 5355 T; 0 other; CCGTTTTCCT ATTTTATTAG GTGTTCTATG TGCTATTATA GGTGTAATTT ACATAGTATT 60 AAATATACAA AATTCCAGTT ATCTTTTAAT ATTTAATTTA TTTTCAACCC AAAGGGTTAA 120 CTTTAACTTA GCTTTAATTT GTGATAAAGT AAGCACAAGG TTTTTGGTAG TGGTATTACT 180 AATTTCTAGC TGTGTTTTTC TTTTTGCTAA TGAATATATA TCTGAAGATC ATTATAACAT ATAGCGGGCT TAATTTTTCC GGTATTTATG ATGCTGAAAG GAATCAATCC AATGAGCCTT TTATTAGCTC TTCTTACTTT AAGGTTATGT GCTGTTCTAT GATTAGGATC TTTTATGAGG TCTTGATATG CCTATATTTT ATTTATTGTC TATATTGGTG GAATCTT

16 GCR_Oct CLUSTAL (outfile -.aln) CLUSTAL X (1.83) multiple sequence alignment Human_D-loop TTCTTTCATGGGGAAGCAGATTTGGGTACCACCCAAGTATTGACTCACCCATCAACAACC 60 Pan TTCTTTCATGGGGAAGCAAATTTAGGTACCACCTAAGTACTGGCTCATTCATTA-CAACC 59 BlueWhale AAACATGTATATTGTACAA-TAACCGCAAAGCCACAG-----T 37 * * * ** ** ** * * ** Human_D-loop GCTATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATAAATACT 120 Pan GCTATGTATTTCGTACATTACTGCCAGCCACCATGAATATCGTACAGTACCATAT-CACC 118 BlueWhale ACTATGTCCGTATTAAAAAATAATTA-TCTCATTACATATTGTTATGTACTTCGTGCATG 96 ****** * ** * * * * * * **** ** **** *

17 GCR_Oct MEGA (.meg) #MEGA !Title : All_Mon11.aln; !Format DataType=Nucleotide CodeTable=Invertebrate_Mitochondrial NSeqs=19 NSites=5349 Identical=. Missing=? Indel=-; !Domain=16Sb; #F_AY GCTAATTTTG TACGAAAGGA CTTTTTCGCT AAAGCAATGC TTTGTCAC-A AATCTGTGGT TGCATAAATA ATAGTGTATA ACAGGTTGAT TAGCCTATAG GAAGGG--TT A #ef.w22-F GCTAATTTTG TACGAAAGGA CTTTTTCGCT AAAGCAATGC TTTGTCAC-A AATCTGTGGT TGCATAAATA ATAGTGTATA ATAGGCTGAT TAGCCTATAG GAAGGG--TT A #tf_w1-156 GCTAATTTTG TACGAAAGGA CTTTTTCGCT AAAGCAATGC TTTGTCAC-A AATCTGTGGT TGCATAAATA ATAGTGTATA ATAGGCTGAT TAGCCTATAG GAAGGG--TT A #F_c26f GTTAATTTTG TACGAAAGGA CTTTTTTGCT AAAGTGATGC TTTGCGGTTA GACTCGTTAT TTCACAGAGA ATATTATATG GTAGGCTGAC TGACCTATAA AAAGGGGATT -. !Domain=VD1; #F_AY CCTTTTATG- -TAAATGAGC ATATTGTTTG GTGATAGGTT GTTAAGTGTG GTAGATTTTA GAGAAGTCCT ATGTAGCTGG ---TTTAAAG CAGGCTTTTT AGTAAAAAAA GACCTGCT-- #ef.w22-F CCTTTTATG- -TAAATGAGC ATATTGTTTG GTGATAGGTT GTTAAGTGTG GTAGATTTTA GAGAAGTCCT ATGTAGCTGG ---TTTAAAG CAGGCTTTTT AGTAAAAAAA GACCTAC--- #tf_w1-156 CCTTTTATG- -TAAATGAGC ATATTGTTTG GTGATAGGTT GTTAAGTGTG GTAGATTTTA GAGAAGTCCT ATGTAGCTGG ---TTTAAAG CAGGCTTTTT AGTAAAAAAA GACCTACT-- #F_c26f CCTTTTGTGA GTAAATGACT ATTTTCATTA TCGAAATAAC TCTGCTTCTA TGAAACTTTG ATATAATTGA GCATTTTTTA ATATTTTGTA AATCGTTTTT AGAATCTGAG GAG-TG---- #M_AY CCTTTTATG- -TAAGTGAG GTT GGC-----TA CTAGACTTTA CAGGAATA-T ACGCAGATAG ---TTTCA-- ---CCTT--- -GAAAAAGA- GTG back

18 GCR_Oct Περιεχόμενα Η έννοια της Βιοπληροφορικής, ορισμοί. Βάσεις δεδομένων πρωτεϊνών και DNA, εξειδικευμένες βάσεις δεδομένων, μορφές και προβλήματα σχολιασμού (annotation). Χρήση του Διαδικτύου για πρόσβαση και on line ανάλυση δεδομένων. Μηχανές αναζήτησης - εξόρρυξης δεδομένων, ειδικά προγράμματα ιστοτόπων.

19 GCR_Oct Γιατί «ανάλυση αλληλουχιών» με Η/Υ, και μάλιστα μέσω Διαδικτύου; Αιτία: Ο ρυθμός συσσώρευσης «πρωτογενών» δεδομένων (δηλ. αλληλουχιών DNA) είναι κατά πολύ μεγαλύτερος από το ρυθμό ταυτοποίησής τους (δηλ. χαρακτηρισμού ή/και προσδιορισμού της λειτουργίας τους. Επακόλουθο πρώτο: Ανάπτυξη ειδικών προγραμμάτων που εκμεταλλεύονται τη δύναμη των Η/Υ στη διαχείριση μεγάλου όγκου δεδομένων. Επακόλουθο δεύτερο: Ο αριθμός των προγραμμάτων είναι πολύ μεγάλος και συνεχώς αυξάνεται, σε συνάρτηση με νέες προσεγγίσεις και δεδομένα, με συνέπεια την αδυναμία διατήρησης και ενημέρωσης ενός τοπικού Η/Υ.

20 GCR_Oct άρα με το internet λύσαμε το πρόβλημά μας; Απάντηση: ΟΧΙ! Γιατί...:  Πρώτον: Δεν υφίσταται πάντα σύνδεση στο διαδίκτυο ή αργεί η μεταφορά των δεδομένων.  Δεύτερον: Περιορισμοί στους Η/Υ που μας φιλοξενούν, π.χ. δέχονται μικρότερο μήκος αλληλουχιών από αυτό που μπορεί να χειριστεί το συγκεκριμένο πρόγραμμα.  Τρίτον: Μερικά προγράμματα δεν «προσφέρονται» και μάλιστα δωρεάν.

21 GCR_Oct Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσης Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search).

22 GCR_Oct Μερικές σημαντικές έννοιες Ομοιότητα (similarity) Ομολογία (homology) και απόκλιση (divergence)  Ορθολογία (orthology)  Παραλογία (paralogy)  Αλλά και “inparalogs”, “outparalogs” Αναλογία (analogy) και σύγκλιση (convergence)

23 GCR_Oct ATCGGCCACTTTCGCGATCA ATAGGCCACTTTCGCGATCA ATAGGCCACTTTCGCGATTA ATAGGGCAGTTTCGCGATTA ATAGGGCAGTTTTGCGATTA ATAGGGCAGTTTCGCGATTA ATAGGGCAGTCTCGCGATTA ATCGGCCACTTTCGCGATCG ATCGGCCACTTTCGTGATCG ATCGGCCACGTTCGTGATCG ATCGGCCACGTTCGCGATCG ATCGGCCACCTTCGCGATCG ACCGGCCACCTTCGCGATCG | || || ||||||| ATAGGGCAGTCTCGCGATTA Προγονική αλληλουχία Ομόλογες αλληλουχίες ομολογία = κοινή καταγωγή

24 GCR_Oct ACCGGCCACCTTCGCGATCG ATCGGCCACTTTCGCGATCA ATAGGGCAGTCTCGCGATTA Αλληλουχία στον προγονικό οργανισμό Ορθόλογες αλληλουχίες Σημείο ΕΙΔΟΓΕΝΕΣΗΣ Είδος ΑΕίδος Β Ορθόλογα γονίδια: «ίδια γονίδια» σε διαφορετικούς οργανισμούς Τα ορθόλογα γονίδια είναι προϊόντα ειδογένεσης

25 GCR_Oct ATCGGCCACTTTCGCGATCA ATAGGGCAGTCTCGCGATTA ACCGGCCACCTTCGCGATCG Παράλογες αλληλουχίες Γονιδιακός ΔΙΠΛΑΣΙΑΣΜΟΣ Αντίγραφο ΑΑντίγραφο Β Παράλογα γονίδια = προϊόντα διπλασιασμού Αλληλουχία στον προγονικό οργανισμό

26 GCR_Oct An evolutionary tale… Duplication of A in worm Duplication of A in human Sonnhammer & Koonin (2002) TIGs back

27 GCR_Oct Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσης Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search). Ανάλυση μεμονωμένων αλληλουχιών (επίπεδο πρωτοδιάταξης) Πρόγνωση 2ταγούς – 3ταγούς δομής αμινοξικών αλληλουχιών (Predictions) Στοίχιση (Alignment) Φυλογενετική ανάλυση (Phylogeny)

28 GCR_Oct Πού αποσκοπεί η αναζήτηση όμοιων αλληλουχιών Πρωταρχικά στην ταυτοποίηση μιας νέας αλληλουχίας. Στη συγκρότηση ενός συνόλου συγγενών αλληλουχιών για παραπέρα εξελικτική ανάλυση ή και για κατασκευή «universal» εκκινητών PCR. Στην πιστοποίηση της «ειδικότητας» μιας αλληλουχίας που πρόκειται να χρησιμοποιηθεί ως ανιχνευτής. Σημείωση: Η κάθε μία από τις μεγάλες διεθνείς βάσεις δεδομένων διαθέτει on-line το αντίστοιχο πρόγραμμα αναζήτησης  GenBank: BLAST  EMBL: FASTA

29 GCR_Oct Η αναζήτηση όμοιων αλληλουχιών στην πράξη: 1.Άνοιγμα ενός αρχείου που περιέχει την ή τις αλληλουχίες για εξέταση (συνήθως χρησιμοποιείται το Notepad των Windows και είναι πάντα διαθέσιμο στο taskbar). 2.Login στο «site» του υπολογιστή που φιλοξενεί το πρόγραμμα αναζήτησης και ενεργοποίηση του προγράμματος. 3.Τα «on line» προγράμματα εμφανίζουν ένα παράθυρο που συνήθως λέγεται «query line ή sequence» και σ’ αυτό γράφουμε την προς εξέταση αλληλουχία ή την μεταφέρουμε από το notepad με copy-paste. 4.Εκτελούμε το πρόγραμμα με τα default settings ή αφού προηγουμένως τα αλλάξουμε (advanced mode). 5.Βλέπουμε το αποτέλεσμα στην οθόνη και το τυπώνουμε ή το μεταφέρουμε σε δικό μας αρχείο πάλι με copy-paste.

30 GCR_Oct NCBI Home pageHome page BLAST Search pageSearch page Αναλυτικότερα... on line...: Στατιστικός έλεγχος του βαθμού ομοιότητας  Περιγραφή της «γενικής» ιδέας  Στον πίνακα  Το on-line πρόγραμμα PRSS (PRDF)PRSS

31 GCR_Oct Ένας απλός κανόνας: Πρακτικά, για να θεωρηθεί ότι η παρατηρούμενη ομοιότητα είναι στατιστικά σημαντική (in silico identification) πρέπει ο αρνητικός εκθέτης του «Ε» να είναι διψήφιος αριθμός. Αν όχι, και αν πρόκειται για κωδική αλληλουχία, ελέγχουμε πάντα το βαθμό ομοιότητας σε επίπεδο αμινοξέων με χρήση του προγράμματος blastx (...όμως, το πρόβλημα δεν λύνεται για «low complexity sequences»). ΠΡΟΣΟΧΗ: Η αναζήτηση με το FASTA (EMBL) διαφέρει ουσιαστικά στο ότι οι καλύτερες τιμές σκορ είναι θετικοί και όχι αρνητικοί αριθμοί. Και πάλι ισχύει ο διψήφιος εκθέτης back

32 GCR_Oct Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσης Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search). Ανάλυση μεμονωμένων αλληλουχιών (επίπεδο πρωτοδιάταξης). Πρόγνωση 2ταγούς – 3ταγούς δομής αμινοξικών αλληλουχιών (Predictions) Στοίχιση (Alignment) Φυλογενετική ανάλυση (Phylogeny)

33 GCR_Oct Ανάλυση μιας αλληλουχίας DNA Αφορά πληθώρα ερωτημάτων ή ειδών ανάλυσης και πολύ απλά έως πολύ σύνθετα προγράμματα. Για παράδειγμα: Απλές εργασίες, όπως:  Μετάφραση σε ένα ή και στα 6 πιθανά πλαίσια ανάγνωσης  Δημιουργία της συμπληρωματικής, ή της αντιστρόφως συμπληρωματικής αλυσίδας  Μετατροπή μορφής (format) Εντοπισμός μοτίβων:  Αλληλουχίες υποκινητών  Παλίνδρομες ή επαναλαμβανόμενες αλληλουχίες  Αλληλουχίες κατάλληλες για εκκινητές PCR Πρόγνωση δευτεροταγών δομών  DNA, RNA, tRNA

34 GCR_Oct Πού θα βρούμε τα προγράμματα; Σε πολλούς υπολογιστές Δημόσιων ή Ιδιωτικών Ιδρυμάτων υπάρχουν κατάλογοι με links (διευθύνσεις, URL) για άμεση πρόσβαση σε άλλους υπολογιστές, οι οποίοι επιτρέπουν τη δημόσια on line χρήση πολλών ειδικών προγραμμάτων ανάλυσης. Την επιλογή την κάνει ο κάθε ερευνητής ανάλογα με τις ανάγκες του και ανάλογα με τα προγράμματα που συνήθως χρησιμοποιεί. Ένας σχετικά πλούσιος κατάλογος URL για on line εφαρμογή ειδικών προγραμμάτων υπάρχει στην ιστοσελίδα: ABIM Online analysis tools: (http://www.up.univ-mrs.fr/~wabim/english/logligne.html)http://www.up.univ-mrs.fr/~wabim/english/logligne.html back

35 GCR_Oct Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσης Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search). Ανάλυση μεμονωμένων αλληλουχιών (επίπεδο πρωτοδιάταξης). Πρόγνωση 2ταγούς – 3ταγούς δομής αμινοξικών αλληλουχιών (Predictions) Στοίχιση (Alignment) Φυλογενετική ανάλυση (Phylogeny) END

36 GCR_Oct


Κατέβασμα ppt "GCR_Oct-2006 1 Τράπεζες δεδομένων, ταυτοποίηση & ανάλυση αλληλουχιών DNA με ηλεκτρονικό υπολογιστή... μέσω διαδικτύου “Affordable biocomputing for everyone:"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google