Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

GCR_Oct-2006 1 Τράπεζες δεδομένων, ταυτοποίηση & ανάλυση αλληλουχιών DNA με ηλεκτρονικό υπολογιστή... μέσω διαδικτύου “Affordable biocomputing for everyone:

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "GCR_Oct-2006 1 Τράπεζες δεδομένων, ταυτοποίηση & ανάλυση αλληλουχιών DNA με ηλεκτρονικό υπολογιστή... μέσω διαδικτύου “Affordable biocomputing for everyone:"— Μεταγράφημα παρουσίασης:

1 GCR_Oct-2006 1 Τράπεζες δεδομένων, ταυτοποίηση & ανάλυση αλληλουχιών DNA με ηλεκτρονικό υπολογιστή... μέσω διαδικτύου “Affordable biocomputing for everyone: using the Internet, freeware and open-source software. How to build your own complete working biocomputing platform with nothing more than a desktop computer and an Internet connection” Mads Wichmann Matthiessen Trends in Biochemical Sciences, ------September.19.2002------

2 GCR_Oct-2006 2 Περιεχόμενα Ο ορισμός της Βιοπληροφορικής. Βάσεις δεδομένων πρωτεϊνών και DNA, εξειδικευμένες βάσεις δεδομένων, μορφές και προβλήματα σχολιασμού (annotation). Χρήση του Διαδικτύου για πρόσβαση και on line ανάλυση δεδομένων. Μηχανές αναζήτησης - εξόρρυξης δεδομένων, ειδικά προγράμματα ιστοτόπων.

3 GCR_Oct-2006 3 Ένας ορισμός της Βιοπληροφορικής NIH Biomedical Information Science and Technology Initiative Consortium agreement: Bioinformatics: Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data Computational Biology: The development and application of data-analytical and theoretical methods, mathematical modeling and computational simulation techniques to the study of biological, behavioral, and social systems. back

4 GCR_Oct-2006 4 Περιεχόμενα Η έννοια της Βιοπληροφορικής, ορισμοί. Βάσεις δεδομένων πρωτεϊνών και DNA, εξειδικευμένες βάσεις δεδομένων, μορφές και προβλήματα σχολιασμού (annotation). Χρήση του Διαδικτύου για πρόσβαση και on line ανάλυση δεδομένων. Μηχανές αναζήτησης - εξόρρυξης δεδομένων, ειδικά προγράμματα ιστοτόπων.

5 GCR_Oct-2006 5 Τράπεζες δεδομένων Οι επίσημες τράπεζες αλληλουχιών, με νομοθετικά κατοχυρωμένη την ελεύθερη και δημόσια πρόσβαση, είναι τρεις:  GenBank (NIH, ΗΠΑ)  EMBL (Cambridge, Ηνωμένο Βασίλειο)  DDBJ (Ιαπωνία) Εκτός από αυτές υπάρχουν αρκετές άλλες, οι οποίες φιλοξενούνται σε δημόσιους ή ιδιωτικούς φορείς, π.χ. Παν/μια, Ερευνητικά Ιδρύματα, Εταιρείες, και κατά κανόνα αφορούν ειδικού τύπου δεδομένα.

6 GCR_Oct-2006 6 Τράπεζες δεδομένων (συνέχεια) Η νομική κατάσταση αυτών των τραπεζών επιτρέπει την κατοχύρωση όσων καταθέτουν αλληλουχίες, παρέχοντας για κάθε μια ένα μοναδικό αριθμό πρόσβασης (accession number, Acc#). Η κατάθεση γίνεται σε μία από τις τρεις, αλλά οι διαχειριστές αναλαμβάνουν την ενημέρωση των άλλων. Το όνομα μιας αλληλουχίας διαφέρει από τράπεζα σε τράπεζα, όχι όμως ο αριθμός πρόσβασης (... οι Ιάπωνες... «NID» ή «ΝΙ»!). Σε όλα τα έγκυρα διεθνή επιστημονικά περιοδικά ισχύει ως προϋπόθεση αποδοχής μιας εργασίας για δημοσίευση (που αφορά προσδιορισμό αλληλουχιών) η συνυποβολή των αντίστοιχων Acc#.

7 GCR_Oct-2006 7 Τράπεζες δεδομένων (συνέχεια) Στις επίσημες τράπεζες διατηρούνται δύο βασικές και αρκετές επιμέρους (ειδικές) τράπεζες αλληλουχιών. Οι βασικές είναι (α) νουκλεοτιδικών, και (β) αμινοξικών αλληλουχιών. Οι επιμέρους (ειδικές) τράπεζες περιέχουν δεδομένα που έτσι κι αλλιώς βρίσκονται (έχουν κατατεθεί) στις βασικές, αλλά διαφέρουν σε ένα ή και στα δύο από τα επόμενα στοιχεία:  Το είδος των αλληλουχιών (π.χ., αλληλουχίες μόνο από Drosophila, Human, C. elegans, υποκινητών, Alu families, κλπ)  Τη μορφή (format) και το σχολιασμό (annotation) των αλληλουχιών, που τις καθιστούν συμβατές προς αντίστοιχα ειδικά προγράμματα πρόσβασης (π.χ., ειδικός τρόπος γραφής αλληλουχιών tRNA, 2ταγείς δομές πρωτεϊνικών μορίων, κλπ).

8 GCR_Oct-2006 8 Μορφή γραφής (format) αλληλουχιών Υπάρχουν πολλές μορφές γραφής, ανάλογα με Την τράπεζα καταχώρησης Τα προγράμματα ανάλυσης ΠΑΡΑΔΕΙΓΜΑΤΑ: WWW READSEQ Conversion 1. IG/Stanford 10. Olsen GenBank/GB 2. GenBank/GB 11. Phylip3.2 3. NBRF 12. Phylip EMBL 4. EMBL 13. Plain/Raw 5. GCG 14. PIR/CODATA 6. DNAStrider 15. MSF 7. Fitch 16. PAUP/NEXUS FastaCLUSTAL 8. Pearson/Fasta 17. CLUSTAL MEGA 9. Zuker 18. MEGA

9 GCR_Oct-2006 9 Fasta (απλό, αλλά φτωχό σε πληροφορίες) > Όνομα (πρόσθετες πληροφορίες - σχόλια) CAGCTACCGTCGCGTACGGCGATCGCGCATCGATCGCAGTACTCGTACAAAACGTTCCCCT GCATTGGGGGGGTATATCG GATG GAT CAGTCGGGTAGCG TCACG TAAG TCAG ATCG TAACGTTTCAGTCTGCTATCTGC ACGTCGATCGCT CGATC C AACGATCGA ACCTAGGCCCTAAAAGCCCCAGCTATCTGCATTC >.......... όνομα(10)+πληροφορίες = 256 χαρακτήρες σε μια γραμμή

10 GCR_Oct-2006 10 GenBank EMBL Αυστηρή δομή κειμένου Πληροφοριών & Αλληλουχίας, αλλά, μεγιστοποίηση της δυνατότητας δομημένων πληροφοριών LOCUS MIACDNA 14130 bp DNA circular INV 31-MAR-1998 DEFINITION A.coerulea complete mitochondrial genome. ACCESSION X83390 NID g975668 KEYWORDS ATPase 6; ATPase 8; COI gene; COII gene; COIII gene; cytb gene; lrRNA; ND1 gene; ND3 gene; ND4 gene; ND4L gene; ND5 gene; ND6 gene; srRNA; tRNA-Ala; tRNA-Arg; tRNA-Asn; tRNA-Asp; tRNA-Cys; tRNA-Gln; tRNA-Glu; tRNA-Gly; tRNA-His; tRNA-Ile; tRNA-Leu; tRNA-Lys; tRNA-Met; tRNA-Phe; tRNA-Pro; tRNA-Ser; tRNA-Thr; tRNA-Trp; tRNA-Tyr; tRNA-Val. SOURCE Albinaria coerulea. ORGANISM Mitochondrion Albinaria coerulea Eukaryota; Metazoa; Mollusca; Gastropoda; Pulmonata; Stylommatophora; Clausiliidae; Alopiinae; Albinaria. REFERENCE 1 (bases 1 to 14130) AUTHORS Hatzoglou,E., Rodakis,G.C. and Lecanidou,R. TITLE Complete sequence and gene organization of the mitochondrial genome of the land snail Albinaria coerulea JOURNAL Genetics 140 (4), 1353-1366 (1995) MEDLINE 96120351 REFERENCE 2 (bases 1 to 14130) AUTHORS Rodakis,G.C. TITLE Direct Submission JOURNAL Submitted (12-DEC-1994) G.C. Rodakis, Univ.of Athens, Dep. of Biochemistry, Cell and Mol. Biology and Genetics, Panepistimiopolis, Athens 157 01, GREECE FEATURES Location/Qualifiers DEFINITION A.coerulea complete mitochondrial genome. ACCESSION X83390 NID g975668 KEYWORDS ATPase 6; ATPase 8; COI gene; COII gene; COIII gene; cytb gene; lrRNA; ND1 gene; ND3 gene; ND4 gene; ND4L gene; ND5 gene; ND6 gene; srRNA; tRNA-Ala; tRNA-Arg; tRNA-Asn; tRNA-Asp; tRNA-Cys; tRNA-Gln; tRNA-Glu; tRNA-Gly; tRNA-His; tRNA-Ile; tRNA-Leu; tRNA-Lys; tRNA-Met; tRNA-Phe; tRNA-Pro; tRNA-Ser; tRNA-Thr; tRNA-Trp; tRNA-Tyr; tRNA-Val. SOURCE Albinaria coerulea. ORGANISM Mitochondrion Albinaria coerulea Eukaryota; Metazoa; Mollusca; Gastropoda; Pulmonata; Stylommatophora; Clausiliidae; Alopiinae; Albinaria. REFERENCE 1 (bases 1 to 14130) AUTHORS Hatzoglou,E., Rodakis,G.C. and Lecanidou,R. TITLE Complete sequence and gene organization of the mitochondrial genome of the land snail Albinaria coerulea JOURNAL Genetics 140 (4), 1353-1366 (1995) MEDLINE 96120351 REFERENCE 2 (bases 1 to 14130) AUTHORS Rodakis,G.C. TITLE Direct Submission JOURNAL Submitted (12-DEC-1994) G.C. Rodakis, Univ.of Athens, Dep. of Biochemistry, Cell and Mol. Biology and Genetics, Panepistimiopolis, Athens 157 01, GREECE 1 13 80...(10)......(8)...

11 GCR_Oct-2006 11 FEATURES Location/Qualifiers source 1..14130 /organism="Albinaria coerulea" /mitochondrion /db_xref="taxon:42349" gene 11..1648 /gene="ND5" CDS 11..1648 /gene="ND5" /note="starting codon=ATT, termination codon=TAG" /codon_start=1 /transl_table=5 /db_xref="PID:g975669" /db_xref="SWISS-PROT:P48918" /translation="MLLGVLCAIMGVIYMVLNMQNSSYLLMFNLFSTQSVNFNLALIC DKVSTSFLVVVLLISSCVFLFANEYMSEDHYNIRFGWILISFVASMGILILSGSIFTL LLGWDGLGLTSFALIAYYDNYNASSSAFLTLMTNRLGDVLIIATFSVILVTGLTVHFP PYTLVWLSSILFTIASFTKSAQYPFSAWLPAAMAAPTPVSALVHSSTLVTAGIYLMIR CFMVDGAPAEMYSLMGLVGSITCLLGGSVALFEYDLKKVIALSTLSQLGVMMYSLSLN LPYLALLHLYGHAMFKAMLFLGAGLILMMSYGTQDLRLLGSLLYSSPIVISLLNISML CLMGFPFVSSFYSKHLILEKMLDMNCNFFTSMMFMLGTLLTGMYSIRLMKFLCWGNNN NKPSYCNMSWQSKMSMFPLAALAVLSGQLMSYLDSSYMTFSWSTNQYNLILWGVLFLS IFFGIVMKFGNFYPTLMSSMMFLGPTSYNLLHYTKSLLIYMKRIDLSISEPNWVMSNL MYSSSWRVMSLFNWLTNYMLVTWFLLVWLMIMSILMW" gene 1642..2541 /gene="ND1" CDS 1642..2541 /gene="ND1" /note="starting codon=ATG, termination codon=TAA" /codon_start=1 /transl_table=5 /db_xref="PID:g975670" /db_xref="SWISS-PROT:P48897" /translation="MVVFKSLLLNLCILLSVAFYTLLERKVLSSMQIRKGPNKVGLYG

12 GCR_Oct-2006 12... tRNA 3950..4016 /note="codon recognized: GAC" /product="tRNA-Asp" /anticodon=(pos:3981..3983,aa:Asp)... rRNA complement(6270..7028) /product="srRNA"... rRNA 12428..13462 /product="lrRNA"... BASE COUNT 4628 a 1951 c 2196 g 5355 t ORIGIN 1 ccgttttcct attttattag gtgttctatg tgctattata ggtgtaattt acatagtatt 61 aaatatacaa aattccagtt atcttttaat atttaattta ttttcaaccc aaagggttaa 121 ctttaactta gctttaattt gtgataaagt aagcacaagg tttttggtag tggtattact 181 aatttctagc tgtgtttttc tttttgctaa tgaatatata tctgaagatc attataacat 241 ccgttttggt tgaattttaa tcagatttgt agcatctatg ggaattctga ttttgagcgg 301 ttcaattttt actttgcttc taggttgaga tggcctcggg ttaacttcat ttgctttaat 361 tgcatactac gataattata atgcatcttc ctcagctttt ctgacgctaa taactaatcg... 13141 aaagcaataa gtaattctta ttagattttt tgttggggca acaatatttc aaataataaa 13201 tatattaatg aaagtaataa gtcgattaaa taattataga aaaattacct aagggataac 13261 agcataattt tattaataag cttgtgacct cgatgttgga ctaggtacta ttaaggctaa 13921 tatgcgtgag gagcagtaat attaataaga ttaactatag aaacagacac ttttattatt 13981 ttaggatcaa atataatgta tactagagta aatattccaa taacaatttt aatttttctc 14041 tcaatttatc tattaattgt tttctttgca gtggtgaatt taatagtaaa cataacaagg 14101 attctcatag ttgaaagtag ccaagtttaa //

13 GCR_Oct-2006 13 EMBL ID MIACDNA standard; circular DNA; ORG; 14130 BP. AC X83390; NI g975668 DT 05-SEP-1995 (Rel. 45, Created) DT 31-MAR-1998 (Rel. 55, Last updated, Version 6) DE A.coerulea complete mitochondrial genome KW ATPase 6; ATPase 8; COI gene; COII gene; COIII gene; cytb gene; lrRNA; KW ND1 gene; ND3 gene; ND4 gene; ND4L gene; ND5 gene; ND6 gene; srRNA; KW tRNA-Ala; tRNA-Arg; tRNA-Asn; tRNA-Asp; tRNA-Cys; tRNA-Gln; tRNA-Glu; KW tRNA-Gly; tRNA-His; tRNA-Ile; tRNA-Leu; tRNA-Lys; tRNA-Met; tRNA-Phe; KW tRNA-Pro; tRNA-Ser; tRNA-Thr; tRNA-Trp; tRNA-Tyr; tRNA-Val. OS Albinaria coerulea OC Eukaryota; Metazoa; Mollusca; Gastropoda; Pulmonata; Stylommatophora; OC Clausiliidae; Alopiinae; Albinaria. OG Mitochondrion RN [1] RX MEDLINE; 96120351. RA Hatzoglou E., Rodakis G.C., Lecanidou R.; RT "The complete sequence of the mitochondrial genome of the land snail RT Albinaria coerulea."; RL Genetics 140:1353-1366(1995). RN [2] RP 1-14130 RA Rodakis G.C.; RT ; RL Submitted (12-DEC-1994) to the EMBL/GenBank/DDBJ databases. RL G.C. Rodakis, Univ.of Athens, Dep. of Biochemistry, Cell and Mol. RL Biology and Genetics, Panepistimiopolis, Athens 157 01, GREECE XX DR SWISS-PROT; P48884; CYB_ALBCO.

14 GCR_Oct-2006 14 DR SWISS-PROT; P48884; CYB_ALBCO. DR SWISS-PROT; P48887; COX1_ALBCO. DR SWISS-PROT; P48889; COX2_ALBCO. DR SWISS-PROT; P48891; COX3_ALBCO. DR SWISS-PROT; P48893; ATP6_ALBCO. DR SWISS-PROT; P48895; ATP8_ALBCO. DR SWISS-PROT; P48897; NU1M_ALBCO. DR SWISS-PROT; P48902; NU2M_ALBCO. DR SWISS-PROT; P48907; NU3M_ALBCO. DR SWISS-PROT; P48914; NU4M_ALBCO. DR SWISS-PROT; P48918; NU5M_ALBCO. DR SWISS-PROT; P48922; NU6M_ALBCO. DR SWISS-PROT; P48928; NULM_ALBCO. FH Key Location/Qualifiers FT source 1..14130 FT /organism="Albinaria coerulea" FT /mitochondrion FT CDS 11..1648 FT /db_xref="PID:g975669" FT /db_xref="SWISS-PROT:P48918" FT /note="starting codon=ATT, termination codon=TAG" FT /gene="ND5" FT /translation="MLLGVLCAIMGVIYMVLNMQNSSYLLMFNLFSTQSVNFNLALICD FT KVSTSFLVVVLLISSCVFLFANEYMSEDHYNIRFGWILISFVASMGILILSGSIFTLLL FT GWDGLGLTSFALIAYYDNYNASSSAFLTLMTNRLGDVLIIATFSVILVTGLTVHFPPYT FT LVWLSSILFTIASFTKSAQYPFSAWLPAAMAAPTPVSALVHSSTLVTAGIYLMIRCFMV FT DGAPAEMYSLMGLVGSITCLLGGSVALFEYDLKKVIALSTLSQLGVMMYSLSLNLPYLA FT LLHLYGHAMFKAMLFLGAGLILMMSYGTQDLRLLGSLLYSSPIVISLLNISMLCLMGFP FT FVSSFYSKHLILEKMLDMNCNFFTSMMFMLGTLLTGMYSIRLMKFLCWGNNNNKPSYCN FT MSWQSKMSMFPLAALAVLSGQLMSYLDSSYMTFSWSTNQYNLILWGVLFLSIFFGIVMK FT FGNFYPTLMSSMMFLGPTSYNLLHYTKSLLIYMKRIDLSISEPNWVMSNLMYSSSWRVM FT SLFNWLTNYMLVTWFLLVWLMIMSILMW" FT CDS 1642..2541

15 GCR_Oct-2006 15 FT CDS 1642..2541 FT /db_xref="PID:g975670" FT /db_xref="SWISS-PROT:P48897" FT /note="starting codon=ATG, termination codon=TAA" FT /gene="ND1" FT /translation="MVVFKSLLLNLCILLSVAFYTLLERKVLSSMQIRKGPNKVGLYGI FT IQPIADALKLFLKEFFIPVNSNSFMFMILPLLGLTLSLMLWAVFPSMWMFNFHSYLLML FT FVALTGTFVYVIIFAGWSSNSKYSFLGGMRAAAQTISYEVSMLLLLFFAVLMYRTYSWY FT EAGLSSPIGIIIFIIMFIWFASCLAETNRAPFDFAEGESELVSGFNIEYYGGMFALLFL FT AEYSSILFMCMMSTVWFLYSDMIFIMTLLILLIAMAFLFARGVYPRHRYDLLMNLCWKS FT FLPFSLCCICYSMLLWIV" FT CDS 2549..2846. FT CDS 2847..3949. FT tRNA 3950..4016 FT /anticodon=(pos:3981..3983,aa:Asp) FT /product="tRNA-Asp". FT rRNA complement(6270..7028). FT rRNA 12428..13462 FT /product="lrRNA"nnnnnnpppppnnnppppp XX SQ Sequence 14130 BP; 4628 A; 1951 C; 2196 G; 5355 T; 0 other; CCGTTTTCCT ATTTTATTAG GTGTTCTATG TGCTATTATA GGTGTAATTT ACATAGTATT 60 AAATATACAA AATTCCAGTT ATCTTTTAAT ATTTAATTTA TTTTCAACCC AAAGGGTTAA 120 CTTTAACTTA GCTTTAATTT GTGATAAAGT AAGCACAAGG TTTTTGGTAG TGGTATTACT 180 AATTTCTAGC TGTGTTTTTC TTTTTGCTAA TGAATATATA TCTGAAGATC ATTATAACAT 240... ATAGCGGGCT TAATTTTTCC GGTATTTATG ATGCTGAAAG GAATCAATCC AATGAGCCTT 13740 TTATTAGCTC TTCTTACTTT AAGGTTATGT GCTGTTCTAT GATTAGGATC TTTTATGAGG 13800 TCTTGATATG CCTATATTTT ATTTATTGTC TATATTGGTG GAATCTT

16 GCR_Oct-2006 16 CLUSTAL (outfile -.aln) CLUSTAL X (1.83) multiple sequence alignment Human_D-loop TTCTTTCATGGGGAAGCAGATTTGGGTACCACCCAAGTATTGACTCACCCATCAACAACC 60 Pan TTCTTTCATGGGGAAGCAAATTTAGGTACCACCTAAGTACTGGCTCATTCATTA-CAACC 59 BlueWhale -----------------AAACATGTATATTGTACAA-TAACCGCAAAGCCACAG-----T 37 * * * ** ** ** * * ** Human_D-loop GCTATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATAAATACT 120 Pan GCTATGTATTTCGTACATTACTGCCAGCCACCATGAATATCGTACAGTACCATAT-CACC 118 BlueWhale ACTATGTCCGTATTAAAAAATAATTA-TCTCATTACATATTGTTATGTACTTCGTGCATG 96 ****** * ** * * * * * * **** ** **** *

17 GCR_Oct-2006 17 MEGA (.meg) #MEGA !Title : All_Mon11.aln; !Format DataType=Nucleotide CodeTable=Invertebrate_Mitochondrial NSeqs=19 NSites=5349 Identical=. Missing=? Indel=-; !Domain=16Sb; #F_AY497292 GCTAATTTTG TACGAAAGGA CTTTTTCGCT AAAGCAATGC TTTGTCAC-A AATCTGTGGT TGCATAAATA ATAGTGTATA ACAGGTTGAT TAGCCTATAG GAAGGG--TT A #ef.w22-F GCTAATTTTG TACGAAAGGA CTTTTTCGCT AAAGCAATGC TTTGTCAC-A AATCTGTGGT TGCATAAATA ATAGTGTATA ATAGGCTGAT TAGCCTATAG GAAGGG--TT A #tf_w1-156 GCTAATTTTG TACGAAAGGA CTTTTTCGCT AAAGCAATGC TTTGTCAC-A AATCTGTGGT TGCATAAATA ATAGTGTATA ATAGGCTGAT TAGCCTATAG GAAGGG--TT A #F_c26f GTTAATTTTG TACGAAAGGA CTTTTTTGCT AAAGTGATGC TTTGCGGTTA GACTCGTTAT TTCACAGAGA ATATTATATG GTAGGCTGAC TGACCTATAA AAAGGGGATT -. !Domain=VD1; #F_AY497292 CCTTTTATG- -TAAATGAGC ATATTGTTTG GTGATAGGTT GTTAAGTGTG GTAGATTTTA GAGAAGTCCT ATGTAGCTGG ---TTTAAAG CAGGCTTTTT AGTAAAAAAA GACCTGCT-- #ef.w22-F CCTTTTATG- -TAAATGAGC ATATTGTTTG GTGATAGGTT GTTAAGTGTG GTAGATTTTA GAGAAGTCCT ATGTAGCTGG ---TTTAAAG CAGGCTTTTT AGTAAAAAAA GACCTAC--- #tf_w1-156 CCTTTTATG- -TAAATGAGC ATATTGTTTG GTGATAGGTT GTTAAGTGTG GTAGATTTTA GAGAAGTCCT ATGTAGCTGG ---TTTAAAG CAGGCTTTTT AGTAAAAAAA GACCTACT-- #F_c26f CCTTTTGTGA GTAAATGACT ATTTTCATTA TCGAAATAAC TCTGCTTCTA TGAAACTTTG ATATAATTGA GCATTTTTTA ATATTTTGTA AATCGTTTTT AGAATCTGAG GAG-TG---- #M_AY363687 CCTTTTATG- -TAAGTGAG- ---------- -------GTT GGC-----TA CTAGACTTTA CAGGAATA-T ACGCAGATAG ---TTTCA-- ---CCTT--- -GAAAAAGA- GTG------- back

18 GCR_Oct-2006 18 Περιεχόμενα Η έννοια της Βιοπληροφορικής, ορισμοί. Βάσεις δεδομένων πρωτεϊνών και DNA, εξειδικευμένες βάσεις δεδομένων, μορφές και προβλήματα σχολιασμού (annotation). Χρήση του Διαδικτύου για πρόσβαση και on line ανάλυση δεδομένων. Μηχανές αναζήτησης - εξόρρυξης δεδομένων, ειδικά προγράμματα ιστοτόπων.

19 GCR_Oct-2006 19 Γιατί «ανάλυση αλληλουχιών» με Η/Υ, και μάλιστα μέσω Διαδικτύου; Αιτία: Ο ρυθμός συσσώρευσης «πρωτογενών» δεδομένων (δηλ. αλληλουχιών DNA) είναι κατά πολύ μεγαλύτερος από το ρυθμό ταυτοποίησής τους (δηλ. χαρακτηρισμού ή/και προσδιορισμού της λειτουργίας τους. Επακόλουθο πρώτο: Ανάπτυξη ειδικών προγραμμάτων που εκμεταλλεύονται τη δύναμη των Η/Υ στη διαχείριση μεγάλου όγκου δεδομένων. Επακόλουθο δεύτερο: Ο αριθμός των προγραμμάτων είναι πολύ μεγάλος και συνεχώς αυξάνεται, σε συνάρτηση με νέες προσεγγίσεις και δεδομένα, με συνέπεια την αδυναμία διατήρησης και ενημέρωσης ενός τοπικού Η/Υ.

20 GCR_Oct-2006 20...άρα με το internet λύσαμε το πρόβλημά μας; Απάντηση: ΟΧΙ! Γιατί...:  Πρώτον: Δεν υφίσταται πάντα σύνδεση στο διαδίκτυο ή αργεί η μεταφορά των δεδομένων.  Δεύτερον: Περιορισμοί στους Η/Υ που μας φιλοξενούν, π.χ. δέχονται μικρότερο μήκος αλληλουχιών από αυτό που μπορεί να χειριστεί το συγκεκριμένο πρόγραμμα.  Τρίτον: Μερικά προγράμματα δεν «προσφέρονται» και μάλιστα δωρεάν.

21 GCR_Oct-2006 21 Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσης Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search).

22 GCR_Oct-2006 22 Μερικές σημαντικές έννοιες Ομοιότητα (similarity) Ομολογία (homology) και απόκλιση (divergence)  Ορθολογία (orthology)  Παραλογία (paralogy)  Αλλά και “inparalogs”, “outparalogs” Αναλογία (analogy) και σύγκλιση (convergence)

23 GCR_Oct-2006 23 ATCGGCCACTTTCGCGATCA ATAGGCCACTTTCGCGATCA ATAGGCCACTTTCGCGATTA ATAGGGCAGTTTCGCGATTA ATAGGGCAGTTTTGCGATTA ATAGGGCAGTTTCGCGATTA ATAGGGCAGTCTCGCGATTA ATCGGCCACTTTCGCGATCG ATCGGCCACTTTCGTGATCG ATCGGCCACGTTCGTGATCG ATCGGCCACGTTCGCGATCG ATCGGCCACCTTCGCGATCG ACCGGCCACCTTCGCGATCG | || || ||||||| ATAGGGCAGTCTCGCGATTA Προγονική αλληλουχία Ομόλογες αλληλουχίες ομολογία = κοινή καταγωγή

24 GCR_Oct-2006 24 ACCGGCCACCTTCGCGATCG ATCGGCCACTTTCGCGATCA ATAGGGCAGTCTCGCGATTA Αλληλουχία στον προγονικό οργανισμό Ορθόλογες αλληλουχίες Σημείο ΕΙΔΟΓΕΝΕΣΗΣ Είδος ΑΕίδος Β Ορθόλογα γονίδια: «ίδια γονίδια» σε διαφορετικούς οργανισμούς Τα ορθόλογα γονίδια είναι προϊόντα ειδογένεσης

25 GCR_Oct-2006 25 ATCGGCCACTTTCGCGATCA ATAGGGCAGTCTCGCGATTA ACCGGCCACCTTCGCGATCG Παράλογες αλληλουχίες Γονιδιακός ΔΙΠΛΑΣΙΑΣΜΟΣ Αντίγραφο ΑΑντίγραφο Β Παράλογα γονίδια = προϊόντα διπλασιασμού Αλληλουχία στον προγονικό οργανισμό

26 GCR_Oct-2006 26 An evolutionary tale… Duplication of A in worm Duplication of A in human Sonnhammer & Koonin (2002) TIGs 18 619-220 back

27 GCR_Oct-2006 27 Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσης Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search). Ανάλυση μεμονωμένων αλληλουχιών (επίπεδο πρωτοδιάταξης) Πρόγνωση 2ταγούς – 3ταγούς δομής αμινοξικών αλληλουχιών (Predictions) Στοίχιση (Alignment) Φυλογενετική ανάλυση (Phylogeny)

28 GCR_Oct-2006 28 Πού αποσκοπεί η αναζήτηση όμοιων αλληλουχιών Πρωταρχικά στην ταυτοποίηση μιας νέας αλληλουχίας. Στη συγκρότηση ενός συνόλου συγγενών αλληλουχιών για παραπέρα εξελικτική ανάλυση ή και για κατασκευή «universal» εκκινητών PCR. Στην πιστοποίηση της «ειδικότητας» μιας αλληλουχίας που πρόκειται να χρησιμοποιηθεί ως ανιχνευτής. Σημείωση: Η κάθε μία από τις μεγάλες διεθνείς βάσεις δεδομένων διαθέτει on-line το αντίστοιχο πρόγραμμα αναζήτησης  GenBank: BLAST  EMBL: FASTA

29 GCR_Oct-2006 29 Η αναζήτηση όμοιων αλληλουχιών στην πράξη: 1.Άνοιγμα ενός αρχείου που περιέχει την ή τις αλληλουχίες για εξέταση (συνήθως χρησιμοποιείται το Notepad των Windows και είναι πάντα διαθέσιμο στο taskbar). 2.Login στο «site» του υπολογιστή που φιλοξενεί το πρόγραμμα αναζήτησης και ενεργοποίηση του προγράμματος. 3.Τα «on line» προγράμματα εμφανίζουν ένα παράθυρο που συνήθως λέγεται «query line ή sequence» και σ’ αυτό γράφουμε την προς εξέταση αλληλουχία ή την μεταφέρουμε από το notepad με copy-paste. 4.Εκτελούμε το πρόγραμμα με τα default settings ή αφού προηγουμένως τα αλλάξουμε (advanced mode). 5.Βλέπουμε το αποτέλεσμα στην οθόνη και το τυπώνουμε ή το μεταφέρουμε σε δικό μας αρχείο πάλι με copy-paste.

30 GCR_Oct-2006 30 NCBI Home pageHome page BLAST Search pageSearch page Αναλυτικότερα... on line...: Στατιστικός έλεγχος του βαθμού ομοιότητας  Περιγραφή της «γενικής» ιδέας  Στον πίνακα  Το on-line πρόγραμμα PRSS (PRDF)PRSS

31 GCR_Oct-2006 31 Ένας απλός κανόνας: Πρακτικά, για να θεωρηθεί ότι η παρατηρούμενη ομοιότητα είναι στατιστικά σημαντική (in silico identification) πρέπει ο αρνητικός εκθέτης του «Ε» να είναι διψήφιος αριθμός. Αν όχι, και αν πρόκειται για κωδική αλληλουχία, ελέγχουμε πάντα το βαθμό ομοιότητας σε επίπεδο αμινοξέων με χρήση του προγράμματος blastx (...όμως, το πρόβλημα δεν λύνεται για «low complexity sequences»). ΠΡΟΣΟΧΗ: Η αναζήτηση με το FASTA (EMBL) διαφέρει ουσιαστικά στο ότι οι καλύτερες τιμές σκορ είναι θετικοί και όχι αρνητικοί αριθμοί. Και πάλι ισχύει ο διψήφιος εκθέτης back

32 GCR_Oct-2006 32 Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσης Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search). Ανάλυση μεμονωμένων αλληλουχιών (επίπεδο πρωτοδιάταξης). Πρόγνωση 2ταγούς – 3ταγούς δομής αμινοξικών αλληλουχιών (Predictions) Στοίχιση (Alignment) Φυλογενετική ανάλυση (Phylogeny)

33 GCR_Oct-2006 33 Ανάλυση μιας αλληλουχίας DNA Αφορά πληθώρα ερωτημάτων ή ειδών ανάλυσης και πολύ απλά έως πολύ σύνθετα προγράμματα. Για παράδειγμα: Απλές εργασίες, όπως:  Μετάφραση σε ένα ή και στα 6 πιθανά πλαίσια ανάγνωσης  Δημιουργία της συμπληρωματικής, ή της αντιστρόφως συμπληρωματικής αλυσίδας  Μετατροπή μορφής (format) Εντοπισμός μοτίβων:  Αλληλουχίες υποκινητών  Παλίνδρομες ή επαναλαμβανόμενες αλληλουχίες  Αλληλουχίες κατάλληλες για εκκινητές PCR Πρόγνωση δευτεροταγών δομών  DNA, RNA, tRNA

34 GCR_Oct-2006 34 Πού θα βρούμε τα προγράμματα; Σε πολλούς υπολογιστές Δημόσιων ή Ιδιωτικών Ιδρυμάτων υπάρχουν κατάλογοι με links (διευθύνσεις, URL) για άμεση πρόσβαση σε άλλους υπολογιστές, οι οποίοι επιτρέπουν τη δημόσια on line χρήση πολλών ειδικών προγραμμάτων ανάλυσης. Την επιλογή την κάνει ο κάθε ερευνητής ανάλογα με τις ανάγκες του και ανάλογα με τα προγράμματα που συνήθως χρησιμοποιεί. Ένας σχετικά πλούσιος κατάλογος URL για on line εφαρμογή ειδικών προγραμμάτων υπάρχει στην ιστοσελίδα: ABIM Online analysis tools: (http://www.up.univ-mrs.fr/~wabim/english/logligne.html)http://www.up.univ-mrs.fr/~wabim/english/logligne.html back

35 GCR_Oct-2006 35 Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσης Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search). Ανάλυση μεμονωμένων αλληλουχιών (επίπεδο πρωτοδιάταξης). Πρόγνωση 2ταγούς – 3ταγούς δομής αμινοξικών αλληλουχιών (Predictions) Στοίχιση (Alignment) Φυλογενετική ανάλυση (Phylogeny) END

36 GCR_Oct-2006 36


Κατέβασμα ppt "GCR_Oct-2006 1 Τράπεζες δεδομένων, ταυτοποίηση & ανάλυση αλληλουχιών DNA με ηλεκτρονικό υπολογιστή... μέσω διαδικτύου “Affordable biocomputing for everyone:"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google