GCR_Oct-2006 1 Τράπεζες δεδομένων, ταυτοποίηση & ανάλυση αλληλουχιών DNA με ηλεκτρονικό υπολογιστή... μέσω διαδικτύου “Affordable biocomputing for everyone:

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Advertisements

Γραφήματα & Επίπεδα Γραφήματα
«Κυβερνητικές προτάσεις για το Ασφαλιστικό» © VPRC – Μάρτιος / Δ.1 © VPRC – Μάρτιος 2008 ΚΥΒΕΡΝΗΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ ΓΙΑ ΤΟ ΑΣΦΑΛΙΣΤΙΚΟ.
Τεχνολογίες Web Απαραίτητες γνώσεις για την υλοποίηση της άσκησης.
ΑΠΟΤΙΜΗΣΗ ΑΠΟΔΟΣΗΣ ΔΙΚΤΥΩΝ ΠΟΥ ΧΡΗΣΙΜΟΠΟΙΟΥΝ ΑΞΙΟΠΙΣΤΑ ΠΡΩΤΟΚΟΛΛΑ ΜΕΤΑΦΟΡΑΣ ΚΑΙ ΑΞΙΟΠΙΣΤΑ ΠΡΩΤΟΚΟΛΛΑ ΣΥΝΔΕΣΗΣ Ιωάννης Κόμνιος Μεταπτυχιακή Διατριβή Τμήμα.
ΕΡΕΥΝΑ ΓΙΑ ΤΟ ΝΕΟ ΓΗΠΕΔΟ ΤΗΣ ΑΕΛ ΛΕΜΕΣΟΥ ΚΑΙ ΤΟΥ ΑΡΗ ΛΕΜΕΣΟΥ
Διαδίκτυο: ο νέος δρόμος Μιχάλης Βαφόπουλος,
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Επιμορφωτής: Ονομ/νυμο Επιμορφωτή
Καθηγητής: Δ. Μπουτακίδης
Βασικές Συναρτήσεις Πινάκων
ΠΡΟΣΒΑΣΙΜΟΣ ΤΟΥΡΙΣΜΟΣ IMIC 2 Φεβρουάριος 2006 Dr. Άρης Ίκκος, ISHC
Page  1 To Internet στην Ελλάδα. Page  2 Το Internet στην Ελλάδα… % Χρήστες InternetΔυνητικοί Χρήστες.
HTML.
-Στοίβα-Ουρά - Πλεονεκτήματα πινάκων -Δομές δεδομένων δευτερεύουσας μνήμης -Πληροφορική και δεδομένα -Παραδείγματα-Προβλήματα ψευδοκώδικα.
Τα στοιχειώδη περί γεωδαιτικών υπολογισμών
Χρήση και αξιοποίηση των ΤΠΕ κατά τη διδασκαλία των μαθηματικών στη δευτεροβάθμια ελληνική εκπαίδευση Δρ. Σάλτας Βασίλειος, Ιωαννίδου Ευφροσύνη Τμήμα.
ΤΑ ΜΕΡΗ ΤΟΥ ΠΟΔΗΛΑΤΟΥ
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
Δ.Π.Θ. Συνδέοντας έγγραφα - 1 Συνδέοντας έγγραφα Μια σύνδεση στο Web (link) αποτελείται από δύο μέρη : Aυτό που βλέπουμε στη σελίδα και λέγεται άγκυρα.
Προγραμματισμός PASCAL Πληροφορική Γ' Λυκείου μέρος γ
Διαδίκτυο: ο νέος δρόμος Μιχάλης Βαφόπουλος,
Page  1 Ο.Παλιάτσου Γαλλική Επανάσταση 1 ο Γυμνάσιο Φιλιππιάδας.
Ανάλυση του λευκού φωτός και χρώματα
© GfK 2012 | Title of presentation | DD. Month
-17 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Σεπτέμβριος 2013 Δείκτης > +20 Δείκτης 0 a +20 Δείκτης 0 a -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
Αβιοτικό περιβάλλον οργανισμοί.
Γραφήματα & Επίπεδα Γραφήματα
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Συναρτησιακές Εξαρτήσεις.
ΙΣΟΛΟΓΙΣΜΟΣ ΒΑΣΕΙ Δ.Λ.Π. (ΕΝΑΡΞΗΣ)
Εξάσκηση στην προπαίδεια
1 Θεματική Ενότητα Γραφήματα & Επίπεδα Γραφήματα.
Αποκεντρωμένη Διοίκηση Μακεδονίας Θράκης ∆ιαχείριση έργων επίβλεψης µε σύγχρονα µέσα και επικοινωνία C2G, B2G, G2G Γενική Δ/νση Εσωτερικής Λειτουργίας.
Η επιρροή του χώρου εργασίας των σχολικών τάξεων στη μάθηση
1/5/ ΧΡΗΣΕΙΣ ΤΗΣ ΗΛΙΑΚΗΣ ΑΝΤΙΝΟΒΟΛΙΑΣ 1/5/ (πηγή: HELIOAKMI).
2006 GfK Praha CORRUPTION CLIMATE IN EUROPE % % % %0 - 10% % % % % % ΚΛΙΜΑ ΔΙΑΦΘΟΡΑΣ Η.
13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών – Κέρκυρα Οκτωβρίου 2004 Το σύστημα COINE για την προβολή της πολιτιστικής κληρονομιάς και την υποστήριξη.
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας & Βιβλιοθηκονομίας Μεταπτυχιακό Πρόγραμμα Σπουδών στην Επιστήμη της Πληροφορίας: Διοίκηση & Οργάνωση Βιβλιοθηκών.
1 Τοπικές βλάβες από δήγματα όφεων Κουτσουμπού Γεωργία Ειδικευόμενη Γενικής Ιατρικής ΓΚΑ Αθήνα, 18 η Ιουλίου 2002.
Προγραμματισμός ΙΙ Διάλεξη #6: Απλές Δομές Ελέγχου Δρ. Νικ. Λιόλιος.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
ΕΡΕΥΝΑ ΕΚΘΕΤΩΝ-ΕΠΙΣΚΕΠΤΩΝ KAVALAEXPO 2014
Εισαγωγή στη Βιοπληροφορική
Ο ΗΛΕΚΤΡΟΝΙΚΟΣ ΥΠΟΛΟΓΙΣΤΗΣ
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
1 Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Πανεπιστήμιο Πατρών ΟΝΤΟΚΕΝΤΡΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΙΙ (C++) Κληρονομικότητα.
Ανάπτυξη Πρωτοτύπου Λογισμικού
Στρατηγική και Διαχείριση Έρευνας στο ΑΠΘ
1 Νέα Θεωρία Μεγέθυνσης Ενδογενής μεγέθυνση. 2 Συνάρτηση παραγωγής προϊόντος Υ t = Y(K, L, A) Y t = [(1-α k )·K t ] α · [(1-α L )·A t ·L t ] 1-α 0
1 Αδάμ Δαμιανάκης Conceptum A.E. Tουριστικές και Πολιτιστικές Πληροφορίες στο Διαδίκτυο. Η περίπτωση του.
ΜΑΘΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗ ΜΕΤΑΓΓΙΣΗ ΑΙΜΑΤΟΣ - ΑΙΜΟΔΟΣΙΑ
Residency Database Residency Database Project IFMSA Transnational project Από τηv Ελληνική Επιτροπή Διεθνών Σχέσεων και Ανταλλαγών Φοιτητών Ιατρικής (HelMSIC)
Βάσεις Δεδομένων Εργαστήριο ΙΙ Τμήμα Πληροφορικής ΑΠΘ
Διαχείριση Ψηφιακών Πνευματικών Δικαιωμάτων Ηλεκτρονική Δημοσίευση Στέλλα Λάμπουρα Ιούνιος 2004.
Δομές Δεδομένων - Ισοζυγισμένα Δυαδικά Δένδρα (balanced binary trees)
Τρίτη 31 Iανουαρίου 2006 Πολύκαστρο Διάλεξη:Η ΕΥΡΥΖΩΝΙΚΟΤΗΤΑ ΕΡΓΑΛΕΙΟ ΕΠΙΧΕΙΡΗΜΑΤΙΚΗΣ ΕΠΙΤΥΧΙΑΣ Δρ. Μηχ. - ΧΡΗΣΤΟΣ ΚΑΣΤΩΡΗΣ.
1 Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Πανεπιστήμιο Πατρών ΟΝΤΟΚΕΝΤΡΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΙΙ (C++) Τάξεις και Αφαίρεση Δεδομένων.
+19 Δεκέμβριος 2014 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20 Δείκτης < -20 Συνολικά της ΕΕ: +5 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20.
13 ο Πανελλήνιο Συνέδριο Ακαδημαϊκών Βιβλιοθηκών «Μεσολαβητές διασύνδεσης ηλεκτρονικών πηγών πληροφόρησης» Ε. Ι. Γιαννακουδάκης, Χ. Α. Καπέτης, Π. Κ. Ανδρικόπουλος,
1 ΒΙΟΧΗΜΕΙΑ ΤΟΥ ΜΕΤΑΒΟΛΙΣΜΟΥ ΑΣΚΗΣΗ ΠΡΑΞΗΣ 10η ΕΙΣΑΓΩΓΗ ΣΤΙΣ ΠΡΩΤΕΪΝΕΣ.
Εισαγωγή στη Βιοπληροφορική Ενότητα 1: Εισαγωγικά θέματα Μακρής Χρήστος, Τσακαλίδης Αθανάσιος, Περδικούρη Αικατερίνη Πολυτεχνική Σχολή Τμήμα Μηχανικών.
شیمی آلی 3.
Εφαρμογές της Βιολογίας στην Ιατρική
מצגת " חומצות אמיניות" ערכה : מרגולין אירנה..
بنام خدا اسید های آمینه و پروتئین ها
مركبات الغذاء مركبات الغذاء الأساسية فيتامينات ومعادن
Μεταγράφημα παρουσίασης:

GCR_Oct Τράπεζες δεδομένων, ταυτοποίηση & ανάλυση αλληλουχιών DNA με ηλεκτρονικό υπολογιστή... μέσω διαδικτύου “Affordable biocomputing for everyone: using the Internet, freeware and open-source software. How to build your own complete working biocomputing platform with nothing more than a desktop computer and an Internet connection” Mads Wichmann Matthiessen Trends in Biochemical Sciences, September

GCR_Oct Περιεχόμενα Ο ορισμός της Βιοπληροφορικής. Βάσεις δεδομένων πρωτεϊνών και DNA, εξειδικευμένες βάσεις δεδομένων, μορφές και προβλήματα σχολιασμού (annotation). Χρήση του Διαδικτύου για πρόσβαση και on line ανάλυση δεδομένων. Μηχανές αναζήτησης - εξόρρυξης δεδομένων, ειδικά προγράμματα ιστοτόπων.

GCR_Oct Ένας ορισμός της Βιοπληροφορικής NIH Biomedical Information Science and Technology Initiative Consortium agreement: Bioinformatics: Research, development, or application of computational tools and approaches for expanding the use of biological, medical, behavioral or health data, including those to acquire, store, organize, archive, analyze, or visualize such data Computational Biology: The development and application of data-analytical and theoretical methods, mathematical modeling and computational simulation techniques to the study of biological, behavioral, and social systems. back

GCR_Oct Περιεχόμενα Η έννοια της Βιοπληροφορικής, ορισμοί. Βάσεις δεδομένων πρωτεϊνών και DNA, εξειδικευμένες βάσεις δεδομένων, μορφές και προβλήματα σχολιασμού (annotation). Χρήση του Διαδικτύου για πρόσβαση και on line ανάλυση δεδομένων. Μηχανές αναζήτησης - εξόρρυξης δεδομένων, ειδικά προγράμματα ιστοτόπων.

GCR_Oct Τράπεζες δεδομένων Οι επίσημες τράπεζες αλληλουχιών, με νομοθετικά κατοχυρωμένη την ελεύθερη και δημόσια πρόσβαση, είναι τρεις:  GenBank (NIH, ΗΠΑ)  EMBL (Cambridge, Ηνωμένο Βασίλειο)  DDBJ (Ιαπωνία) Εκτός από αυτές υπάρχουν αρκετές άλλες, οι οποίες φιλοξενούνται σε δημόσιους ή ιδιωτικούς φορείς, π.χ. Παν/μια, Ερευνητικά Ιδρύματα, Εταιρείες, και κατά κανόνα αφορούν ειδικού τύπου δεδομένα.

GCR_Oct Τράπεζες δεδομένων (συνέχεια) Η νομική κατάσταση αυτών των τραπεζών επιτρέπει την κατοχύρωση όσων καταθέτουν αλληλουχίες, παρέχοντας για κάθε μια ένα μοναδικό αριθμό πρόσβασης (accession number, Acc#). Η κατάθεση γίνεται σε μία από τις τρεις, αλλά οι διαχειριστές αναλαμβάνουν την ενημέρωση των άλλων. Το όνομα μιας αλληλουχίας διαφέρει από τράπεζα σε τράπεζα, όχι όμως ο αριθμός πρόσβασης (... οι Ιάπωνες... «NID» ή «ΝΙ»!). Σε όλα τα έγκυρα διεθνή επιστημονικά περιοδικά ισχύει ως προϋπόθεση αποδοχής μιας εργασίας για δημοσίευση (που αφορά προσδιορισμό αλληλουχιών) η συνυποβολή των αντίστοιχων Acc#.

GCR_Oct Τράπεζες δεδομένων (συνέχεια) Στις επίσημες τράπεζες διατηρούνται δύο βασικές και αρκετές επιμέρους (ειδικές) τράπεζες αλληλουχιών. Οι βασικές είναι (α) νουκλεοτιδικών, και (β) αμινοξικών αλληλουχιών. Οι επιμέρους (ειδικές) τράπεζες περιέχουν δεδομένα που έτσι κι αλλιώς βρίσκονται (έχουν κατατεθεί) στις βασικές, αλλά διαφέρουν σε ένα ή και στα δύο από τα επόμενα στοιχεία:  Το είδος των αλληλουχιών (π.χ., αλληλουχίες μόνο από Drosophila, Human, C. elegans, υποκινητών, Alu families, κλπ)  Τη μορφή (format) και το σχολιασμό (annotation) των αλληλουχιών, που τις καθιστούν συμβατές προς αντίστοιχα ειδικά προγράμματα πρόσβασης (π.χ., ειδικός τρόπος γραφής αλληλουχιών tRNA, 2ταγείς δομές πρωτεϊνικών μορίων, κλπ).

GCR_Oct Μορφή γραφής (format) αλληλουχιών Υπάρχουν πολλές μορφές γραφής, ανάλογα με Την τράπεζα καταχώρησης Τα προγράμματα ανάλυσης ΠΑΡΑΔΕΙΓΜΑΤΑ: WWW READSEQ Conversion 1. IG/Stanford 10. Olsen GenBank/GB 2. GenBank/GB 11. Phylip NBRF 12. Phylip EMBL 4. EMBL 13. Plain/Raw 5. GCG 14. PIR/CODATA 6. DNAStrider 15. MSF 7. Fitch 16. PAUP/NEXUS FastaCLUSTAL 8. Pearson/Fasta 17. CLUSTAL MEGA 9. Zuker 18. MEGA

GCR_Oct Fasta (απλό, αλλά φτωχό σε πληροφορίες) > Όνομα (πρόσθετες πληροφορίες - σχόλια) CAGCTACCGTCGCGTACGGCGATCGCGCATCGATCGCAGTACTCGTACAAAACGTTCCCCT GCATTGGGGGGGTATATCG GATG GAT CAGTCGGGTAGCG TCACG TAAG TCAG ATCG TAACGTTTCAGTCTGCTATCTGC ACGTCGATCGCT CGATC C AACGATCGA ACCTAGGCCCTAAAAGCCCCAGCTATCTGCATTC > όνομα(10)+πληροφορίες = 256 χαρακτήρες σε μια γραμμή

GCR_Oct GenBank EMBL Αυστηρή δομή κειμένου Πληροφοριών & Αλληλουχίας, αλλά, μεγιστοποίηση της δυνατότητας δομημένων πληροφοριών LOCUS MIACDNA bp DNA circular INV 31-MAR-1998 DEFINITION A.coerulea complete mitochondrial genome. ACCESSION X83390 NID g KEYWORDS ATPase 6; ATPase 8; COI gene; COII gene; COIII gene; cytb gene; lrRNA; ND1 gene; ND3 gene; ND4 gene; ND4L gene; ND5 gene; ND6 gene; srRNA; tRNA-Ala; tRNA-Arg; tRNA-Asn; tRNA-Asp; tRNA-Cys; tRNA-Gln; tRNA-Glu; tRNA-Gly; tRNA-His; tRNA-Ile; tRNA-Leu; tRNA-Lys; tRNA-Met; tRNA-Phe; tRNA-Pro; tRNA-Ser; tRNA-Thr; tRNA-Trp; tRNA-Tyr; tRNA-Val. SOURCE Albinaria coerulea. ORGANISM Mitochondrion Albinaria coerulea Eukaryota; Metazoa; Mollusca; Gastropoda; Pulmonata; Stylommatophora; Clausiliidae; Alopiinae; Albinaria. REFERENCE 1 (bases 1 to 14130) AUTHORS Hatzoglou,E., Rodakis,G.C. and Lecanidou,R. TITLE Complete sequence and gene organization of the mitochondrial genome of the land snail Albinaria coerulea JOURNAL Genetics 140 (4), (1995) MEDLINE REFERENCE 2 (bases 1 to 14130) AUTHORS Rodakis,G.C. TITLE Direct Submission JOURNAL Submitted (12-DEC-1994) G.C. Rodakis, Univ.of Athens, Dep. of Biochemistry, Cell and Mol. Biology and Genetics, Panepistimiopolis, Athens , GREECE FEATURES Location/Qualifiers DEFINITION A.coerulea complete mitochondrial genome. ACCESSION X83390 NID g KEYWORDS ATPase 6; ATPase 8; COI gene; COII gene; COIII gene; cytb gene; lrRNA; ND1 gene; ND3 gene; ND4 gene; ND4L gene; ND5 gene; ND6 gene; srRNA; tRNA-Ala; tRNA-Arg; tRNA-Asn; tRNA-Asp; tRNA-Cys; tRNA-Gln; tRNA-Glu; tRNA-Gly; tRNA-His; tRNA-Ile; tRNA-Leu; tRNA-Lys; tRNA-Met; tRNA-Phe; tRNA-Pro; tRNA-Ser; tRNA-Thr; tRNA-Trp; tRNA-Tyr; tRNA-Val. SOURCE Albinaria coerulea. ORGANISM Mitochondrion Albinaria coerulea Eukaryota; Metazoa; Mollusca; Gastropoda; Pulmonata; Stylommatophora; Clausiliidae; Alopiinae; Albinaria. REFERENCE 1 (bases 1 to 14130) AUTHORS Hatzoglou,E., Rodakis,G.C. and Lecanidou,R. TITLE Complete sequence and gene organization of the mitochondrial genome of the land snail Albinaria coerulea JOURNAL Genetics 140 (4), (1995) MEDLINE REFERENCE 2 (bases 1 to 14130) AUTHORS Rodakis,G.C. TITLE Direct Submission JOURNAL Submitted (12-DEC-1994) G.C. Rodakis, Univ.of Athens, Dep. of Biochemistry, Cell and Mol. Biology and Genetics, Panepistimiopolis, Athens , GREECE (10)......(8)...

GCR_Oct FEATURES Location/Qualifiers source /organism="Albinaria coerulea" /mitochondrion /db_xref="taxon:42349" gene /gene="ND5" CDS /gene="ND5" /note="starting codon=ATT, termination codon=TAG" /codon_start=1 /transl_table=5 /db_xref="PID:g975669" /db_xref="SWISS-PROT:P48918" /translation="MLLGVLCAIMGVIYMVLNMQNSSYLLMFNLFSTQSVNFNLALIC DKVSTSFLVVVLLISSCVFLFANEYMSEDHYNIRFGWILISFVASMGILILSGSIFTL LLGWDGLGLTSFALIAYYDNYNASSSAFLTLMTNRLGDVLIIATFSVILVTGLTVHFP PYTLVWLSSILFTIASFTKSAQYPFSAWLPAAMAAPTPVSALVHSSTLVTAGIYLMIR CFMVDGAPAEMYSLMGLVGSITCLLGGSVALFEYDLKKVIALSTLSQLGVMMYSLSLN LPYLALLHLYGHAMFKAMLFLGAGLILMMSYGTQDLRLLGSLLYSSPIVISLLNISML CLMGFPFVSSFYSKHLILEKMLDMNCNFFTSMMFMLGTLLTGMYSIRLMKFLCWGNNN NKPSYCNMSWQSKMSMFPLAALAVLSGQLMSYLDSSYMTFSWSTNQYNLILWGVLFLS IFFGIVMKFGNFYPTLMSSMMFLGPTSYNLLHYTKSLLIYMKRIDLSISEPNWVMSNL MYSSSWRVMSLFNWLTNYMLVTWFLLVWLMIMSILMW" gene /gene="ND1" CDS /gene="ND1" /note="starting codon=ATG, termination codon=TAA" /codon_start=1 /transl_table=5 /db_xref="PID:g975670" /db_xref="SWISS-PROT:P48897" /translation="MVVFKSLLLNLCILLSVAFYTLLERKVLSSMQIRKGPNKVGLYG

GCR_Oct tRNA /note="codon recognized: GAC" /product="tRNA-Asp" /anticodon=(pos: ,aa:Asp)... rRNA complement( ) /product="srRNA"... rRNA /product="lrRNA"... BASE COUNT 4628 a 1951 c 2196 g 5355 t ORIGIN 1 ccgttttcct attttattag gtgttctatg tgctattata ggtgtaattt acatagtatt 61 aaatatacaa aattccagtt atcttttaat atttaattta ttttcaaccc aaagggttaa 121 ctttaactta gctttaattt gtgataaagt aagcacaagg tttttggtag tggtattact 181 aatttctagc tgtgtttttc tttttgctaa tgaatatata tctgaagatc attataacat 241 ccgttttggt tgaattttaa tcagatttgt agcatctatg ggaattctga ttttgagcgg 301 ttcaattttt actttgcttc taggttgaga tggcctcggg ttaacttcat ttgctttaat 361 tgcatactac gataattata atgcatcttc ctcagctttt ctgacgctaa taactaatcg aaagcaataa gtaattctta ttagattttt tgttggggca acaatatttc aaataataaa tatattaatg aaagtaataa gtcgattaaa taattataga aaaattacct aagggataac agcataattt tattaataag cttgtgacct cgatgttgga ctaggtacta ttaaggctaa tatgcgtgag gagcagtaat attaataaga ttaactatag aaacagacac ttttattatt ttaggatcaa atataatgta tactagagta aatattccaa taacaatttt aatttttctc tcaatttatc tattaattgt tttctttgca gtggtgaatt taatagtaaa cataacaagg attctcatag ttgaaagtag ccaagtttaa //

GCR_Oct EMBL ID MIACDNA standard; circular DNA; ORG; BP. AC X83390; NI g DT 05-SEP-1995 (Rel. 45, Created) DT 31-MAR-1998 (Rel. 55, Last updated, Version 6) DE A.coerulea complete mitochondrial genome KW ATPase 6; ATPase 8; COI gene; COII gene; COIII gene; cytb gene; lrRNA; KW ND1 gene; ND3 gene; ND4 gene; ND4L gene; ND5 gene; ND6 gene; srRNA; KW tRNA-Ala; tRNA-Arg; tRNA-Asn; tRNA-Asp; tRNA-Cys; tRNA-Gln; tRNA-Glu; KW tRNA-Gly; tRNA-His; tRNA-Ile; tRNA-Leu; tRNA-Lys; tRNA-Met; tRNA-Phe; KW tRNA-Pro; tRNA-Ser; tRNA-Thr; tRNA-Trp; tRNA-Tyr; tRNA-Val. OS Albinaria coerulea OC Eukaryota; Metazoa; Mollusca; Gastropoda; Pulmonata; Stylommatophora; OC Clausiliidae; Alopiinae; Albinaria. OG Mitochondrion RN [1] RX MEDLINE; RA Hatzoglou E., Rodakis G.C., Lecanidou R.; RT "The complete sequence of the mitochondrial genome of the land snail RT Albinaria coerulea."; RL Genetics 140: (1995). RN [2] RP RA Rodakis G.C.; RT ; RL Submitted (12-DEC-1994) to the EMBL/GenBank/DDBJ databases. RL G.C. Rodakis, Univ.of Athens, Dep. of Biochemistry, Cell and Mol. RL Biology and Genetics, Panepistimiopolis, Athens , GREECE XX DR SWISS-PROT; P48884; CYB_ALBCO.

GCR_Oct DR SWISS-PROT; P48884; CYB_ALBCO. DR SWISS-PROT; P48887; COX1_ALBCO. DR SWISS-PROT; P48889; COX2_ALBCO. DR SWISS-PROT; P48891; COX3_ALBCO. DR SWISS-PROT; P48893; ATP6_ALBCO. DR SWISS-PROT; P48895; ATP8_ALBCO. DR SWISS-PROT; P48897; NU1M_ALBCO. DR SWISS-PROT; P48902; NU2M_ALBCO. DR SWISS-PROT; P48907; NU3M_ALBCO. DR SWISS-PROT; P48914; NU4M_ALBCO. DR SWISS-PROT; P48918; NU5M_ALBCO. DR SWISS-PROT; P48922; NU6M_ALBCO. DR SWISS-PROT; P48928; NULM_ALBCO. FH Key Location/Qualifiers FT source FT /organism="Albinaria coerulea" FT /mitochondrion FT CDS FT /db_xref="PID:g975669" FT /db_xref="SWISS-PROT:P48918" FT /note="starting codon=ATT, termination codon=TAG" FT /gene="ND5" FT /translation="MLLGVLCAIMGVIYMVLNMQNSSYLLMFNLFSTQSVNFNLALICD FT KVSTSFLVVVLLISSCVFLFANEYMSEDHYNIRFGWILISFVASMGILILSGSIFTLLL FT GWDGLGLTSFALIAYYDNYNASSSAFLTLMTNRLGDVLIIATFSVILVTGLTVHFPPYT FT LVWLSSILFTIASFTKSAQYPFSAWLPAAMAAPTPVSALVHSSTLVTAGIYLMIRCFMV FT DGAPAEMYSLMGLVGSITCLLGGSVALFEYDLKKVIALSTLSQLGVMMYSLSLNLPYLA FT LLHLYGHAMFKAMLFLGAGLILMMSYGTQDLRLLGSLLYSSPIVISLLNISMLCLMGFP FT FVSSFYSKHLILEKMLDMNCNFFTSMMFMLGTLLTGMYSIRLMKFLCWGNNNNKPSYCN FT MSWQSKMSMFPLAALAVLSGQLMSYLDSSYMTFSWSTNQYNLILWGVLFLSIFFGIVMK FT FGNFYPTLMSSMMFLGPTSYNLLHYTKSLLIYMKRIDLSISEPNWVMSNLMYSSSWRVM FT SLFNWLTNYMLVTWFLLVWLMIMSILMW" FT CDS

GCR_Oct FT CDS FT /db_xref="PID:g975670" FT /db_xref="SWISS-PROT:P48897" FT /note="starting codon=ATG, termination codon=TAA" FT /gene="ND1" FT /translation="MVVFKSLLLNLCILLSVAFYTLLERKVLSSMQIRKGPNKVGLYGI FT IQPIADALKLFLKEFFIPVNSNSFMFMILPLLGLTLSLMLWAVFPSMWMFNFHSYLLML FT FVALTGTFVYVIIFAGWSSNSKYSFLGGMRAAAQTISYEVSMLLLLFFAVLMYRTYSWY FT EAGLSSPIGIIIFIIMFIWFASCLAETNRAPFDFAEGESELVSGFNIEYYGGMFALLFL FT AEYSSILFMCMMSTVWFLYSDMIFIMTLLILLIAMAFLFARGVYPRHRYDLLMNLCWKS FT FLPFSLCCICYSMLLWIV" FT CDS FT CDS FT tRNA FT /anticodon=(pos: ,aa:Asp) FT /product="tRNA-Asp". FT rRNA complement( ). FT rRNA FT /product="lrRNA"nnnnnnpppppnnnppppp XX SQ Sequence BP; 4628 A; 1951 C; 2196 G; 5355 T; 0 other; CCGTTTTCCT ATTTTATTAG GTGTTCTATG TGCTATTATA GGTGTAATTT ACATAGTATT 60 AAATATACAA AATTCCAGTT ATCTTTTAAT ATTTAATTTA TTTTCAACCC AAAGGGTTAA 120 CTTTAACTTA GCTTTAATTT GTGATAAAGT AAGCACAAGG TTTTTGGTAG TGGTATTACT 180 AATTTCTAGC TGTGTTTTTC TTTTTGCTAA TGAATATATA TCTGAAGATC ATTATAACAT ATAGCGGGCT TAATTTTTCC GGTATTTATG ATGCTGAAAG GAATCAATCC AATGAGCCTT TTATTAGCTC TTCTTACTTT AAGGTTATGT GCTGTTCTAT GATTAGGATC TTTTATGAGG TCTTGATATG CCTATATTTT ATTTATTGTC TATATTGGTG GAATCTT

GCR_Oct CLUSTAL (outfile -.aln) CLUSTAL X (1.83) multiple sequence alignment Human_D-loop TTCTTTCATGGGGAAGCAGATTTGGGTACCACCCAAGTATTGACTCACCCATCAACAACC 60 Pan TTCTTTCATGGGGAAGCAAATTTAGGTACCACCTAAGTACTGGCTCATTCATTA-CAACC 59 BlueWhale AAACATGTATATTGTACAA-TAACCGCAAAGCCACAG-----T 37 * * * ** ** ** * * ** Human_D-loop GCTATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCATAAATACT 120 Pan GCTATGTATTTCGTACATTACTGCCAGCCACCATGAATATCGTACAGTACCATAT-CACC 118 BlueWhale ACTATGTCCGTATTAAAAAATAATTA-TCTCATTACATATTGTTATGTACTTCGTGCATG 96 ****** * ** * * * * * * **** ** **** *

GCR_Oct MEGA (.meg) #MEGA !Title : All_Mon11.aln; !Format DataType=Nucleotide CodeTable=Invertebrate_Mitochondrial NSeqs=19 NSites=5349 Identical=. Missing=? Indel=-; !Domain=16Sb; #F_AY GCTAATTTTG TACGAAAGGA CTTTTTCGCT AAAGCAATGC TTTGTCAC-A AATCTGTGGT TGCATAAATA ATAGTGTATA ACAGGTTGAT TAGCCTATAG GAAGGG--TT A #ef.w22-F GCTAATTTTG TACGAAAGGA CTTTTTCGCT AAAGCAATGC TTTGTCAC-A AATCTGTGGT TGCATAAATA ATAGTGTATA ATAGGCTGAT TAGCCTATAG GAAGGG--TT A #tf_w1-156 GCTAATTTTG TACGAAAGGA CTTTTTCGCT AAAGCAATGC TTTGTCAC-A AATCTGTGGT TGCATAAATA ATAGTGTATA ATAGGCTGAT TAGCCTATAG GAAGGG--TT A #F_c26f GTTAATTTTG TACGAAAGGA CTTTTTTGCT AAAGTGATGC TTTGCGGTTA GACTCGTTAT TTCACAGAGA ATATTATATG GTAGGCTGAC TGACCTATAA AAAGGGGATT -. !Domain=VD1; #F_AY CCTTTTATG- -TAAATGAGC ATATTGTTTG GTGATAGGTT GTTAAGTGTG GTAGATTTTA GAGAAGTCCT ATGTAGCTGG ---TTTAAAG CAGGCTTTTT AGTAAAAAAA GACCTGCT-- #ef.w22-F CCTTTTATG- -TAAATGAGC ATATTGTTTG GTGATAGGTT GTTAAGTGTG GTAGATTTTA GAGAAGTCCT ATGTAGCTGG ---TTTAAAG CAGGCTTTTT AGTAAAAAAA GACCTAC--- #tf_w1-156 CCTTTTATG- -TAAATGAGC ATATTGTTTG GTGATAGGTT GTTAAGTGTG GTAGATTTTA GAGAAGTCCT ATGTAGCTGG ---TTTAAAG CAGGCTTTTT AGTAAAAAAA GACCTACT-- #F_c26f CCTTTTGTGA GTAAATGACT ATTTTCATTA TCGAAATAAC TCTGCTTCTA TGAAACTTTG ATATAATTGA GCATTTTTTA ATATTTTGTA AATCGTTTTT AGAATCTGAG GAG-TG---- #M_AY CCTTTTATG- -TAAGTGAG GTT GGC-----TA CTAGACTTTA CAGGAATA-T ACGCAGATAG ---TTTCA-- ---CCTT--- -GAAAAAGA- GTG back

GCR_Oct Περιεχόμενα Η έννοια της Βιοπληροφορικής, ορισμοί. Βάσεις δεδομένων πρωτεϊνών και DNA, εξειδικευμένες βάσεις δεδομένων, μορφές και προβλήματα σχολιασμού (annotation). Χρήση του Διαδικτύου για πρόσβαση και on line ανάλυση δεδομένων. Μηχανές αναζήτησης - εξόρρυξης δεδομένων, ειδικά προγράμματα ιστοτόπων.

GCR_Oct Γιατί «ανάλυση αλληλουχιών» με Η/Υ, και μάλιστα μέσω Διαδικτύου; Αιτία: Ο ρυθμός συσσώρευσης «πρωτογενών» δεδομένων (δηλ. αλληλουχιών DNA) είναι κατά πολύ μεγαλύτερος από το ρυθμό ταυτοποίησής τους (δηλ. χαρακτηρισμού ή/και προσδιορισμού της λειτουργίας τους. Επακόλουθο πρώτο: Ανάπτυξη ειδικών προγραμμάτων που εκμεταλλεύονται τη δύναμη των Η/Υ στη διαχείριση μεγάλου όγκου δεδομένων. Επακόλουθο δεύτερο: Ο αριθμός των προγραμμάτων είναι πολύ μεγάλος και συνεχώς αυξάνεται, σε συνάρτηση με νέες προσεγγίσεις και δεδομένα, με συνέπεια την αδυναμία διατήρησης και ενημέρωσης ενός τοπικού Η/Υ.

GCR_Oct άρα με το internet λύσαμε το πρόβλημά μας; Απάντηση: ΟΧΙ! Γιατί...:  Πρώτον: Δεν υφίσταται πάντα σύνδεση στο διαδίκτυο ή αργεί η μεταφορά των δεδομένων.  Δεύτερον: Περιορισμοί στους Η/Υ που μας φιλοξενούν, π.χ. δέχονται μικρότερο μήκος αλληλουχιών από αυτό που μπορεί να χειριστεί το συγκεκριμένο πρόγραμμα.  Τρίτον: Μερικά προγράμματα δεν «προσφέρονται» και μάλιστα δωρεάν.

GCR_Oct Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσης Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search).

GCR_Oct Μερικές σημαντικές έννοιες Ομοιότητα (similarity) Ομολογία (homology) και απόκλιση (divergence)  Ορθολογία (orthology)  Παραλογία (paralogy)  Αλλά και “inparalogs”, “outparalogs” Αναλογία (analogy) και σύγκλιση (convergence)

GCR_Oct ATCGGCCACTTTCGCGATCA ATAGGCCACTTTCGCGATCA ATAGGCCACTTTCGCGATTA ATAGGGCAGTTTCGCGATTA ATAGGGCAGTTTTGCGATTA ATAGGGCAGTTTCGCGATTA ATAGGGCAGTCTCGCGATTA ATCGGCCACTTTCGCGATCG ATCGGCCACTTTCGTGATCG ATCGGCCACGTTCGTGATCG ATCGGCCACGTTCGCGATCG ATCGGCCACCTTCGCGATCG ACCGGCCACCTTCGCGATCG | || || ||||||| ATAGGGCAGTCTCGCGATTA Προγονική αλληλουχία Ομόλογες αλληλουχίες ομολογία = κοινή καταγωγή

GCR_Oct ACCGGCCACCTTCGCGATCG ATCGGCCACTTTCGCGATCA ATAGGGCAGTCTCGCGATTA Αλληλουχία στον προγονικό οργανισμό Ορθόλογες αλληλουχίες Σημείο ΕΙΔΟΓΕΝΕΣΗΣ Είδος ΑΕίδος Β Ορθόλογα γονίδια: «ίδια γονίδια» σε διαφορετικούς οργανισμούς Τα ορθόλογα γονίδια είναι προϊόντα ειδογένεσης

GCR_Oct ATCGGCCACTTTCGCGATCA ATAGGGCAGTCTCGCGATTA ACCGGCCACCTTCGCGATCG Παράλογες αλληλουχίες Γονιδιακός ΔΙΠΛΑΣΙΑΣΜΟΣ Αντίγραφο ΑΑντίγραφο Β Παράλογα γονίδια = προϊόντα διπλασιασμού Αλληλουχία στον προγονικό οργανισμό

GCR_Oct An evolutionary tale… Duplication of A in worm Duplication of A in human Sonnhammer & Koonin (2002) TIGs back

GCR_Oct Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσης Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search). Ανάλυση μεμονωμένων αλληλουχιών (επίπεδο πρωτοδιάταξης) Πρόγνωση 2ταγούς – 3ταγούς δομής αμινοξικών αλληλουχιών (Predictions) Στοίχιση (Alignment) Φυλογενετική ανάλυση (Phylogeny)

GCR_Oct Πού αποσκοπεί η αναζήτηση όμοιων αλληλουχιών Πρωταρχικά στην ταυτοποίηση μιας νέας αλληλουχίας. Στη συγκρότηση ενός συνόλου συγγενών αλληλουχιών για παραπέρα εξελικτική ανάλυση ή και για κατασκευή «universal» εκκινητών PCR. Στην πιστοποίηση της «ειδικότητας» μιας αλληλουχίας που πρόκειται να χρησιμοποιηθεί ως ανιχνευτής. Σημείωση: Η κάθε μία από τις μεγάλες διεθνείς βάσεις δεδομένων διαθέτει on-line το αντίστοιχο πρόγραμμα αναζήτησης  GenBank: BLAST  EMBL: FASTA

GCR_Oct Η αναζήτηση όμοιων αλληλουχιών στην πράξη: 1.Άνοιγμα ενός αρχείου που περιέχει την ή τις αλληλουχίες για εξέταση (συνήθως χρησιμοποιείται το Notepad των Windows και είναι πάντα διαθέσιμο στο taskbar). 2.Login στο «site» του υπολογιστή που φιλοξενεί το πρόγραμμα αναζήτησης και ενεργοποίηση του προγράμματος. 3.Τα «on line» προγράμματα εμφανίζουν ένα παράθυρο που συνήθως λέγεται «query line ή sequence» και σ’ αυτό γράφουμε την προς εξέταση αλληλουχία ή την μεταφέρουμε από το notepad με copy-paste. 4.Εκτελούμε το πρόγραμμα με τα default settings ή αφού προηγουμένως τα αλλάξουμε (advanced mode). 5.Βλέπουμε το αποτέλεσμα στην οθόνη και το τυπώνουμε ή το μεταφέρουμε σε δικό μας αρχείο πάλι με copy-paste.

GCR_Oct NCBI Home pageHome page BLAST Search pageSearch page Αναλυτικότερα... on line...: Στατιστικός έλεγχος του βαθμού ομοιότητας  Περιγραφή της «γενικής» ιδέας  Στον πίνακα  Το on-line πρόγραμμα PRSS (PRDF)PRSS

GCR_Oct Ένας απλός κανόνας: Πρακτικά, για να θεωρηθεί ότι η παρατηρούμενη ομοιότητα είναι στατιστικά σημαντική (in silico identification) πρέπει ο αρνητικός εκθέτης του «Ε» να είναι διψήφιος αριθμός. Αν όχι, και αν πρόκειται για κωδική αλληλουχία, ελέγχουμε πάντα το βαθμό ομοιότητας σε επίπεδο αμινοξέων με χρήση του προγράμματος blastx (...όμως, το πρόβλημα δεν λύνεται για «low complexity sequences»). ΠΡΟΣΟΧΗ: Η αναζήτηση με το FASTA (EMBL) διαφέρει ουσιαστικά στο ότι οι καλύτερες τιμές σκορ είναι θετικοί και όχι αρνητικοί αριθμοί. Και πάλι ισχύει ο διψήφιος εκθέτης back

GCR_Oct Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσης Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search). Ανάλυση μεμονωμένων αλληλουχιών (επίπεδο πρωτοδιάταξης). Πρόγνωση 2ταγούς – 3ταγούς δομής αμινοξικών αλληλουχιών (Predictions) Στοίχιση (Alignment) Φυλογενετική ανάλυση (Phylogeny)

GCR_Oct Ανάλυση μιας αλληλουχίας DNA Αφορά πληθώρα ερωτημάτων ή ειδών ανάλυσης και πολύ απλά έως πολύ σύνθετα προγράμματα. Για παράδειγμα: Απλές εργασίες, όπως:  Μετάφραση σε ένα ή και στα 6 πιθανά πλαίσια ανάγνωσης  Δημιουργία της συμπληρωματικής, ή της αντιστρόφως συμπληρωματικής αλυσίδας  Μετατροπή μορφής (format) Εντοπισμός μοτίβων:  Αλληλουχίες υποκινητών  Παλίνδρομες ή επαναλαμβανόμενες αλληλουχίες  Αλληλουχίες κατάλληλες για εκκινητές PCR Πρόγνωση δευτεροταγών δομών  DNA, RNA, tRNA

GCR_Oct Πού θα βρούμε τα προγράμματα; Σε πολλούς υπολογιστές Δημόσιων ή Ιδιωτικών Ιδρυμάτων υπάρχουν κατάλογοι με links (διευθύνσεις, URL) για άμεση πρόσβαση σε άλλους υπολογιστές, οι οποίοι επιτρέπουν τη δημόσια on line χρήση πολλών ειδικών προγραμμάτων ανάλυσης. Την επιλογή την κάνει ο κάθε ερευνητής ανάλογα με τις ανάγκες του και ανάλογα με τα προγράμματα που συνήθως χρησιμοποιεί. Ένας σχετικά πλούσιος κατάλογος URL για on line εφαρμογή ειδικών προγραμμάτων υπάρχει στην ιστοσελίδα: ABIM Online analysis tools: ( back

GCR_Oct Ενδεικτική κατάταξη γενικών κατηγοριών ανάλυσης Αναζήτηση όμοιων (όχι αναγκαστικά ομόλογων ) αλληλουχιών σε τράπεζες δεδομένων (Search). Ανάλυση μεμονωμένων αλληλουχιών (επίπεδο πρωτοδιάταξης). Πρόγνωση 2ταγούς – 3ταγούς δομής αμινοξικών αλληλουχιών (Predictions) Στοίχιση (Alignment) Φυλογενετική ανάλυση (Phylogeny) END

GCR_Oct