ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ-ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΨΗΦΙΑΚΗ ΔΙΑΤΗΡΗΣΗ & XML Καλογήρου Στυλιανή ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ Εισαγωγικά (1/2) «Ίσως πρόσφατα ανακαλύψατε ανεκτίμητες φωτογραφίες από τα παιδικά σας χρόνια, που έχουν κιτρινίσει με το πέρασμα του χρόνου, αλλά ακόμη μπορείτε να τις δείτε. Τα εγγόνια σας πιθανόν να μην μπορούν να κάνουν το ίδιο με τις δικές σας ψηφιακές φωτογραφίες»[1]!! [1] Jesdadun, Anick. Digital memory threatened as file formats evolve, 2003. HoustonChronicle.com. Available at: http://www.chron.com/cs/CDA/story.hts/tech/1739675 ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ Εισαγωγικά (2/2) Ψηφιακή διατήρηση Νομικό πλαίσιο Πρότυπα προγενέστερα της XML XML Ρόλος της XML στην ψηφιακή διατήρηση Συμπεράσματα ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
Ψηφιακή διατήρηση: Ορισμός «Η αποθήκευση, συντήρηση & πρόσβαση σε ψηφιακό αντικείμενο μακροπρόθεσμα» [Cedars Project] Σκοπός: πρόσβαση σε αντικείμενα ψηφιακής μορφής Ζητήματα: γενικό πλαίσιο, περιεχόμενο, δομή, εμφάνιση Ποικιλία ψηφιακών μορφών Διαφορετική αντιμετώπιση – Παράγοντες Επιδιώκεται ακεραιότητα, αυθεντικότητα & χρησιμότητα ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
Ψηφιακή διατήρηση: Διαδικασία Ταχύτητα απαρχαίωσης τεχνολογιών Διαφορετικές εφαρμογές λογισμικού Πρόβλημα ανάγνωσης αρχείου χωρίς εφαρμογή του αρχικού λογισμικού Δεδομένα Παραδείγματα: το πρώτο email, δορυφορικές παρατηρήσεις, NASA ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
Ψηφιακή διατήρηση: Στρατηγικές Μέθοδοι για αποφυγή προβλημάτων κατά την ψηφιοποίηση & μακροπρόθεσμη διατήρηση της πληροφορίας Αναζωογόνηση (Refreshing) Μετανάστευση (Migration) Εξομοίωση / Μίμηση (Emulation) Διατήρηση Τεχνολογίας (Technology Preservation) Ενθυλάκωση (Encapsulation) ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
Ψηφιακή διατήρηση: Projects National Digital Information Infrastructure and Preservation Program (NDIIPP) DiVA Project CAMiLEON Project Cedars Project .. ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
Ψηφιακή διατήρηση: Ρόλος των μεταδεδομένων Προσδιορισμός ονόματος, δημιουργού & άλλων περιγραφικών πληροφοριών εργασίας Συνδέσεις (links) με οργανισμούς, αρχεία & Βάσεις Δεδομένων Ανάλυση τεχνικού περιβάλλοντος Εντοπισμός πληροφοριακών πόρων Διαχείριση δικαιωμάτων πνευματικής ιδιοκτησίας Κλειδί για ανάκτηση & χρήση τεκμηρίων ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ Νομικό πλαίσιο Πνευματικά δικαιώματα Πολιτική διατήρησης ψηφιακής πληροφορίας Φορείς: κάτοχοι & δικαιούχοι πνευματικών δικαιωμάτων, υπεύθυνοι ψηφιακών αρχείων, χρήστες Δυνατότητα αντιγραφής Δυσκολία στη σύνταξη & εφαρμογή νομοθετικών ρυθμίσεων Παράδειγμα των Η.Π.Α. ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
Πρότυπα προγενέστερα της XML ASCII (American Standard Code for Information Interchange) GML (Generalized Markup Language) SGML (Standard Generalized Markup Language) – [ISO 8879: 1986] HTML (HyperText Markup Language) ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ XML: Ορισμός Extensible Markup Language World Wide Web Consortium (1998) Τρόπος σύνταξης εγγράφου Περιγραφή πληροφοριών σε ιεραρχική δομή Ετικέτες - tags Διαφορά HTML - XML ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ XML: Δομικά στοιχεία Στοιχεία Γνωρίσματα Οντότητες Σχόλια Οδηγίες επεξεργασίας Δηλώσεις τύπων εγγραφών (DTD) ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ XML: DTD (1/2) Γραμματική Λεξιλόγιο Σύνολο κανόνων Ορίζει ονόματα ετικετών & γνωρισμάτων Περιγραφή δομής περιεχομένων ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
XML: DTD (Document Type Declaration) (2/2) <ΤΑΒ> <φοιτητής> <όνομα>Γιώργος</όνομα> <επώνυμο>Παπαδόπουλος</επώνυμο> </φοιτητής> … </ΤΑΒ> <!DOCTYPE TAB [ <!ELEMENT TAB (φοιτητής*)> <!ELEMENT φοιτητής (όνομα, επώνυμο)> <!ELEMENT όνομα (#PCDATA)> <!ELEMENT επώνυμο (#PCDATA)> ]> ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ XML: XML Schema Γλώσσα XML Περιγραφή δομής XML τεκμηρίων (όπως το DTD) Ισχυρότερα χαρακτηριστικά & δυνατότητες από DTD Διαφορετικοί τρόποι για περιγραφή δομής ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ XML: Χρήση Ανταλλαγή δεδομένων Διαμοιρασμός δεδομένων Αποθήκευση δεδομένων Χρήσιμα δεδομένα Βάση για δημιουργία νέων γλωσσών (π.χ. WML-Wireless Markup Language) ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
XML: Σχετικές τεχνολογίες XHTML (Extensible HTML) XSL (Extensible StyleSheet Language) XSLT (XSL Transformation) XPath XLink (XML Linking Language) XQuery (XML Query Language) RDF (Resource Description Framework) .. ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
Λογισμικά για XML (XML Editors) Έλεγχος συντακτικού της γλώσσας Έλεγχος ορθότητας της δομής του αρχείου, βάσει συγκεκριμένου προτύπου Δυνατότητες μετατροπών Διαχείριση περιεχομένου των XML αρχείων ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
Ο ρόλος της XML στην ψηφιακή διατήρηση Διαχωρισμός περιεχομένου, δομής & εμφάνισης Εύκολη μετατροπή XML αρχείων σε νέα μορφή Αποθήκευση δεδομένων με δομημένο τρόπο Απαιτήσεις εκμάθησης ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
Ο ρόλος της XML στην ψηφιακή διατήρηση: Περίπτωση VERS Πιλοτικό πρόγραμμα Διατήρηση ηλεκτρονικών αρχείων Προτείνονται: - Ενθυλάκωση σε ένα μοναδικό αντικείμενο - Όχι χωριστή αποθήκευση - Διαδοχική προσθήκη μεταδεδομένων - Χρήση XML για κωδικοποίηση ενθυλακωμένων αρχείων ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
Ο ρόλος της XML στην ψηφιακή διατήρηση: ERPANET Workshop (1/2) XML for Digital Preservation, Urbino 9-11 October 2002 Έρευνα για ψηφιακή διατήρηση Η XML κατάλληλη για δημιουργία & διατήρηση πολύπλοκων δομών με χρήση ετικετών, γραμματικής & σημασιολογίας Σημασία του DTD Προβλήματα στην περίπτωση των Βάσεων Δεδομένων ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
Ο ρόλος της XML στην ψηφιακή διατήρηση: ERPANET Workshop (2/2) Συμβολή markup γλωσσών Διατήρηση δεδομένων Επαναλαμβανόμενη χρήση Αποφυγή εξομοίωσης (emulation) & υψηλού κόστους NARA Project SDSC Project ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ NARA Project U.S. National Archives and Records Administration Τεχνικές οδηγίες για ψηφιοποίηση & πρόσβαση στο ψηφιακό, πλέον, υλικό Ψηφιακή διατήρηση & μακρόχρονη διαχείριση μεταδεδομένων Προτείνει την XML ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ Πλεονεκτήματα της XML Χρήση ετικετών αναγνώσιμων & αναγνωρίσιμων από Η/Υ & ανθρώπους Χρήση DTD ή Schema για τη σύνταξη Περιγραφή περιεχομένων σε ιεραρχική δομή Διαλειτουργικότητα – Ανταλλαγή & αποθήκευση δεδομένων Βάση για νέες γλώσσες & τεχνολογίες Editors για έλεγχο συντακτικού & δομής εγγράφου Μετατροπή σε άλλες μορφές Εμπλουτισμός .. ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ Μειονεκτήματα της XML Διατήρηση ενός DTD ή Schema μαζί με το XML τεκμήριο - Επιπρόσθετο βάρος διατήρησης Περίπτωση Βάσεων Δεδομένων Διάρκεια Μεγάλος αριθμός μεταναστεύσεων (migrations) ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ Συμπεράσματα Ψηφιακά τεκμήρια & αρχεία προσβάσιμα & χρήσιμα με την πάροδο του χρόνου Διάσωση εθνικής κληρονομιάς Πρότυπα Λογισμικό Συνεχής έρευνα & πειραματισμός στο πεδίο της ψηφιακής διατήρησης ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ
ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ Ερωτήσεις Ακεραιότητα; Πολλαπλές μεταναστεύσεις!! Διάρκεια «ζωής»; ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΠΜΣ: ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ