Ηλεκτρονική Δημοσίευση The Goddard Library Web Capture Project Χριστιανούδης Ιωάννης Π.Μ.Σ. Κέρκυρας Μάιος 2005
Αρχειοθέτηση του Διαδικτύου (Web Archiving) ΣΤΟΧΟΙ Καταγραφή του Περιεχομένου του Διαδικτύου Διαφύλαξη και Πρόσβαση στις Πληροφορίες Δημιουργία Ιστορικού Αρχείου του Παγκόσμιου Ιστού Εντοπισμός του Τόπου Παραγωγής της Πληροφορίας Είδη Τεχνολογιών που Χρησιμοποιούνται Είδη Συστημάτων που Χρησιμοποιούνται Εντοπισμός του Κύκλου Ζωής των Τεχνολογιών
Αρχειοθέτηση του Διαδικτύου (Web Archiving) Internet Archive ( Pandora Archive ( Kulturarw3 ( NEDLIB Project Nordic Web Archive ( Σημαντικά Παραδείγματα:
The Goddard Library Web Capture Project Πρόγραμμα της Βιβλιοθήκης του Διαστημικού Κέντρου Goddard της NASA Στόχος η Δημιουργία Λογισμικού για την Συλλογή, Αποθήκευση και Πρόσβαση σε Πληροφορίες Επιστημονικού και Τεχνολογικού Ενδιαφέροντος
The Goddard Library Web Capture Project Στόχος η Εξαγωγή Μεταδεδομένων Αρχειοθέτηση και Ταξινόμηση Μεταδεδομένων Αναζήτηση και Εντοπισμός Πληροφοριών Συλλογή Πληροφοριών τόσο από το Intranet του Goddard όσο και από το Διαδίκτυο
Περιγραφή του Συστήματος Επιλογή των Πληροφοριών (Selection Process) Συλλογή και Αποθήκευση Πληροφοριών (Capturing Process) Εξαγωγή Μεταδεδομένων (Metadata Generation) Έρευνα στα Αρχεία Μεταδεδομένων (Metadata Records Search)
Ροή του Συστήματος
Επιλογή των Πληροφοριών (Selection Process) Τέσσερις Θεματικές Περιοχές: Επιστήμη του Διαστήματος (Space Science) Επιστήμη της Γης (Earth Science) Εφαρμοσμένη Μηχανική και Τεχνολογία (Applied Engineering & Technology) Προγράμματα και Σχέδια Πτήσεων (Flight Programs & Projects) Αποθήκευση Ιστοσελίδων και Παράθεση Χαρακτηριστικών τους
Συλλογή & Αποθήκευση Πληροφοριών (Capturing Process) Χρήση Λογισμικού (Spidering Software): Rafabot 1.5 Προσπάθεια Συλλογής Σχετικών Ιστοσελίδων με Παράλληλο Έλεγχο Περιεχομένου Αποθήκευση Δικτυακών Τόπων σε Φακέλους και Επεξεργασία
Εξαγωγή Μεταδεδομένων (Metadata Generation) Τρία Βασικά Στάδια: Σχήμα Μεταδεδομένων (Metadata Scheme) Αυτόματη Εξαγωγή Μεταδεδομένων (Automatic Metadata Extraction) Επισκόπηση και Βελτίωση Μεταδεδομένων (Human Review & Enhancement) Δημιουργία Βάσης Μεταδεδομένων (Metadata Database) τύπου MySQL
Εξαγωγή Μεταδεδομένων (Metadata Generation) Χρήση Σχήματος Μεταδεδομένων: Goddard Core Metadata Element Set Έμφαση στην Ανάκτηση και Αξιολόγηση των Πληροφοριών Σχήμα Μεταδεδομένων (Metadata Scheme)
Εξαγωγή Μεταδεδομένων (Metadata Generation) Αυτόματη Εξαγωγή Ετικετών Μεταδεδομένων (Metatags) Δημιουργία Εγγραφών Μεταδεδομένων (Metadata Records) Χρήση Λογισμικού: Web Data Extractor Αυτόματη Εξαγωγή Μεταδεδομένων (Automatic Metadata Extraction)
Εξαγωγή Μεταδεδομένων (Metadata Generation) Δυνατότητα Τροποποίησης, Βελτίωσης και Επαλήθευσης Εγγραφών Μεταδεδομένων Κάθε Εγγραφή έχει Συγκεκριμένο Κωδικό (ID Number) Επισκόπηση και Βελτίωση Μεταδεδομένων (Human Review & Enhancement)
Εξαγωγή Μεταδεδομένων (Metadata Generation) Φόρμα Μεταδεδομένων (Metadata Template)
Έρευνα Αρχείων Μεταδεδομένων (Metadata Records Search) Χρήση Μηχανής Αναζήτησης Ανοιχτού Κώδικα: Lucene Αποθήκευση και Ευρετηρίαση Μεταδεδομένων από τη Βάση MySQL 2 Κατηγορίες Θεματικής Αναζήτησης: NASA Taxonomy Earth Observing System Taxonomy (EOS)
Έρευνα Αρχείων Μεταδεδομένων (Metadata Records Search) Φόρμα Αναζήτησης Μεταδεδομένων
Έρευνα Αρχείων Μεταδεδομένων (Metadata Records Search) Πίνακας Αποτελεσμάτων
Συμπεράσματα Αξιόλογη προσπάθεια Web Archiving Επέκταση της Αρχειοθέτησης από το Intranet του Ευρύτερου Οργανισμού στο Διαδίκτυο Φιλικό Περιβάλλον Χρήστη «Μελανό» Σημείο η Απουσία Σχεδιασμού Διατήρησης (Preservation) καθώς και Μεταδεδομένων Διατήρησης
Συμπεράσματα Παρουσία Ανοιχτού Αρχείου Μεταδεδομένων (Open Archive Metadata) Περιθώρια Βελτίωσης
Προβληματισμοί Το Πρόβλημα του «Αόρατου» Ιστού (“Invisible” ή “Deep” Web) Εφικτή η Αρχειοθέτηση του Συνόλου του Διαδικτύου? Ουσιαστικό Ερώτημα: Εφικτή η Αρχειοθέτηση σε Βάθος?
Ερωτήσεις?
Ευχαριστώ!