Ηλεκτρονική Δημοσίευση Κωνσταντίνα Δήμου
ΘΕΜΑ: Πρωτοβουλίες αρχειοθέτησης του Ιστού Brian Kelly, Approaches to the preservation of web sites, UKOLN, University of Bath, UK, 2002 Michael Day, Preserving the Fabric of Our Lives: A survey of web preservation initiatives, UKOLN, University of Bath, UK, 2003 William Arms, Web preservation project interim report, A report to the Library of Congress, 2001
Τι περιλαμβάνει το θέμα Η σημασία του Ιστού Προβλήματα αρχειοθέτησης του Ιστού –Τεχνικά, Νομικά και οργανωτικά Προσεγγίσεις επιλογής και συλλογής –Harvesting, Επιλεκτική Συλλογή, και κατάθεση –Συνδυασμός Μακροπρόθεσμη διατήρηση –Migration, Emulation, Διατήρηση της τεχνολογίας Βιβλιοθήκη του Κογκρέσου (MINERVA) Άλλες εθνικές προσεγγίσεις
Ενδιαφέρον για τον Ιστό Γιατί υπάρχει ενδιαφέρον για τη διατήρηση του Ιστού; –Οι ιστότοποι εξαφανίζονται: ‘Μια ιστοσελίδα έχει τη διάρκεια ζωής μιας μύγας (Casey, 1998) –Ήδη χάνουμε πολύτιμους επιστημονικούς και πολιτιστικούς πόρους Αντιπαραβολή με τον πραγματικό κόσμο: –Είναι πιο δύσκολο να καταστραφούν φυσικοί πόροι (βιβλία, περιοδικά, κ.λπ.) και αν συμβεί υπάρχουν συχνά πολλά αντίγραφα Στον online κόσμο: –Οι ιστότοποι μπορούν να διαγραφούν πολύ εύκολα: π.χ με την εντολή rm – r* στα συστήματα Unix
Η σημασία του Web «Το Διαδίκτυο είναι το οικοδόμημα της ζωής μας (Castells 2001) Ο ιστός αποτελεί το ευρύτερα χρησιμοποιημένο μέσο –Στην έρευνα Οι επιστήμονες όλο και περισσότερο εμπιστεύονται το Web για την υποστήριξη της ερευνάς τους (Hendler, 2003) –Σε μη ερευνητικά πλαίσια Προσωπική επικοινωνία, Ηλεκτρονικό εμπόριο, κ.λπ. « …Είναι ο πρώτος και κύριος πληροφοριακός πόρος για εκατομμύρια αναγνωστών (Lyman, 2002)
Αρχειοθέτηση:Τεχνικά προβλήματα (1) Ο ιστός είναι τεράστιος και συνεχώς αυξανόμενος. Το συνολικό ποσό των πληροφοριών του είναι > 50 Terabytes…..και ακόμα αυξάνεται (Lyman and Varian, 2000) The “Deep Web” Η δυναμική φύση του Ιστού: –Οι ιστοσελίδες εξαφανίζονται κατά μέσο όρο μετά από 75 μέρες Εξέλιξη των τεχνολογιών –Το περιεχόμενο του Ιστού μεταφέρεται από δυναμικές βάσεις δεδομένων. –Χρησιμοποιούν συγκεκριμένο λογισμικό Εξέλιξη: Σημασιολογικός Ιστός
Τεχνικά προβλήματα (2) Γιατί εξαφανίζονται οι ιστότοποι; Μεμονωμένοι Ιστότοποι –Ένας ερευνητής μετακινείται σε έναν άλλο οργανισμό. Οι Υπηρεσίες διαγράφουν στη συνέχεια τον ιστότοπο μόλις αφαιρεθεί η ταυτότητα του προσωπικού του από την Βάση Δεδομένων των μισθολογικών καταστάσεων Ιστότοποι προγραμμάτων –Η χρηματοδότηση από την Ε.Ε για ένα πρόγραμμα τελειώνει. Το προσωπικό του προγράμματος φεύγει. Το ποσό για την διατήρηση του site δεν καταβάλλεται Αλλαγή του ονόματος του οργανισμού –Οι οργανισμοί συγχωνεύονται ή αλλάζουν το όνομά τους και, έτσι αλλάζει και το όνομα των περιοχών τους (π.χ UK, τα πολυτεχνεία που έγιναν πανεπιστήμια) Οι ιστότοποι αναδιοργανώνονται. Ένας ιστότοπος αναδιοργανώνεται λόγω: –Αλλαγών στην υπηρεσιακή δομή –Για να καταστήσει την πλοήγηση ευκολότερη για τους χρήστες –Χρησιμοποιεί νέο λογισμικό διαχείρισης περιεχομένου –Ο πόρος μπορεί ακόμα να υπάρχει, αλλά εμφανίζεται ότι έχει εξαφανιστεί Αποτελέσματα του προγράμματος eLib (Joint Information Systems Committee (JISC). Από τα 65 προγράμματα που συμμετείχαν μετά από ένα χρόνο, εξαφανίσθηκαν σε 11 τα sites και σε 12 τα σημεία εισόδου τους:
Νομικά προβλήματα Πνευματικά δικαιώματα Δυσφήμηση Προστασία των δεδομένων Μεγάλη Βρετανία: – Η επιλεκτική προσέγγιση θα ήταν η πιο ασφαλής λύση (εκτός και αν αλλάξει ο νόμος) Βλέπε: Charlesworth (2003)
Οργανωτικά προβλήματα Αποκεντρωμένη Οργάνωση: –Οι πρωτοβουλίες αρχειοθέτησης εστιάζουν σε καθορισμένα υποσύνολα του Ιστού, π.χ Εθνικές περιοχές Θέμα Οργανισμός Ποιότητα: –Αρκετό από το περιεχόμενο του Ιστού είναι χαμηλής ποιότητας –Υπάρχει ανάγκη να διατηρηθεί αυτό;
Προσεγγίσεις Συλλογής(1) Harvesting (αυτόματη) –Χρησιμοποιεί την τεχνολογία web crawler –Οι crawler ακολουθούν τα links και φορτώνουν το περιεχόμενό τους –Πρωτοπόροι το Internet Archive και Kulturarw3 –Χρησιμοποιείται επίσης από τα προγράμματα της Αυστρίας και Φινλανδίας
Harvesting (συνέχεια) Προκλήσεις –Περιεχόμενο Κείμενο, εικόνες, λογότυπο του Οργανισμού –Όρια Έκταση του ιστοτόπου (πχ. Εθνικός Ιστότοπος της Μεγάλης Βρετανίας) –Με το όνομα.UK –Όσοι φιλοξενούνται στη Μεγάλη Βρετανία –Όσοι ανήκουν σε Βρετανικούς Οργανισμούς –Όσοι περιέχουν σημαντικό περιεχόμενο –Διάταξη των Ιστότοπων Πρότυπα για τον αποκλεισμό των ρομπότ Επαναπροσανατολισμός Δυναμικοί ιστότοποι
Προσεγγίσεις Συλλογής(2) Επιλεκτική προσέγγιση –Επιλογή ξεχωριστών web sites –Διαπραγματεύονται τα δικαιώματα με τους ιδιοκτήτες –Χρησιμοποιεί για τη συλλογή λογισμικό mirroring, ftp, –Πρωτοπόρος το πρόγραμμα PANDORA –Πειραματικά ακολουθείται και από τη βιβλιοθήκη του Κογκρέσου και την British Library Κατάθεση –Οι ιδιοκτήτες /υπεύθυνοι των ιστότοπων καταθέτουν το site σε αποθετήρια.
Προσεγγίσεις Συλλογής(3) Συνδυαζόμενες προσεγγίσεις: –Συνδυάζει τα πλεονεκτήματα του harvesting και της επιλεκτικής συλλογής –Πρωτοπόρος η Εθνική Βιβλιοθήκη της Γαλλίας Πειραματίζεται στη βελτίωση της harvesting προσέγγισης –Πχ. σημειώνει την συχνότητα αλλαγής των sites, και τη σημαντικότητά τους –Χρησιμοποιεί την επιλεκτική συλλογή για τον «Βαθύ Ιστό»
Λογισμικό Χρησιμοποιούνται διάφορα λογισμικά: –Προσέγγιση Harvesting: Adapted Combine Harvester, NEDLIB harvester, Xyleme, Alexa –Επιλεκτική: HTTrack (δημοφιλές), κ.α. PANDAS (PANDORA Digital Archiving System) – βοηθά στη διαχείριση της διαδικασίας, προσθέτει μεταδεδομένα, κ.λπ.
Κόστος Το κόστος ποικίλλει ευρέως: –Η επιλεκτική προσέγγιση είναι ακριβότερη (ανά Tb.) σε σχέση με την προσέγγιση harvesting Όμως τα αρχεία που προκύπτουν είναι ευρύτερα προσιτά –Το κόστος αποθήκευσης ποικίλει ανάλογα με τους δίσκους (απλοί, RAID) –Με την συχνότητα συλλογής των ιστότοπων και την δημιουργία πολλών αντιγράφων για τα ίδια αρχεία –Με την τεχνική διατήρησης –Σημαντικό κόστος στο θέμα των πνευματικών δικαιωμάτων
Μακροπρόθεσμη διατήρηση(1) Οι περισσότερες πρωτοβουλίες μέχρι τώρα έχουν εστιάσει κυρίως στην συλλογή των πόρων: –Υπάρχει ανάγκη να εξεταστεί η διατήρηση τους για μεγάλο χρονικό διάστημα –Περιγραφικά και τεχνικά μεταδεδομένα –Ανάγκη μετανάστευσης –Ανάγκη να γίνουν αποθετήρια –Ανάγκη να ενσωματωθεί στις βασικές δραστηριότητες του Οργανισμού
Μακροπρόθεσμη διατήρηση(2) Στόχοι διατήρησης –Διατήρηση των bits –Διατήρηση του περιεχομένου –Διατήρηση της εμπειρίας Στρατηγικές διατήρησης –Αναζωογόνηση (refreshing) Αντιγραφή –Μετανάστευση (migration) Μεταφορά του υλικού από παλιά σε νέα τεχνολογικά μέσα –Εξομοίωση (emulation) Εφαρμογή του λογισμικού που τα δημιούργησε –Διατήρηση της τεχνολογίας (technology preservation) Διατήρηση του υλικοτεχνικού εξοπλισμού
Βιβλιοθήκη του Κογκρέσου (MINERVA)(1) Η βιβλιοθήκη του Κογκρέσου συλλέγει την πολιτιστική και διανοητική παραγωγή σήμερα προς όφελος των μελλοντικών γενεών. Επιλεκτική προσέγγιση –Προτάθηκαν 35 sites –29 sites φορτώθηκαν τουλάχιστον μια φορά –Επιλέχθηκαν για λεπτομερή μελέτη: Για το μέλλον η βιβλιοθήκη συζητάει και την μαζική συλλογή
Βιβλιοθήκη του Κογκρέσου (MINERVA)(2) Συλλογή –Λογισμικό HTTrack Δίνεται το URL Κάνει αντίγραφο της σελίδας Εξάγει όλες τις συνδέσεις και τις φορτώνει μέχρι να αναπαραχθεί όλος ο ιστότοπος Αντιγράφει όλα τα αρχεία, συμπεριλαμβανομένου κείμενα, εικόνες, video, αρχεία μεταδεδομένων κ.λπ.
Διαδικασία Συλλογή: Δημιουργία στιγμιότυπου Web site Snapshot Download Αρχείο Ένα web site φορτώνεται, με τη χρήση ενός mirroring προγράμματος. Ένα στιγμιότυπο φορτώνεται στο αρχείο.
Συλλογή: Επιπλέον στιγμιότυπα φόρτωση Web site Archive Σε επιλεγμένα χρονικά διαστήματα γίνονται πρόσθετα στιγμιότυπα Snapshot 1 Snapshot 2 Snapshot 3
Βιβλιοθήκη του Κογκρέσου (MINERVA)(4) Νομική κατάσταση –Η νομική θέση είναι ασαφής –Η διατήρηση είναι για το εθνικό συμφέρον –Ο κρίσιμος παράγοντας είναι ο οικονομικός και αφορά τους ιδιοκτήτες των πνευματικών δικαιωμάτων –Η βιβλιοθήκη του Κογκρέσου δεν έχει καμία ειδική θέση σε αυτό εκτός από την κατάθεση (Παράγραφος 407) –Το U.S. Copyright Office προσφέρθηκε να βοηθήσει Βλέπε: The Digital Dilemma
Βιβλιοθήκη του Κογκρέσου (MINERVA)(5) Πολιτική διατήρησης Χρησιμοποιεί την επαναλαμβανόμενη αναζωογόνηση. Χρησιμοποιεί την αυτοματοποιημένη μετανάστευση των μεμονωμένων αρχείων ως βασική τεχνική για τους ιστότοπους (περισσότερο ή λιγότερο) με ένα μέτριο κόστος. Χρησιμοποιεί την χειρωνακτική αναπαραγωγή για έναν μικρό αριθμό ιδιαίτερα σημαντικών sites Γενικά όμως, δεν είναι δυνατό να διατηρηθεί η εμπειρία της χρήσης των ιστότοπων έτσι όπως αλλάζει η τεχνολογία.
MINERVA:Απαιτήσεις αποθήκευσης Αριθμός των sites που συλλέχθηκαν 30,000 Μέσο μέγεθος των sites 60 Mbytes Μέγεθος των sites1.8 terabytes Απαιτήσεις αποθήκευσης /έτος (μηνιαία στιγμιότυπα) 21.6 terabytes Απαιτήσεις αποθήκευσης /έτος (όχι αντίγραφα) 5.0 terabytes Κόστος ετησίως, ανά έκδοση ($100,000 ανά terabyte) $500,000
MINERVA:Ηλεκτρονικό σύστημα
Άλλες πρωτοβουλίες αρχειοθέτησης(1) The Internet Archive –Από το 1996 –Μαζική συλλογή –Σελίδες HTML –Συνεργασία για τη δημιουργία ειδικών συλλογών (Βιβλιοθήκη Κογκρέσου, Smithsonian Institution) Εθνικές Βιβλιοθήκες –Πρωτοπόροι: Σουηδία(Kulturarw3) και Αυστραλία(Pandora) –Τώρα περισσότερες(Αυστρία, Φινλανδία, Γαλλία, Γερμανία, Νέα Ζηλανδία, Μεγάλη Βρετανία)
Πρωτοβουλίες αρχειοθέτησης(2) Εθνικά αρχεία –Εστιάζουν σε κυβερνητικά sites –Παρέχουν οδηγίες στους υπεύθυνους των sites Π.χ. UK, Αυστραλία Άλλα: –Πανεπιστήμια και επιστημονικές κοινότητες: Archipol, Occasio archive, Political Communications Web Archiving (Cornell)
Πολιτικές πρόσβασης Οι πολιτικές πρόσβασης διαφέρουν: –Το Internet Archive και το PANDORA καθιστούν τα δεδομένα διαθέσιμα Π.χ. η μηχανή Wayback –Άλλες συλλογές είναι κλειστές (για νομικούς λόγους ή επειδή είναι ακόμα σε πειραματικό στάδιο) –Υπάρχει ανάγκη για εξειδικευμένα ευρετήρια του Ιστού με τα οποία θα μπορούν να ψάξουν και να πλοηγηθούν στις μεγάλες συλλογές του υλικού του ιστού Το σύνολο εργαλείων Nordic Web Archive (NWA)
Μέγεθος κατά προσέγγιση (2002) ΧώραΠρωτοβουλίαΤύποςΜέγεθος (Gb.) No. Sites USAInternet ArchiveH>150, SwedenKulturarw3H4, FranceBnFC<1, AustriaAOLAH AustraliaPANDORAS ,300 FinlandHULH UKBritain on the WebS USAMINERVAS35
Συμπεράσματα Η διατήρηση του Ιστού είναι ένα σημαντικό ζήτημα Υπάρχει πολύς πειραματισμός μέχρι σήμερα αλλά ακόμα είμαστε στη φάση της εφαρμογής Η συνεργασία είναι σημαντική (άτομα, Εθνικοί και Διεθνείς Οργανισμοί, χρηματοδότες) Υπάρχουν διάφορες τεχνικές αλλά οι συνδυασμένες προσφέρουν καλλίτερα αποτελέσματα Τα νομικά θέματα είναι ακόμα προβληματικά Ζητήματα μακροπρόθεσμης διατήρησης ακόμα εξερευνούνται
Βιβλιογραφία Arms Y William: Web preservation project interim report, A Report to the Library of Congress, Cornell University, January 15, 2001 Arms Y William: Collecting and Preserving Open-Access Materials on the Web, A Proposal to the Library of Congress from Cornell University, January 12, 2000 Charlesworth, Andrew: Legal issues relating to the archiving of Internet resources in the UK, EU, USA and Australia, University of Bristol, Centre for IT and Law Version February Cheney, James, Lagoze, Carl and Botticelli, Peter: Towards a Theory of Information Preservation, ECDL 2001, LNCS 2163, pp. 340–351, Day Michael, Preserving the Fabric of Our Lives: A Survey of Web Preservation Initiatives, UKOLN, University of Bath, United Kingdom Day Michael, Metadata for Digital Preservation: A Review of Recent Developments, UKOLN: the UK Office for Library and Information Networking, University of Bath, Day Michael, Digital preservation and long-term access to the content of electronic serials, UKOLN, University of Bath, United Kingdom Fleischhauer, Carl: Notes about collecting a Web site, National Digital Library Program, April 21, 2000
Βιβλιογραφία Hedstrom Margaret, Digital Preservation: a time bomb for Digital Libraries (ημ. Πρόσβασης 26/04/2004) Cedars Project - Digital Preservation and Further Information (ημ. Πρόσβασης 25/04/2004) Kelly Brian, Approaches to the preservation of web sites, UKOLN, University of Bath, UK Kelly Russell, Digital Preservation: Ensuring Access to Digital Materials Into the Future (ημ. Πρόσβασης 25/04/2004) Kenney, Anne e.a: Preservation Risk Management for Web Resources, Virtual Remote Control in Cornell's Project Prism D-Lib Magazine, Vol. 8, No 1, January 2002 Marc Fresco, Kenneth Tombs, Digital Preservation Guidelines: the state of art in libraries, museums and archives, European Communities, 1998 nof-digitise Technical Advisory Service Programme Manual: Section 2 Digital Preservation
Ευχαριστώ για την προσοχή σας