ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ: ΟΡΓΑΝΩΣΗ ΚΑΙ ΔΙΟΙΚΗΣΗ ΒΙΒΛΙΟΘΗΚΩΝ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΜΑΘΗΜΑ ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΤΙΤΛΟΣ ΕΡΓΑΣΙΑΣ ΚΡΙΤΗΡΙΑ ΕΠΙΛΟΓΗΣ ΚΑΙ ΣΧΕΔΙΑΣΜΟΥ ΕΝΟΣ ΕΘΝΙΚΟΥ ΑΡΧΕΙΟΥ ΙΣΤΟΥ (βασισμένη στο ομότιτλο άρθρο των Daniel Gomes, Sιrgio Freitas, and Mαrio J. Silva ) ΕΠΙΜΕΛΕΙΑ ΕΡΓΑΣΙΑΣ : ΜΑΡΙΑ ΔΗΜΗΡΟΠΟΥΛΟΥ ΔΙΔΑΣΚΩΝ ΚΑΘΗΓΗΤΗΣ: ΣΑΡΑΝΤΟΣ ΚΑΠΙΔΑΚΗΣ ΙΟΥΝΙΟΣ
ΠΕΡΙΕΧΟΜΕΝΑ Εθνικό Αρχείο Ιστού Τι είναι; Γιατί το χρειαζόμαστε; Πως δημιουργείται; -Κριτήρια επιλογής περιεχομένου -Αρχιτεκτονική (περίπτωση μελέτης του πορτογαλικού Αρχείου Ιστού) Το ελληνικό Αρχείο Ιστού. Σχετικές δουλειές σε διεθνές επίπεδο. Συμπεράσματα- προτάσεις για μελλοντική εργασία. Προβληματισμοί. 2
ΕΘΝΙΚΟ ΑΡΧΕΙΟ ΙΣΤΟΥ Τι είναι; Από την αρχειοθέτηση του Ιστού προκύπτει το Αρχείο Ιστού. Πρόκειται για Αρχείο το περιεχόμενο του οποίου είναι εξολοκλήρου ψηφιακό αφού στην ουσία το Αρχείο Ιστού περιλαμβάνει έγγραφα- δεδομένα- πληροφορίες που βρίσκονται και διακινούνται μέσω του Web. Το εθνικό Αρχείο Ιστού συγκεντρώνει, οργανώνει και διατηρεί ψηφιακά προϊόντα επιστήμης και πολιτισμού που βρίσκονται στο Web και συνδέονται με τη συγκεκριμένη χώρα και για όσο περισσότερο χρόνο είναι αυτό δυνατό. Γιατί το χρειαζόμαστε; Γιατί το υλικό του WEB εκτός από αναπόσπαστο κομμάτι του κόσμου της πληροφόρησης αποτελεί επίσης και μέρος της πολιτιστικής μας κληρονομιάς άρα πρέπει να το διατηρούμε. Η ανάγκη για δημιουργία εθνικών Αρχείων Ιστών γίνεται επιτακτική καθώς ο Ιστός μονίμως αλλάζει και μεγάλη ποσότητα περιεχομένου εξαφανίζεται προτού οι ενδιαφερόμενοι μπορέσουν να αρχειοθετήσουν. Αν δεν δημιουργηθούν εθνικά Αρχεία Ιστού οι επόμενες γενιές θα έρθουν αντιμέτωπες με ένα πολιτισμικό χάσμα. 3
ΙΔΙΑΙΤΕΡΟΤΗΤΕΣ ΤΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ Μεγάλη ποσότητα υλικού Μεγάλη ποικιλία δημοσιευμάτων (π.χ. λίστες συζήτησης) Ευμετάβλητο υλικό Μεγάλη ποικιλία μορφών ψηφιακών αρχείων ή συνδυασμού αρχείων- μεγάλη ποικιλία εξοπλισμού και λογισμικού για την εξασφάλιση της πρόσβασης σε αυτό. Προσδόκιμο διατήρησης των νέων μέσων της πληροφορίας. 4
ΤΕΧΝΙΚΕΣ ΑΡΧΕΟΘΕΤΗΣΗΣ ΤΟΥ ΙΣΤΟΥ Επιλεκτική προσέγγιση Επιλέγονται από ανθρώπους βάσει ποιοτικών κριτηρίων μόνο εκείνα τα τεκμήρια, δημοσιεύματα ή σελίδες που θεωρούνται άξια διατήρησης. Αυτόματη συγκομιδή Επιτρέπει την αρχειοθέτηση ενός μεγάλου εύρους και όγκου ψηφιακού υλικού του Ιστού με τη χρήση των crawlers που συλλέγουν περιεχόμενο που υπάρχει στο Διαδίκτυο. Κατάθεση Εθελοντική ή υποχρεωτική. 5
ΚΡΙΤΗΡΙΑ ΕΠΙΛΟΓΗΣ Περιοχή ανωτάτου επιπέδου -gTLDs: generic Top Level Domain -ccTLDs: country code Top Level Domain. Συνδυασμός και των δύο. Διανομή των εγγράφων του πορτογαλικού Ιστού ανά περιοχή. 6
ΚΡΙΤΗΡΙΑ ΕΠΙΛΟΓΗΣ BLOGS Τα Blogs που περιγράφουν τη ζωή των πολιτών από τις διαφορετικές ηλικίες, τις κατηγορίες και τους πολιτισμούς αποτελούν μία εξαιρετικά πολύτιμη πηγή για την περιγραφή της εποχής μας. Στο πορτογαλικό Αρχείο Ιστού το 15,5% των εγγράφων ήταν Blogs. πρέπει να συμπεριλαμβάνονται. Φυσική τοποθεσία των διακομιστών του Ιστού Μόνο το 39,4% των IP διευθύνσεων του πορτογαλικού Αρχείου Ιστού άνηκαν στην Πορτογαλία. Δεν είναι υποχρεωτικό το εθνικό Αρχείο Ιστού να αποτελείται μόνο από έγγραφα που φιλοξενούνται σε διακομιστές που η φυσική τους παρουσία βρίσκεται στην εκάστοτε χώρα. Επιλογή τύπων μέσων (media types) Οι δαπάνες και η πολυπλοκότητα της συντήρησης αυξάνονται ανάλογα με την ποικιλία των μέσων. Το πορτογαλικό Αρχείο Ιστού εμπλουτίζεται μόνο με σελίδες HTML, εικόνες JPEG και GIF και καλύπτει 95.2% του Εθνικού Ιστού. Διατήρηση εγγράφων με επιλογή συγκεκριμένων τύπων μέσων. 7
ΑΡΧΙΤΕΚΤΟΝΙΚΗ Ικανή να ακολουθήσει το ρυθμό της εξέλιξης του Ιστού και να υποστηρίξει τα ευδιάκριτα κριτήρια επιλογής καθώς και τις μεθόδους συλλογής. Τα μεταδεδομένα πρέπει να κρατηθούν για να εξασφαλίσουν τη σωστή ερμηνεία και τη συντήρηση των αρχειοθετημένων δεδομένων. ελαχιστοποίηση των διπλοτύπων μεταξύ των αρχειοθετημένων δεδομένων. Ο χώρος αποθήκευσης πρέπει να έχει δυνατότητες επέκτασης για να μπορεί να υποστηρίξει την πιθανή, μελλοντική αύξηση της συλλογής και τις διάφορες πολιτικές αποθήκευσης σύμφωνα με τα σχήματα των αρχειοθετημένων εγγράφων. Πρέπει να υπάρχουν επαρκή εργαλεία για να διαχειριστούν και να συντηρήσουν τα αρχειοθετημένα έγγραφα, καθώς και την εύκολη μετανάστευσή τους στις διαφορετικές τεχνολογικές πλατφόρμες. 8
Η ΑΡΧΙΤΕΚΤΟΝΙΚΗ ΤΟΥ TOMBA WEB ARCHIVE Αποθετήριο (Repository): αποθηκεύονται τα περιεχόμενα και τα αντίστοιχα μεταδεδομένα τους. Εδώ γίνεται η ελαχιστοποίηση των διπλοτύπων. Συλλέκτης (Gatherer): συλλέγει έγγραφα από τον Ιστό και τα εντάσσει στο Αρχείο. Αποτελείται από τον Loader και τον Crawler. O Loader σχεδιάστηκε για να υποστηρίξει την παράδοση του περιεχομένου του Ιστού από τους εκδότες και να παραλαμβάνει συλλογές εγγράφων. Ο Crawler επανειλημμένα σαρώνει το Διαδίκτυο για πληροφορίες, κατεβάζει ιστοσελίδες και ακολουθεί τα URLs. Συντηρητής (Preserver): παρέχει τα εργαλεία για τη διαχείριση και συντήρηση των αρχειοθετημένων δεδομένων. Ερευνητής (Searcher): επιτρέπει στους χρήστες να έχουν πρόσβαση εύκολα στα αρχειοθετημένα δεδομένα. 9
ΜΕΘΟΔΟΙ ΠΡΟΣΒΑΣΗΣ ΣΤΑ ΑΡΧΕΙΟΘΕΤΗΜΕΝΑ ΔΕΔΟΜΕΝΑ Αναζήτηση όρου (Term Search), αναζητά τα έγγραφα που περιέχουν τον όρο που δόθηκε. –πρόβλημα ευρετηρίασης. Ιστορία του URL (URL History), ανακτά τις εκδοχές ενός εγγράφου με βάση το URL. –εφήμερα έγγραφα άρα λίγες εκδοχές. Πλοήγηση (Navigation), επιτρέπει την φυλλομέτρηση του αρχείου. –δυσκολία εύρεσης πληροφορίας πηγαίνοντας από σύνδεσμο σε σύνδεσμο μέσα στα εκατομμύρια έγγραφα. ΛΥΣΗ: ο συνδυασμός και των τριών μεθόδων πρόσβασης. 10
ΕΛΛΗΝΙΚΟ ΑΡΧΕΙΟ ΙΣΤΟΥ Δημιουργήθηκε το 2003, μέσω ενός crawl συγκεντρώθηκαν URLs. Κριτήρια επιλογής: -σελίδες που άνηκαν σε.gr domains -αλλά και σελίδες γραμμένες στην ελληνική γλώσσα -και σελίδες με «ελληνικό περιεχόμενο» (που περιέχουν λέξεις όπως Hellas, Greek, κ.τ.λ.). Σελίδες γραμμένες στην αγγλική μεταφράστηκαν. Έγινε ταξινόμηση του περιεχομένου σε θεματικές συστάδες (clustres). Υποστήριξη πολλών τύπων μορφοτύπων π.χ..html,.doc,.pdf. κ.τ.λ. Μελλοντικές έρευνες στο θέμα της αρχειοθέτησης του ελληνικού Ιστού προσανατολίζονται στην εφαρμογή πιο εξελιγμένων τεχνικών clustering για να καταστεί δυνατή η κατηγοριοποίηση όλων των τεκμηρίων που εμπεριέχονται στο αρχείο, στη δημιουργία μιας μηχανής αναζήτησης του αρχείου, ενώ ακόμη προβλέπεται μετέπειτα να χρησιμοποιηθεί ένας crawler που θα επισκέπτεται περιοδικά τις ιστοσελίδες για να εντοπίζει και να αποθηκεύει τις διαφορετικές εκδοχές τους. 11
ΔΙΕΘΝΕΙΣ ΠΡΩΤΟΒΟΥΛΙΕΣ Εθνική βιβλιοθήκη της Αυστραλίας- PANDAS. Βρετανική βιβλιοθήκη- PANDAS. Βιβλιοθήκη του Κογκρέσου- MINERVA Web Archiving. Eθνική βιβλιοθήκη της Νορβηγίας- Paradigma. Στη Δανία και Γαλλία υποχρεωτική κατάθεση του περιεχομένου του ιστού. NEDLIB ( ). Εθνικές βιβλιοθήκες της Φινλανδίας, της Ισλανδίας, της Δανίας, της Νορβηγίας και της Σουηδίας- Nordic Web Archive (NWA). 12
ΣΥΜΠΕΡΑΣΜΑΤΑ Προτείνεται: Ο συνδυασμός των κριτηρίων επιλογής. Τα blogs να συμπεριλαμβάνονται στα εθνικά Αρχεία Ιστού. Καθώς και τα έγγραφα που φιλοξενούνται σε τοποθεσίες εκτώς του εθνικού Ιστού. Αρχειοθέτηση βάση συγκεκριμένων τύπων μέσων π.χ. (HTML, GIF και JPEG). Συνδυαστική χρήση των μεθόδων πρόσβασης. Πρόταση για το μέλλον: η βελτίωση της διεπαφής χρήστη. 13
ΠΡΟΒΛΗΜΑΤΙΣΜΟΙ Η νομοθεσία πνευματικών δικαιωμάτων που απαιτεί την έγκριση από τους συντάκτες των εγγράφων προκειμένου αυτά να συμπεριληφθούν στο Αρχείο Ιστού. Τεράστιος αριθμός σελίδων συλλέγεται, αποθηκεύεται, επεξεργάζεται και αναδημοσιεύεται. Το να ζητηθεί η άδεια του δημιουργού για κάθε ένα αρχείο ξεχωριστά είναι μάλλον ακατόρθωτο. Σελίδες με προσβλητικό, παράνομο, πορνογραφικό κ.τ.λ. περιεχόμενο πρέπει να συμπεριλαμβάνονται ή όχι; (προσωπική γνώμη ναι.) ποιοι θα μπορούν να έχουν πρόσβαση στο αρχείο, μέχρι ποιο βάθος (π.χ. ανήλικοι και πορνογραφικό υλικό) και ποιοι θα καθορίζουν κάτι τέτοιο. Όπως και να έχει η ανάπτυξη ενός Εθνικού Αρχείου Ιστού κρίνεται αναγκαία για την διατήρηση της ψηφιακής πολιτιστικής κληρονομιάς της κάθε χώρας. 14
ΕΥΧΑΡΙΣΤΩ 15