Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας Διοίκηση και Οργάνωση Βιβλιοθηκών με έμφαση στις νέες Τεχνολογίες της Πληροφορίας Ηλεκτρονική Δημοσίευση Διδάσκοντες: Σ. Καπιδάκης, Μ. Γεργατσούλης Θέμα: Αρχειοθέτηση του Γαλλικού Παγκόσμιου Ιστού: αξιολόγηση του αυτόματου υπολογισμού της σημαντικότητας των δικτυακών τόπων για την ανάπτυξη ευπροσάρμοστων crawlers Φοιτήτρια: Θεοδώρα Τσώλη
Διάγραμμα παρουσίασης Αρχειοθέτηση του Παγκόσμιου Ιστού: –Σκοπός –Προβλήματα –Προσεγγίσεις για την δημιουργία του αρχείου Η αρχειοθέτηση του γαλλικού παγκόσμιου Ιστού Έλεγχος της εκτίμησης της σημαντικότητας ενός δικτυακού τόπου με βάση την παράμετρο της συνδεσμολογίας (linking parameter)
Αρχειοθέτηση του Παγκόσμιου Ιστού: σκοπός, προβλήματα και προσεγγίσεις Το Διαδίκτυο αποτελεί: –Καθολικό επικοινωνιακό μέσο –Αναντικατάστατο επιστημονικό εργαλείο –«Χώρο» διαμόρφωσης της πολιτιστικής ιστορίας και κληρονομιάς της σύγχρονης κοινωνίας Τα ψηφιακά δημοσιεύματα πρέπει να αποτελέσουν αντικείμενο διατήρησης: αρχειοθέτηση του Ιστού
Αρχειοθέτηση του Παγκόσμιου Ιστού: σκοπός Ο στόχος ενός αρχείου του Ιστού: –«να δώσει στις μελλοντικές γενεές ένα αντιπροσωπευτικό αρχείο της πολιτισμικής παραγωγής μιας συγκεκριμένης περιόδου της ιστορίας του Διαδικτύου» (JISC). Οι φορείς που έχουν αναλάβει δράση σε αυτή την κατεύθυνση είναι οι Εθνικές Βιβλιοθήκες
Αρχειοθέτηση του Παγκόσμιου Ιστού: προβλήματα Τα προβλήματα της αρχειοθέτησης του Ιστού είναι: –Οργανωτικά: συνεργασία αλληλοεξαρτώμενων παραγόντων, επιλογή περιεχομένου και σελίδων προς αρχειοθέτηση και διατήρηση, κ.ά. –Νομικά: διαχείριση πνευματικών δικαιωμάτων, προστασίας προσωπικών δεδομένων, έλεγχος παράνομου περιεχομένου, διατήρησης ακεραιότητας, κ.ά. –Τεχνολογικά: τεχνικές συλλογής περιεχομένου, έλλειψη προτύπων διατήρησης περιεχομένου και μεταδεδομένων, διάρκεια ζωής μέσων αποθήκευσης, τεχνολογική απαξίωση υλικού-λογισμικού, μέθοδοι διατήρησης, κ.ά.
Αρχειοθέτηση του Παγκόσμιου Ιστού: προσεγγίσεις1/3 Οι προσεγγίσεις για τη δημιουργία του αρχείου του Ιστού είναι: Αυτόματη συγκομιδή ή αυτόματη επιλογή περιεχομένου (automatic harvesting) –Χρησιμοποιούνται crawlers με στόχο την αρχειοθέτηση όσο το δυνατό μεγαλύτερου τμήματος του Ιστού – Πλεονεκτήματα : συμφωνία με τη λογική της νομικής κατάθεσης, πρόνοια για το μέλλον, αποφυγή διλημμάτων, τεχνική εξέλιξη – Μειονεκτήματα : δεν μπορεί να αρχειοθετηθεί ο αθέατος ιστός, ο χρόνος που απαιτείται ανάμεσα στις ερπύσεις είναι μεγάλος, παραβλέπεται η ποιότητα Παραδείγματα: –Internet Archive –Kulturarw3 Project – The Royal Library of Sweden
Αρχειοθέτηση του Παγκόσμιου Ιστού: προσεγγίσεις2/3 Επιλεκτική προσέγγιση (selective approach) –Η επιλογή γίνεται από ανθρώπους –Η επιλογή γίνεται με ποιοτικά κριτήρια –Η επιλογή είναι εστιασμένη σε κυβερνητικές πηγές πληροφόρησης και εθνικά δημοσιεύματα –Καθορίζεται η συχνότητα αρχειοθέτησης Όμως: –Είναι δύσκολο να συλλεχθεί υλικό αντιπροσωπευτικό του Ιστού και όχι μόνο αρχείου κειμένου Παραδείγματα: –PANDORA – National Library of Australia –MINERVA – Library of Congress
Αρχειοθέτηση του Παγκόσμιου Ιστού: προσεγγίσεις3/3 Συνδυαστική προσέγγιση (combined approach ) –Προτείνεται από την Biblioteque National de France (BnF) –Συνδυάζει στοιχεία από τις προηγούμενες προσεγγίσεις και από τη λειτουργία των μηχανών αναζήτησης όπως το Google αποδίδοντας βάρη στον αριθμό των συνδέσμων που δέχονται οι σελίδες. –Πλεονεκτήματα: Εστίαση στους πόρους που έχουν υψηλή βαθμολογία αναφορικά με τον αριθμό των συνδέσμων που δέχονται Η μηχανή αναζήτησης ελέγχει πρώτα τους πιο σημαντικούς πόρους και διατηρεί και εκείνους που υπάρχουν στον αθέατο Ιστό για χειροκίνητο έλεγχο
Η αρχειοθέτηση του γαλλικού Παγκόσμιου Ιστού Γενικά προβλήματα: –Ο αριθμός των παροχέων περιεχομένου –Η ποσότητα του περιεχομένου –Η ποιότητα –Η σχέση με τους εκδότες –Η ενημέρωση –Η περίμετρος
Η δημιουργία του αρχείου Η συνδυαστική προσέγγιση της BnF συνοψίζεται στα εξής: –Είναι απαραίτητο να χρησιμοποιηθούν crawlers για ταχύτερη συλλογή περιεχομένου. –Τα εργαλεία πρόσβασης και συγκομιδής πρέπει να είναι αυτοματοποιημένα. –Επιπλέον χειρωνακτική εργασία (επιλογή και συγκέντρωση υλικού) είναι απαραίτητη για το υλικό υψηλής ποιότητας που δεν μπορούν να ανακτήσουν οι crawlers. –Ανάπτυξη εργαλείων εντοπισμού δικτυακών τόπων του αθέατου Ιστού (deep web) και αξιολόγηση της σχετικότητας τους από ειδικούς. –Άρα: Συνδυασμός αυτόματης και χειροκίνητης συλλογής περιεχομένου είναι απαραίτητος.
Η δημιουργία του αρχείου: η λειτουργία του crawler1/2 Ο στόχος είναι : –κάποιοι δικτυακοί τόποι να αρχειοθετούνται πολύ συχνά και επακριβώς, –να αρχειοθετείται ένα εκτεταμένο τμήμα του γαλλικού Ιστού, –να είναι δυνατή η αρχειοθέτηση με περιορισμένους πόρους. Θέματα: 1. Ορισμός περιμέτρου, όπου λαμβάνονται υπόψη: Η γαλλική γλώσσα Το όνομα domain Η διεύθυνση δικτυακού τόπου 2. Συνδεσμολογία
Η δημιουργία του αρχείου η λειτουργία του crawler2/2 Το γενικό πλαίσιο δημιουργίας και συντήρησης ενός αρχείου του Ιστού που προτείνεται από την BnF βασίζεται: 1- στη μέτρηση του ρυθμού αλλαγής των σελίδων και δικτυακών τόπων. 2- στον υπολογισμό της σημαντικότητας των σελίδων.
1-Η αξιολόγηση της δυναμικότητας των σελίδων-ρυθμός αλλαγής Στην BnF χρησιμοποιείται μια συνάρτηση κόστους (cost function) για κάθε σελίδα που αντιπροσωπεύει ένα είδος ποινής για το χρόνο που η σελίδα παραμένει στάσιμη (χωρίς μεταβολές). Σε αυτή τη συνάρτηση λαμβάνονται υπόψη τα παρακάτω: –δεν θα πρέπει να ξοδεύονται πόροι για τον έλεγχο ασήμαντων σελίδων –δεν θα πρέπει να ξοδεύονται πόροι για τον έλεγχο σελίδων που αλλάζουν σπάνια ή ποτέ. –δεν θα πρέπει να ξοδεύονται πόροι για να ανανεώνονται σελίδες που έχουν πολύ μεγάλη συχνότητα αλλαγής
2-Η σημαντικότητα του δικτυακού τόπου Η έννοια της σημαντικότητας (importance) χρησιμοποιείται με επιτυχία από τις μηχανές αναζήτησης (Google). Σημαίνει ότι μια σελίδα είναι σημαντική αν αναφέρονται σε αυτή (δηλαδή παραπέμπουν με σύνδεσμο) άλλες σημαντικές σελίδες (π.χ. η ιστοσελίδα του Μουσείου του Λούβρου). Ο ευπροσάρμοστος crawler εκτός από την εσωτερική δυναμική ενός δικτυακού τόπου (ρυθμός αλλαγής) πρέπει να μπορεί να λαμβάνει υπόψη του και τη σχετική σημαντικότητα κάθε δικτυακού τόπου. Αυτό γίνεται προκειμένου ο crawler να μπορεί να εστιάσει σε συγκεκριμένο τμήμα του Ιστού που είναι απαραίτητο ή ενδιαφέρον για την αρχειοθέτηση.
Ο υπολογισμός της σημαντικότητας Ο υπολογισμός της σημαντικότητας Βασίζεται σε: – πληροφορίες για την συνδεσμολογία του (linking information) αν η δημοσίευση στον Ιστό δεν έχει αυτή καθ’ αυτή ιδιαίτερη σημασία θα πρέπει η συνδεσμολογία του Ιστού να χρησιμοποιηθεί ώστε να εστιάσουμε το ενδιαφέρον μας στα ευρήματα εκείνα που είναι περισσότερο διασυνδεδεμένα. – αξιολόγηση του περιεχομένου του μέσω γλωσσολογικής ανάλυσης (linguistic information ) Οι ερευνητές της BnF ανέπτυξαν συναρτήσεις για τον αυτόματο υπολογισμό γλωσσολογικών δεδομένων των σελίδων που θα λειτουργήσουν ως κριτήρια ρύθμισης ή προσαρμογής των crawlers. Αυτές οι συναρτήσεις είναι: Η συχνότητα χρήσης σπανίως χρησιμοποιούμενων λέξεων Η βαρύτητα της ύπαρξης κειμένου
Έλεγχος της εκτίμησης της σημαντικότητας ενός δικτυακού τόπου με βάση την παράμετρο της συνδεσμολογίας Το πείραμα έγινε το χειμώνα του 2002 από την BnF με στόχο να αξιολογήσει κατά πόσο η εστίαση του crawler με βάση την χρήση των αυτόματων μεθόδων υπολογισμού της σημαντικότητας (που είδαμε παραπάνω) είναι επιτυχημένη αν συγκριθεί με την αξιολόγηση δικτυακών τόπων που κάνουν επαγγελματίες βιβλιοθηκονόμοι. Συμμετείχαν 8 έμπειροι βιβλιοθηκονόμοι της BnF που κλήθηκαν να αξιολογήσουν τη σημαντικότητα ενός δείγματος δικτυακών τόπων που είχαν καταταχθεί σύμφωνα με τον αλγόριθμό Xyleme και προέρχονταν από μια έρπυση που έγινε το φθινόπωρο του Το δείγμα ήταν 236 δικτυακοί τόποι (έπειτα από έλεγχο).
Το πείραμα της αξιολόγησης του crawler 1/6 Οι βιβλιοθηκονόμοι κλήθηκαν να αξιολογήσουν τους ίδιους δικτυακούς τόπους και να τους κατατάξουν σε 4 κατηγορίες ανάλογα με το κατά πόσο πίστευαν ότι έπρεπε να συμπεριληφθούν στο αρχείο.
Το πείραμα της αξιολόγησης του crawler 2/6 Για κάθε επίπεδο αυτόματης κατάταξης (παράμετρος συνδεσμολογίας) και κάθε αντίστοιχο επίπεδο ανθρώπινης αξιολόγησης σημειώνεται ο αριθμός των δικτυακών τόπων που βρέθηκε. Τα λευκά τμήματα δείχνουν που οι δύο εκτιμήσεις συσχετίζονται ενώ τα γκρίζα που διαφέρουν.
Το πείραμα της αξιολόγησης του crawler 3/6 Τα αποτελέσματα έδειξαν ότι στο 75% των περιπτώσεων η παράμετρος της συνδεσμολογίας (linking parameter) συμφωνεί με τις επιλογές των βιβλιοθηκονόμων. Αναφορικά με τον αποκλεισμό δικτυακών τόπων η συσχέτιση των δύο αξιολογήσεων βρίσκεται στο 60%.
Το πείραμα της αξιολόγησης του crawler 4/6 Θα δούμε τώρα το είδος των δικτυακών τόπων για τους οποίους υπήρχε η μεγαλύτερη απόκλιση. –4η βαθμίδα: Όλοι έχουν παράμετρο συνδεσμολογίας πάνω από 90 πράγμα που σημαίνει ότι η επιλογή των πιο σημαντικών τόπων με βάση αυτή την παράμετρο δεν παραλείπει σημαντικούς τόπους. –3η βαθμίδα: 4 δικτυακοί τόπου έχουν παράμετρο συνδεσμολογίας κάτω από το 70 (μικρή σχετικότητα)
Το πείραμα της αξιολόγησης του crawler 5/6 –Ερευνητικά εργαστήρια που κρίθηκαν θετικά από τους βιβλιοθηκονόμους και αρνητικά από τον αυτόματο υπολογισμό της σημαντικότητας –Σελίδες υπηρεσιών (πρόγνωση καιρού και άλλες σχετικές πληροφορίες, δωμάτια συζητήσεων, σελίδες πανεπιστημίων γενικής πληροφόρησης
Το πείραμα της αξιολόγησης του crawler 6/6
Συμπεράσματα Γενικά συμπεράσματα –η παράμετρος της συνδεσμολογίας για τη μέτρηση της σημαντικότητας ενός δικτυακού τόπου είναι ένα ικανοποιητικό στοιχείο για την εστίαση της έρπυσης στη διαδικασία εξεύρεσης και ανανέωσης του περιεχομένου ενός αρχείου του Ιστού. –είναι πολύ σημαντικά ζητήματα αποσαφήνισης όρων όπως δικτυακός «τόπος» και «σημαντικότητα» που θα επιτρέψουν καλύτερη κατανόηση του Ιστού. –Οι γενικοί στόχοι που τίθενται είναι να εφαρμοστούν αυτές οι αυτόματες τεχνικές σε πολύ μεγάλες συλλογές καθώς και στην ταξινόμηση και ομαδοποίηση (clustering) των δικτυακών τόπων.
Η κατάσταση στην Ελλάδα Δεν υπάρχει προς το παρόν πρόγραμμα αρχειοθέτησης του ελληνικού Ιστού. Υπάρχει όμως η «η υποχρέωση κατάθεσης [που] αφορά […] τις οπτικοακουστικές και τις ηλεκτρονικές εκδόσεις σε φυσική μορφή, καθώς και τις ηλεκτρονικές εκδόσεις σε μορφή προσβάσιμη μέσω του διαδικτύου, σε ένα αντίτυπο» (Ν. 3149/03). Αν επιλεγεί μια συνδυαστική προσέγγιση θα απαιτηθεί –Εμπεριστατωμένη έρευνα των διαθέσιμων εργαλείων αναζήτησης (τεχνική υποδομή) –μια ισχυρή στελέχωση με εξειδικευμένο προσωπικό που θα είναι και βιβλιοθηκονόμοι και τεχνικοί της πληροφορικής. Για την BnF έχει μεγάλη σημασία η επιλογή του βιβλιοθηκονόμου που βασίζεται στο απόθεμα της εμπειρίας του αφενός από την εργασία σε αρχεία και την εφαρμογή της κατά νόμο κατάθεσης και αφετέρου από την εξοικείωση με το Διαδίκτυο και τα κριτήρια αξιολόγησης που έχει αναπτύξει για αυτό.
Βιβλιογραφία 1/2 Abiteboul, S., et al. (2002). A first experience in archiving the French Web. Proceedings of the 6th European Conference on Research and Advanced Technology for Digital Libraries, September 16-18, 2002, LNCS 2458, pp Διαθέσιμο στη διεύθυνση: archivingECDL2002.pdf (Πρόσβαση στις 15/4/2004). Abiteboul, S., Preda, M., Cobena, G. (2001). Computing web page importance without storing the graph of the web (extended abstract). IEEE - CS Data Engineering, vol. 25. Διαθέσιμο στη διεύθυνση: rocq..inria.fr/~cobena/Publications/pagerank_shortIEEECS.pdf (Πρόσβαση στις 15/4/2004). Arvidson, A., Persson, K., Mannerheim, J. (2000). The Kulturarw3 Project – The Royal Swedish Web Archiw3e – An example of “complete” collection of web pages. Proceedings of the 66th IFLA Council and General Conference, Jerusale, August. Διαθέσιμο στο: (Πρόσβαση στις 15/4/2004). Beagrie, N., Pothen, P. (2002). Web archiving: Managing and archiving online documents and records. Ariadne, vol. 32. Διαθέσιμο στη διεύθυνση: (Πρόσβαση στις 24/4/2004). Charlesworth, Andrew (2003). Legal issues relating to the archiving of Internet resources in the UK, EU, USA and Australia: a study undertaken for the JISC and Wellcome Trust. Version 1.0 – 25 February Διαθέσιμο στη διεύθυνση: (Πρόσβαση στις 25/5/2004). Denmark’s Electronic Research Library (2001). Proceedings from the conference: “Preserving the present for the future: Strategies for the Internet”, The Royal Library, Copenhagen June 2001, Copenhagen. Διαθέσιμο στη διεύθυνση: (Πρόσβαση στις 23/4/2004). Day, Michael (2003). A survey of Web preservation initiatives [power point presentation]. 7th European Conference on Research and Advanced Technology for Digital Libraries, Trondheim, Norway, August Διαθέσιμο στη διεύθυνση: ecdl2003-day/day-slides.ppt (Πρόσβαση στις 25/4/2004)
Βιβλιογραφία 2/2 ECDL th European Conference on Research and Advanced Technology for Digital Libraries, September , Διαθέσιμο στη διεύθυνση: (Πρόσβαση στις 21/4/2004) Fontaine, R.L. (2001). A delta format for XML: identifying changes in XML files and representing the changes in XML. In XML Europe 2001, Berlin, Germany (21-25 May 2001). Διαθέσιμο στη διεύθυνση: (Πρόσβαση στις 24/4/2004) Lyman, P., Varian, R.. (2003, October 27). How much information 2003? Διαθέσιμο στη διεύθυνση: (Πρόσβαση στις 21/4/204) Masanes, Julien (2002). Archiving the web: experiments at the BnF [power point presentation]. Διαθέσιμο στη διεύθυνση: presentations/pdf/Masanes.pdf (Πρόσβαση στις 24/4/2004) Masanes, Julien (2002). Towards continuous web archiving : first results and an agenda for the future. D-Lib Magazine, vol. 8, no. 12. Διαθέσιμο στη διεύθυνση: (Πρόσβαση στις 17/3/2004). Masanes, Julien (2001). The BnF’s project for web archiving. In What’s next for Digital Deposit Libraries? ECDL Workshop, Mignet, L. et al. (2000). Acquiring XML pages for a WebHouse. In Conference National des Basses de Donnees Avancees, Blois, France, Διαθέσιμο στη διεύθυνση: (Πρόσβαση στις 24/4/2004) Muir, Adrienne (2001). Legal deposit and preservation of digital publications: a review of research and development activity. Journal of Documentation, vol. 57, no. 5, pp
Ευχαριστώ για την προσοχή σας !!!