Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Design and Selection Criteria for a National Web Archive ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ επιμέλεια ΡΑΜΜΑ ΧΑΡΙΚΛΕΙΑ ΙΟΥΝΙΟΣ 2007 Ιόνιο Πανεπιστήμιο.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Design and Selection Criteria for a National Web Archive ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ επιμέλεια ΡΑΜΜΑ ΧΑΡΙΚΛΕΙΑ ΙΟΥΝΙΟΣ 2007 Ιόνιο Πανεπιστήμιο."— Μεταγράφημα παρουσίασης:

1 Design and Selection Criteria for a National Web Archive ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ επιμέλεια ΡΑΜΜΑ ΧΑΡΙΚΛΕΙΑ ΙΟΥΝΙΟΣ 2007 Ιόνιο Πανεπιστήμιο Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας

2 Εισαγωγικά Αρχειοθέτηση του Παγκόσμιου Ιστού Αρχειοθέτηση του Παγκόσμιου Ιστού Λόγοι που την υπαγορεύουν Λόγοι που την υπαγορεύουν Ο μέσος όρος ζωής μιας ιστοσελίδας είναι (περίπου) 75 μέρες Ο μέσος όρος ζωής μιας ιστοσελίδας είναι (περίπου) 75 μέρες Ευμετάβλητος χαρακτήρας του ψηφιακού υλικού Ευμετάβλητος χαρακτήρας του ψηφιακού υλικού Η ολοένα αυξανόμενη παραγωγή του, χωρίς συνήθως, να υπάρχει αντίστοιχα, η συμβατική του μορφή Η ολοένα αυξανόμενη παραγωγή του, χωρίς συνήθως, να υπάρχει αντίστοιχα, η συμβατική του μορφή Αποτελεί μέρος της σύγχρονης ιστορίας Αποτελεί μέρος της σύγχρονης ιστορίας Πηγή πληροφορίας για τη σημερινή εποχή Πηγή πληροφορίας για τη σημερινή εποχή Κίνδυνος «ψηφιακής αμνησίας» Κίνδυνος «ψηφιακής αμνησίας»

3 Εισαγωγικά Εθνικές Βιβλιοθήκες & Συμβατικό περιβάλλον δημοσίευσης Εθνικές Βιβλιοθήκες & Συμβατικό περιβάλλον δημοσίευσης Συγκέντρωση, οργάνωση, διατήρηση – σε κάθε δυνατή μορφή – γραπτών προϊόντων επιστήμης και πολιτισμού, που συνδέονται με τη συγκεκριμένη χώρα και για όσο περισσότερο χρόνο είναι αυτό δυνατό Εθνικές βιβλιοθήκες & Παγκόσμιος Ιστός Εθνικές βιβλιοθήκες & Παγκόσμιος Ιστός Επέκταση του ρόλου τους στο ψηφιακό περιβάλλον Ποια κριτήρια μπορούν να χρησιμοποιηθούν για να προσδιοριστεί ένα Εθνικό Αρχείο Ιστού (National Web Archive); Ποια κριτήρια μπορούν να χρησιμοποιηθούν για να προσδιοριστεί ένα Εθνικό Αρχείο Ιστού (National Web Archive);

4 Επιλογή  Τεχνικές υλοποίησης (Προσεγγίσεις) Επιλεκτική προσέγγιση Επιλεκτική προσέγγιση Μειώνει το μέγεθος του αρχείου Εθελοντική Παράδοση περιεχομένου από τους εκδότες Εθελοντική Παράδοση περιεχομένου από τους εκδότες Δεν αποτελεί κίνητρο για τους εκδότες διότι προϋποθέτει επιπλέον κόστος χωρίς άμεσο κέρδος Κατά νόμο κατάθεση Κατά νόμο κατάθεση Δύσκολο να επιβληθεί νόμος για την κατάθεση ψηφιακού περιεχομένου που φιλοξενείται σε ξένους διακομιστές (εκτός δηλαδή των ορίων δικαιοδοσίας μιας χώρας) Αυτόματη συγκομιδή Αυτόματη συγκομιδή Ένα αρχείο μπορεί να εμπλουτιστεί με περιεχόμενο που περιοδικά σαρώνεται από τον Ιστό της Χώρας. Ωστόσο το να προσδιοριστούν τα όρια ενός εθνικού αρχείου, δεν είναι απλό και οι πολιτικές επιλογής είναι αμφιλεγόμενες

5 Σκοπός της εργασίας Η αξιολόγηση των στρατηγικών που χρησιμοποιούνται για την επιλογή του περιεχομένου που θα καταχωρηθεί στο αρχείο του Ιστού Η αξιολόγηση των στρατηγικών που χρησιμοποιούνται για την επιλογή του περιεχομένου που θα καταχωρηθεί στο αρχείο του Ιστού Παρουσιάζεται η αρχιτεκτονική ενός συστήματος αρχειοθέτησης (Tomba) Παρουσιάζεται η αρχιτεκτονική ενός συστήματος αρχειοθέτησης (Tomba)

6 Μελέτη Περίπτωσης Εθνικό Αρχείο Ιστού (Πορτογαλία) Εθνικό Αρχείο Ιστού (Πορτογαλία) Έγγραφα που φιλοξενούνται σε τοποθεσίες Ιστού, όπου ανώταση περιοχή επιπέδου (domain) είναι.PT Έγγραφα που φιλοξενούνται σε τοποθεσίες Ιστού, όπου ανώταση περιοχή επιπέδου (domain) είναι.PT Έγγραφα που είναι γραμμένα στην Πορτογαλική γλώσσα και φιλοξενούνται σε άλλες περιοχές, οι οποίες διασυνδέονται μέσω του.PT Έγγραφα που είναι γραμμένα στην Πορτογαλική γλώσσα και φιλοξενούνται σε άλλες περιοχές, οι οποίες διασυνδέονται μέσω του.PT Χρησιμοποιήθηκε ένα crawl 10εκατ. εγγράφων που σαρώθηκαν από τον πορτογαλικό Ιστό, ως βάση για να γίνει η σύγκριση των διαφόρων πολιτικών επιλογής Χρησιμοποιήθηκε ένα crawl 10εκατ. εγγράφων που σαρώθηκαν από τον πορτογαλικό Ιστό, ως βάση για να γίνει η σύγκριση των διαφόρων πολιτικών επιλογής

7 Country Code Top Level Domains (ccTLDs) Περιοχές Ανωτάτου Επιπέδου με Κωδικό Χώρας Περιοχές Ανωτάτου Επιπέδου (TLDs) Περιοχές Ανωτάτου Επιπέδου (TLDs)  Γενικές (generic) :.com,.net,.org  Κωδικοί χωρών (ccTLDs) :.pt,.gr,.fr

8 Αποκλεισμός Blogs «ένα τυπικό Blog γράφεται από ένα έφηβο κορίτσι που το χρησιμοποιεί 2 φορές το μήνα για να ενημερώσει τις φίλες και τις συμμαθήτριές της για το τι συμβαίνει στη ζωή της» «ένα τυπικό Blog γράφεται από ένα έφηβο κορίτσι που το χρησιμοποιεί 2 φορές το μήνα για να ενημερώσει τις φίλες και τις συμμαθήτριές της για το τι συμβαίνει στη ζωή της» Από την άλλη πλευρά, τα blogs είναι μία πολύτιμη πληροφοριακή πηγή για την περιγραφή της σημερινής εποχής Από την άλλη πλευρά, τα blogs είναι μία πολύτιμη πληροφοριακή πηγή για την περιγραφή της σημερινής εποχής Παρατηρήθηκε ότι το 15,5% των εγγράφων της βάσης θα είχε αποκλειστεί από ένα εθνικό αρχείο, εάν τα blogs δεν αρχειοθετούνταν Παρατηρήθηκε ότι το 15,5% των εγγράφων της βάσης θα είχε αποκλειστεί από ένα εθνικό αρχείο, εάν τα blogs δεν αρχειοθετούνταν Το 67% των blogs, φιλοξενούνταν στον.com domain και το 33% στον.PT domain Το 67% των blogs, φιλοξενούνταν στον.com domain και το 33% στον.PT domain

9 Φυσική τοποθεσία των Διακομιστών του Ιστού Μπορεί κανείς να υποθέσει ότι ο Ιστός της χώρας αποτελείται από έγγραφα που φιλοξενούνται σε διακομιστές που η φυσική τους παρουσία βρίσκεται στη χώρα Μπορεί κανείς να υποθέσει ότι ο Ιστός της χώρας αποτελείται από έγγραφα που φιλοξενούνται σε διακομιστές που η φυσική τους παρουσία βρίσκεται στη χώρα Παρατηρήθηκε ότι μόνο το 39,4% των ΙΡ διευθύνσεων του Πορτογαλικού Ιστού δόθηκαν στην Πορτογαλία. Παρατηρήθηκε ότι μόνο το 39,4% των ΙΡ διευθύνσεων του Πορτογαλικού Ιστού δόθηκαν στην Πορτογαλία.

10 Επιλογή media types H διατήρηση εγγράφων σε «ιδιοκτησιακά» μορφότυπα συνεπάγεται και τη διατήρηση των αντίστοιχων εργαλείων που τα «διαβάζουν» H διατήρηση εγγράφων σε «ιδιοκτησιακά» μορφότυπα συνεπάγεται και τη διατήρηση των αντίστοιχων εργαλείων που τα «διαβάζουν» Το κόστος και η πολυπλοκότητα της διατήρησης των εγγράφων αυξάνεται με την ποικιλία των τύπων μέσων (media types) που αρχειοθετούνται και μπορεί να γίνει αβάσταχτο Το κόστος και η πολυπλοκότητα της διατήρησης των εγγράφων αυξάνεται με την ποικιλία των τύπων μέσων (media types) που αρχειοθετούνται και μπορεί να γίνει αβάσταχτο καλύπτουν το 95,2% ενός εθνικού Ιστού ενός εθνικού Ιστού (jpeg, gif, html) (jpeg, gif, html)

11 Αγνόησε μηχανισμούς που αποκλείουν τα robots Robots Exclusion Protocol (REP) Robots Exclusion Protocol (REP)  robots.txt  meta-tag robots Τα αποτελέσματα δείχνουν ότι με το να αγνοηθούν οι μηχανισμοί αποκλεισμού δεν αυξάνεται σημαντικά η κάλυψη ενός crawl Τα αποτελέσματα δείχνουν ότι με το να αγνοηθούν οι μηχανισμοί αποκλεισμού δεν αυξάνεται σημαντικά η κάλυψη ενός crawl

12 Tomba Web Archive Αρχιτεκτονική του Συστήματος Αρχιτεκτονική του Συστήματος

13 Repository (Αποθετήριο) Το αποθετήριο αποτελείται από τον Catalog (Κατάλογο), που παρέχει δομημένη πρόσβαση στα μεταδεδομένα και από τους Volumes που προσφέρουν επεκτάσιμο αποθηκευτικό χώρο για το περιεχόμενο Το αποθετήριο αποτελείται από τον Catalog (Κατάλογο), που παρέχει δομημένη πρόσβαση στα μεταδεδομένα και από τους Volumes που προσφέρουν επεκτάσιμο αποθηκευτικό χώρο για το περιεχόμενοCatalog

14 Gatherer Gatherer Eντάσσει τα δεδομένα του Ιστού στο Αποθετήριο (Repository) Eντάσσει τα δεδομένα του Ιστού στο Αποθετήριο (Repository) Loader Loader Yποστηρίζει την παράδοση του περιεχομένου του Ιστού από τους εκδότες Crawler Crawler Σαρώνει το Διαδίκτυο για πληροφορίες, κατεβάζει ιστοσελίδες και ακολουθεί τα URLs Σαρώνει το Διαδίκτυο για πληροφορίες, κατεβάζει ιστοσελίδες και ακολουθεί τα URLs Breadth first crawl (Κατά πλάτος) και αναβάλλοντας το σάρωμα “εξωτερικών εγγράφων” είναι μια συμβιβαστική λύση Breadth first crawl (Κατά πλάτος) και αναβάλλοντας το σάρωμα “εξωτερικών εγγράφων” είναι μια συμβιβαστική λύση

15 Preserver Ο Replicator αντιγράφει τις πληροφορίες που υπάρχουν από το Volume μαζικά σε έναν mirror μετά από κάθε σάρωμα Ο Replicator αντιγράφει τις πληροφορίες που υπάρχουν από το Volume μαζικά σε έναν mirror μετά από κάθε σάρωμα Ο Dumper εξάγει τα αρχειοθετημένα δεδομένα σε ένα φάκελο Ο Dumper εξάγει τα αρχειοθετημένα δεδομένα σε ένα φάκελο χρησιμοποιώντας τρία εναλλακτικά μορφότυπα: χρησιμοποιώντας τρία εναλλακτικά μορφότυπα: 1) Warc 1) Warc 2) XML based format 2) XML based format 3) Textual format 3) Textual format Ο Converter διατρέχει τα έγγραφα που βρίσκονται στο Αποθετήριο και παράγει φασέτες (facets) Ο Converter διατρέχει τα έγγραφα που βρίσκονται στο Αποθετήριο και παράγει φασέτες (facets) Ο Manager επιτρέπει στον χρήστη να προσπελάσει και να τροποποιήσει την αρχειοθετημένη πληροφορία Ο Manager επιτρέπει στον χρήστη να προσπελάσει και να τροποποιήσει την αρχειοθετημένη πληροφορία

16 Searcher Τρεις μέθοδοι για την πρόσβαση στα αρχειοθετημένα δεδομένα Τρεις μέθοδοι για την πρόσβαση στα αρχειοθετημένα δεδομένα 1. Αναζήτηση όρου (Term Search) Aναζητεί έγγραφα, που περιέχουν τον όρο που δόθηκε αλλά κάποια έγγραφα μπορεί να μη βρεθούν γιατί το αντίστοιχο κείμενο δεν έχει ευρετηριαστεί σωστά 2. Πλοήγηση (Navigation) Επιτρέπει την φυλλομέτρηση του αρχείου με τη χρήση ενός web proxy ωστόσο, μπορεί να είναι δύσκολο να βρει κανείς την πληροφορία που θέλει, πηγαίνοντας από σύνδεσμο σε σύνδεσμο, ανάμεσα σε τόσα εκατομμύρια έγγραφα 3. URL History Υποβολή URL για να εμφανιστούν οι διαφορετικές εκδοχές ενός εγγράφου. Οι χρήστες μπορεί να μην γνωρίζουν ποιο URL πρέπει να υποβάλλουν για να βρουν τη ζητούμενη πληροφορία

17 Searcher (Public Interface)

18 Σχετικές Πρωτοβουλίες Η Εθνική Βιβλιοθήκη της Αυστραλίας (NLA) δημιούργησε το λογισμικό PANDAS για να αρχειοθετήσει τις online αυστραλιανές εκδόσεις Η Εθνική Βιβλιοθήκη της Αυστραλίας (NLA) δημιούργησε το λογισμικό PANDAS για να αρχειοθετήσει τις online αυστραλιανές εκδόσεις Το MINERVA Web Archiving Project δημιουργήθηκε από τη βιβλιοθήκη του Κογκρέσου και αρχειοθετεί συγκεκριμένες εκδόσεις διαθέσιμες στο Διαδίκτυο που σχετίζονται με σοβαρές υποθέσεις π.χ. εκλογές Το MINERVA Web Archiving Project δημιουργήθηκε από τη βιβλιοθήκη του Κογκρέσου και αρχειοθετεί συγκεκριμένες εκδόσεις διαθέσιμες στο Διαδίκτυο που σχετίζονται με σοβαρές υποθέσεις π.χ. εκλογές Η Εθνική Βιβλιοθήκη της Νορβηγίας πραγματοποίησε ένα πρόγραμμα διάρκειας τριών χρόνων που ονομάζεται Paradigma (2001-2004) για να βρει την τεχνολογία, τις μεθόδους για τη συλλογή και διατήρηση των ηλεκτρονικών εγγράφων Η Εθνική Βιβλιοθήκη της Νορβηγίας πραγματοποίησε ένα πρόγραμμα διάρκειας τριών χρόνων που ονομάζεται Paradigma (2001-2004) για να βρει την τεχνολογία, τις μεθόδους για τη συλλογή και διατήρηση των ηλεκτρονικών εγγράφων Η Εθνική βιβλιοθήκη της Αυστρίας μαζί με το Τμήμα Τεχνολογίας Λογισμικού του Τεχνικού Πανεπιστημίου της Βιέννης, ξεκίνησε το AOLA project (Austrian On-line Archive). Στόχος αυτού του προγράμματος είναι η δημιουργία ενός αρχείου σαρώντας περιοδικά τον Ιστό Η Εθνική βιβλιοθήκη της Αυστρίας μαζί με το Τμήμα Τεχνολογίας Λογισμικού του Τεχνικού Πανεπιστημίου της Βιέννης, ξεκίνησε το AOLA project (Austrian On-line Archive). Στόχος αυτού του προγράμματος είναι η δημιουργία ενός αρχείου σαρώντας περιοδικά τον Ιστό Οι εθνικές βιβλιοθήκες της Φιλανδίας, Ισλανδίας, Δανίας, Νορβηγίας και της Σουηδίας συμμετέχουν στο πρόγραμμα Nordic Web Archive (NWA) με σκοπό να δημιουργηθεί ένα σύνολο εργαλείων λογισμικού ανοιχτού-κώδικα που θα δίνει τη δυνατότητα αρχειοθέτησης και πρόσβασης στις συλλογές Ιστού Οι εθνικές βιβλιοθήκες της Φιλανδίας, Ισλανδίας, Δανίας, Νορβηγίας και της Σουηδίας συμμετέχουν στο πρόγραμμα Nordic Web Archive (NWA) με σκοπό να δημιουργηθεί ένα σύνολο εργαλείων λογισμικού ανοιχτού-κώδικα που θα δίνει τη δυνατότητα αρχειοθέτησης και πρόσβασης στις συλλογές Ιστού

19 Σχετικές Πρωτοβουλίες Ελληνικό Αρχείο Ιστού Ελληνικό Αρχείο Ιστού H πρώτη φάση αφορούσε τα κριτήρια βάσει των οποίων θα γινόταν ο εμπλουτισμός του αρχείου  Σεπτέμβριος 2003 (crawl 300.000 URIs)  Τα κριτήρια Domain name (.gr) Domain name (.gr) Ελληνική γλώσσα Ελληνική γλώσσα “Ελληνικό” περιεχόμενο (π.χ. Hellas, Greek, Greece) “Ελληνικό” περιεχόμενο (π.χ. Hellas, Greek, Greece) Η δεύτερη φάση επικεντρώθηκε στην εξαγωγή γνώσης (knowledge extraction) από το αρχείο και η ομαδοποίησή της σε συστάδες (clusters)

20 Συμπεράσματα Χρειάζεται να γίνει συνδυασμός κριτηρίων Χρειάζεται να γίνει συνδυασμός κριτηρίων Έγγραφα κάτω από τους ccTLDs ή που η φυσική τους παρουσία βρίσκεται στη χώρα αποκλείει ένα μεγάλο κομμάτι Έγγραφα κάτω από τους ccTLDs ή που η φυσική τους παρουσία βρίσκεται στη χώρα αποκλείει ένα μεγάλο κομμάτι Το κόστος και η πολυπλοκότητα της διατήρησης των εγγράφων αυξάνεται ανάλογα με τους τύπους μέσων που θα αρχειοθετηθούν Το κόστος και η πολυπλοκότητα της διατήρησης των εγγράφων αυξάνεται ανάλογα με τους τύπους μέσων που θα αρχειοθετηθούν Τρεις τύποι (.jpeg,.html,.gif) Τρεις τύποι (.jpeg,.html,.gif) Οι τρεις μέθοδοι πρόσβασης πρέπει να χρησιμοποιηθούν μαζί για να παρέχουν πρόσβαση στα αρχειοθετημένα δεδομένα Οι τρεις μέθοδοι πρόσβασης πρέπει να χρησιμοποιηθούν μαζί για να παρέχουν πρόσβαση στα αρχειοθετημένα δεδομένα

21 Προβληματισμοί Ποιο είναι το νομικό πλαίσιο βάσει του οποίου Εθνικά Αρχεία Ιστού έχουν δικαίωμα να αποθηκεύουν, να επεξεργάζονται, να αναπαράγουν κ.τ.λ. το υλικό που συλλέγεται? Ποιο είναι το νομικό πλαίσιο βάσει του οποίου Εθνικά Αρχεία Ιστού έχουν δικαίωμα να αποθηκεύουν, να επεξεργάζονται, να αναπαράγουν κ.τ.λ. το υλικό που συλλέγεται? Τίθεται ζήτημα συλλογής παράνομου, προσβλητικού, ακατάλληλου γενικότερα περιεχομένου και πως προστατεύεται ο αρχειονόμος ή οργανισμός σε τέτοιες περιπτώσεις? Τίθεται ζήτημα συλλογής παράνομου, προσβλητικού, ακατάλληλου γενικότερα περιεχομένου και πως προστατεύεται ο αρχειονόμος ή οργανισμός σε τέτοιες περιπτώσεις?

22 Ευχαριστώ για την προσοχή σας...


Κατέβασμα ppt "Design and Selection Criteria for a National Web Archive ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ επιμέλεια ΡΑΜΜΑ ΧΑΡΙΚΛΕΙΑ ΙΟΥΝΙΟΣ 2007 Ιόνιο Πανεπιστήμιο."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google