Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΠΣ «Υπηρεσίες Πληροφόρησης σε Ψηφιακό Πληροφόρησης » Web Archiving Μάθημα: Ηλεκτρονική Δημοσίευση Επιμέλεια: Γκουνή Άννα ΙΟΥΝΙΟΣ 2006.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΠΣ «Υπηρεσίες Πληροφόρησης σε Ψηφιακό Πληροφόρησης » Web Archiving Μάθημα: Ηλεκτρονική Δημοσίευση Επιμέλεια: Γκουνή Άννα ΙΟΥΝΙΟΣ 2006."— Μεταγράφημα παρουσίασης:

1 ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΠΣ «Υπηρεσίες Πληροφόρησης σε Ψηφιακό Πληροφόρησης » Web Archiving Μάθημα: Ηλεκτρονική Δημοσίευση Επιμέλεια: Γκουνή Άννα ΙΟΥΝΙΟΣ 2006 ΚΕΡΚΥΡΑ

2 ενότητες της εργασίας Μέθοδοι αρχειοθέτησης του Ιστού Μελέτες αρχειοθέτησης Διατήρηση Αρχειοθέτηση του ελληνικού Web

3 εισαγωγικά Η εμφάνιση του web ως πηγή πληροφοριών έχει δημιουργήσει ιδιαίτερες προκλήσεις για την αρχειοθέτηση των ψηφιακών υλικών. Δημιουργούνται ερωτήματα, τα οποία αφορούν: το συνεχώς αναπτυσσόμενο μέγεθος του Ιστού τη δυναμική και εφήμερη φύση του περιεχομένου του τον τρόπο με τον οποίο πραγματοποιείται η πρόσβαση, η αποθήκευση και η διατήρησή του μακροπρόθεσμα. Παρατηρούνται σημαντικές πρωτοβουλίες αρχειοθέτησης από εθνικές βιβλιοθήκες σε όλο τον κόσμο με σκοπό τη διατήρηση της κληρονομιάς του Ιστού της χώρας τους.

4 Γιατί συλλέγουμε και διατηρούμε τον Ιστό? Για τη διατήρηση της ενημερωτικής, πολιτιστικής και αποδεικτικής αξίας του WEB Ο Ιστός έχει γίνει ζωτικής σημασίας μέσα την παγκόσμια επικοινωνία και ένα σημαντικό μέσο. Η "ρευστή" φύση του Ιστού, εντούτοις, σημαίνει ότι οι σελίδες ή οι ολόκληρες περιοχές αλλάζουν συχνά ή εξαφανίζονται.

5 Μέθοδοι αρχειοθέτησης του Ιστού Η προσέγγιση ολόκληρης περιοχής (whole domain): περιλαμβάνει συλλογή ιστότοπων και on-line πηγών χρησιμοποιώντας την τεχνική της αυτόματης συγκομιδής (automatic harvesting). Οι crawlers του Ιστού συλλέγουν οτιδήποτε υπάρχει στο Διαδίκτυο ακολουθώντας τις συνδέσεις και φορτώνουν το περιεχόμενό τους σύμφωνα με τους κανόνες της συλλογής. Με αυτόν τον τρόπο συλλέγονται όλοι οι ιστότοποι με βάση τα κριτήρια που έχει θέσει ο υπεύθυνος οργανισμός, ή, κάποιο σχετικό ερευνητικό έργο. Σε αυτό το μοντέλο στηρίζονται:  Kulturarw3 (Cultural Heritage Cubed)Σουηδία  EVA Project Φιλανδία  US Internet Archive

6 Μέθοδοι αρχειοθέτησης του Ιστού  Επιλεκτική προσέγγιση (selective approach): στοχεύει στην αρχειοθέτηση καθορισμένου υλικού του Ιστού ή συγκεκριμένων τύπων πηγών με βάση ορισμένα κριτήρια. Η επιλογή μπορεί να βασιστεί στη σημασία ή την ποιότητα των πηγών, το θέμα τους ή το αντικείμενό τους, ή στη στοχοθέτηση ενός συνόλου σχετικών ιστότοπων. Σε αυτό το μοντέλο στηρίζεται:  (PANDORA archive- Australia).

7 Μέθοδοι αρχειοθέτησης του Ιστού  Θεματική προσέγγιση (thematic approach): περιλαμβάνει συλλογή και συντήρηση του περιεχομένου του Ιστού σχετικά με ένα θέμα ή ένα γεγονός.  Το project MINERVA της βιβλιοθήκης του Κογκρέσου έχει χρησιμοποιήσει τη θεματική προσέγγιση για την επιλογή των ηλεκτρονικών δημοσιεύσεων για την αρχειοθέτηση σαν μέρος Election 2002 και Winter Olympic Projects.

8 Μέθοδοι αρχειοθέτησης του Ιστού  Κατάθεση (deposit). Σε μερικές χώρες οι εκδότες καταθέτουν το on line υλικό βασισμένο σε νομικούς ή εθελοντικούς κώδικες κατάθεσης.  Ένα επιτυχημένο εθελοντικό σχέδιο για περιοδικά σε ηλεκτρονική μορφή εφαρμόζεται στην Ολλανδία μέσω συμφωνιών με τους εκδότες, ενώ στη Σουηδία η κατάθεση των στατικών και δυναμικών πηγών είναι μια νομοθετική απαίτηση.

9 Μέθοδοι αρχειοθέτησης του Ιστού  Συνδυαστική προσέγγιση (combined approach).  Ένας αυξανόμενος αριθμός προγραμμάτων αρχειοθέτησης Ιστού καταλήγει στο συμπέρασμα ότι κανένα πρότυπο αρχειοθέτησης δεν είναι ικανοποιητικό εξ ολοκλήρου για διατήρηση της on line εθνικής κληρονομιάς.  Χώρες όπως η Γαλλία και η Δανία έχουν διαπιστώσει ότι με την υιοθέτηση ενός συνδυασμού ολόκληρων, επιλεκτικών και θεματικών μεθόδων συλλογής, επιτυγχάνεται η βέλτιστη κάλυψη του υλικού.

10 ΜΕΛΕΤΕΣ ΑΡΧΕΙΟΘΕΤΗΣΗΣ  PANDORA (Αυστραλία) National Library of Australia αρχείο επιλεγμένων on line δημοσιεύσεων της Αυστραλίας που θεωρούνται εθνικής σημασίας και μακροπρόθεσμης ερευνητικής αξίας. Το σύστημα λειτουργεί πάνω στο πρότυπο της επιλογής, της συλλογής και της αποθήκευσης των πόρων Ιστού από την περιοχή της Αυστραλίας PANDAS (PANDORA Digital Archiving System)  με σκοπό να βοηθήσει στην αυτόματη συλλογή, περιγραφή και παροχή πρόσβασης στο αρχείο

11 ΜΕΛΕΤΕΣ ΑΡΧΕΙΟΘΕΤΗΣΗΣ  project Minerva (Mapping the Internet the Electronic Resources Virtual Archive) - Ηνωμένες Πολιτείες Βιβλιοθήκη του Κογκρέσου αρχειοθέτηση 35 επιλεγμένων sites Minerva έχει αναπτυχθεί σε ένα τρέχον θεματικό ψηφιακό πρόγραμμα αρχειοθέτησης, το οποίο εστιάζει στη συγκομιδή βασιζόμενο στο θέμα δημόσιου περιεχομένου του Ιστού Περισσότερα από sites έχουν αρχειοθετηθεί από το 2000

12 ΜΕΛΕΤΕΣ ΑΡΧΕΙΟΘΕΤΗΣΗΣ  Bibliotheque Nationale de France (BnF) – (Γαλλία) συνδυασμένης μεθοδολογίας Συνεχές crawl Κατάθεση των deep ιστοτόπων, που δεν μπορούν να συγκομιστούν on-line. Θεματική συλλογή βασισμένη στα γεγονότα εργαλείο εξαγωγής (DeepArc) αναπτύχθηκε για να επιτρέψει την απλή εξαγωγή της βάσης δεδομένων σε XML από τους παραγωγούς

13 ΜΕΛΕΤΕΣ ΑΡΧΕΙΟΘΕΤΗΣΗΣ  Electronic Publications Pilot Project (EPPP) - Εθνική Βιβλιοθήκη του Καναδά Σκοπός: να εξεταστεί το ζήτημα της κατάθεσης των on line ηλεκτρονικών δημοσιεύσεων  EVA Project (Φιλανδία) συλλέγει, καταχωρεί και αποθηκεύει τις δημοσιεύσεις του Διαδικτύου και εξασφαλίζει τη μακροπρόθεσμη διατήρησή τους βασισμένο στην προσέγγιση ολόκληρων περιοχών στη συλλογή.

14 ΜΕΛΕΤΕΣ ΑΡΧΕΙΟΘΕΤΗΣΗΣ Kulturarw3 (Σουηδία) – 1997 έχει ερευνήσει τις μεθόδους για τη συλλογή, τη συντήρηση και τη διάταξη πρόσβασης στα σουηδικά σε on line έγγραφα. συμμετέχει στην περιεκτική συλλογή των στατικών και δυναμικών πόρων Διαδικτύου από το σουηδικό Ιστό. η Σουηδία ήταν η πρώτη χώρα, η οποία στήριξε την έρευνά της στην τεχνολογία των μηχανών συγκομιδής για την αρχειοθέτηση του περιεχομένου του Ιστού.

15 ΠΡΩΤΟΒΟΥΛΙΕΣ ΣΥΝΕΡΓΑΣΙΩΝ International Internet Preservation Consortium Internet Archive NEDLIB Nordic Web Archive UK Web Archiving Consortium

16 ΔΙΑΤΗΡΗΣΗ ψηφιακή διατήρηση: είναι η διατήρηση του ψηφιακού υλικού για μακροπρόθεσμη χρήση με σκοπό την εξασφάλιση της συνεχούς δυνατότητας πρόσβασης σε αυτό. Ως ψηφιακό υλικό ορίζεται οποιοδήποτε «υλικό που υποβάλλεται σε επεξεργασία από έναν υπολογιστή και περιλαμβάνει τόσο αυτό που έχει ψηφιοποιηθεί, καθώς επίσης και εκείνο το οποίο έχει δημιουργηθεί αποκλειστικά ψηφιακά.

17 ΣΤΟΧΟΙ ΤΗΣ ΔΙΑΤΗΡΗΣΗΣ διατήρηση των bits. διατήρηση του περιεχομένου διατήρηση της εμπειρίας Η πολυπλοκότητα και το κόστος της διατήρησης αυξάνονται αισθητά σε αυτούς τους τρεις στόχους

18 ΣΤΡΑΤΗΓΙΚΕΣ ΨΗΦΙΑΚΗΣ ΔΙΑΤΗΡΗΣΗΣ Μέθοδοι που μπορούμε να χρησιμοποιήσουμε με σκοπό την αποφυγή ορισμένων προβλημάτων που επισύρει η ψηφιοποίηση των πληροφοριακών αντικειμένων, και την διατήρησή τους μακροπρόθεσμα.  Αναζωογόνηση (refreshing)  Μετανάστευση (migration)  Προσομοίωση (emulation)  Διατήρηση της τεχνολογίας (technology preservation)

19 ΑΡΧΕΙΟΘΕΤΗΣΗ ΤΟΥ ΕΛΛΗΝΙΚΟΥ WEB 1/3 Έλληνες ερευνητές αποφάσισαν να δημιουργήσουν ένα αρχείο του Ελληνικού Ιστού Χωρίζεται σε δύο μέρη:  Το πρώτο αφορά στη δημιουργία ενός αρχείου που να περιέχει όσο το δυνατόν περισσότερες ιστοσελίδες γίνεται  Το δεύτερο μέρος εστιάζεται στην εξαγωγή γνώσης απ’ αυτή τη συλλογή ιστοσελίδων.

20 ΑΡΧΕΙΟΘΕΤΗΣΗ ΤΟΥ ΕΛΛΗΝΙΚΟΥ WEB 2/3 Έχει υπολογισθεί ότι υπάρχουν περίπου ιστοσελίδες στο domain.gr Εξαιτίας του μεγάλου μεγέθους είναι απαραίτητη η κατηγοριοποίησή τους Τα κριτήρια που χρησιμοποιούνται για τον χαρακτηρισμό του Ιστού ως Ελληνικό δεν είναι απόλυτα Κύριο μέλημα είναι η αρχειοθέτηση οποιασδήποτε ελληνικής ιστοσελίδας και όχι μόνο εκείνων που είναι στην ελληνική γλώσσα ή στο.gr domain

21 ΑΡΧΕΙΟΘΕΤΗΣΗ ΤΟΥ ΕΛΛΗΝΙΚΟΥ WEB 3/3 Τα κύρια κριτήρια που χρησιμοποιούνται είναι: domain name ελληνική γλώσσα ελληνικό περιεχόμενο

22 Μεθοδολογία 1/2

23 Μεθοδολογία 2/2 O web crawler ψάχνει στον Ιστό χρησιμοποιώντας τα κριτήρια προκειμένου να συγκεντρώσει όσες περισσότερες ελληνικές ιστοσελίδες μπορεί Τα συλλεγόμενα URI αποθηκεύονται σε μία βάση δεδομένων Στο περιεχόμενο κάθε ιστοσελίδας στο αρχείο εφαρμόζεται ένας συνδυασμός μεθόδων εξαγωγής λέξεων κλειδιών. Αυτές οι λέξεις κλειδιά αποθηκεύονται επίσης στο αρχείο

24 Δημιουργία συστάδων (clustering) Τα αποτελέσματα των διαδικασιών χρησιμοποιούνται, προκειμένου να κατηγοριοποιηθεί ο Ελληνικός Ιστός σε σημασιολογικά συναφείς συστάδες ή αλλιώς συστοιχίες (clusters). Κάθε ιστοσελίδα που περιλαμβάνεται στο αρχείο χαρακτηρίζεται από ένα σύνολο αγγλικών λέξεων – κλειδιών, οι οποίες περιγράφουν το περιεχόμενό της. Αυτή η γνώση χρησιμοποιείται για την ταξινόμηση αυτού του περιεχομένου σε σημασιολογικά συναφείς συστάδες. «κατάτμηση» του Ελληνικού Ιστού

25 Επίλογος… Οι ιστότοποι εξαφανίζονται και υπάρχει σοβαρός κίνδυνος ότι οι ανεκτίμητοι πολιτιστικοί και επιστημονικοί πόροι δεν θα είναι διαθέσιμοι στις μελλοντικές γενεές. Η συλλογή και η διατήρηση των ιστοτόπων είναι ενδιαφέροντες τομείς της έρευνας και της ανάπτυξης, που έχουν αρχίσει τώρα να κινούνται σε μια πιο πρακτική φάση εφαρμογής Πρέπει να υπάρξει μια συνεχής προσπάθεια για την διατήρηση των ιστοτόπων Υπάρχει η ανάγκη για τους ιδιοκτήτες των ιστοτόπων και τους οργανισμούς που χρηματοδοτούν την ανάπτυξη των ιστοτόπων να εξασφαλίσουν ότι δίνεται η απαραίτητη προσοχή για τη μακροπρόθεσμη διαθεσιμότητα των ιστοτόπων.

26 Βιβλιογραφία 1/3  BnF, 2006, “Bibliothèque nationale de France”, Διαθέσιμο στο  Coalition for Networking Information, 2006, “Archiving and Preserving the Web: Future Directions and Applications”, Διαθέσιμο στο file:///G:/WEB%20ARCHIVING% /web%20archiving/Project%20 Briefing-Spring%202006%20Task%20Force%20Meeting.htm file:///G:/WEB%20ARCHIVING% /web%20archiving/Project%20 Briefing-Spring%202006%20Task%20Force%20Meeting.htm  Digital preservation strategies, “Digital preservation strategies”, Διαθέσιμο στο  Domain UK : Britain on the Web, 2002, “Domain UK : Britain on the Web”, British Library, Διαθέσιμο στο  EVA, 1995, “EVA”, Helsinki University Library, Διαθέσιμο στο  Electronic Publications Pilot Project (EPPP), “Electronic Publications Pilot Project”, Διαθέσιμο στο

27 Βιβλιογραφία 2/3  Internet Archive, 2001, “Internet Archive”. Διαθέσιμο στο  Kulturarw3, 2005, “Kulturarw3”, Royal Library. Διαθέσιμο στο  Lampos, Charalampos, 2004, “Archiving the Greek Web”, Διαθέσιμο στο  MINERVA, 2005, “Mapping the Internet Electronic Resources Virtual Archive”, Library of Congress. Διαθέσιμο στο  NEDLIB: Networked European Deposit Library, 2006, “NEDLIB : Networked European Deposit Library”, Διαθέσιμο στο –Netarchive.dk : ECDL Workshop, October 19th 2002, Διαθέσιμο στο

28 Βιβλιογραφία 3/3 –NWA: Nordic Web Archive, 2005, “NWA: Nordic Web Archive”, Διαθέσιμο στο –Pandora Australia’s Web Archive, 2005, “PANDORA”. Διαθέσιμο στο –Preserving Access to Digital Information, “PADI”. Διαθέσιμο στο –UK Web Archiving Consortium, “UK Web Archiving Consortium”. Διαθέσιμο στο –Wayback Machine, 2001, “Internet Archive”. Διαθέσιμο στο –Warp, 2005 “Warp”, Διαθέσιμο στο –Web Archiving Bibliography. 2004, “Web Archiving Bibliography”Διαθέσιμο στο

29 Σας ευχαριστώ πολύ και καλό καλοκαίρι


Κατέβασμα ppt "ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΠΣ «Υπηρεσίες Πληροφόρησης σε Ψηφιακό Πληροφόρησης » Web Archiving Μάθημα: Ηλεκτρονική Δημοσίευση Επιμέλεια: Γκουνή Άννα ΙΟΥΝΙΟΣ 2006."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google