Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Αρχειοθέτηση του Ιστού 1) Internet Archive 2) Αρχειοθέτηση του Ελληνικού Ιστού Φοιτήτρια: Βαρβάρα Βαγιάτη Διδάσκοντες καθηγητές: Σαράντος Καπιδάκης, Μανόλης.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Αρχειοθέτηση του Ιστού 1) Internet Archive 2) Αρχειοθέτηση του Ελληνικού Ιστού Φοιτήτρια: Βαρβάρα Βαγιάτη Διδάσκοντες καθηγητές: Σαράντος Καπιδάκης, Μανόλης."— Μεταγράφημα παρουσίασης:

1 Αρχειοθέτηση του Ιστού 1) Internet Archive 2) Αρχειοθέτηση του Ελληνικού Ιστού Φοιτήτρια: Βαρβάρα Βαγιάτη Διδάσκοντες καθηγητές: Σαράντος Καπιδάκης, Μανόλης Γεργατσούλης Μάθημα: Ηλεκτρονική δημοσίευση Μάιος, 2005 Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας Διοίκηση και Οργάνωση Βιβλιοθηκών με έμφαση στις νέες Τεχνολογίες της Πληροφορίας

2 Web Archiving2 Διάγραμμα παρουσίασης Αρχειοθέτηση του Ιστού Προβλήματα, μέθοδοι αρχειοθέτησης. Παρουσίαση του Internet Archive Λειτουργία, περιεχόμενα, Wayback Machine, κενά στη συλλογή του, πνευματικά δικαιώματα. Αρχειοθέτηση του Ελληνικού Ιστού Περιγραφή του έργου, μεθοδολογία, αξιολόγηση, προοπτικές.

3 Web Archiving3 Γιατί να αρχειοθετούμε τον Ιστό πάνω από 4 δισ. σελίδες ελεύθερης πρόσβασης 550 δισ. επιπρόσθετα συνδεδεμένα τεκμήρια που αποτελούν τον ονομαζόμενο «Βαθύ» Ιστό (Deep Web) 220 γλώσσες (78% στην αγγλική) μεγαλώνει κάθε μέρα κατά 7 εκατ. σελίδες Όμως, συγχρόνως εξαφανίζεται Ο μέσος όρος ζωής μίας ιστοσελίδας είναι περίπου 6 εβδομάδες Το 44% των σελίδων δεν εντοπίζονται τον επόμενο χρόνο (Lyman, 1998)

4 Web Archiving4 Προβλήματα αρχειοθέτησης Το πολιτιστικό πρόβλημα: Ο Ιστός εξαφανίζεται, παρασύροντας μαζί του τεκμήρια ιστορικής σημασίας. Πόσο υλικό θα διασωθεί, τι θα διασωθεί και με ποιο τρόπο; Το τεχνικό πρόβλημα: Ένα αρχείο του Ιστού πρέπει να λύσει τα τεχνικά προβλήματα που αντιμετωπίζουν όλα τα ψηφιακά τεκμήρια, καθώς επίσης και τα δικά του μοναδικά προβλήματα. Το οικονομικό πρόβλημα. Ποιος έχει την ευθύνη για τη συγκέντρωση και τη διατήρηση του Ιστού, αλλά και τους πόρους για να το κάνει; Το νομικό πρόβλημα. Νέοι νόμοι πνευματικής ιδιοκτησίας έχουν δημιουργηθεί, οι οποίοι δίνουν έμφαση στα δικαιώματα της πνευματικής ιδιοκτησίας των κατόχων ψηφιακών τεκμηρίων.

5 Web Archiving5 Μέθοδοι για την επιλογή και τη συλλογή του Ιστού Αυτόματη συγκομιδή (automatic harvesting):  με τη χρήση των crawlers συλλέγεται οτιδήποτε υπάρχει στο Διαδίκτυο,  ακολουθούν τις συνδέσεις και φορτώνουν το περιεχόμενό τους σύμφωνα με τους κανόνες της συλλογής,  συλλέγονται όλοι οι ιστότοποι με βάση τα κριτήρια που έχει θέσει ο υπεύθυνος οργανισμός. Πλεονέκτημα: οικονομική τεχνική. Μειονεκτήματα: αδυναμία αρχειοθέτησης του «Βαθύ Ιστού» μεγάλο χρονικό διάστημα για την ολοκλήρωση της έρπυσης.

6 Web Archiving6 Μέθοδοι για την επιλογή και τη συλλογή του Ιστού Επιλεκτική μέθοδος (selective approach):  επιλογή του αξιόλογου υλικού για αρχειοθέτηση από τον ανθρώπινο παράγοντα,  αρχική επιλογή βάση των κριτηρίων του υπεύθυνου οργανισμού και έπειτα από συμφωνία με τους κατόχους του,  συλλογή με τη χρήση λογισμικού συγκομιδής ή mirroring,  συλλογή υλικού με φυσικά μέσα. Κατάθεση (deposit): η συγκεκριμένη μέθοδος βασίζεται στους υπεύθυνους ή στους ιδιοκτήτες των ιστοτόπων, οι οποίοι μπορούν να καταθέσουν ένα αντίγραφό του ή κάποιο κομμάτι του σε κάποιο αποθετήριο.

7 Web Archiving7 Μέθοδοι για την επιλογή και τη συλλογή του Ιστού Συνδυαστική προσέγγιση (combined approach):  χρήση crawlers για την ταχύτερη συλλογή περιεχομένου,  αυτοματοποιημένα εργαλεία πρόσβασης και συγκομιδής,  xρήση χειρωνακτικής εργασίας για τη χρήση ποιοτικού υλικού που δεν μπορεί να συλλεχθεί από τους crawlers,  ανάπτυξη εργαλείων για τον εντοπισμό δικτυακών τόπων που βρίσκονται στο «Βαθύ Ιστό».

8 Internet Archive

9 Web Archiving9 Internet Archive Έτος ιδρύσεως: 1996 Ιδρυτής: Brewster Kahle Τοποθεσία: Presidio of San Francisco Μη εμπορικός θυγατρικός οργανισμός του Alexa Internet Σήμερα ανήκουν ολοκληρωτικά στην Amazon.com Σκοπός: Η δημιουργία μίας «βιβλιοθήκης του Διαδικτύου», με σκοπό την μόνιμη πρόσβαση για ερευνητές, ιστορικούς, επιστήμονες και άλλους σε ψηφιακές συλλογές.

10 Web Archiving10 Λειτουργία του IA Οι crawlers του Alexa ψάχνουν στο Διαδίκτυο και επισωρεύουν ιστοσελίδες αλλά και σχετική πληροφορία με αυτές τις σελίδες. Η πληροφορία χρησιμοποιείται από τον Alexa, ώστε να προστεθούν λειτουργίες όπως λίστες με άλλα σχετικά sites, καθώς και βιβλιογραφικές πληροφορίες, όπως για την κυριότητα (domain) της σελίδας και τι οργανισμός την «τρέχει», πόσο καιρό τρέχει η ιστοσελίδα, αξιολογήσεις χρηστών. Έπειτα από μία χρονική περίοδο έξι μηνών, οι σελίδες από μόνες τους πηγαίνουν στο IA.

11 Web Archiving11 Περιεχόμενα του IA Σύμφωνα με στοιχεία του Ιανουαρίου του 2004, το IA περιέχει 300 terabytes δεδομένων, τα οποία περιλαμβάνουν περισσότερα από 11.823 φιλμ μικρής διάρκειας σε μορφότυπα MPEG-2 και MPEG-4 και πάνω από 40 δισεκατομμύρια ιστοσελίδες. Το IA έχει τις ακόλουθες συλλογές:

12 Web Archiving12 Περιεχόμενα του IA Ιστοσελίδες:  Μία γενική συλλογή από ιστοσελίδες (προσβάσιμες μέσω της διεπαφής της Wayback Machine).  Συλλογές με ιστοσελίδες από τις προεδρικές εκλογές της Αμερικής των ετών 1996, 2000 και 2002.  Ιστοσελίδες με περιεχόμενο που αφορούν στις τρομοκρατικές επιθέσεις στο Κέντρο Παγκόσμιου Εμπορίου και στο Πεντάγωνο στις 11 Σεπτεμβρίου του 2001.  Μία συλλογή με τους πρωτοπόρους του Ιστού οι οποίοι καινοτόμησαν με τις πρώιμες εμπορικές ιστοσελίδες τους και με ιστοσελίδες των οργανισμών τους.

13 Web Archiving13 Περιεχόμενα του IA Πολυμέσα (films, audio):  Ένα αρχείο ταινιών με περίπου 11.823 εφήμερα μικρού μήκους φιλμ, ένα μέρος από τα οποία δωρίστηκε από την Prelinger Archives (48.000 φιλμ της περιόδου 1927-1987).  Ένα καινούργιο θυγατρικό site (etree.org), το οποίο παρέχει πρόσβαση σε υψηλής ποιότητας ζωντανές συναυλίες. Λογισμικό: Διατήρηση και πρόσβαση σε όλα τα είδη σπάνιου λογισμικού, το οποίο μπορεί νόμιμα να φορτωθεί.

14 Web Archiving14 Περιεχόμενα του IA Ψηφιοποιημένο υλικό:  Συλλογή του ARPANET  Million Book Project  Project Gutenberg  Children’ s Library: University of Florida’ s “Literature for Children” Collection, National Yiddish Book Center, International Children's Digital Library (University of Maryland)

15 Web Archiving15 Wayback Machine Μηχανή αναζήτησης που επιτρέπει τη φυλλομέτρηση 40 δισεκατομμυρίων ιστοσελίδων (1996 ως και σήμερα). Ακριβές URL προκειμένου να εντοπιστεί η συγκεκριμένη ιστοσελίδα. Παράδειγμα: Μία κυβερνητική έκθεση με τίτλο, Telehealth and Federal Agencies, η οποία καταχωρήθηκε το 1997 παραπέμπεται από ένα επιστημονικό άρθρο και αναφέρεται ότι τελευταία φορά ανακτήθηκε τον Μάιο του 2001 από την ηλεκτρονική διεύθυνση www.va.gov/telmed/agencies.htmwww.va.gov/telmed/agencies.htm. Κάνουμε αναζήτηση στον Ιστό μέσω του google ή οποιασδήποτε άλλης μηχανής αναζήτησης και μέσω του Wayback Machine.

16 Web Archiving16 Wayback Machine Αποτέλεσμα από την αναζήτηση Google

17 Web Archiving17 Wayback Machine Αποτέλεσμα από την αναζήτηση Wayback Machine

18 Web Archiving18 Πλεονεκτήματα της Wayback Machine Φυλλομέτρηση του Ιστού όπως ακριβώς ήταν στην ιστορία, εξαιτίας των ενεργών συνδέσμων. Έγκυρη πηγή αναγνωρισμένων ηλεκτρονικών διευθύνσεων, στην οποία οι ερευνητές μπορούν να παραπέμψουν για μη ενεργές, πλέον, σελίδες στον Ιστό. Π.χ. http://web.archive.org/web/20011122201559/http ://www.va.gov/telemed/agencies.htm http://web.archive.org/web/20011122201559/http ://www.va.gov/telemed/agencies.htm

19 Web Archiving19 Κενά στη συλλογή του Internet Archive Έλλειψη υλικού από τα 4 πρώτα χρόνια δημιουργίας του Ιστού (1992-1996). Έλλειψη περιεχομένου από άλλα προ- Web πρωτόκολλα, όπως του Gopher. Η τεχνολογία του δεν είναι ικανή να ανακτήσει και να αρχειοθετήσει υλικό Διαδικτύου περιορισμένης πρόσβασης (είτε μέσω της προστασίας του με κωδικό, είτε μέσω της IP αναγνώρισης), όπως και ιστοσελίδες που βρίσκονται σε ασφαλείς εξυπηρετητές. Το πρόβλημα των ορφανών σελίδων, δηλαδή ιστοσελίδων που υπάρχουν απομονωμένες χωρίς συνδέσεις που να οδηγούν σε αυτές αλλά και χωρίς να έχουν οι ίδιες κάποιες συνδέσεις που να οδηγούν σε άλλες ιστοσελίδες.

20 Web Archiving20 Κενά στη συλλογή του Internet Archive Σκόπιμη απόκρυψη περιεχομένου από τους παροχείς ιστοσελίδων. Περιορισμός των crawlers στον αριθμό επισκέψεών τους σ’ ένα domain, ώστε να συγκεντρώσουν νέες ή τροποποιημένες σελίδες. Περιορισμένη λειτουργικότητα κάποιων αρχειοθετημένων σελίδων δυναμικού περιεχομένου, όπως εκείνων σε JavaScript.

21 Web Archiving21 Πνευματικά δικαιώματα & IA Διχασμός απόψεων για την αποστολή του Internet Archive. Κάποιοι το αντιμετωπίζουν ως μία πηγή γνώσης και διατήρησης πολιτιστικού και ιστορικού περιεχομένου. Άλλοι, όμως, θεωρούν ότι το Internet Archive δεν είναι τίποτα παραπάνω από μία παραβίαση πνευματικών δικαιωμάτων (η άποψη αυτή ακούγεται κυρίως από κάποιες εφημερίδες που χρησιμοποιούν τα αρχεία τους ως πηγή συμπληρωματικών εσόδων). Από την πλευρά του το Internet Archive δεν μπορεί να παρέχει αρχειακά αντίγραφα εφημερίδων ή άλλων παρόμοιων site σε καθημερινή βάση. Διατηρεί την πολιτική αφαίρεσης του υλικού από το αρχείο αν αυτό ζητηθεί από τον κάτοχο της ιστοσελίδας.

22 Web Archiving22 Το IA δεν είναι βιβλιοθήκη Το IA στερείται αρκετών βασικών λειτουργιών και ελέγχων που ασκούνται σε βιβλιοθήκες:  Δεν ευρετηριάζει, ούτε καταλογογραφεί τις συλλογές του.  Η ταξινόμηση βασίζεται αποκλειστικά και μόνο στα URL.  Όσον αφορά στη συλλογή των ιστοσελίδων, υπάρχει ένα μόνο σημείο πρόσβασης για αναζήτηση στο IA και αυτό είναι το URL.  Δεν παρέχεται βιβλιογραφική περιγραφή του υλικού.  Δεν έχει κρίση για την ακρίβεια, την ποιότητα ή την καταλληλότητα του περιεχομένου που αρχειοθετείται.

23 Αρχειοθέτηση του Ελληνικού Ιστού

24 Web Archiving24 Περιγραφή του έργου Χωρίζεται σε δύο μέρη: 1. Στη δημιουργία ενός αρχείου με όσο το δυνατόν περισσότερες ιστοσελίδες γίνεται. 2. Στην εξαγωγή γνώσης από αυτή τη συλλογή. Μία πρώτη εκτίμηση, όσον αφορά στο μέγεθος του Ελληνικού Ιστού, είναι ότι υπάρχουν πάνω από 60.000 ιστοσελίδες που ανήκουν στο domain.gr. Αυτό, όμως, δεν είναι απόλυτο εφόσον μπορούν κάποιες ιστοσελίδες να φιλοξενούνται κάτω από τα domain.net,.org,.com.

25 Web Archiving25 Ελληνική περίμετρος Κύρια κριτήρια χαρακτηρισμού του Ιστού ως ελληνικό: Το domain name: οι περισσότερες ελληνικές ιστοσελίδες ανήκουν στο.gr domain. Υπάρχει, όμως, και η περίπτωση των.com,.net,.org. Η ελληνική γλώσσα: πρέπει, όμως, να λαμβάνεται υπόψη ότι πολλές ιστοσελίδες γράφονται στην ελληνική αλλά και στην αγγλική γλώσσα, ενώ κάποιες απ’ αυτές είναι γραμμένες μόνο στην αγγλική (π.χ. η ιστοσελίδα ενός ελληνικού πανεπιστημίου για τους φοιτητές του erasmus). Το ελληνικό περιεχόμενο: μία ιστοσελίδα μπορεί να μην έχει το πρόσφυμα.gr ή μπορεί να μην εμφανίζεται στην ελληνική γλώσσα. Ωστόσο, μπορεί να περιέχει πληροφορία σχετικά με την Ελλάδα. Τέτοιες ιστοσελίδες μπορούν να εξαχθούν εξετάζοντας το περιεχόμενό τους (λέξεις Hellas, Greek, κλπ.).

26 Web Archiving26 Μεθοδολογία Το σύστημα της αρχειοθέτησης αποτελείται από τρεις κύριες συνιστώσες: Web crawler Content manager Clustering module

27 Web Archiving27 Web Crawler Είναι σημαντικό για το αρχείο να συμπεριληφθεί οποιαδήποτε Ιστοσελίδα ελληνικού ενδιαφέροντος. Έτσι: Λαμβάνονται υπόψη τα κριτήρια της ελληνικής παραμέτρου. Εξετάζεται η παράμετρος charset του κώδικα HTML για κάθε ιστοσελίδα. Οι μεγάλες ελληνικές Πύλες αποτελούν κομβικά σημεία εκκίνησης αναζητήσεων για τον crawler. Ακολουθεί όλα τα μονοπάτια που αναφέρονται σε ελληνικές ιστοσελίδες. Η αναζήτηση είναι εξαντλητική, ακολουθώντας τους συνδέσμους από τις διαδοχικές σελίδες μέχρι να φτάσει σε μία ιστοσελίδα που δεν έχει ελληνικά χαρακτηριστικά. Στο τέλος της έρπυσης όλες οι ανακτημένες σελίδες αποθηκεύονται σε μία βάση δεδομένων μαζί με επιπρόσθετες πληροφορίες (ημ/νία, ώρα, εξερχόμενοι σύνδεσμοι, κ.ά.).

28 Web Archiving28 Εξαγωγή λέξεων-κλειδιών Για να είναι δυνατή η ομαδοποίηση του Ελληνικού Ιστού σε σημασιολογικά συναφείς συστάδες, απαιτείται ο χαρακτηρισμός του περιεχομένου των ιστοσελίδων. Ο προσδιορισμός των λέξεων – κλειδιών μπορεί να γίνει είτε χειροκίνητα είτε αυτόματα. Στη συγκεκριμένη περίπτωση χρησιμοποιείται η αυτόματη εξαγωγή. Χρησιμοποιείται ένας συνδυασμός των τεχνικών εξόρυξης κειμένου (text mining) μέσα στο ίδιο το κείμενο και της συνδεσμολογίας*. *Αυτή η πιο πρόσφατη μέθοδος βασίζεται στην υπόθεση ότι οι περισσότερες ιστοσελίδες περιλαμβάνουν συνδέσμους που οδηγούν σε άλλες ιστοσελίδες οι οποίες περιέχουν θέματα συναφή του πλαισίου περιβάλλοντος της σελίδας.

29 Web Archiving29 Εξαγωγή λέξεων-κλειδιών Συνεπώς, οι λέξεις – κλειδιά που χαρακτηρίζουν μία ιστοσελίδα p εξάγονται χρησιμοποιώντας: Συχνότητα ανεπεξέργαστων όρων του p. Συχνότητα ανεπεξέργαστων όρων ενός επιλεγόμενου συνόλου των πιο σημαντικών ιστοσελίδων που δείχνουν στο p (inlinks). Συχνότητα ανεπεξέργαστων όρων των ιστοσελίδων που δείχνονται από το p (outlinks). Έτσι, για κάθε URI που συμπεριλαμβάνεται στο αρχείο: επισκέπτεται η ιστοσελίδα του, το περιεχόμενο κειμένου απομονώνεται και εφόσον του αφαιρεθούν όλες οι μη σημαντικές λέξεις (ευρετηρίαση τεκμηρίου), χρησιμοποιώντας μία κατάλληλη λίστα μπλοκαρίσματος λέξεων (stop-words list), επιλέγονται οι πιο συχνές λέξεις – κλειδιά. Μία παρόμοια μέθοδος χρησιμοποιείται για όλες τις ιστοσελίδες που είναι συνδεδεμένες μέσω ενός link με την εξεταζόμενη ιστοσελίδα. Όσον αφορά στην τρίτη μέθοδο, χρησιμοποιήθηκε η υπηρεσία κατευθυνόμενων προς τα πίσω συνδέσμων του Google, προκειμένου να επιλεχθούν οι πρώτες 20 ιστοσελίδες που οδηγούσαν στην ιστοσελίδα.

30 Web Archiving30 Μετάφραση Οι λέξεις – κλειδιά που εξάγονται εφαρμόζοντας τις παραπάνω μεθόδους και έχουν αγγλικό περιεχόμενο δεν χρειάζονται περαιτέρω επεξεργασία. Τι γίνεται, όμως, στην περίπτωση του αρχείου του Ελληνικού Ιστού; Όλες οι λέξεις τις ελληνικής γλώσσας μετατρέπονται στην ονομαστική πτώση (χρησιμοποιήθηκαν οι κανόνες κλίσεων της γραμματικής του Τριανταφυλλίδη). Ακολουθεί η μετάφρασή τους στην αγγλική. Για την αντιμετώπιση του προβλήματος πολλών συνωνύμων στην αγγλική λαμβάνεται υπόψη η έννοια των υπόλοιπων λέξεων – κλειδιών που έχουν εξαχθεί από τη σελίδα.

31 Web Archiving31 Μετάφραση Εισαγωγή δεδομένων, αγγλικών keywords (En(D)) και ελληνικών keywords (Gr(D)), όπου D το document. Τα δεδομένα εξόδου είναι ένα σύνολο αγγλικών λέξεων – κλειδιών K που χαρακτηρίζουν καλύτερα την ιστοσελίδα. Για κάθε μεταφραζόμενη έννοια λέξης (όπως προσδιορίζεται από το Wordnet), ο αλγόριθμος υπολογίζει το άθροισμα της μέγιστης ομοιότητας μεταξύ της συγκεκριμένης έννοιας και των εννοιών των υπόλοιπων keyword. Επιλέγει την αγγλική μετάφραση που έχει την έννοια με το μέγιστο σκορ.

32 Web Archiving32 Clustering Εφόσον πραγματοποιείται η περιγραφή του περιεχομένου της σελίδας με την εξαγωγή αγγλικών keyword, ακολουθεί ταξινόμηση αυτού του περιεχομένου σε σημασιολογικά συναφείς συστάδες. Αυτή η διαδικασία ομαδοποίησης καθιστά δυνατή την «κατάτμηση» του Ελληνικού Ιστού. Αυτή η κατάτμηση ενισχύει και επιταχύνει την αναζήτηση στο αρχείο. Αντί να δίνει το ακριβές URI, ο χρήστης μπορεί να εφαρμόσει μία αναζήτηση βασισμένη σε λέξη – κλειδί ή μία αναζήτηση βασισμένη σε συστάδες (θεματικές κατηγορίες). Για την ομαδοποίηση των περιεχομένων μπορούν να χρησιμοποιηθούν 2 αλγόριθμοι, K-means ή DBSCAN.

33 Web Archiving33 Αξιολόγηση Δημιουργήθηκε ένα αρχείου Ιστού με 300.000 ευδιάκριτα URI που ανήκουν στον ελληνικό Ιστό. Η τεχνική έρπυσης εφαρμόστηκε τον Σεπτέμβριο του 2003 και διήρκεσε 2 μέρες. Ως πρωταρχική πηγή χρησιμοποιήθηκαν τρεις ελληνικές Πύλες (in.gr, pathfinder.gr, flash.gr). Αμέσως μετά τη συλλογή του, κάθε URI δέχονταν την ανάλυση και την αποθήκευση του περιεχομένου του σε μορφή μη κωδικοποιημένου κειμένου.

34 Web Archiving34 Αξιολόγηση Μετά τις διαδικασίες της μετάφρασης και της εξαγωγής λέξεων – κλειδιών, οι πρώτες δέκα λέξεις κλειδιά που προσδιόριζαν το κάθε URI μαζί με τις αντίστοιχες συχνότητές τους συμπεριλήφθηκαν σε ένα ξεχωριστό πίνακα της βάσης δεδομένων. Όσον αφορά στην ομαδοποίηση των τεκμηρίων, εφαρμόστηκε ένα σύνολο από προκαταρκτικούς πειραματισμούς, οι οποίοι περιείχαν την εφαρμογή και των δύο αλγόριθμων (K – means και DBSCAN).

35 Web Archiving35 Προοπτικές Προβλέπεται η χρήση πιο αναβαθμισμένων τεχνικών ομαδοποίησης, όπως υβριδικές τεχνικές ομαδοποίησης /ταξινόμησης, προκειμένου να επιτευχθεί η κατηγοριοποίηση όλων των τεκμηρίων που ανήκουν στο Αρχείο του Ελληνικού Ιστού. Η τεχνική του χαρακτηρισμού των τεκμηρίων με λέξεις κλειδιά επρόκειτο να προωθηθεί, χρησιμοποιώντας τη σημασιολογική εγγύτητα των τεκμηρίων. Βασισμένη στο σημασιολογικό χαρακτηρισμό των ιστοσελίδων, θα δημιουργηθεί μία «μηχανή αναζήτησης» του Αρχείου του Ιστού.

36 Web Archiving36 Προοπτικές Υπάρχει η σκέψη εφαρμογής ενός αυτόματου ρομπότ (crawler), το οποίο περιοδικά θα επισκέπτεται τις ιστοσελίδες προκειμένου να φυλάσσει τις διάφορες εκδοχές τους καθώς αλλάζουν με την πάροδο του χρόνου. Τέλος, προβλέπεται μία περαιτέρω έρευνα πάνω στο θέμα του «Βαθύ» ή «Αόρατου» Ιστού.

37 Web Archiving37 Προβληματισμοί Μπορεί το Internet Archive ν’ αποτρέψει τον επερχόμενο «Ψηφιακό Μεσαίωνα» της σύγχρονης εφήμερης πληροφόρησης; Δικαιολογείται ο διχασμός απόψεων περί σεβασμού των πνευματικών δικαιωμάτων από το Internet Archive; Πρέπει να υπάρχει επιλογή υλικού κατά τη δημιουργία ενός αρχείου του Ιστού; Τι κατά τη γνώμη σας υπηρεσίες πρέπει να προσφέρει ένα αρχείο του Ιστού;

38 Τέλος Βαρβάρα Βαγιάτη barbaravag@yahoo.gr


Κατέβασμα ppt "Αρχειοθέτηση του Ιστού 1) Internet Archive 2) Αρχειοθέτηση του Ελληνικού Ιστού Φοιτήτρια: Βαρβάρα Βαγιάτη Διδάσκοντες καθηγητές: Σαράντος Καπιδάκης, Μανόλης."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google