Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Βασίλης Πλαχούρας Χρυσόστομος Καπέτης Μιχάλης Βαζιργιάννης Οικονομικό Πανεπιστήμιο Αθηνών 3/11/2003.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Βασίλης Πλαχούρας Χρυσόστομος Καπέτης Μιχάλης Βαζιργιάννης Οικονομικό Πανεπιστήμιο Αθηνών 3/11/2003."— Μεταγράφημα παρουσίασης:

1 Βασίλης Πλαχούρας Χρυσόστομος Καπέτης Μιχάλης Βαζιργιάννης Οικονομικό Πανεπιστήμιο Αθηνών 3/11/2003

2  Απώλεια της πληροφορίας από τους ιστότοπους του πανεπιστημίου ◦ Ανάγκη για μακροπρόθεσμη διατήρηση ◦ Προστασία της φήμης του ιδρύματος  Απουσία δραστηριοτήτων αρχειοθέτησης ιστοπεριεχομένου στον ελληνικό χώρο  Αρχειοθέτηση ιστοπεριεχομένου από τους ιστότοπους του ΟΠΑ ◦ Απαιτήσεις σε υλικό ◦ Ανάλυση των δεδομένων ◦ Συσχέτιση με τους στόχους της βιβλιοθήκης 3/11/2010 Βασίλης Πλαχούρας 1/15

3  Αρχειοθέτηση Ιστοπεριεχομένου  Παρουσίαση συστήματος  Χαρακτηριστικά δεδομένων  Ρόλος της βιβλιοθήκης  Επεκτάσεις και συμπεράσματα 3/11/2010 Βασίλης Πλαχούρας 2/15

4  Απώλεια περιεχομένου από ιστότοπους ◦ Αλλαγές σε ιστοσελίδες ◦ Διακοπή συντήρησης ιστότοπων ◦ Αστοχία υλικού  Αναγκαιότητα για αρχειοθέτηση ιστοπεριεχομένου  Πρωτοβουλίες από φορείς σε διαφορετικά επίπεδα ◦ Internet Archive, μη-κερδοσκοπικός οργανισμός ◦ Εθνικές βιβλιοθήκες ◦ Μεμονωμένοι οργανισμοί 3/11/2010 Βασίλης Πλαχούρας 3/15 Αρχειοθέτηση Ιστοπεριεχομένου

5  Βασισμένο σε ελεύθερο λογισμικό - λογισμικό ανοικτού κώδικα  3 υπηρεσίες ◦ Αναζήτηση με βάση το URL των ιστοσελίδων ◦ Αναζήτηση με λέξεις κλειδιά ◦ Πλοήγηση στις αρχειοθετημένες ιστοσελίδες  http://archive.aueb.gr http://archive.aueb.gr 3/11/2010 Βασίλης Πλαχούρας 4/15 Παρουσίαση συστήματος

6  Χρησιμοποιεί το λογισμικό Heritrix ◦ Crawler σχεδιασμένος απο το Internet Archive για την αρχειοθέτηση ιστοπεριεχομένου  Αποθήκευση δεδομένων σύμφωνα με το πρότυπο WARC (ISO 88500 2009) ◦ Συμπιεσμένα αρχεία με πολλαπλές εγγραφές ◦ Αποθήκευση όλων των τύπων αρχείων  Συλλογή δεδομένων με εκκίνηση από 82 URLs  Σεβασμός στην ομαλή λειτουργία των εξυπηρετητών. ◦ Ανάκτηση ενός URL  ανά 10 δευτερόλεπτα από τον ίδιο εξυπηρετητή  με αναμονή 10 φορές το χρόνο που χρειάστηκε η τελευταία ανάκτηση 3/11/2010 Βασίλης Πλαχούρας 5/15 Παρουσίαση συστήματος

7  Δημιουργία ευρετηρίου με βάση το URL και την ημερομηνία συλλογής κάθε URL ◦ Βασισμένο στο λογισμικό Wayback Machine  Ερωτήσεις με χρονικό περιορισμό 3/11/2010 Βασίλης Πλαχούρας 6/15 Παρουσίαση συστήματος

8  Αναζήτηση στο πλήρες κείμενο των αρχειοθετημένων ιστοσελίδων ◦ Βασισμένο στο λογισμικό NutchWax 3/11/2010 Βασίλης Πλαχούρας 7/15 Παρουσίαση συστήματος

9  4 συλλογές δεδομένων  Πιο συχνοί τύποι αρχείων ◦ HTML, JPEG, GIF, PDF ◦ Αντιστοιχούν σε περισσότερα από 88% των URLs ◦ Παρόμοια κατανομή στους ιστότοπους των ΕΚΠΑ, ΕΜΠ CrawlC1C2C3C4 Started at2010-02-262010-03-202010-04-262010-05-13 Not Fetched28822684170978661 2xx (Successful)13921296495113811141084 3xx (Redirection)3200236430203135 4xx (Client error)1086782481014110808 5xx (Server Error)24 1516 3/11/2010 Βασίλης Πλαχούρας 8/15 Χαρακτηριστικά δεδομένων

10  Συλλογή δεδομένων για τους ιστότοπους που δεν υπήρξε αλλαγή στις ρυθμίσεις CrawlC1C2C3C4 Started at2010-02-262010-03-202010-04-262010-05-13 Not Fetched1730160417861895 2xx (Successful)68825678266776866497 3xx (Redirection)3048224127752887 4xx (Client error)7572723873586504 5xx (Server Error)25 1514 3/11/2010 Βασίλης Πλαχούρας 9/15 Χαρακτηριστικά δεδομένων

11  Δεδομένα από το δίκτυο: ◦ μεταξύ 10 και 15GB  Αποθήκευση σε συμπιεσμένη μορφή: ◦ μεταξύ 8 και 10GB  Αποθήκευση των URLs που αλλάζουν μόνο: ◦ λιγότερα από 2GB 3/11/2010 Βασίλης Πλαχούρας 10/15 Χαρακτηριστικά δεδομένων

12  94% των αλλαγών αφορούν δυναμικές HTML σελίδες στο C1/C2 CrawlsC1/C2C2/C3C3/C4 All Web sites URL in C i \C i+1 50747601713990 URL in C i+1 \C i 80302333341263 URL in C i ∩C i+1 884659057899821 URL same567496386559805 URL changes317162661340016 Excluding reconfigured Web sites URL in C i \C i+1 384838475347 URL in C i+1 \C i 284934294076 URL in C i ∩C i+1 649776433962421 URL same546915512753193 URL changes1028692129228 3/11/2010 Βασίλης Πλαχούρας 11/15 Χαρακτηριστικά δεδομένων

13  Στόχοι της βιβλιοθήκης ◦ Αρχειοθέτηση και διατήρηση ιστοπεριεχομένου του πανεπιστημίου ◦ Ολοκλήρωση με το ψηφιακό αποθετήριο της βιβλιοθήκης  Θεματικές συλλογές για την πανεπιστημιακή κοινότητα  Ζητήματα που προκύπτουν ◦ Πνευματικά δικαιώματα ◦ Υλικοτεχνική υποδομή ◦ Πολιτικές και στρατηγικές σχετικά με  Επιλογή πληροφορίας  Υιοθέτηση προτύπων για μεταδεδομένα και δεικτοδότηση 3/11/2010 Βασίλης Πλαχούρας 12/15 Ρόλος της βιβλιοθήκης

14  Βελτιστοποίηση συλλογής δεδομένων (crawling) ◦ Αυξημένη συχνότητα ◦ Δείκτες ποιότητας/πληρότητας δεδομένων  Συλλογή δεδομένων μέσω φορμών (hidden Web)  Συμπίεση αποθηκευμένης πληροφορίας  Ανάπτυξη επιπλέον υπηρεσιών 13/15 Επεκτάσεις και συμπεράσματα 3/11/2010 Βασίλης Πλαχούρας

15  Η αρχειοθέτηση ιστοπεριεχομένου στο ΟΠΑ αποτελεί μια βιώσιμη διαδικασία ◦ Περιορισμένες υλικοτεχνικές απαιτήσεις  Η αρχειοθέτηση ιστοπεριεχομένου ως στόχος της βιβλιοθήκης του πανεπιστημίου ◦ Μακροπρόθεσμη πρόσβαση στην πληροφορία  Ανάλογα μεγέθη για τους ιστότοπους άλλων ιδρυμάτων 14/15 Επεκτάσεις και συμπεράσματα 3/11/2010 Βασίλης Πλαχούρας

16 15/15 3/11/2010 Βασίλης Πλαχούρας


Κατέβασμα ppt "Βασίλης Πλαχούρας Χρυσόστομος Καπέτης Μιχάλης Βαζιργιάννης Οικονομικό Πανεπιστήμιο Αθηνών 3/11/2003."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google