Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

1 Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας Διοίκηση και Οργάνωση Βιβλιοθηκών με έμφαση στις νέες Τεχνολογίες της Πληροφορίας Μάθημα:

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "1 Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας Διοίκηση και Οργάνωση Βιβλιοθηκών με έμφαση στις νέες Τεχνολογίες της Πληροφορίας Μάθημα:"— Μεταγράφημα παρουσίασης:

1 1 Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας Διοίκηση και Οργάνωση Βιβλιοθηκών με έμφαση στις νέες Τεχνολογίες της Πληροφορίας Μάθημα: Ψηφιακές Βιβλιοθήκες Διδάσκων : Σαράντος Καπιδάκης  Εργασία: Το πρόβλημα της αποσαφήνισης γεωγραφικών ονομάτων σε μια ψηφιακή βιβλιοθήκη ιστορικού περιεχομένου:το παράδειγμα της Ψηφιακής Βιβλιοθήκης Perseus (Perseus Digital Library – PDL)  Φοιτήτρια:Τσώλη Θεοδώρα  Άρθρο αναφοράς: Smith, D.A., Crane, G. (2001). Disambiguating geographic names in a historical digital library. In P. Constantopoulos and I.T. Solvberg (eds.): ECDL 2001, LNCS 2163, (pp.127-136), Berlin: Springer- Verlag, 2001. Available at: http://www.perseus.tufts.edu/Articles/geodl01.pdf (last accessed at 23 January 2004).http://www.perseus.tufts.edu/Articles/geodl01.pdf

2 2 Περιεχόμενα  Ψηφιακές βιβλιοθήκες και δεδομένα γεωγραφικών αναφορών  Τι είναι η Ψηφιακή Βιβλιοθήκη Perseus Digital Library Το σύστημα διαχείρισης τεκμηρίων της PDL  Η Ψηφιακή Βιβλιοθήκη PDL και τα δεδομένα γεωγραφικών αναφορών  Το πρόβλημα της αποσαφήνισης τοπωνυμίων Γενικά παραδείγματα Η διαδικασία Αξιολόγηση του συστήματος Περιορισμοί και μελλοντικοί στόχοι  Σχετικές εργασίες  Πιθανές εφαρμογές στον ελληνικό χώρο. Ερωτήματα και προβληματισμοί

3 3 Δεδομένα γεωγραφικής αναφοράς και ιστορικές ψηφιακές βιβλιοθήκες (1)  Οι ψηφιακές Βιβλιοθήκες περιέχουν ψηφιακά αντικείμενα με ποικίλο περιεχόμενο (κείμενα, εικόνες, ήχοι, video) και σε διάφορες μορφές (βιβλία, χάρτες, (αερο)φωτογραφίες, στατιστικά στοιχεία και μετρήσεις, κ.ά.)  Όλα αυτά τα αντικείμενα έχουν ρητές ή υπονοούμενες χωρικές διαστάσεις και αναφορές ενώ αναζητήσεις με βάση αυτές τις διαστάσεις είναι απαραίτητες σε πάρα πολλούς επιστημονικούς κλάδους:αρχαιολογία, ιστορία, ανθρωπολογία, βιολογία, επιδημιολογία, γεωλογία, αρχιτεκτονική, οικονομικές επιστήμες, κοινωνιολογία, δημοσιογραφία, κτλ.  Τα δεδομένα γεωγραφικής αναφοράς είναι αυτά που μπορούν να εντοπιστούν στο χώρο αναφορικά με ένα πλαίσιο χωρικής αναφοράς.

4 4 Δεδομένα γεωγραφικής αναφοράς και ιστορικές ψηφιακές βιβλιοθήκες (2)  Ο στόχος μιας ιστορικής ψηφιακής βιβλιοθήκης όπως η Perseus Digital Library είναι να επεξεργαστεί έτσι τα αντικείμενά της ώστε να είναι δυνατή η παρουσίαση τους με τη μορφή χάρτη επιτρέποντας στους χρήστες: να αποτυπώνουν μεγάλο εύρος πληροφοριών σε οικεία μορφή να δημιουργούν χάρτες από σημεία της συλλογής και αντίστροφα συλλογές από σημεία του χάρτη να θέτουν νέες συνδυαστικές ερευνητικές ερωτήσεις στα διαφορετικά αντικείμενα της συλλογής να αποκτήσουν μια γενική άποψη για τα σημεία που εστιάζει το ενδιαφέρον της η ψηφιακή συλλογή και συνολικά για το εύρος της θεματολογίας της

5 5 Δεδομένα γεωγραφικής αναφοράς και ιστορικές ψηφιακές βιβλιοθήκες (3)  Τα δεδομένα γεωγραφικής αναφοράς πρέπει επομένως να συνδεθούν με τη θέση τους στο χώρο ώστε να αποτυπωθούν σε ένα χάρτη.  Ο ασφαλέστερος τρόπος ταυτοποίησης της θέσης ενός δεδομένου γεωγραφικής αναφοράς στο χώρο είναι οι γεωγραφικές συντεταγμένες σε αντίθεση με τις λεκτικές περιγραφές (π.χ. θεματικές επικεφαλίδες). Το ρόλο αυτό παίζει το ψηφιακό γεωγραφικό λεξικό.  Ένα γεωγραφικό λεξικό αποτελείται από ένα κατάλογο καθιερωμένων γεωγραφικών ονομάτων, τον τύπο του ονόματος (π.χ. λίμνη, βουνό, κτλ.) και τις γεωγραφικές συντεταγμένες του που δείχνει τη θέση του στο χώρο (που μπορεί να είναι σημείο ή περιοχή οριζόμενη από αριθμό συντεταγμένων (bounding box, polygon)). π.χ. NameTypeLocation Goleta Beach park119.83, 34.42 Hearst Castlebuilding121.7, 35.69

6 6 Δεδομένα γεωγραφικής αναφοράς και ιστορικές ψηφιακές βιβλιοθήκες (4)  Ένα από τα προβλήματα* που παρουσιάζει η σύνδεση ονομάτων του λεξικού με θέση πάνω στο χάρτη είναι η αμφισημία των ονομάτων δηλαδή το ότι το ίδιο όνομα αντιστοιχεί σε περισσότερες από μια οντότητες του λεξικού.  Στο στάδιο της δημιουργίας ενός χάρτη από τα δεδομένα ενός κειμένου (όπως είναι η περίπτωση της PDL) το πρόβλημα επιτείνεται γιατί δεν υπάρχουν γεωγραφικά λεξικά με τα χωρικά δεδομένα των αντικειμένων της αρχαιότητας, του Μεσαίωνα και της Αναγέννησης.  Δεν είναι δυνατή η χρήση μόνο σύγχρονων γεωγραφικών λεξικών.  * άλλα προβλήματα είναι η αναγνώριση γενικά των ονομάτων σε αδόμητα και ημι-δομημένα κείμενα, η αναγνώριση των τοπωνυμίων από αυτά καθώς η ταυτοποίηση χρονολογιών

7 7 Perseus Digital Library: τι είναι και τι περιλαμβάνει  Μια ετερογενής συλλογή αντικειμένων που αναφέρονται στην αρχαία Ελλάδα και Ρώμη αλλά και στο σύγχρονο κόσμο (Ευρώπη και Αμερική ως τον 19ο αι.)  Με στόχο: την αλληλοσυσχέτιση κειμένων και αντικειμένων στο χώρο και το χρόνο για την ενοποίηση των ανθρωπιστικών επιστημών και την αμεσότερη επαφή με το κοινό μέσα από την ανάπτυξη αυτόματων μεθόδων δόμησης και παρουσίασης μεγάλων συλλογών.  Περιλαμβάνει: 9 εκ. ελληνικές λέξεις, 4 εκ. λατινικές λέξεις, 55 εκ. αγγλικές λέξεις, 3 λεξικά ελληνικών και λατινικών, 5.000 αρχαία τοπωνύμια, 1.000 χάρτες, 30.000 έγχρωμες φωτογραφίες, 375.000 links, εκατομμύρια αυτόματα παραγόμενους συνδέσμους

8 8 PERSEUS DIGITAL LIBRARY

9 9 Το σύστημα διαχείρισης ψηφιακών τεκμηρίων της PDL  Περιλαμβάνει εργαλεία για:  Τη διαχείριση κειμένων σε διάφορες DTD’s των SGML και XML ενώ τα περισσότερα κείμενα κωδικοποιούνται με τη γλώσσα ΤΕΙ  Την παρουσίαση των αποτελεσμάτων σε HTML στο web  Την επεξεργασία κειμένων: μορφολογική ανάλυση, αναζήτηση πλήρους κειμένου, δημιουργία links ανάμεσα στα τεκμήρια, εξαγωγή τοπωνυμίων, παραγωγή χαρτών και χρονολογικών σειρών, σύνδεση κειμένων μέσω σχολίων και παραπομπών, δημιουργία υπονοούμενων cross-references κ.ά.  Την αναζήτηση  αναζήτηση λέξεων και φράσεων σε ελληνικά και λατινικά κείμενα  Lookup Tool: αναζήτηση λέξεων-κλειδιών οπουδήποτε και ομαδοποιημένη παρουσίαση  αυτόματη, ολοκληρωμένη αναζήτηση και παραπομπές διπλής κατεύθυνσης

10 10 Τα δεδομένα γεωγραφικής αναφοράς και η Perseus Digital Library  Ο στόχος του γεωγραφικού πληροφοριακού συστήματος της PDL είναι η ενοποίηση όλων των κατηγοριών ιστορικών δεδομένων της συλλογής και υποστήριξη απλών ερωτημάτων γεωγραφικού χαρακτήρα. Δηλαδή απαντήσεις στις ερωτήσεις «που βρίσκεται η τοποθεσία Χ;» και «τι αντικείμενα υπάρχουν στη συλλογή που σχετίζονται με την τοποθεσία Χ;»  Προκειμένου να τοποθετήσει τα ιστορικά αντικείμενα στο χώρο η PDL ανέπτυξε ένα γεωγραφικό λεξικό με βάση τα Getty Thesaurus και NIMA (National Imagery and Mapping Agency) και άλλες πηγές της ίδιας της συλλογής (π.χ. Ιστορία του Πελοποννησιακού Πολέμου)  Αφού προηγηθεί η αυτόματη ταυτοποίηση των γεωγραφικών ονομάτων σε κάθε κείμενο γίνεται η σύνδεσή τους με γεωγραφικές συντεταγμένες και η παρουσίασή τους στον άτλαντα που είναι η γεωγραφική διεπαφή (geographic interface) της PDL και η οποία επιτρέπει στο χρήστη να «κατασκευάζει» χάρτες ή από τους χάρτες να εντοπίζει αντικείμενα της συλλογής.  Το λεξικό βρίσκεται σε μια β.δ. PostGreSQL που χρησιμοποιεί την εφαρμογή δημιουργίας χαρτών MapServer (εφαρμογή ανοικτού κώδικα) για την αποτύπωση των χωρικών δεδομένων τη συλλογής.

11 11 Aναζήτηση στην ψηφιακή βιβλιοθήκη PDL Δυνατότητα δημιουργίας χαρτών

12 12 Δημιουργία χάρτη από τα στοιχεία της αναζήτησης “Query a point” button

13 13 Επανασύνδεση με τα αντικείμενα της συλλογής Μετάβαση από το χάρτη στα περιεχόμενα της συλλογής

14 14 Το πρόβλημα της γλωσσικής αμφισημίας και της αποσαφήνισης τοπωνυμίων  Η διαδικασία της σύνδεσης ονομάτων με τη θέση τους στο χάρτη αποτελείται από δύο βήματα που αποτελούν αντίστοιχα προβλήματα. την ταυτοποίηση και κατηγοριοποίηση των γεωγραφικών ονομάτων (είναι ένα πρόβλημα που έχει αντιμετωπιστεί σε έκταση με την ανάπτυξη μεθόδων επεξεργασίας κειμένου) την αποσαφήνιση των τοπωνυμίων ώστε να βρεθεί η θέση τους στο χώρο (γεωγραφικές συντεταγμένες)  Η ανάγκη της αποσαφήνισης προκύπτει από το ότι οι όροι δεν είναι μονοσήμαντοι  Η αμφισημία είναι όρος της σημασιολογίας και χρησιμοποιείται για να δηλώσει λέξεις, φράσεις ή προτάσεις με διπλή, πολλαπλή ή διφορούμενη σημασία

15 15 Παραδείγματα αμφισημίας φράσεων και κυρίων ονομάτων  Η γλωσσική αφμισημία μπορεί να είναι συντακτική/δομική και σημασιολογική. Δομική: The Museum of Modern Art in New York City City University of New York Victoria and Albert Museum IBM and Bell Laboratories Σημασιολογική: Ford [(Ford Motors), (Gerald Ford), (Ford, Michigan), (Ford)] Ruth Lake (Mrs. Ruth Lake) Washington (President Washington, Washington, DC)

16 16 Τα γλωσσολογικά προβλήματα των τοπωνυμίων Τα πιο χαρακτηριστικά γλωσσολογικά προβλήματα που εμφανίζουν τα γεωγραφικά ονόματα είναι : Τα ονόματα δεν είναι μοναδικά (αμφισημία) (San Jose, Alameda, Galicia, Athens, Springfield) Τα σύνορα και τα όρια αλλάζουν (Πρωσία, Σοβιετική Ένωση) Μια περιοχή μπορεί να έχει πολλά ονόματα μέσα στο χρόνο (Αυστρο-Ουγγαρία) Ένα όνομα μπορεί να έχει διάφορες γραφές (Peking-Beiijing) Συμβατικά ονόματα και νεολογισμοί Στην PDL πάνω από το 90% των τοπωνυμίων αναφέρεται σε περισσότερα από ένα μέρη.

17 17 Η διαδικασία αποσαφήνισης τοπωνυμίων Η ταυτοποίηση-κατηγοριοποίηση των ονομάτων και η αποσαφήνιση γίνεται με βάση : εσωτερικά στοιχεία του κειμένου (προσφωνήσεις-τίτλοι, γεωγραφικοί χαρακτηρισμοί) εξωτερικά στοιχεία του κειμένου (γεωγραφικά λεξικά, βιογραφίες, γενικές γνώσεις γλωσσολογίας) Προκαταρκτική εργασία: Η δημιουργία του γεωγραφικού λεξικού (με χρήση καθιερωμένων πηγών και πηγών της ίδιας της συλλογής) το οποίο περιέχει 1 εκ. ονόματα τόπων. Τα αρχαία γεωγραφικά ονόματα είναι περίπου 5.000

18 18 Η διαδικασία αποσαφήνισης τοπωνυμίων (συνέχεια) 1.Κατηγοριοποίηση ονομάτων (μόνο στα αγγλικά κείμενα) με βάση: - σύστημα στίξης και κεφαλαιογράμματης γραφής - σημειοθέτηση από τους εκδότες (ετικέτες στα ονόματα ή απευθείας σύνδεση με όρους γεωγραφικού λεξικού) - προσφωνήσεις ευγενείας και τίτλοι (“Mr.”, “Col.”), γεωγραφικοί προσδιορισμοί (“Rocky Mountains”) 2.Αποσαφήνιση πιθανών τοπωνυμίων με βάση: 1. συμφραζόμενα του τεκμηρίου (document context) 2. εντοπισμένα συμφραζόμενα (local context) 3. γενική γνώση του κόσμου

19 19 Η διαδικασία αποσαφήνισης τοπωνυμίων (συνέχεια) 1. Παράγεται ένα απλός γενικός χαρακτηρισμός για όλο το τεκμήριο ή τα συμφραζόμενα του. Αυτό γίνεται με τη χρήση ενός πίνακα συντεταγμένων (one-by- one degree grid) όπου τοποθετούνται όλες οι πιθανές τοποθεσίες των τοπωνυμίων ενός τεκμηρίου. Αφού αποδοθούν βάρη στον αριθμό των αναφορών κάθε τοπωνυμίου υπολογίζεται το κέντρο βάρους (centroid) του πίνακα βαρών και η τυπική απόκλιση (standard deviation) της απόστασης των διαφόρων σημείων από το κέντρο βάρους. Αφαιρούνται τα σημεία που απέχουν δύο τυπικές αποκλίσεις από το κέντρο βάρους και το κέντρο βάρους υπολογίζεται εκ νέου.

20 20 Η διαδικασία αποσαφήνισης τοπωνυμίων (συνέχεια) 2.Τα εντοπισμένα συμφραζόμενα ενός τοπωνυμίου αναπαρίσταται με ένα “κινούμενο παράθυρο” (moving window) που αποτελείται από τα τέσσερα (ήδη αποσαφηνισμένα) τοπωνύμια που προηγούνται και τα τέσσερα που ακολουθούν. Κάθε πιθανή τοποθεσία για ένα τοπωνύμιο βαθμολογείται ανάλογα με: την εγγύτητα της θέσης με άλλα τοπωνύμια (εντοπισμένα συμφραζόμενα)(local context) την εγγύτητα στο κέντρο βάρους του τεκμηρίου (συμφραζόμενα του τεκμηρίου)(document context) στη σχετική της σπουδαιότητα (π.χ. μια πρωτεύουσα έχει μεγαλύτερη σπουδαιότητα από μια απλή πόλη) Το σύστημα απορρίπτει τις πιθανές τοποθεσίες με χαμηλή βαθμολογία και αυτή με την υψηλότερη βαθμολογία είναι η τοποθεσία του τοπωνυμίου.

21 21 Αξιολόγηση του συστήματος  Έγινε από ερευνητή στο 20% των αποτελεσμάτων ενός κειμένου από κάθε μια από τις πέντε αντιπροσωπευτικές συλλογές της PDL και μετρήθηκε η ακρίβεια και η ανάκληση. ΣυλλογήΑκρίβειαΑκρίβεια συστ. αποσαφήνισης ΑνάκλησηF-measure Αρχ. Ελλάδα0.93 0.980.990.96 Αρχ. Ρώμη0.91 0.991.000.95 Λονδίνο0.86 0.920.960.91 Καλιφόρνια0.83 0.920.960.89 Α.Μ. Πολιτείες0.74 0.89 0.81

22 22 Περιορισμοί του συστήματος και μελλοντικοί στόχοι  Βελτίωση του συστήματος κατηγοριοποίησης για κείμενα της Β. Αμερικής. Θα μπορούσαν να χρησιμοποιηθούν ήδη επεξεργασμένα δείγματα δεδομένων (training data) ώστε το σύστημα να μαθαίνει κανόνες συμφραζόμενων για την εμφάνιση διαφόρων ειδών οντοτήτων.  Η απόδοση του συστήματος θα βελτιωθεί με τον περιορισμό των τοπωνυμίων με βάση τη χρονική περίοδο. Θα μπορούσαν να χρησιμοποιηθούν οι χρονικές αναφορές για οριστούν οι πιθανότητες με τον ίδιο τρόπο που χρησιμοποιούνται στον πίνακα βαρών οι χωρικές αναφορές.

23 23 Περιορισμοί του συστήματος και μελλοντικοί στόχοι ( συνέχεια )  Η αποκλειστική χρήση του «κέντρου βάρους» (centroid) φαίνεται πως περιορίζει τις δυνατότητες του συστήματος. Ο πειραματισμός αφορά τη χρήση ορθογωνίων ή πολυγώνων (bounding rectangles – polygons) που θα αντιπροσωπεύουν την περιοχή ενδιαφέροντος ενός αντικειμένου.  Συγκρότηση ενός γεωγραφικού λεξικού ελληνικών και λατινικών τοπωνυμίων για κείμενα τα οποία δεν είναι στην αγγλική γλώσσα. Αυτές οι πληροφορίες θα μπορούσαν να συγκεντρωθούν από έργα όπως τα Harper’s Dictionary of Classical Antiquities και Smith’s Dictionary of Greek and Roman Geography.

24 24 Σχετικές εργασίες  Alexandria Digital Library (ADL). Οι δημιουργοί της έδωσαν μεγάλη σημασία στη δημιουργία του γεωγραφικού λεξικού της (δηλ. στο σχήμα μεταδεδομένων της συλλογής)  GIPSY (Geo-Referenced Information Processing System). Το σύστημα χρησιμοποιεί έναν αλγόριθμο για την εξαγωγή τοπωνυμίων που με τη σειρά τους επεξεργάζονται με στατιστικές μεθόδους για να προσδιοριστούν οι περιοχές στις οποίες αναφέρονται.  Nominator (IBM T.J. Watson Research Center). Πρόγραμμα αναγνώρισης κυρίων ονομάτων που μελετά ιδιαίτερα τα είδη της αμφισημίας που παρουσιάζουν αυτά τα ονόματα.  Nymble. Αποτελεί ένα στατιστικό μοντέλο μάθησης για εύρεση ονομάτων σε κείμενο με τη χρήση μιας μεταβλητής που ονομάζεται Hidden Markov Model (HMM).

25 25 Η χρησιμότητα του συστήματος και πιθανές εφαρμογές στον ελληνικό χώρο. Ερωτήματα και προβληματισμοί. Γενικά, μια ψηφιακή βιβλιοθήκη ιστορικού περιεχομένου που θέλει να αναδείξει και γεωγραφικά χαρακτηριστικά των αντικειμένων της πρέπει να αντιμετωπίσει διάφορα προβλήματα όπως: τη δημιουργία γεωγραφικού λεξικού τα συστήματα ανάλυσης και επεξεργασίας κειμένων τα συστήματα αποσαφήνισης των ονομάτων (κυρίων ονομάτων και τοπωνυμίων) Παράδειγμα ψηφιακής βιβλιοθήκης ιστορικού-κοινωνικού περιεχομένου είναι το πρόγραμμα Βάση Γνώσεων για τον Ελληνισμό της Μικράς Ασίας του Ιδρύματος Μείζονος Ελληνισμού στο πλαίσιο του οποίου δημιουργείται και Αρχείο Τοπωνυμίων με στόχους: 1) τη δημιουργία ενός εξαντλητικού θησαυρού ονομάτων, 2) την τοποθέτηση των υπό εξέταση αντικειμένων στο χώρο, 3) τη δημιουργία μιας βάσης δεδομένων με ιστορικές και ανθρωπογεωγραφικές πληροφορίες για την ελληνική Μικρά Ασία στη διαχρονία.

26 26 Η χρησιμότητα του συστήματος και πιθανές εφαρμογές στον ελληνικό χώρο. Ερωτήματα και προβληματισμοί.  Ελληνικό ψηφιακό γεωγραφικό λεξικό  Συνεργασία πολλών επιστημονικών τομέων και ερευνητών  Αναζήτηση των κατάλληλων εργαλείων και ανάπτυξη νέων (π.χ. υιοθέτηση του εργαλείου αποσαφήνισης όταν το σύστημα της ψηφιακής βιβλιοθήκης γίνει διαθέσιμο για το ενδιαφερόμενο κοινό).  Εύρος θεματικής κάλυψης μιας παρόμοιας προσπάθειας και τήρηση του στόχου

27 27 PERSEUS DIGITAL LIBRARY


Κατέβασμα ppt "1 Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας Διοίκηση και Οργάνωση Βιβλιοθηκών με έμφαση στις νέες Τεχνολογίες της Πληροφορίας Μάθημα:"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google