Cultural Heritage Language Technologies ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ ‘ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ’ ΣΤ΄ Εξάμηνο Υπεύθυνος καθηγητής: Καπιδάκης Σαράντος Λούβαρη Αγγελική Β
Cultural Heritage Language Technologies 4 Ένα πρόγραμμα συνεργασίας για να δημιουργηθούν υπολογιστικά εργαλεία για τη μελέτη των αρχαίων ελληνικών, λατινικών, και των παλαιών νορβηγικών κειμένων για το δίκτυο των συμβεβλημένων ψηφιακών βιβλιοθηκών. 4 Η χρηματοδότηση του έργου παρέχεται από το National Science Foundation και το European Union International Digital Library Collaborative Research Program
Οι στόχοι του προγράμματος 4 Θέλει να προσαρμόσει τις ανακαλύψεις από το πεδίο της υπολογιστικής γλωσσολογίας, της ανάκτησης και της απεικόνισης πληροφοριών σε τρόπους που σχεδιάζονται συγκεκριμένα για να βοηθήσουν τους φοιτητές και τους μελετητές των κλασικών επιστημών να προωθήσουν την εργασία τους. 4 Αποσκοπεί να θεσπίσει ένα διεθνές πλαίσιο με ανοικτά πρότυπα για τη μακροπρόθεσμη συντήρηση, τη διανομή και τη διαλειτουργικότητα των μεταδεδομένων μεταξύ των συνδεδεμένων ψηφιακών βιβλιοθηκών. 4 Να εξαλειφθούν οι δυσκολίες ανάγνωσης στα ελληνικά, λατινικά, και παλαιά νορβηγικά κείμενα στις αρχικές γλώσσες τους.
Βασική τεχνολογία 4 Η βασική τεχνολογία της ψηφιακής βιβλιοθήκης παρέχεται σε όλους τους συνεργάτες από τη βιβλιοθήκη Perseus. Το σύστημα Perseus παρέχει ένα γενικό περιβάλλον που μπορεί να πάρει οποιοδήποτε SGML ή κωδικοποιημένο XML κείμενο και να το παρουσιάσει στο τέλος στους χρήστες με HTML ή άλλες μορφές όπως PDF. - Αυτό το σύστημα DL παραδίδει ~8.5 εκατομμύρια σελίδες το μήνα μέσω web. 4 Ο σχεδιασμός του συστήματος επιτρέπει στις νέες εφαρμογές να μπορούν εύκολα να ενσωματωθούν στην υπάρχουσα αρχιτεκτονική δομή.
Δοκιμές 4 Ελληνικά και λατινικά κείμενα από Perseus (6 εκατομμύρια λέξεις ελληνικών, 4 εκατομμύρια λέξεις λατινικών, με τις αντίστοιχες αγγλικές μεταφράσεις) 4 Εργασίες του Issac Newton από το Newton Project του Imperial College 4 Λατινικά κείμενα από το Stoa Consortium του University of Kentucky 4 Παλαιά κείμενα Νορβηγών από το University of California και του Arnamagnaean Institute 4 Κείμενα από τον Αρχιμήδη Project (DL για την ιστορία των μηχανικών)
Συνεργάσιμη υποδομή 4 Σε αυτό το πρόγραμμα, δημιουργήθηκε μια υποδομή για τη συνεργασία μεταξύ των συστημάτων λογισμικού που βασίζονται στο Open Archives Initiative protocols για να κάνουν τις διαφορετικές συλλογές από διάφορες ψηφιακές βιβλιοθήκες να λειτουργήσουν μαζί τόσο εύκολα όσο τα κείμενα μέσα σε μια ενιαία βιβλιοθήκη. 4 Προτείνεται το πρωτόκολλο OAI για να μοιραστούν όχι μόνο τα βασικά Dublin Core μεταδεδομένα, αλλά και τα πιο λεπτομερή μεταδεδομένα που χρησιμοποιούνται στα συστήματα ψηφιακών βιβλιοθηκών, όπως περίληψη και σχόλια.
Parsers 4 Η επέκταση ή η ανάπτυξη των μορφολογικών εργαλείων ανάλυσης για τα ελληνικά, τα λατινικά και παλαιά νορβηγικά είναι θεμελιώδης για αυτές τις εφαρμογές. - Οι απλές προϋπάρχουσες τεχνικές δεν είναι αρκετά ακριβείς. 4 Το πρόγραμμα Perseus θα παράσχει έναν Parser για κλασσικά ελληνικά και λατινικά. 4 Το Istituto Di Linguistica Computazionale del CNR, Πίζα θα αναπτύξει ένα σύστημα για τα λατινικά. 4 Το πανεπιστήμιο Καλιφόρνιας και το ίδρυμα Arnamagnaean και θα δημιουργήσει έναν Parser για τους παλαιά νορβηγικά. 4 Ακόμα, μετά τα αρχικά σχέδια θα δημιουργηθεί ένας Parser για παλαιά αγγλικά.
Ανάκτηση πολύγλωσσων πληροφοριών 4 Η πολύγλωσση ανάκτηση πληροφοριών μπορεί να είναι εξαιρετικά χρήσιμη για τους μη εξειδικευμένους μελετητές και τους σπουδαστές που ξέρουν λίγα ελληνικά, λατινικά, ή παλαιά Νορβηγικά, αλλά δεν είναι ικανοί να διατυπώσουν ερωτήσεις στην αρχική γλώσσα. 4 Οι άνθρωποι που μελετούν Όμηρο, παραδείγματος χάριν, θα μπορούσαν να ενδιαφέρονται πολύ για την έννοια της ηρωικής φήμης, της υστεροφημίας και της υπόληψης που διαδραματίζει πολύ σημαντικό ρόλο στην Ιλιάδα. 4 Ένας στόχος του προγράμματος είναι να αναπτυχθούν κοινές μορφές ευρετηρίασης αυτών των γλωσσών.
Απεικόνιση πληροφοριών Πολύ σχετική με τα εργαλεία για την ανάκτηση πολύγλωσσων πληροφοριών είναι οι δυνατότητες για την απεικόνιση πληροφοριών. 4 Τα αποτελέσματα αναζήτησης παρουσιάζονται πολύ συχνά σε έναν κατάλογο που είναι ταξινομημένος με τρόπο που είναι δυσνόητος για τον τελικό χρήστη. 4 Επομένως το σύστημα προγραμματίστηκε να αναπτύξει ένα σύστημα που: προσδιορίζει αυτόματα τις λέξεις κλειδιά, τις ταξινομεί σε ομάδες, ονομάζει εκείνες τις ομάδες αναλόγως απεικονίζει και επιτρέπει στο χρήστη να στραφεί σε υποτομείς σε συγκεκριμένο κείμενο σε μια αναζήτηση.
Συντακτικά εργαλεία ανάλυσης 4 Προσδιορισμός της σύνταξης των ρημάτων 4 Η σύνταξη και η χρήση συγκεκριμένων λέξεων μπορεί να παραπέμπουν σε ένα ύφος, έναν συντάκτη, ή ακόμα και σε κείμενο. 4 Όλα αυτά βέβαια είναι δύσκολα για το λόγο ότι η πολυπλοκότητα αυτών των γλωσσών είναι μεγάλη.
Ολοκλήρωση της ειδικής γνώσης 4 Ενώ οι αυτόματες διαδικασίες μπορούν να παρέχουν πολλές χρήσιμες πληροφορίες, οι μελετητές θα θελήσουν να διορθώσουν, να σχολιάσουν, και να επεκτείνουν τα αυτόματα αποτελέσματα 4 Η συνηθισμένη πρακτική για τους μελετητές είναι να τυπωθούν τα αποτελέσματα και στη συνέχεια να προσθέσουν τα σχόλια τους, τις σημειώσεις τους χειρόγραφα. 4 Σ’ αυτό το πρόγραμμα έχουν ως στόχο να δημιουργήσουν έναν μηχανισμό για να γίνονται απευθείας οι σημειώσεις των μελετητών και να αποθηκεύονται. 4 Θα δημιουργηθεί ένα πρωτοποριακό εργαλείο για τις DL.
Συμπέρασμα 4 Δημιουργήθηκαν εργαλεία που διευκολύνουν την ανάγνωση αυτών των κειμένων, με αυτόν τον τρόπο, την καθιστούν ευκολότερη για τα μεγάλα γενικά ακροατήρια. 4 Δημιουργήθηκαν επίσης εργαλεία που επιτρέπουν στους σπουδαστές και τους μελετητές να ρωτήσουν και να απαντήσουν σε ερωτήσεις για τη γλωσσική χρήση που θα ήταν δύσκολο ή αδύνατο να απαντηθεί έξω από ένα ηλεκτρονικό περιβάλλον.
Συμπέρασμα 4 Η χρηματοδότηση από αυτήν την επιχορήγηση επιτρέπει να πραγματοποιηθεί το όραμα δύο νέων μοντέλων της συνεργασίας. Αυτά τα μοντέλα είναι: ένα δίκτυο κοινών στοιχείων συμπεριφοράς μέσω του OAI στα πολύ χαμηλά επίπεδα πέρα από τα μεταδεδομένα, και ένα μοντέλο όπου η ειδική γνώση των χρηστών μπορεί να συμβάλει και να βελτιώσει τα εργαλεία μέσα σε μια ψηφιακή βιβλιοθήκη.