ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ Κουλικούρδη Άννα Τηλ/νο:
ΘΕΜΑ: Πολυγλωσσικές & Πολυπολιτισμικές Ψηφιακές Βιβλιοθήκες
Τι περιλαμβάνει το θέμα; Γενικά ζητήματα του πολιτισμού και της γλώσσας Μετάβαση από τοπικά σε παγκόσμια συστήματα & οι σχεδιαστικές προκλήσεις τους Πολυγλωσσική ανάκτηση πληροφοριών (CLIR) Τεχνικά ζητήματα (σετ χαρακτήρων γλωσσών- μονογλωσσικά & πολυγλωσσικά) Τρέχουσες χρήσεις & προσεγγίσεις στο διεθνή & ελληνικό χώρο Περιορισμοί του σήμερα Κριτική & σχόλια Σημαντικές πηγές, προσπάθειες και θέματα Ερωτήματα και προβληματισμοί
Πώς εντάσσεται το θέμα στην ενότητα; Ψηφιακές Βιβλιοθήκες (DLs) προσβάσιμες μέσω WWW χωρίς εθνικά όρια και σύνορα Αποτελεσματικότερη ανταλλαγή δεδομένων και επικοινωνία Διεθνής βιβλιοθηκονομική κοινότητα Κατάργηση αποκλεισμών ή περιορισμών πρόσβασης στη γνώση Επιβίωση μη κυρίαρχων (non-dominant) γλωσσών και των ψηφιακών βιβλιοθηκών που διαθέτουν υλικό σε αυτές
Γιατί είναι σημαντικό ως θέμα; Ως τώρα, προσπάθειες επικεντρωμένες σε μονογλωσσικές ψηφιακές βιβλιοθήκες Δεσπόζουσα γλώσσα η Αγγλική Επιτακτική ανάγκη για διαλειτουργικότητα, φορητότητα και ανταλλαγή δεδομένων Ανάπτυξη πληροφοριακής υποδομής και προτύπων Ενημέρωση επιστημόνων της πληροφόρησης, σχεδιαστών και ειδικών στις τεχνολογίες επικοινωνίας
Στατιστικά Στοιχεία Οι on-line γλώσσες που χρησιμοποιούνται για τη διάχυση γνώσης στο WWW έχουν ως εξής: 1. Αγγλική: 40.2% 2. Κινεζική: 9.8% 3. Γιαπωνέζικη: 9.2% 4. Ισπανική: 7.2% Αν θέλαμε να μεταφράσουμε τις μη Αγγλικές σελίδες του WWW θα χρειάζονταν ημέρες ( 300 χρόνια) σε ένα πολύ γρήγορο Η/Υ. Ή αλλιώς 1 μήνα σε Η/Υ. Οι χρήστες του Internet που δεν μιλούν Αγγλικά: 2003: 54% 2005: 59% Η 1η διδακτορική διατριβή πολυγλωσσικής ανάκτησης πληροφοριών: 1994 του Khaled Radwan
Πολιτισμός και Γλώσσα Πλούτος ανθρώπινης επικοινωνίας (προφορική, γραπτή, μεταφράσεις) Ιδιαίτεροι τρόποι έκφρασης Πολύπλοκη η αναζήτηση & ανάκτηση πληροφοριών Ακριβείς αναπαραστάσεις Ελάχιστες αλλοιώσεις των προθέσεων του δημιουργού Εναρμόνιση των αναγκών και εκφράσεων των δημιουργών και των χρηστών της πληροφορίας
Ορολογία Πολυγλωσσικών Ψηφιακών Βιβλιοθηκών Internationalization: παγκόσμια επικοινωνία ανεξαρτήτως γλώσσας Localization: προσαρμογή στις τοπικές ανάγκες Multilingual Digital Library: πολυγλωσσική ψηφιακή βιβλιοθήκη Multilingual Document: πολυγλωσσικό τεκμήριο Cross-Language Information Retrieval (CLIR): πολυγλωσσική ανάκτηση πληροφοριών Transliteration (TL): μεταγραφή Large Passive Vocabulary: η 2η γλώσσα που μπορούν να διαβάζουν οι χρήστες≠Small active vocabulary
Από τοπικά συστήματα σε παγκόσμια ΤΟΠΙΚΑ ΣΥΣΤΗΜΑΤΑ: Εύκολα για σχεδιασμό Προορισμένα για συγκεκριμένες εφαρμογές & κοινότητες χρηστών ΠΑΓΚΟΣΜΙΑ ΣΥΣΤΗΜΑΤΑ: Ανοικτά συστήματα Εξυπηρετούν απομακρυσμένους πληθυσμούς & πολλές τοπικές γλώσσες (minority languages) ΠΑΡΑΔΕΙΓΜΑΤΑ: Ψηφιακές Βιβλιοθήκες Πανεπιστημίων Εταιρικά sites Επιστημονικές βάσεις δεδομένων
Σχεδιαστικές Προκλήσεις Στα τοπικά συστήματα: Προσαρμογή: Διεπιφάνειας χρήστη (GUI) Παράμετροι εισόδου (input) & εξόδου (output) Πληκτρολόγια, οθόνες, εκτυπωτές, γραμματοσειρά
Σχεδιαστικές Προκλήσεις Στα Παγκόσμια συστήματα: Απίστευτη ποικιλία υλικού & λογισμικού Ποικιλία συστημάτων κωδικοποίησης χαρακτήρων Λιγότερος έλεγχος από τους σχεδιαστές Σχεδιαστικές προδιαγραφές (trade-offs) Διλήμματα
Πολυγλωσσική Ανάκτηση Πληροφοριών (Cross- Language Information Retrieval: CLIR) Ανερχόμενος και αναπτυσσόμενος κλάδος ( 3 προσεγγίσεις: Μετάφραση κειμένου μέσω μηχανών μετάφρασης (Machine Translation-MT): μη υψηλά αποτελέσματα και ακριβή σε κόστος Τεχνικές βασισμένες στη γνώση (λεξικά- MRD: machine readable dictionaries,πολυγλωσσικοί θησαυροί): δόμηση & διατήρηση ακριβή, υψηλή εκπαίδευση Χρήση οντολογιών (EuroWordNet project- : δύσκολες στην ενημέρωση, ακριβή δόμηση
Μεταγραφή (Transliteration) Αντιστοιχεί χαρακτήρες από μια γλώσσα σε άλλη Δεν μεταφράζει νοήματα Απώλεια αξιοσημείωτων δεδομένων (π.χ. Mao Tse-tung έναντι Mao Zedong στα Κινέζικα) Παράλειψη διακριτικών σημείων-γνωρισμάτων (accents, διαλυτικά, κ.ά.) Μη ολοκληρωμένες μορφές λέξεων Ανέφικτη η αντιστοίχιση & το ταίριασμα λέξεων
Μονογλωσσικά, πολυγλωσσικά & παγκόσμια σετ χαρακτήρων Μονογλωσσικά (ASCII, ALA) - Παγκόσμια (Unicode) HTTP 1.1, HTML 2.0 Universal Character Set (UCS) του ISO 10646:1993 Unicode Συγχώνευση του Unicode με το ISO 10646
Unicode 4.0 (15η έκδοση) Κωδικοποιεί αλφάβητα (χαρακτήρες), όχι γλώσσες Ένας μοναδικός αριθμός για κάθε χαρακτήρα Ανεξάρτητο από λειτουργικά συστήματα, λογισμικά & γλώσσες Απαιτεί 16 bits δηλ. > χαρακτήρες Κύριες γλώσσες Αμερικής, Ευρώπης, Μέσης Ανατολής, Αφρικής, Ινδίας, Ασίας Ελληνικό αλφάβητο: U+0370-U+03FF Υψηλότερες απαιτήσεις- Χρόνοι μετάδοσης Υιοθέτηση & υποστήριξη από κορυφαίους παράγοντες (IBM, Oracle, κ.ά.)
Τρέχουσες Εφαρμογές-Διεθνής Χώρος Πολυγλωσσικές ψηφιακές βιβλιοθήκες: 1960 Ενεργή συμμετοχή Ευρώπης & Ασίας OCLC ( Σετ χαρακτήρων της ALAwww.oclc.org Βιβλιοθήκη Κογκρέσσου ( & RLIN ( πρωτότυπη καταλογογράφηση & κωδικοποίηση μη Ρωμαϊκών αλφαβήτων Υποστήριξη Unicode (Ευρωπαϊκή Ένωση) Ερευνητικά έργα φορέων, όπως: IFLA, Mellon Foundation, κ.ά.
Τρέχουσες Εφαρμογές-Ελλάδα Πρότυπο ISO 843:1997 της επιτροπής ISO/TC46/SC2 για τη μεταγραφή των Ελληνικών χαρακτήρων σε Λατινικούς Working Group 5 της ISO/TC46/SC2 για μεταγραφή Ελληνικών HELEN Project ( ): προβλήματα μεταγραφής των Ελληνικών στις βιβλιογραφικές εγγραφές
Περιορισμοί & Όρια Μαζικός όγκος κειμένων Ποικιλία λογισμικού & υλικού (έλλειψη διαλειτουργικότητας) Κάθε ψηφιακή βιβλιοθήκη= ξεχωριστές εφαρμογές, εργαλεία, αρχιτεκτονική, χρήστες, γλώσσα & πολιτισμό Έλλειψη προτυποποίησης
Κριτική και Σχόλια Ενημέρωση ευρύτερου κοινού - Πρωτοβουλίες Εκπαίδευση & εμπειρία επί του αντικειμένου Εμφάνιση νέων προκλήσεων (πολυγλωσσική ανάκτηση λόγου και ομιλίας) Τελική επιδίωξη: παγκόσμια (global) ψηφιακή βιβλιοθήκη
Σημαντικές Πηγές CLEF (Cross-Language Evaluation Forum- campaign.org) campaign.org TREC (Text Retrieval Conference- NTCIR (NII-NACSIS Test Collection for IR Systems – ELRA (Evaluations and Languages Resources Distribution Association): Ερευνητικά προγράμματα: HLT Central: Human Language Technologies on the Web (European Commission) ( TIDES: Transligual Information Detection, Extraction and Summarization (DARPA) (
Ερωτήματα & Προβληματισμοί Όλες οι προαναφερόμενες τεχνικές βρίσκονται σε πειραματικό στάδιο Συνεκδοχικά, ποιος ο ρυθμός υιοθέτησης καθολικά αποδεκτών & εφαρμόσιμων μεθόδων; Πόσο ικανοποιητικά αποτελέσματα αποφέρουν οι λύσεις αυτές; Η ανάπτυξη νέων γλωσσικών εργαλείων και τεχνικών πολυγλωσσικής ανάκτησης πληροφοριών χρήζει μείζονος προσοχής
Βιβλιογραφία 1. Borgman C.L., Multi-Media, Multi-Cultural, and Multi-Lingual Digital Libraries or How Do We Exchange Data in 400 Languages?, D-Lib, June 1997 (available at: ) 2. Oard D.W., Ruiz M., Klavans J., Multi-lingual Information Discovery and AccesS (MIDAS), D-Lib, October 1999 (available at: Murthy T., Interoperability among Multi-Lingual Digital Libraries through Unicode based metadata: a model for India, Indo-US Workshop on Open Digital Libraries and Interoperability, Virginia Tech, USA, June 2003 (available at: ) 4. Oard D.W., Multilingual Information Access: the user’s perspective )available at: 5. Clews J., Digital Language Access: scripts, transliteration, and computer access, D-Lib, March 1997 (available at:
Βιβλιογραφία 6. Peters C., Picchi E., Across Languages, Across Cultures: issues in multilinguality and digital libraries, D-Lib, May 1997 (available at: Pavani A., A Model of Multilingual Digital Library, Ci.Inf., Brasilia, v.30, n.3.,p.73-81, Sep./Dec (available at: Maeda A., Multi-lingual Information Processing for Digital Libraries (available at 1.pdf) 1.pdf 9. Peters C., Cross-Language Evaluation Forum (CLEF): agenda for 2002, D-Lib, February 2002 (available at Peters C., ECDL 2003 Workshop Report: cross-language evaluation forum (CLEF 2003), D-Lib, September 2003 (available at:
Βιβλιογραφία 11. Peters C., Cross-Language Evaluation Forum, D-Lib, February 2000 (available at: Caidi N., Komlodi A., Cross-cultural Considerations in Digital Library ResearchL report for the JCDL 2003 workshop, D-Lib, July/August 2003 (available at: Dartois M., Maeda A., Sakaguchi T., A Multilingual Electronic Text Collection of Folk Tales for Casual Users Using Off-the-Shelf Browsers, D-Lib, October 1997 (available at: Croft W.B., What Do People Want from Information Retrieval?, D-Lib, November 1995 (available at: Java: how to program/ Deitel H.M., Deitel P.J., Prentice Hall PTRM, 5th ed., 2002
Βιβλιογραφία 16. Osawa N., A Multilingual Information Processing Infrastructure for Global Digital Libraries: EPICIST, D-Lib, 1997 (available at: Powell J., Fox E.A., Multilingual Fedearted Searching Across Heterogeneous Collections, D-Lib, September 1998 (available at: Anderson D., Unicode and Historic Scripts, Ariadne (available at: