Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες Παρουσίαση της εργασίας “Multilingual Information Retrieval Based on Document Alignement Techniques” Martin.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Τεχνολογίες Web Απαραίτητες γνώσεις για την υλοποίηση της άσκησης.
Advertisements

Τι είναι ο προγραμματισμός
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Τεχνολογίες ανάκτησης και εξαγωγής δεδομένων με γλωσσική υποστήριξη - Εφαρμογές στο e-government και e-business - Εφαρμογές στο e-government και e-business.
ΚΕΙΜΕΝΟ  Ο πρώτος τρόπος απεικόνισης πληροφορίας (και βασικός ως σήμερα).  Αδυναμία πρώτων υπολογιστών να χειριστούν άλλη μορφή πληροφορίας.  Πρόβλημα.
7.5.2 Αντικειμενοστραφής προγραμματισμός
Μετρήσεις στη γλώσσα και ανάλυση του λόγου Γ. Μικρός, Γ. Ταμπουρατζής, Σ. Μαρκαντωνάτου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH.
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
Η Θεματική Ταξινόμηση και η Συμβολή της στην Αναζήτηση Ευρωπαϊκών Κοινωνικών Δεδομένων.
1 ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ «Η ΠΟΛΥΓΛΩΣΣΙΚΟΤΗΤΑ ΣΤΟ ΧΩΡΟ ΤΩΝ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ» ΚΟΝΣΟΛΑΚΗ ΧΑΡΟΥΛΑ ΙΑΝΟΥΑΡΙΟΣ 2005.
 Αυδίκου Χριστίνα  Γιουμούκης Παναγιώτης  Κιντσάκης Θάνος  Πάπιστας Γιάννης.
MUltilingual Subtitling of multimediA content
1 Συλλογικοί Κατάλογοι & Διαδίκτυο Μιχάλης Σφακάκης.
Η μηχανική μάθηση στην αντιμετώπιση της Υπερπληροφόρησης
Heal Link Η HEAL Link (Hellenic Academic Libraries Link) είναι ο Σύνδεσμος Ελληνικών Ακαδημαϊκών Βιβλιοθηκών και λειτουργεί υπό.
Ο αυτοματισμός στις εργασίες διαχείρισης περιοδικών : έρευνα σε βιβλιοθήκες της Αθήνας Αναστασία Διαγγελάκη Χριστίνα Κανάκη (Ιωάννινα, Σεπτέμβριος 2008)
Title of the presentation | Date |1 Καταγραφή απαιτήσεων ερευνητών ανθρωπιστικών επιστημών για γλωσσικούς πόρους και εργαλεία Δρ Νίκος Χούσος Εθνικό Κέντρο.
Ψηφιακές Βιβλιοθήκες Θέμα εργασίας: Υπηρεσίες Ψηφιακών Βιβλιοθηκών προς τους χρήστες (Συγκριτική προσέγγιση) Ασκητή Βασιλική Αθήνα, 12/12/2005.
ΈΝΑ ΗΛΕΚΤΡΟΝΙΚΟ ΕΚΘΕΤΗΡΙΟ ΓΙΑ ΤΙΣ ΝΕΕΣ ΠΡΟΣΚΤΗΣΕΙΣ ΒΙΒΛΙΩΝ ΤΗΣ ΒΙΒΛΙΟΘΗΚΗΣ ΤΟΥ ΠΑΝΕΠΙΣΤΗΜΙΟΥ ΜΑΚΕΔΟΝΙΑΣ Κολοβός Φίλιππος Τσανακτσίδου ΕλισάβετΠαπαργύρη.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ –ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ : ΥΠΗΡΕΣΙΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΕ ΨΗΦΙΑΚΟ ΠΕΡΙΒΑΛΛΟΝ ΠΡΟΤΥΠΟ MPEG-4 ΕΠΙΒΛΕΠΩΝ.
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
Η ένταξη των ψηφιακών βιβλιοθηκών στον χώρο της εκπαίδευσης Επιμέλεια-Παρουσίαση Μαρία-Ειρήνη Καραχάλιου Β Ανδρομάχη Νοτοπούλου Β
1 ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΚΑΙ ΒΙΒΛΟΘΗΚΟΝΟΜΙΑΣ Αναζητώντας πρότυπα αλληλεπίδρασης χρηστών για ψηφιακές βιβλιοθήκες Εργασία στο Μάθημα: Ψηφιακές.
Οργάνωση πληροφοριών Ευρετηρίαση Μέρος Β Σχεδιασμός ευρετηρίων.
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ –ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ : ΥΠΗΡΕΣΙΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΕ ΨΗΦΙΑΚΟ ΠΕΡΙΒΑΛΛΟΝ ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ.
Ανάπτυξη Πρωτοτύπου Λογισμικού
Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας με τίτλο «Διοίκηση και Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες της Πληροφορίας»
1 MedioVis- Ένας φυλλομετρητής μεταδεδομένων MedioVis – A user-centred Library Metadata Browser Μάθημα: Ψηφιακές Βιβλιοθήκες Διδάσκων: Καπιδάκης Σαράντος.
STANFORD DIGITAL LIBRARY TECHNOLOGIES Ανταβάλογλου Δέσποινα Βλισίδου Εύα Γόντικα Ειρήνη.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ «ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ» ΜΕ ΘΕΜΑ: A Comparison of Methodic Segmentation Techniques for.
E X a M p L e Αξιοποιώντας την τεχνολογία XML στη διαχείριση της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
CALIS (China Academic Library and Information System) Κοινοπραξία ακαδημαϊκών βιβλιοθηκών της Κίνας Σύστημα παροχής πληροφοριών 1998.
Generating Chinese Classical Poems with Statistical Machine Translation Models Jing He, Ming Zhou, Long Jiang Μαρία Κωστάκη Εθνικό & Καποδιστριακό Πανεπιστήμιο.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΚΑΙ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ " Διοίκηση και Οργάνωση Βιβλιοθηκών.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΜΣ: «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΕΡΓΑΣΙΑ: MULTI-DOCUMENT SUMMARIZATIONS.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΚΑΙ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΠΣ: «Επιστήμη Της Πληροφορίας: Διοίκηση Και Οργάνωση Βιβλιοθηκών Με Έμφαση Στις Νέες Τεχνολογίες.
ΟΡΓΑΝΩΣΗ ΔΙΟΙΚΗΣΗ & ΑΞΙΟΛΟΓΗΣΗ ΤΩΝ ΨΗΦΙΑΚΩΝ ΒΙΒΛΙΟΘΗΚΩΝ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΚΑΙ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΥΠΗΡΕΣΙΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΕ.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Μετατροπή Μουσικών Συλλογών σε Ψηφιακές Βιβλιοθήκες Το Πρόγραμμα MUSESCAPE Ιόνιο Πανεπιστήμιο Ιανουάριος 2005 Χριστιανούδης Ιωάννης.
EContent Στέλιος Πιπερίδης Εθνικός Εκπρόσωπος eContent
Ειδική Ημερίδα για Ανάκτηση και Εξαγωγή Πληροφορίας Ειδική Ημερίδα για Ανάκτηση και Εξαγωγή Πληροφορίας Συζήτηση στρογγυλής τραπέζης.
ΠΜΣ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ The Digital Library and Computational Philology: The BAMBI Project Γόντικα Ειρήνη.
Οδηγός Αναζήτησης Ιδρυματικού Αποθετηρίου
IΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ: «ΔΙΟΙΚΗΣΗ & ΟΡΓΑΝΩΣΗ ΒΙΒΛΙΟΘΗΚΩΝ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ.
Επέκταση Ερωτημάτων Βάσει Σωμάτων Κειμένου σε Ανοιχτούς Καταλόγους Ελεύθερης Πρόσβασης βασισμένο στο άρθρο των Jeffry Komarjaya, Danny C.C. Poo, and Min-Yen.
ΠΑΡΟΥΣΙΑΣΗ ΤΟΥ COLLATE PROJECT COLLATE:Collaboratory for Annotaton,Indexing and Retrieval of Digitized Historical Archive Material(συνεργασία για σχολιασμό,
Διπλωματική Εργασία Πειραματική Αξιολόγηση της Μοναδιαίας Οκνηρής Συνέπειας Τόξου (Singleton Lazy Arc Consistency) Ιωαννίδης Γιώργος (ΑΕΜ: 491)
Από την ιδέα μέχρι το λογισμικό. Ξεκινώντας από το πρόβλημα...
Template-Independent News Extraction Based on Visual Consistency  Shuyi Zheng  Ruihua Song  Ji-Rong Wen Παπαντωνίου.
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Εργασία στο υποχρεωτικό μάθημα του ΣΤ’εξαμήνου Θέμα: Oxford Digital Library.
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας «Διοίκηση & Οργάνωση Βιβλιοθηκών.
Ηλεκτρονική Δημοσίευση The Goddard Library Web Capture Project Χριστιανούδης Ιωάννης Π.Μ.Σ. Κέρκυρας Μάιος 2005.
Η επεξεργασία του υλικού στην υβριδική υπηρεσία πληροφόρησης: παράλληλη χρήση των εργαλείων Κόκκινος Διονύσης, Ε.Μ.Π. - Κεντρική Βιβλιοθήκη Τσώλη Θεοδώρα,
Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Ιόνιο Πανεπιστήμιο Μεταπτυχιακό Πρόγραμμα στην Επιστήμη της Πληροφορίας Ψηφιακές Βιβλιοθήκες Διδάσκων: Σαράντος.
ΕΙΣΑΓΩΓΉ ΣΤΗΝ ΠΛΗΡΟΦΟΡΙΚΉ ΝΊΚΟΣ ΠΑΠΑΔΆΚΗΣ ΛΟΓΙΣΜΙΚΟ ΤΟΥ ΗΛΕΚΤΡΟΝΙΚΟΥ ΥΠΟΛΟΓΙΣΤΗ.
 Στόχος της παρουσίασης αυτής είναι η εξοικείωση με τον Ηλεκτρονικό Κατάλογο της Βιβλιοθήκης προκειμένου να αναζητήσουμε ένα τεκμήριο από τη συλλογή.
ΜΕΘΟΔΟΛΟΓΙΑ ΕκπαιδευτικΗς ΕΡΕΥΝΑΣ: Συγγραφη εργασιας
Δραματική Τέχνη στην εκπαίδευση: Ερευνητικό Σχέδιο ΙΙ
Διαδικασία συλλογής των δεδομένων – Δειγματοληψία Απώτερος στόχος η διερεύνηση των σχέσεων μεταξύ μεταβλητών και παραγωγή γνώσης με το σχήμα «αίτιο – αποτέλεσμα».
Ανακαλυπτική μάθηση Γνώση προϊόν του μαθητή Διαδικασία ανακάλυψης η έρευνα για τον εντοπισμό του ακαθορίστου Μέσα από τα ερεθίσματα που του δίνει ο εκπαιδευτικός.
ΠΑΡΑΛΛΗΛΑ ΚΑΙ ΣΥΓΚΡΙΣΙΜΑ ΣΩΜΑΤΑ ΚΕΙΜΕΝΩΝ
Οριζόντιο Έργο Υποστήριξης Σχολείων, Εκπαιδευτικών και Μαθητών στο Δρόμο για το ΨΗΦΙΑΚΟ ΣΧΟΛΕΙΟ, νέες υπηρεσίες Πανελλήνιου Σχολικού Δικτύου και Στήριξη.
MOODLE- assessment tools
Βάσεις Δεδομένων και web-based Εφαρμογές
M. Πατρινόπουλος.
ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΠΕΡΙΒΑΛΛΟΝΤΑ Ανάπτυξη Εφαρμογών για Φορητές Συσκευές
Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση
Μεταγράφημα παρουσίασης:

Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες Παρουσίαση της εργασίας “Multilingual Information Retrieval Based on Document Alignement Techniques” Martin Braschler, Peter Schäuble Μάθημα: Ψηφιακές βιβλιοθήκες Ματθαίος Στρατής

Πολυγλωσσική ψηφιακή βιβλιοθήκη (Βασικός ορισμός) Μια ψηφιακή βιβλιοθήκη, η οποία περιέχει τεκμήρια σε περισσότερες από μία γλώσσες

Δια-γλωσσική ανάκτηση πληροφοριών (Cross-Language Information Retrieval - CLIR) Η πρακτική κατά την οποία ο χρήστης συντάσσει το ερωτηματολόγιο (Query) σε μια γλώσσα και ανακτά τα σχετικά τεκμήρια ανεξάρτητα από τη γλώσσα στην οποία είναι γραμμένα αυτά.

Αναγκαιότητα της CLIR Ο χρήστης πρέπει να έχει πρόσβαση σε όσο το δυνατόν περισσότερες πληροφορίες, χωρίς η γλώσσα ν’ αποτελεί φραγμό Ο δημιουργός πρέπει να κάνει τις εργασίες του, απόψεις, ιδέες του κλπ. διαθέσιμα ευρέως, χωρίς τον περιορισμό της γλώσσας

Προσεγγίσεις για την εκτέλεση μιας CLIR 1η Προσέγγιση: Μετάφραση των τεκμηρίων- στόχων στη γλώσσα αναζήτησης o Πολύ βολική για τον χρήστη Αλλά: o Μη ρεαλιστική (Πολύ δαπανηρή και απαιτητική δραστηριότητα) o Τα προγράμματα αυτόματης μετάφρασης (MT) έχουν αποδειχθεί αναποτελεσματικά o Ένα μικρό ποσοστό της συλλογής μπορεί να ενδιαφέρει τον χρήστη. Γιατί να μεταφράζονται τα παντα;

Προσεγγίσεις για την εκτέλεση μιας CLIR (συνέχεια) 2η Προσέγγιση: Μετάφραση του querie στη γλώσσα των αντίστοιχων τεκμηρίων Τεχνικές knowledge-based  Με χρήση λεξικών  Με χρήση θησαυρών  Με χρήση οντολογιών (π.χ. Euro Wordnet) Τεχνικές corpus-based  Βασίζονται στην ίδια τη συλλογή  Χρησιμοποιούνται στατιστικά στοιχεία σχετικά με τη χρήση των όρων για εξαγωγή συμπερασμάτων  Βάσει των συμπερασμάτων δημιουργούνται τεχνικές μετάφρασης του querie, ειδικές για κάθε ξεχωριστή συλλογή  Εφαρμόζονται για την αναζήτηση μεταξύ παράλληλων (μεταφραστικά ισοδύναμων) ή συγκρίσιμων (με σχετικό περιεχόμενο) συλλογών

Απαιτήσεις εφαρμογής για μια πολυγλωσσική ψηφιακή βιβλιοθήκη Αναγνώριση, χειρισμός και εμφάνιση των διάφορων περιεχόμενων γλωσσών. ( Υποστήριξη των σετ χαρακτήρων και κωδικοποιήσεων για την αναπαράσταση της πληροφορίας) Επίτευξη Internationalization (Δυνατότητα πρόσβασης και χρήσης ανεξάρτητα από τοπικούς ή γλωσσικούς φραγμούς)  Εφαρμογή οδηγιών του HTTP και της HTML (ως προς την κωδικοποίηση χαρακτήρων) Επίτευξη Localization (Προσαρμογή στις τοπικές ιδιαιτερότητες)  Δυνατότητα εφοδιασμού με ειδικά fonts

Δυναμικό inrerface Σε ένα interface μιας πολυγλωσσικής βιβλιοθήκης είναι απαραίτητο: Όλα τα επιμέρους interfaces να εμφανίζονται σε κάθε προτιμώμενη γλώσσα Όλα τα μηνύματα να εμφανίζονται σε κάθε προτιμώμενη γλώσσα Όλα τα στοιχεία των επιμέρους πινάκων να εμφανίζονται σε κάθε προτιμώμενη γλώσσα

Πολυγλωσσική ψηφιακή βιβλιοθήκη (Ευρύς ορισμός) «Μια πολυγλωσσική ψηφιακή βιβλιοθήκη, είναι μια ψηφιακή βιβλιοθήκη, όλες οι λειτουργίες της οποίας εφαρμόζονται ταυτόχρονα σε όσες γλώσσες είναι επιθυμητό και της οποίας οι λειτουργίες αναζήτησης και ανάκτησης είναι ανεξάρτητες από τη γλώσσα».[1] [1][1] Pavani, Ana M. B., A model of Multilingual Digital Libray, Ci. Inf., Brasília, v. 30, n. 3, p , set./dez. 2001

Παρουσίαση της εργασίας “Multilingual Information Retrieval Based on Document Alignement Techniques” Martin Braschler, Peter Schäuble

Corpus-based μέθοδος πολυγλωσσικής ανάκτησης πληροφοριών κατά την οποία ο χρήστης συνθέτει το querie σε μια προτιμώμενη γλώσσα και ανακτά τα σχετικά τεκμήρια ανεξάρτητα από τη γλώσσα στην οποία είναι γραμμένα αυτά.

Βάση εργασίας: Συλλογή του Associated Press (AP) με αγγλικά κείμενα Συλλογή του Schweizerische Depeschenagentur (SDA) με γερμανικά και γαλλικά κείμενα

Τεχνική ευθυγράμμισης τεκμηρίων (Document alignment) Διαδικασία κατά την οποία τεκμήρια με σχετικό περιεχόμενο οργανώνονται σε ζεύγη (alignments), παράγοντας ένα mapping των σχετιζόμενων μεταξύ τους τεκμηρίων διαφορετικών συλλογών

Παράδειγμα ευθυγράμμισης (SDA) Condor-Maschine bei Izmir abgestürzt: Mutmasslisc 16 Tote. (Condor plane crashed near Izmir: probably 16 dead) Un avion ouest-allemand s'écrase près d'Izmir: 16 morts. (A Western German plane crashes near Izmir: 16 dead)

Δείκτες για τον εντοπισμό της συνάφειας Τα τεκμήρια περιέχουν κοινά κύρια ονόματα (Η ορθογραφία των ονομάτων σε παρόμοιες γλώσσες είναι συνήθως σταθερή) Τα τεκμήρια περιέχουν κοινούς αριθμούς (Οι αριθμοί σε μεγάλο βαθμό δεν εξαρτώνται απ’ τη γλώσσα) Αν στα τεκμήρια έχουν αποδοθεί συμβατοί ταξινομητές (classifiers), αυτοί μπορούν να χρησιμοποιηθούν Η ίδια ιστορία ή είδηση συνήθως δημοσιεύεται σε κοντινές ημερομηνίες από τα ειδησεογραφικά πρακτορεία. Κατά συνέπεια, οι ημερομηνίες μπορούν να χρησιμοποιηθούν σαν δείκτες Λέξεις που περιέχονται και στα δύο τεκμήρια μπορούν να χρησιμοποιηθούν σαν ένδειξη συνάφειας. Ειδικά γι αυτό, μπορεί να χρησιμοποιηθεί λεξικό για τη μετάφραση των όρων από γλώσσα σε γλώσσα.

Βασική σύλληψη της διαδικασίας ευθυγράμμισης Τα κείμενα της πρώτης συλλογής μετατρέπονται σε queries με την εξαγωγή όρων απ’ αυτά Τα queries μεταφράζονται στη γλώσσα- στόχο και «τρέχουν» πάνω στη δεύτερη συλλογή

Ευθυγράμμιση συλλογών AP – German SDA Χρήση όρων «μετρίας» συχνότητας Χρήση wordlist (Απλοποιημένο λεξικό) Χρήση τεχνικής Thresholding (Κατώτατου ορίου ή κατωφλίου) Χρήση τεχνικής Date normalization (Κανονικοποίησης ημερομηνίας )

Απεικόνιση των ευθυγραμμίσεων AP-German SDA (1)

Απεικόνιση των ευθυγραμμίσεων AP-German SDA (2)

Παράθυρο ημερομηνίας (Date window): Μπορεί να χρησιμοποιηθεί για τον περιορισμό της έκτασης προς αναζήτηση

Ευθυγράμμιση συλλογών French SDA – German SDA Χρήση των αποδοθέντων Classifiers Χρήση κυρίων ονομάτων και αριθμών σαν δείκτες Δεν είναι απαραίτητη η χρήση γλωσσικών εργαλείων

Αξιολόγηση των ευθυγραμμίσεων Αξιολόγηση ανεξάρτητα από την εφαρμογή Αξιολόγηση εφαρμογής που χρησιμοποιεί τις ευθυγραμμίσεις

Αξιολόγηση ανεξάρτητα από την εφαρμογή Πώς θα κριθεί η ποιότητα; Απαιτείται άνθρωπος κριτής που θα πρέπει να διαβάσει ολόκληρη τη συλλογή για να σιγουρευτεί ότι δεν υπάρχει κάποιο πιο συναφές κείμενο, πράγμα καθαρά μη πρακτικό. Πώς θα εκτιμηθεί το ποσοστό συνάφειας σ’ ένα ζεύγος όταν το query είναι στην ουσία ένα ολόκληρο κείμενο; (Εφαρμογή πίνακα 5 κατηγοριών) Ο άνθρωπος κριτής θα πρέπει να διαβάζει δύο τεκμήρια για κάθε αποτίμηση σχετικότητας αντί για ένα (όπως συμβαίνει στην αποτίμηση απλών διαδικασιών ανάκτησης). Αυτό συμβαίνει, γιατί το query είναι διαφορετικό για κάθε ευθυγραμμισμένο ζεύγος.

Κατηγορίες για την αποτίμηση των ευθυγραμμισμένων ζευγών

Αποτελέσματα αποτίμησης δείγματος 1% επί του συνόλου

Εφαρμογή των ευθυγραμμίσεων για την ανάκτηση πληροφοριών Δια-γλωσσική ανάκτηση πληροφοριών από παράλληλες ή συγκρίσιμες συλλογές  Για συγκρίσιμες συλλογές μπορεί να εφαρμοστεί η τεχνική του pseudo relevance feedback σε συνδυασμό με χρήση wordlist Πρακτική εφαρμογή στη συλλογή CLIR του TREC-6

Σύγκριση των διαφόρων τεχνικών στη συλλογή του TREC-6

Λογισμικά εφαρμογής της CLIR CINDOR της TextWise ( TwentyOne της Irion Technologies ( Pidgin της Irion Technologies ( AnswerWorks της WexTech ( Lirix της Xerox ( Relevancy της Eurospider (

Προβληματισμοί σχετικά με την CLIR Πώς επιλέγονται οι σωστοί όροι για τη σύνταξη ενός query; Έχει ξεπεραστεί πραγματικά ικανοποιητικά το φράγμα του «ζεύγους γλωσσών»; Αν η αυτοποιημένη μετάφραση (MT) χρησιμοποιείται για να μεταφραστούν τα ανακτηθέντα τεκμήρια, γιατί να μη χρησιμοποιείται για τη μετάφραση όλων των τεκμηρίων μιας συλλογής; Πόσο μπορεί να εφαρμοστεί η CLIR σε μεγάλες μηχανές αναζήτησης; (Ας μην ξεχνάμε οτι τα γλωσσικά εργαλεία που κατασκευάζονται είναι ειδικά για κάθε εφαρμογή) Η φιλοσοφία του semantic web μπορεί να επεκταθεί και για την CLIR;

Τέλος παρουσίασης