Αποσαφήνιση Λέξεων με Βάση τα Google 5-grams Πολυξένη Π. Κατσιούλη ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Ευρετήρια.
Advertisements

Ένα εργαλείο σε Java για την ανάκτηση πληροφοριών και τον εντοπισμό ομοιοτήτων σε ακαδημαϊκές εκδόσεις με τη χρήση τεχνικών εξόρυξης δεδομένων Δημήτρης.
Ερωτηματολόγιο Συλλογής Απαιτήσεων Εφαρμογών Υψηλών Επιδόσεων
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Τεχνικές Προγραμματισμού με την JavaScript Στυλιάδης Κων/νος Φλώρινα, Οκτώβριος 2004.
ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ ΣΤΟΝ ΠΑΓΚΟΣΜΙΟ ΙΣΤΟ RDF – RDFS - SPARQL
Μετρήσεις στη γλώσσα και ανάλυση του λόγου Γ. Μικρός, Γ. Ταμπουρατζής, Σ. Μαρκαντωνάτου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH.
1 Μηχανές αναζήτησης στον Παγκόσμιο Ιστό Search Engines.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Πρώτο Αρχιτεκτονική.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP – Σχεδιαστικά Θέματα.
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ WordNet.
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
Πολυγλωσσικότητα και ψηφιακές βιβλιοθήκες Παρουσίαση της εργασίας “Multilingual Information Retrieval Based on Document Alignement Techniques” Martin.
1 Α. Βαφειάδης Τ.Ε.Ι Θεσσαλονίκης – Τμήμα Πληροφορικής Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Εργαστηριακό Μέρος Μέρος: Τρίτο Εξάμηνο: Έβδομο Καθηγητής:
Πνευματικό κέντρο Ερμουπόλεως Σύρου
Προγραμματισμός PASCAL Πληροφορική Γ' Λυκείου μέρος γ
Ανάκτηση Πληροφορίας Αποτίμηση Αποτελεσματικότητας.
Λανθάνουσα Σημασιολογική Ανάλυση (Latent Semantic Analysis)
Ανάκτηση Πληροφορίας Το Διανυσματικό μοντέλο.
1 iPac Μια πρώτη γνωριμία Κώστας Βίγλας ΥΚΒ. 26/6/2002 Ενημέρωση πάνω στις νέες ψηφιακές υπηρεσίες 2 Περιεχόμενα 1 iPac  Τί είναι το iPac  Δυνατότητες.
Μηχανική Μάθηση και Εξόρυξη Γνώσης
ΠΛΗΡΟΦΟΡΙΑΚΟ ΣΥΣΤΗΜΑ ΓΙΑ ΤΗΝ ΔΙΑΣΦΑΛΙΣΗ ΠΟΙΟΤΗΤΑΣ Γραφείο Ποιότητας Αλεξάνδρειο ΤΕΙ Θεσσαλονίκης.
Αναγνώριση Προτύπων.
Εφαρμογές Πληροφορικής
© 2002 Thomson / South-Western Slide 4A-1 Κεφάλαιο 4, Μέρος A Πιθανότητες.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Συναρτησιακές Εξαρτήσεις.
Η επιρροή του χώρου εργασίας των σχολικών τάξεων στη μάθηση
Δημήτρης Γαβρίλης, Κωνσταντία Κακάλη Βιβλιοθήκη & Υπηρεσία Πληροφόρησης, Πάντειο Πανεπιστήμιο.
ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ & ΤΕΧΝΟΛΟΓΙΑΣ Θέμα: Διοίκηση ανάπτυξης μη-κερδοσκοπικού ιστόπεδου (ιστόπεδου Δήμου Αγ.Παρασκευής)
Μετρικές Εκτίμησης Α π όδοσης. Κλασσικές Μετρικές ( Εκτίμηση Α π όδοσης ) Χωρικές / χρονικές π ολυ π λοκότητες δομών δεικτοδότησης Ε π ικοινωνία με το.
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας & Βιβλιοθηκονομίας Μεταπτυχιακό Πρόγραμμα Σπουδών στην Επιστήμη της Πληροφορίας: Διοίκηση & Οργάνωση Βιβλιοθηκών.
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Τεχνικές Αναζήτησης στο Διαδίκτυο και όχι μόνο….
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Λάζαρος Πολυμενάκος, καθηγητής ΑΙΤ Ηρακλής Καπρίτσας, telia.co.gr
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
Ανάκτηση Πληροφορίας (Information Retrieval – IR) Πανεπιστήμιο Θεσσαλίας Πολυτεχνική Σχολή Τμήμα Μηχ. Η/Υ, Τηλ/νιών & Δικτύων Ακαδημαϊκό Έτος
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
Ανάπτυξη και εκπαίδευση ιεραρχίας ταξινομητών για την κατηγοριοποίηση κειμένων Αβραμίδη Γεωργία 719.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ –ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ : ΥΠΗΡΕΣΙΕΣ ΠΛΗΡΟΦΟΡΗΣΗΣ ΣΕ ΨΗΦΙΑΚΟ ΠΕΡΙΒΑΛΛΟΝ ΣΗΜΑΣΙΟΛΟΓΙΚΟΣ ΙΣΤΟΣ.
1 Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Πανεπιστήμιο Πατρών ΟΝΤΟΚΕΝΤΡΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΙΙ (C++) Κληρονομικότητα.
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ «ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ» ΜΕ ΘΕΜΑ: A Comparison of Methodic Segmentation Techniques for.
2-1 Ανάλυση Αλγορίθμων Αλγόριθμος Πεπερασμένο σύνολο εντολών που, όταν εκτελεστούν, επιτυγχάνουν κάποιο επιθυμητό αποτέλεσμα –Δεδομένα εισόδου και εξόδου.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΗΣΗΣ Διοίκηση και Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες της.
Generating Chinese Classical Poems with Statistical Machine Translation Models Jing He, Ming Zhou, Long Jiang Μαρία Κωστάκη Εθνικό & Καποδιστριακό Πανεπιστήμιο.
Ζαγκαρέτος Λεωνίδας ΑΕΜ: 607 Ραφαηλίδης Δημήτρης ΑΕΜ: 656
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Residency Database Residency Database Project IFMSA Transnational project Από τηv Ελληνική Επιτροπή Διεθνών Σχέσεων και Ανταλλαγών Φοιτητών Ιατρικής (HelMSIC)
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού Προπτυχιακό.
ΠΜΣ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ The Digital Library and Computational Philology: The BAMBI Project Γόντικα Ειρήνη.
Περίληψη Κειμένου με Διεύρυνση Κειμένου (Single Document Summarization with Document Expansion) Xiaojun Wan and Jianwu Yang Institute of Computer Science.
ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ ΚΑΤΕΥΘΥΝΣΗ «Υπηρεσίες Πληροφόρησης σε Ψηφιακό Περιβάλλον» ΤΙΤΛΟΣ ΜΑΘΗΜΑΤΟΣ « Ηλεκτρονική Δημοσίευση.
IΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ: «ΔΙΟΙΚΗΣΗ & ΟΡΓΑΝΩΣΗ ΒΙΒΛΙΟΘΗΚΩΝ ΜΕ ΕΜΦΑΣΗ ΣΤΙΣ ΝΕΕΣ ΤΕΧΝΟΛΟΓΙΕΣ ΤΗΣ.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά 1 Εισαγωγή στην Επεξεργασία Ερωτήσεων.
Κοινωνικοοικονομική Αξιολόγηση Επενδύσεων Μεθοδολογία Έρευνας και Συγγραφής Πανεπιστημιακών Εργασιών.
Γλωσσική Τεχνολογία Μάθημα 8 ο Γλώσσα και Ανάκτηση Πληροφορίας Σοφία Στάμου Άκ.Έτος
1 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΣΧΟΛΗ ΘΕΤΙΚΩΝ ΕΠΙΣΤΗΜΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ Ανακάλυψη Γνώσης από Βιολογικές Αλληλουχίες Αλεξανδρίδου Αναστασία.
1 Η ΧΡΗΣΗ ΤΩΝ ΠΕΡΙΛΗΨΕΩΝ ΣΤΗΝ XML ΑΝΑΚΤΗΣΗ ΜΑΘΗΜΑ : ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ επιμέλεια : ΡΑΜΜΑ ΧΑΡΙΚΛΕΙΑ ΑΘΗΝΑ 2007 Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας –
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας «Διοίκηση & Οργάνωση Βιβλιοθηκών.
Ηλεκτρονική Δημοσίευση The Goddard Library Web Capture Project Χριστιανούδης Ιωάννης Π.Μ.Σ. Κέρκυρας Μάιος 2005.
COSMOS Cultivate Resilient Smart Objects for Sustainable City Applications COSMOS-Minimal Planner Functionalities; Dependencies, instructions and code.
 Στόχος της παρουσίασης αυτής είναι η εξοικείωση με τον Ηλεκτρονικό Κατάλογο της Βιβλιοθήκης προκειμένου να αναζητήσουμε ένα τεκμήριο από τη συλλογή.
Θερινό Σχολείο, 14 – 20 Ιουλίου 2014
ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Μηχανικών Πληροφορικής ΤΕ
Ψηφιακοί, γλωσσικοί περίπατοι στην πόλη μου
Μάθημα 6ο Ανάλυση Κειμένου και Δεικτοδότηση
Μεταγράφημα παρουσίασης:

Αποσαφήνιση Λέξεων με Βάση τα Google 5-grams Πολυξένη Π. Κατσιούλη ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Επιβλέπων: Θεόδωρος Καλαμπούκης, Καθηγητής ΟΠΑ Αθήνα, 30 Ιουνίου 2008

Περιεχόμενα Εισαγωγή Σχετικές εργασίες Μέθοδος αποσαφήνισης λέξεων Πειραματικά αποτελέσματα Συμπεράσματα Μελλοντική Εργασία

Εισαγωγή Οι υπάρχουσες μηχανές αναζήτησης υποστηρίζουν μόνο την ανάκτηση εγγράφων που είναι γραμμένα στην ίδια γλώσσα με το ερώτημα Δια-γλωσσική ανάκτηση πληροφοριών (Cross Language Information Retrieval, CLIR): ανάκτηση κειμένων γραμμένα σε διαφορετική γλώσσα από το ερώτημα Αποσαφήνιση της έννοιας των λέξεων (Word Sense Disambiguation, WSD): αναγκαία για την επιλογή της κατάλληλης μετάφρασης

Παράδειγμα Ο παγκόσμιος ιστός περιέχει πληροφορίες για το μάθημα universalworldwidetissue, web The {universal, worldwide} {tissue, web} contains information for the lesson μετάφραση Αρχικό ερώτημα Μεταφρασμένο ερώτημα Στόχος: Επιλογή της κατάλληλης μετάφρασης για τις λέξεις ‘παγκόσμιος’ και ‘ιστός’ με τη χρήση WSD αλγορίθμων worldwide web The worldwide web contains information for the lesson

Σχετικές εργασίες (1/3) η σωστή μετάφραση μιας λέξης εξαρτάται από το context στο οποίο βρίσκεται το Web μπορεί να χρησιμοποιηθεί για να εκτιμηθεί η συνάφεια των λέξεων Μέθοδος βασισμένη στο Web Έστω ένα ερώτημα q = s 1, s 2, s 3 με τις ακόλουθες μεταφράσεις Y. Qu, G. Grefenstette, D. A. Evans: Resolving Translation Ambiguity Using Monolingual Corpora. 3 rd Workshop of the Cross-Language Evaluation Forum, CLEF Rome, Italy, 2002 s1s1 s2s2 s3s3 t 11 t 12 t 13 t 21 t 22 t 31 t 32 t 33 t 34 3×2×4 = 24 πιθανές μεταφράσεις του q χώρος μεταφράσεων

Σχετικές εργασίες (2/3) 1. Εξαγωγή όλων των πιθανών μεταφράσεων των λέξεων ενός ερωτήματος. 2. Δημιουργία όλων των πιθανών συνδυασμών των μεταφράσεων δηλαδή του translation space. 3. Εισαγωγή κάθε ακολουθίας σε μια δικτυακή πύλη (Web portal), π.χ., AltaVista. 4. Ορισμός του coherence score ως τον αριθμό των σελίδων που επιστρέφονται για κάθε ακολουθία μεταφράσεων. 5. Επιλογή της μετάφρασης με το μεγαλύτερο coherence score Μέθοδος βασισμένη στο Web

Σχετικές εργασίες (3/3) 1. Εξαγωγή όλων των πιθανών μεταφράσεων των λέξεων ενός ερωτήματος. 2. Δημιουργία όλων των πιθανών συνδυασμών των μεταφράσεων δηλαδή του translation space. 3. Υπολογισμός της αμοιβαίας πληροφορίας (mutual information, ΜΙ) για όλα τα ζεύγη των όρων για κάθε δυνατή ακολουθία μεταφράσεων του translation space. 4. Άθροισμα των τιμών της αμοιβαίας πληροφορίας. Το άθροισμα αυτό καλείται coherence score της ακολουθίας. 5. Επιλογή της μετάφρασης με το μεγαλύτερο coherence score. Μέθοδος βασισμένη σε ένα σύνολο δεδομένων (corpus)

Google n-grams ακολουθίες αγγλικών λέξεων με τις συχνότητες εμφάνισής τους το μήκος κυμαίνεται από unigrams (μεμονωμένες λέξεις) ως πεντάγραμμα (ακολουθίες 5 λέξεων) Παράδειγμα από 5-grams: Google n-grams:

Επεξεργασία των Google 5-grams Αφαίρεση των stop words (π.χ., ‘he’, ‘she’, ‘who’, ‘which’, ‘of’, ‘for’, ‘me’, ‘the’, κτλ.) Δημιουργία ευρετηρίου με χρήση του Lucene Παράδειγμα:

Lucene Open source βιβλιοθήκη ευρετηριασμού και αναζήτησης κειμένων υλοποιημένη σε java

Lucene: Δημιουργία Ευρετηρίου (1/2) Document class Document : αναπαριστά ένα σύνολο από δεδομένα το οποίο θέλουμε να προσθέσουμε στο ευρετήριο περιέχει ένα ή περισσότερα πεδία Field class Field: αντιστοιχεί είτε στα δεδομένα που χρησιμοποιούνται κατά την αναζήτηση ως λέξεις κλειδιά ή στα δεδομένα που ανακτώνται από το ευρετήριο κατά την αναζήτηση Lucene:

Lucene: Δημιουργία Ευρετηρίου (2/2) Document instance of Field instance of Field name: ngram Field instance of Field name: freq προσθήκη πεδίων προσθήκη των documents στο ευρετήριο

Naïve Bayes WSD αλγόριθμοι: Naïve Bayes αλγόριθμος εποπτευόμενης μάθησης (supervised learning) χρησιμοποιεί ένα σώμα κειμένου (corpus) ως training set (Google 5-grams) εξετάζει τις λέξεις που ανήκουν στο ίδιο context με τη αμφίσημη λέξη Επέλεξε τη μετάφραση t’ αν P(t’|c) > P(t k |c) για t k  t’ Κανόνας απόφασης:

Naïve Bayes Naïve Bayes: παράδειγμα universalworldwidetissue, web The {universal, worldwide} {tissue, web} contains information for the lesson context context ← {contains, information, lesson} translations t k translations t k ← {universal, worldwide}

Όταν δεν υπάρχει context … θεωρούμε όλες τις πιθανές μεταφράσεις του ερωτήματος παγκόσμιος ιστός universalworldwidetissue, web {universal, worldwide} {tissue, web} Παράδειγμα Αρχικό ερώτημαΜεταφρασμένο ερώτημα 1.universal tissue 2.universal web 3.worldwide tissue 4.worldwide web Google 5-grams 1.universal tissue 2.universal web 3.worldwide tissue 4.worldwide web

Ο αλγόριθμος Naïve Bayes Training phase For all translations t k of w do For all words v j in the vocabulary do End For all translations t k of w do End Disambiguation phase For all translations t k of w do For all words v j in the context window do End choose # of occurrences of n-grams containing vj with t k # of occurrences of n-grams containing t k # of total occurrences of n-grams containing the possible translated words

Language Models WSD αλγόριθμοι: Language Models bigram model trigram model όπου: Υπολόγισε την πιθανότητα κάθε μετάφραση του ερωτήματος να είναι σωστή με βάση τα παρακάτω μοντέλα

Language Models: Παράδειγμα θεραπεία καρδιακής ανεπάρκειας {treatmenttherapydeficiencyfailure {treatment, therapy} cardiac {deficiency, failure} 1.treatment cardiac deficiency 2.treatment cardiac failure 3.therapy cardiac deficiency 4.therapy cardiac failure P 3 =P(therapy)  P(cardiac|therapy)  P(deficiency|cardiac) bigram model trigram model P 3 =P(therapy)  P(cardiac|therapy)  P(deficiency|therapy,cardiac) Σωστή μετάφραση: i, αν P i > P j, για κάθε j≠i

Επισκόπηση μεθοδολογίας query stop words removal stemming translate query WSD algorithms: Naïve Bayes Language Models possible query translations translated query lexico n Google 5- grams Stop words list stemming: διαδικασία αποκοπής καταλήξεων π.χ., πληροφορίες  πληροφορ

Μετάφραση ερωτήματος Η μετάφραση του ερωτήματος δε γίνεται λέξη προς λέξη Εύρεση της μεγαλύτερης ακολουθίας λέξεων που μεταφράζεται Όταν βρεθεί το υπόλοιπο ερώτημα μεταφράζεται λέξη προς λέξη

a b c d e b c d e a b c d b c d a b c c d e b c d a b b cc db c c dd e query Μετάφραση ερωτήματος: παράδειγμα

Πειραματικά αποτελέσματα (1/2) 106 ερωτήματα από την ιατρική βάση MEDLINE στατιστικές πληροφορίες Μ.Ο. λέξεων Μ.Ο. λέξεων στο context Μ.Ο. αμφίσημων λέξεων 5,19 ~ 52,65 ~ 32,47 ~ Σύνολο αμφίσημων λέξεων: 262 Precision Μέτρηση απόδοσης  Precision

Πειραματικά αποτελέσματα (2/2) document frequency Naïve BayesBigram modelTrigram model 68,7 %64,5 %65,64 % term frequency Naïve BayesBigram modelTrigram model 72,3 %69,08 %71,3 % 6 διαφορετικές εκτελέσεις διαφοροποιώντας τον τρόπο υπολογισμού των πιθανοτήτων και τον WSD αλγόριθμο

Συμπεράσματα Η χρήση του term frequency: έχει υψηλό κόστος καλύτερα αποτελέσματα δεν ενδείκνυται για real-time εφαρμογή Naïve Bayes: εκτελείται γρήγορα κατάλληλος για real-time εφαρμογή καλά αποτελέσματα σε ερωτήματα με μεγάλο |context|

Έμμεση αξιολόγηση  χρήση ενός CLIR συστήματος OHSUMED  μέση ακρίβεια στα k πρώτα ανακτηθέντα κείμενα

Average Precision N: # of documents retrieved h(i): the i th hit in the hitlist rel(i): 1 if h[i] is relevant and 0 otherwise

Μελλοντική εργασία Χρήση Part-of-Speech tagging ώστε να περιοριστούν οι πιθανές μεταφράσεις Χρήση ενός συνόλου συνωνύμων για κάθε λέξη ώστε να μειωθούν οι λέξεις που δε μεταφράζονται καθόλου Αντικατάσταση του stemming με αλγορίθμους εύρεσης της ομοιότητας δύο λέξεων (π.χ., edit distance)

Ευχαριστώ πολύ... ερωτήσεις