Αποσαφήνιση Λέξεων με Βάση τα Google 5-grams Πολυξένη Π. Κατσιούλη ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ.

Αποσαφήνιση Λέξεων με Βάση τα Google 5-grams Πολυξένη Π. Κατσιούλη ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΔΙΠΛΩΜΑΤΙΚΗ ΕΡΓΑΣΙΑ Επιβλέπων: Θεόδωρος Καλαμπούκης, Καθηγητής ΟΠΑ Αθήνα, 30 Ιουνίου 2008

Περιεχόμενα Εισαγωγή Σχετικές εργασίες Μέθοδος αποσαφήνισης λέξεων Πειραματικά αποτελέσματα Συμπεράσματα Μελλοντική Εργασία

Εισαγωγή Οι υπάρχουσες μηχανές αναζήτησης υποστηρίζουν μόνο την ανάκτηση εγγράφων που είναι γραμμένα στην ίδια γλώσσα με το ερώτημα Δια-γλωσσική ανάκτηση πληροφοριών (Cross Language Information Retrieval, CLIR): ανάκτηση κειμένων γραμμένα σε διαφορετική γλώσσα από το ερώτημα Αποσαφήνιση της έννοιας των λέξεων (Word Sense Disambiguation, WSD): αναγκαία για την επιλογή της κατάλληλης μετάφρασης

Παράδειγμα Ο παγκόσμιος ιστός περιέχει πληροφορίες για το μάθημα universalworldwidetissue, web The {universal, worldwide} {tissue, web} contains information for the lesson μετάφραση Αρχικό ερώτημα Μεταφρασμένο ερώτημα Στόχος: Επιλογή της κατάλληλης μετάφρασης για τις λέξεις ‘παγκόσμιος’ και ‘ιστός’ με τη χρήση WSD αλγορίθμων worldwide web The worldwide web contains information for the lesson

Σχετικές εργασίες (1/3) η σωστή μετάφραση μιας λέξης εξαρτάται από το context στο οποίο βρίσκεται το Web μπορεί να χρησιμοποιηθεί για να εκτιμηθεί η συνάφεια των λέξεων Μέθοδος βασισμένη στο Web Έστω ένα ερώτημα q = s 1, s 2, s 3 με τις ακόλουθες μεταφράσεις Y. Qu, G. Grefenstette, D. A. Evans: Resolving Translation Ambiguity Using Monolingual Corpora. 3 rd Workshop of the Cross-Language Evaluation Forum, CLEF 2002. Rome, Italy, 2002 s1s1 s2s2 s3s3 t 11 t 12 t 13 t 21 t 22 t 31 t 32 t 33 t 34 3×2×4 = 24 πιθανές μεταφράσεις του q χώρος μεταφράσεων

Σχετικές εργασίες (2/3) 1. Εξαγωγή όλων των πιθανών μεταφράσεων των λέξεων ενός ερωτήματος. 2. Δημιουργία όλων των πιθανών συνδυασμών των μεταφράσεων δηλαδή του translation space. 3. Εισαγωγή κάθε ακολουθίας σε μια δικτυακή πύλη (Web portal), π.χ., AltaVista. 4. Ορισμός του coherence score ως τον αριθμό των σελίδων που επιστρέφονται για κάθε ακολουθία μεταφράσεων. 5. Επιλογή της μετάφρασης με το μεγαλύτερο coherence score Μέθοδος βασισμένη στο Web

Σχετικές εργασίες (3/3) 1. Εξαγωγή όλων των πιθανών μεταφράσεων των λέξεων ενός ερωτήματος. 2. Δημιουργία όλων των πιθανών συνδυασμών των μεταφράσεων δηλαδή του translation space. 3. Υπολογισμός της αμοιβαίας πληροφορίας (mutual information, ΜΙ) για όλα τα ζεύγη των όρων για κάθε δυνατή ακολουθία μεταφράσεων του translation space. 4. Άθροισμα των τιμών της αμοιβαίας πληροφορίας. Το άθροισμα αυτό καλείται coherence score της ακολουθίας. 5. Επιλογή της μετάφρασης με το μεγαλύτερο coherence score. Μέθοδος βασισμένη σε ένα σύνολο δεδομένων (corpus)

Google n-grams ακολουθίες αγγλικών λέξεων με τις συχνότητες εμφάνισής τους το μήκος κυμαίνεται από unigrams (μεμονωμένες λέξεις) ως πεντάγραμμα (ακολουθίες 5 λέξεων) Παράδειγμα από 5-grams: Google n-grams: http://www.ldc.upenn.edu/Catalog/

Επεξεργασία των Google 5-grams Αφαίρεση των stop words (π.χ., ‘he’, ‘she’, ‘who’, ‘which’, ‘of’, ‘for’, ‘me’, ‘the’, κτλ.) Δημιουργία ευρετηρίου με χρήση του Lucene Παράδειγμα:

Lucene Open source βιβλιοθήκη ευρετηριασμού και αναζήτησης κειμένων υλοποιημένη σε java

Lucene: Δημιουργία Ευρετηρίου (1/2) Document class Document : αναπαριστά ένα σύνολο από δεδομένα το οποίο θέλουμε να προσθέσουμε στο ευρετήριο περιέχει ένα ή περισσότερα πεδία Field class Field: αντιστοιχεί είτε στα δεδομένα που χρησιμοποιούνται κατά την αναζήτηση ως λέξεις κλειδιά ή στα δεδομένα που ανακτώνται από το ευρετήριο κατά την αναζήτηση Lucene: http://lucene.apache.org/java/docs/index.html

Lucene: Δημιουργία Ευρετηρίου (2/2) Document instance of Field instance of Field name: ngram Field instance of Field name: freq προσθήκη πεδίων προσθήκη των documents στο ευρετήριο

Naïve Bayes WSD αλγόριθμοι: Naïve Bayes αλγόριθμος εποπτευόμενης μάθησης (supervised learning) χρησιμοποιεί ένα σώμα κειμένου (corpus) ως training set (Google 5-grams) εξετάζει τις λέξεις που ανήκουν στο ίδιο context με τη αμφίσημη λέξη Επέλεξε τη μετάφραση t’ αν P(t’|c) > P(t k |c) για t k  t’ Κανόνας απόφασης:

Naïve Bayes Naïve Bayes: παράδειγμα universalworldwidetissue, web The {universal, worldwide} {tissue, web} contains information for the lesson context context ← {contains, information, lesson} translations t k translations t k ← {universal, worldwide}

Όταν δεν υπάρχει context … θεωρούμε όλες τις πιθανές μεταφράσεις του ερωτήματος παγκόσμιος ιστός universalworldwidetissue, web {universal, worldwide} {tissue, web} Παράδειγμα Αρχικό ερώτημαΜεταφρασμένο ερώτημα 1.universal tissue 2.universal web 3.worldwide tissue 4.worldwide web Google 5-grams 1.universal tissue 2.universal web 3.worldwide tissue 4.worldwide web

Ο αλγόριθμος Naïve Bayes Training phase For all translations t k of w do For all words v j in the vocabulary do End For all translations t k of w do End Disambiguation phase For all translations t k of w do For all words v j in the context window do End choose # of occurrences of n-grams containing vj with t k # of occurrences of n-grams containing t k # of total occurrences of n-grams containing the possible translated words

Language Models WSD αλγόριθμοι: Language Models bigram model trigram model όπου: Υπολόγισε την πιθανότητα κάθε μετάφραση του ερωτήματος να είναι σωστή με βάση τα παρακάτω μοντέλα

Language Models: Παράδειγμα θεραπεία καρδιακής ανεπάρκειας {treatmenttherapydeficiencyfailure {treatment, therapy} cardiac {deficiency, failure} 1.treatment cardiac deficiency 2.treatment cardiac failure 3.therapy cardiac deficiency 4.therapy cardiac failure P 3 =P(therapy)  P(cardiac|therapy)  P(deficiency|cardiac) bigram model trigram model P 3 =P(therapy)  P(cardiac|therapy)  P(deficiency|therapy,cardiac) Σωστή μετάφραση: i, αν P i > P j, για κάθε j≠i

Επισκόπηση μεθοδολογίας query stop words removal stemming translate query WSD algorithms: Naïve Bayes Language Models possible query translations translated query lexico n Google 5- grams Stop words list stemming: διαδικασία αποκοπής καταλήξεων π.χ., πληροφορίες  πληροφορ

Μετάφραση ερωτήματος Η μετάφραση του ερωτήματος δε γίνεται λέξη προς λέξη Εύρεση της μεγαλύτερης ακολουθίας λέξεων που μεταφράζεται Όταν βρεθεί το υπόλοιπο ερώτημα μεταφράζεται λέξη προς λέξη

a b c d e b c d e a b c d b c d a b c c d e b c d a b b cc db c c dd e query Μετάφραση ερωτήματος: παράδειγμα

Πειραματικά αποτελέσματα (1/2) 106 ερωτήματα από την ιατρική βάση MEDLINE στατιστικές πληροφορίες Μ.Ο. λέξεων Μ.Ο. λέξεων στο context Μ.Ο. αμφίσημων λέξεων 5,19 ~ 52,65 ~ 32,47 ~ 2 262 Σύνολο αμφίσημων λέξεων: 262 Precision Μέτρηση απόδοσης  Precision

Πειραματικά αποτελέσματα (2/2) document frequency Naïve BayesBigram modelTrigram model 68,7 %64,5 %65,64 % term frequency Naïve BayesBigram modelTrigram model 72,3 %69,08 %71,3 % 6 διαφορετικές εκτελέσεις διαφοροποιώντας τον τρόπο υπολογισμού των πιθανοτήτων και τον WSD αλγόριθμο

Συμπεράσματα Η χρήση του term frequency: έχει υψηλό κόστος καλύτερα αποτελέσματα δεν ενδείκνυται για real-time εφαρμογή Naïve Bayes: εκτελείται γρήγορα κατάλληλος για real-time εφαρμογή καλά αποτελέσματα σε ερωτήματα με μεγάλο |context|

Έμμεση αξιολόγηση  χρήση ενός CLIR συστήματος OHSUMED  μέση ακρίβεια στα k πρώτα ανακτηθέντα κείμενα

Average Precision N: # of documents retrieved h(i): the i th hit in the hitlist rel(i): 1 if h[i] is relevant and 0 otherwise

Μελλοντική εργασία Χρήση Part-of-Speech tagging ώστε να περιοριστούν οι πιθανές μεταφράσεις Χρήση ενός συνόλου συνωνύμων για κάθε λέξη ώστε να μειωθούν οι λέξεις που δε μεταφράζονται καθόλου Αντικατάσταση του stemming με αλγορίθμους εύρεσης της ομοιότητας δύο λέξεων (π.χ., edit distance)

Ευχαριστώ πολύ... ερωτήσεις e-mail: katsiouli06@aueb.gr

Αποσαφήνιση Λέξεων με Βάση τα Google 5-grams Πολυξένη Π. Κατσιούλη ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Αποσαφήνιση Λέξεων με Βάση τα Google 5-grams Πολυξένη Π. Κατσιούλη ΟΙΚΟΝΟΜΙΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΜΕΤΑΠΤΥΧΙΑΚΟ ΠΡΟΓΡΑΜΜΑ ΣΠΟΥΔΩΝ ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια