Η αυτόματη επεξεργασία των φυσικών γλωσσών: Μέθοδοι και εφαρμογές Η αυτόματη επεξεργασία των φυσικών γλωσσών: Μέθοδοι και εφαρμογές Αναστασία Γιαννακοπούλου Δρ Υπολογιστικής Γλωσσολογίας Εργαστήριο ΤΝΤΛ Τομέα ΕΥ Γενικό Τμήμα Θετικών Επιστημών ΤΕΙ Κρήτης
Πλάνο Τι είναι η Υπολογιστική Γλωσσολογία Πεδία εφαρμογής Αυτόματη Μετάφραση Βασική έρευνα Εφαρμογές Συστήματα ερωταποκρίσεων στα ελληνικά
Αυτόματη επεξεργασία των φυσικών γλωσσών: ορισμός Αυτόματη επεξεργασία των φυσικών γλωσσών = NLP: Natural Language Processing Είναι μια επιστήμη που συνδυάζει την Πληροφορική, τη Γλωσσολογία και την Τεχνητή Νοημοσύνη. Φυσική γλώσσα = ανθρώπινη γλώσσα Απώτερος στόχος = κατανόηση της ανθρώπινης γλώσσας από τον υπολογιστή
Πεδία εφαρμογής Αυτόματη μετάφραση – MT: Machine Translation Ανάκτηση πληροφορίας – IR: Information Retrieval Εξαγωγή πληροφορίας – IE: Information Extraction Εξόρυξη δεδομένων – DM: Data Mining Αναγνώριση μερών του λόγου – Part-of-speech (POS) tagging Συντακτική ανάλυση – Parsing Αναγνώριση ονοματικών οντοτήτων – NER: Named Entities Recognition Μηχανική μάθηση – ML: Machine Learning Αυτόματη αναπαραγωγή κειμένων – NLG: Natural Language Generation Αναγνώριση προφορικού λόγου – Speech Recognition (Text-to-speech and Speech-to-text systems) …
Αυτόματη Μετάφραση http://translate.google.com/
Αυτόματη Μετάφραση Ruled-based machine translation (RBMT) – SYSTRAN Σημασιολογία Μεταφορά Σημασιολογία Σύνταξη Σύνταξη Μορφολογία Μορφολογία Μορφολογική ανάλυση του κειμένου-πηγής (POS tagging) Συντακτικές πληροφορίες για τη σύνταξη του ρήματος/ουσιαστικού της πρότασης Συντακτική ανάλυση της φράσης πηγής Μετάφραση των λέξεων Κανόνες για το συσχετισμό των δύο συντακτικών δομών Κείμενο-πηγή Ανάλυση Κείμενο-στόχος Σύνθεση
Αυτόματη Μετάφραση Statistical Machine Translation (SMT) Παράλληλα σώματα κειμένων (parallel corpus) – +1.000.000 λέξεις 2 μονόγλωσσα σώματα κειμένων – +1δις λέξεις το καθένα Στατιστικά μοντέλα Προβλήματα: Ευθυγράμμιση προτάσεων (Sentence alignement) Σύνθετες λέξεις και ιδιωματικές εκφράσεις Μορφολογικοί τύποι Σύνταξη
SMT System(Moses) Phrase Table Αυτόματη Μετάφραση Υβριδικά μοντέλα Output Text SMT System(Moses) Phrase Table Hybrid Output Phrase substitution Input Text RBMT System Output Text
Βασική έρευνα Δημιουργία ηλεκτρονικών λεξικών Εμπλουτισμός και διαχείριση ηλεκτρονικών λεξικών Συντακτικο-σημασιολογική περιγραφή των ιδιοτήτων των ρημάτων με συμπλήρωμα που δηλώνει τον τόπο. Δημιουργία γραμματικών για τη συντακτική ανάλυση, μερική ή πλήρη, δομών Ονοματικές Οντότητες (NER) Κυρίως γλώσσες: αγγλικά, γαλλικά, ελληνικά
Γλωσσολογικά δεδομένα Χρησιμοποιούμε τα γλωσσολογικά δεδομένα για να αναλύσουμε τα κείμενα (parsing), δηλαδή: μορφολογική ανάλυση των κειμένων, με την εφαρμογή ηλεκτρονικών λεξικών (electronic dictionaries) συντακτική και σημασιολογική ανάλυση των κειμένων, με την εφαρμογή γραμματικών (local grammars)
Ηλεκτρονικά λεξικά Με τον όρο «ηλεκτρονικά λεξικά» εννοούμε τα λεξικά που έχουν μια συγκεκριμένη δομή, η πληροφορία είναι κωδικοποιημένη και μπορούν να χρησιμοποιηθούν σε αναλυτές κειμένων (parsers). Διαφορά ηλεκτρονικών λεξικών και λεξικών σε ηλεκτρονική μορφή.
κλιτός_τύπος,λημματικός_τύπος.γραμμ_κατ+ΣΣ_πλρφ+…:κλιτ_πλρφ:… Ηλεκτρονικά λεξικά Παράδειγμα ηλεκτρονικού λεξικού: book,.N+Conc:s book,.V:W:P1s:P2s:P1p:P2p:P3p booking office,.N+XN+Conc+z1:s booking offices,booking office.N+XN+Conc+z1:p booking,.N:s booking,book.V:G bookings,booking.N:p books,book.N+Conc:p books,book.V:P3s bookseller,.N+Hum:s booksellers,bookseller.N+Hum:p Μορφή: κλιτός_τύπος,λημματικός_τύπος.γραμμ_κατ+ΣΣ_πλρφ+…:κλιτ_πλρφ:…
Γραμματικές Γενικά, μια γραμματική περιγράφει έναν ή περισσότερους κανόνες. Για τη διατύπωσή της, χρησιμοποιούμε τη μορφή πεπερασμένων αυτομάτων (Finite-State Automata, Roche 1997).
Γραμματικές
Ανάλυση σε XML Input: for an hour and a half Output: <duration hour=“1” min=“30”/>
UNITEX Πολύγλωσσος οpen-source parser που κατασκευάστηκε από τον Sébastien Paumier στο Εργαστήριο Υπολογιστικής Γλωσσολογίας του Institut Garspard Monge (IGM) στο Πανεπιστήμιο Paris-Est Marne-la-Vallée. http://www-igm.univ-mlv.fr/~unitex/ Χρησιμoποιούμε την επιφάνεια διεπαφής για να κατασκευάσουμε, να εμπλουτίσουμε και να διορθώσουμε τις τοπικές γραμματικές. Χρησιμοποιούμε τα εργαλεία του Unitex για να κάνουμε την ανάλυση κειμένων. Οι πηγές του UNITEX διατίθενται με την άδεια LGPLRS.
Convex
Convex Natural Language Processing module Output: <note><conversion> <convert-from value="7.1" unit="l/100km"/> <convert-to unit="mpg"/></conversion></note>
Convex Γλωσσολογικά δεδομένα Επιδόσεις Ηλεκτρονικά λεξικά Γραμματικές αναγνώρισης δομών Αναπαράσταση της πληροφορίας σε XML Επιδόσεις PAF = Packed Array File Αναγνώριση σε πραγματικό χρόνο
Αναγνώριση ονοματικών οντοτήτων Αναγνώριση ονοματικών οντοτήτων Systran Κώδικας σε C++ για την αυτόματη μετάφραση των ημερομηνιών σε 14 ζεύγη γλωσσών. Ergonotics ημερομηνίες κύρια ονόματα προσώπων τοπωνύμια και διευθύνσεις url, email τηλεφωνικοί αριθμοί και αριθμοί μονάδες μέτρησης
Συστήματα ερωταποκρίσεων Συστήματα ερωταποκρίσεων
Συστήματα ερωταποκρίσεων Συστήματα ερωταποκρίσεων
Συστήματα ερωταποκρίσεων Συστήματα ερωταποκρίσεων Ομάδα Επεξεργασίας Φυσικής Γλώσσας, Τμήμα Πληροφορικής, Οικονομικό Πανεπιστήμιο Αθηνών (Ιων Ανδουτσόπουλος) (URL) «Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων» (URL) «Αυτόματη κατάταξη ελληνικών ερωτήσεων σε κατηγορίες» (URL) «Χειρισµός Ερωτήσεων Ορισµού σε Συστήµατα Ερωταποκρίσεων» (URL)
Συστήματα ερωταποκρίσεων Συστήματα ερωταποκρίσεων Πολυτεχνείο Κρήτης (Σ. Χριστοδουλάκης) «Συντακτικός αναλυτής ελληνικής γλώσσας και εφαρμογές ανάληψης πληροφορίας” (URL) TEI Κρήτης (Μ. Μαρακάκης) «Ανάπτυξη συστήµατος ανάλυσης προτάσεων – ερωτήσεων της Ελληνικής γλώσσας, µετατροπή τους σε στόχους Prolog και επεξεργασία τους από σχεσιακή βάση δεδοµένων». Ανάπτυξη συστήματος δημιουργίας προτάσεων στην Ελληνική γλώσσα σαν απάντηση από την επεξεργασία ερωτήσεων σε σχεσιακή βάση δεδομένων. Καναδά: “Working Towards a Greek-English Cross-Language Question-Answering System” (URL)
Συστήματα ερωταποκρίσεων Συστήματα ερωταποκρίσεων Ερωτήσεις των οποίων η απάντηση είναι αυστηρά καθορισµένη (factual questions) όνοµα προσώπου όνομα οργανισμού χρονική έκφραση τοποθεσία ποσότητα ορισμός Ερωτήσεις γνώμης (opinion questions) Eρωτήσεις περίληψης (summary questions)
Συστήματα ερωταποκρίσεων Συστήματα ερωταποκρίσεων
Συστήματα ερωταποκρίσεων Συστήματα ερωταποκρίσεων Σύστημα αναγνώρισης μερών του λόγου (POS tagger) Σύστημα αναγνώρισης ονοματικών οντοτήτων (NER)
Ευχαριστώ! anastasiay@cs.teicrete.gr http://www.linkedin.com/in/anastasiayannacopoulou
Βιβλιογραφία Emmanuel Roche. 1997. Parsing with finite state transducers. In E. Roche & Y. Schabes (eds), Finite-State Language Processing, Cambridge, Mass./London, The MIT Press, pp. 241-281.