Αυτόματη Μετάφραση - Machine Translation Machine Translation (τα παραδείγματα από το: Speech and Language Processing – Daniel Jurafsky & James H. Martin.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH PROCESSING Τεχνολογία Στενοτυπικής Μεταγραφής Προφορικού Λόγου σε Ηλεκτρονικό Κείμενο.
Advertisements

Κατηγορηματικός Λογισμός
Βασικές έννοιες αλγορίθμων
Τι είναι ο προγραμματισμός
ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH PROCESSING Τεχνολογία Ορθογραφικής Διόρθωσης Κειμένων Ν.Γλάρος Δρ. Ηλ/γος Μηχανικός.
Γενικού τύπου χαρακτηριστικά
ΚΕΙΜΕΝΟ  Ο πρώτος τρόπος απεικόνισης πληροφορίας (και βασικός ως σήμερα).  Αδυναμία πρώτων υπολογιστών να χειριστούν άλλη μορφή πληροφορίας.  Πρόβλημα.
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Λογικός Σχεδιασμός Σχεσιακών Σχημάτων: Αποσύνθεση.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 – 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 – 2013 Μάθημα 5 ο : Σημασιολογική.
Μάθημα 5ο: Σημασιολογική ανάλυση
Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές
Μετρήσεις στη γλώσσα και ανάλυση του λόγου Γ. Μικρός, Γ. Ταμπουρατζής, Σ. Μαρκαντωνάτου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH.
Τι είναι ο υπολογιστής; Τι είναι ο προγραμματισμός
Διαδικασία ανάπτυξης Προσδιορισμός απαιτήσεων Αρχιτεκτονικός Σχεδιασμός Λεπτομερής Σχεδιασμός Κωδικοποίηση Έλεγχος Παράδοση Συστήματος Λειτουργία - Συντήρηση.
H διαδικασία ανάπτυξης λογισμικού. Tι θα γνωρίσουμε •Τις φάσεις ανάπτυξης του λογισμικού. •Γιατί χρειάζεται να γίνει ανάλυση του προβλήματος. •Τι θα πρέπει.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Τεχνικές NLP – Σχεδιαστικά Θέματα.
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
Ολυμπία Νίκου Α.Μ. Μ956 Διπλωματική Εργασία
ΗΥ-566 Διαχείρηση Γνώσης στο Διαδίκτυο1 SWRC Ontology Κτιστάκης Γιώργος Μπούτσικα Κατερίνα Παπαδάκης Μύρων.
Αυτόματη Μετάφραση Machine Translation.
Resource Description Framework
Ανάκτηση & Εξαγωγή Πληροφορίας στο Διαδίκτυο Γιώργος Παλιούρας Εργαστήριο Τεχνολογίας Γνώσεων & Λογισμικού Ινστιτούτο Πληροφορικής & Τηλεπικοινωνιών Ε.Κ.Ε.Φ.Ε.
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Θέματα Βάσεων Δεδομένων Αποθήκευση XML δεδομένων σε Σχεσιακή Βάση Δεδομένων Θέματα Βάσεων Δεδομένων Αποθήκευση XML δεδομένων σε Σχεσιακή Βάση Δεδομένων.
ΑΠΕΙΚΟΝΙΣΗ ΕΝΝΟΙΩΝ 1. 2 Χρήστης Στόχος Ταμίας διενέργεια πώλησης διενέργεια ενοικίασης εισαγωγή ταμείου εξαγωγή ταμείου * 1 Μοντέλο Πεδίου Προβλήματος.
ΚΕΦΑΛΑΙΟ 3 ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΤΩΝ Γ.Σ.Π.. ΟΡΙΣΜΟΙ Ένα σύστημα για τακτικό και συνηθισμένο τρόπο επεξεργασίας δεδομένων και για απάντηση προκαθορισμένων και.
ΕΠΛ223 Θεωρία και Πρακτική Μεταγλωττιστών Εαρινό Εξάμηνο 2002 Κ. Μουρλάς, Λέκτορας Σημείωση: Οι διαφάνειες αυτές βασίζονται κατά το μεγαλύτερο μέρος τους.
Δεδομένα, Πληροφορίες και Ηλεκτρονικοί Υπολογιστές
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Εισαγωγή στην Γλωσσολογία Επιμόρφωση των ομάδων εργασίας για την καταγραφή της κυπριακής νοηματικής γλώσσας Δρ. Χρυσόστομος Παπασπύρου, Λεμεσός,
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
1 ΘΕΜΑ : Μελέτη του Σηµασιολογικού Ιστού: Επιχειρηµατικά Θέµατα και το αναδυόµενο επιχειρηµατικό πεδίο ( Semantic Web: Business issues and the emerging.
Σημασιολογική Ολοκλήρωση Δεδομένων με τη χρήση Οντολογιών Λίνα Μπουντούρη - Μανόλης Γεργατσούλης Ιόνιο Πανεπιστήμιο 15ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
ΕΠΛ Θεωρία και Πρακτική Μεταγλωττιστών8-1 Μετάφραση κατευθυνόμενη από τη σύνταξη Ένας μεταγλωττιστής πρέπει όχι απλώς να αναγνωρίζει κατά πόσο μία.
Σχεδίαση Αλγορίθμων. Διεργασίες (1/2) Μία διεργασία αλληλεπιδρά με το περιβάλλον της δεχόμενη είσοδο και παράγοντας έξοδο.
Generating Chinese Classical Poems with Statistical Machine Translation Models Jing He, Ming Zhou, Long Jiang Μαρία Κωστάκη Εθνικό & Καποδιστριακό Πανεπιστήμιο.
ΜΑΘΗΜΑ: ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ ΔΙΔΑΣΚΟΝΤΕΣ: Π. ΚΑΤΣΑΡΟΣ Τρίτη, 31 Μαρτίου 2015Τρίτη, 31 Μαρτίου 2015Τρίτη, 31 Μαρτίου 2015Τρίτη, 31 Μαρτίου 2015Τμ. Πληροφορικής,
31 Μαρτίου 2015 ΔΙΑΦΑΝΕΙΑ 1 ΤΥΠΙΚΕΣ ΜΕΘΟΔΟΙ ΑΝΑΛΥΣΗΣ ΣΥΣΤΗΜΑΤΩΝ ΤΜ. ΠΛΗΡΟΦΟΡΙΚΗΣ Α.Π.Θ. – ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ ΚΑΤΗΓΟΡΗΜΑΤΙΚΟΣ ΛΟΓΙΣΜΟΣ Ι Για τον προτασιακό.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
ΕΠΛ 223 Θεωρία και Πρακτική Μεταγλωττιστών7-1 Πίνακας Συμβόλων Πίνακας συμβόλων: δομή δεδομένων που χρησιμοποιείται για την αποθήκευση διαφόρων πληροφοριών.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΜΣ: «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΕΡΓΑΣΙΑ: MULTI-DOCUMENT SUMMARIZATIONS.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 – 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 – 2013 Μάθημα 1 ο : Εισαγωγή.
ΜΑΘΗΜΑ: ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ ΔΙΔΑΣΚΟΝΤΕΣ: Π. ΚΑΤΣΑΡΟΣ Τετάρτη, 1 Απριλίου 2015Τετάρτη, 1 Απριλίου 2015Τετάρτη, 1 Απριλίου 2015Τετάρτη, 1 Απριλίου 2015Τμ. Πληροφορικής,
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Μάθημα 1ο: Εισαγωγή στη Γλωσσική Τεχνολογία
ΣΤΑΜΑΤΙΝΑ ΤΣΑΦΟΥ ΜΑΤΙΝΑ ΠΟΛΙΤΗ
ΣΥΝΟΛΑ.
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
Αντικειμενοστραφής Προγραμματισμός & JAVA
Μεταγλωττιστές (Compilers) (Θ) Ενότητα 9: Παραγωγή Ενδιάμεσου Κώδικα (Ενδιάμεσες Γλώσσες) Κατερίνα Γεωργούλη Τμήμα Μηχανικών Πληροφορικής ΤΕ Ανοικτά Ακαδημαϊκά.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 4 Σημασιολογία μιας Απλής Προστακτικής Γλώσσας Προπτυχιακό.
ΜΑΘΗΜΑ: ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ ΔΙΔΑΣΚΟΝΤΕΣ: Κ. ΛΑΖΟΣ - Π. ΚΑΤΣΑΡΟΣ Τρίτη, 14 Απριλίου 2015Τρίτη, 14 Απριλίου 2015Τρίτη, 14 Απριλίου 2015Τρίτη, 14 Απριλίου 2015Τμ.
Network Inference Μπαλάφα Κασιανή - Αδριανή Πλασταρά Κατερίνα.
Σημασιολογική Ολοκλήρωση Ολοκλήρωση Πληροφορίας Το πρόβλημα της ολοκλήρωσης πληροφορίας (information integration) προκύπτει από την ύπαρξη ετερογενών.
ΚΕΦΑΛΑΙΟ Τι είναι αλγόριθμος
Βάσεις Δεδομένων Ευαγγελία Πιτουρά1 Λογικός Σχεδιασμός Σχεσιακών Σχημάτων.
ΗΥ-340 Γλώσσες και Μεταφραστές Φροντιστήριο Syntax Directed Translation and alpha Language.
Τεχνολογία ΛογισμικούSlide 1 Εξειδίκευση Βασισμένη σε Μοντέλο u Τυπική εξειδίκευση λογισμικού με ανάπτυξη μαθηματικού μοντέλου για το σύστημα.
Τεχνολογία ΛογισμικούSlide 1 Τεχνολογία Απαιτήσεων u Καθορίζει τι θέλει ο πελάτης από ένα σύστημα λογισμικού.
Γλωσσική τεχνολογία και ψηφιακή επιμέλεια Ίων Ανδρουτσόπουλος Τμήμα Πληροφορικής, Οικονομικό Πανεπιστήμιο Αθηνών και Μονάδα Ψηφιακής Επιμέλειας, Ερευνητικό.
Τι μαθαίνει αυτός που μαθαίνει προγραμματισμό;
ΠΑΡΑΛΛΗΛΑ ΚΑΙ ΣΥΓΚΡΙΣΙΜΑ ΣΩΜΑΤΑ ΚΕΙΜΕΝΩΝ
Κεφάλαιο 4 :: Σημασιολογική Ανάλυση
Web, Web 2.0, Web 3.0 και Web X.0 ΚΕΦΑΛΑΙΟ 9.
Φροντιστηριακό μάθημα «Κοινωνικής Κλινικής Ψυχολογίας»
ΠΡΟΓΡΑΜΜΑΤΙΣΤΙΚΑ ΠΕΡΙΒΑΛΛΟΝΤΑ Ανάπτυξη Εφαρμογών για Φορητές Συσκευές
2ο ΓΥΜΝΑΣΙΟ ΣΗΤΕΙΑΣ - ΤΑΞΗ Γ'
Το υπολογιστικό σύστημα σαν ενιαίο σύνολο
ΣΥΓΧΡΟΝΑ ΛΕΙΤΟΥΡΓΙΚΑ ΣΥΣΤΗΜΑΤΑ Τρίτη Έκδοση ANDREW S
Μεταγράφημα παρουσίασης:

Αυτόματη Μετάφραση - Machine Translation Machine Translation (τα παραδείγματα από το: Speech and Language Processing – Daniel Jurafsky & James H. Martin 2000, Prentice-Hall, Inc

Interlingua Διαγλώσσα Χρησιμοποιώντας έννοιες

Ένα πρόβλημα του μοντέλου μετάβασης: Χρειάζονται σύνολα από κανόνες μετάβασης για κάθε ζευγάρι γλωσσών – μη πρακτικό για πολύγλωσσα περιβάλλοντα όπως η ΕΕ

Μοντέλο μετάβασης: Αλλαγή στην δομή και τις λέξεις της πρότασης εισόδου για την παραγωγή έγκυρης πρότασης της γλώσσας στόχου.

Εναλλακτικά: επεξεργασία για την εξαγωγή της σημασίας της εισόδου και παράσταση αυτής της σημασίας στην γλώσσα στόχου. Έτσι ένα σύστημα ΑΜ δεν θα χρειάζεται γνώση των διαφορών των γλωσσών, αλλά συντακτικούς και σημασιολογικούς κανόνες που θα χρησιμοποιούνται από τον διερμηνέα και παραγωγό της γλώσσας.

Προϋπόθεση Δυνατότητα αναπαράσταση γνώσης, μίας διαγλώσσας (interlingua), σε μορφή ανεξάρτητης της γλώσσας. Η διαγλώσσα θα αναπαριστά όλες τις προτάσεις που σημαίνουν το ίδιο πράγμα με τον ίδιο τρόπο, ανεξάρτητα από την γλώσσα.

Σημασιολογική ανάλυση της εισόδου της γλώσσας Χ σε αναπαράσταση διαγλώσσας και παραγωγή από την διαγλώσσα στην γλώσσα Υ.

Μικρό σταθερό σύνολο από θεματικούς ρόλους (thematic roles) Θεωρούνται καθολικά στις γλώσσες (language universals).

Θεματικοί Ρόλοι – thematic roles Οι θεματικοί ρόλοι είναι ένα σύνολο από κατηγορίες που παρέχουν μία ρηχή σημασιολογική γλώσσα για τον χαρακτηρισμό συγκεκριμένων θεμάτων (arguments)των ρημάτων. Είναι ένας τρόπος για την έκφραση ομοιοτήτων.

Δεν υπάρχει στάνταρ σύνολο θεματικών ρόλων, ωστόσο υπάρχουν ρόλοι που χρησιμοποιούνται ευρέως από υπολογιστικά συστήματα.

Μερικοί συχνά χρησιμοποιούμενοι θεματικοί ρόλοι AGENTthe volitional causer of an event EXPERIENCERthe experiencer of an event FORCEthe non-volitional causer of an event THEMEthe participant most directly affected by an event RESULTthe end product of an event CONTENTthe proposition or content of a propositional event INSTRUMENTan instrument used in an event BENEFICIARYthe beneficiary of an event SOURCEthe origin of the object of a transfer event GOAL the destination of an object of a transfer event

Παραδείγματα Θεματικών Ρόλων AGENTthe waiter spilled the soup EXPERIENCERJohn has a headache FORCEThe wind blows debris from the mall into the yards THEMEOnly after Benjamin Franklin broke the ice… RESULTThe French government has built a regulation-size base-ball diamond… CONTENTMona asked “you met Mary Ann at a supermarket”? INSTRUMENTHe turned to poaching catfish, stunning them with a shocking device.. BENEFICIARYWhen ever Ann Callahan makes hotel reservations for her boss… SOURCEI flew in from Boston. GOALI drove to Portland.

There was an old man gardening EVENTGARDENING MAN AGENTNUMBERSG DEFINITENESSINDEF ASPECTPROGRESSIVE TENSEPAST

Παρατήρηση: βέβαια δεν δίνεται η σύνταξη και σημασία της δομής του υπαρξιακού-there (η μη πλήρης ανάλυση σήμερα αριθμεί τις 124 σελίδες (Layoff, 1987).

Η διαγλώσσα απαιτεί εκτός της συντακτικής και σημασιολογική ανάλυση (semantic analyzer – σημασιολογικός αναλυτής). Η παραγωγή όμως γίνεται άμεσα από την διαγλώσσα χωρίς συντακτικούς μετασχηματισμούς.

Τι οντολογία (ontology) χρησιμοποιείται; Ποια είναι η κατάλληλη λίστα από έννοιες και σχέσεις για μία διαγλώσσα. Υπάρχει ελευθερία, αλλά η επιλογή της οντολογίας περιορίζει την αρχιτεκτονική του συστήματος.

Λεκτική μετάβαση Στην οντολογία στοιχεία ανεξάρτητα των γλωσσών. Man  otoko, ningen, ojjisan Man  GENERIC-HUMAN, MALE-HUMAN

Τεχνικές επεξεργασίας φυσικής γλώσσας. Το κομμάτι της μετάφρασης ελαχιστοποιείται.

Λεκτική αποσύνθεση – Lexical decomposition Αποσύνθεση των λέξεων στις έννοιες των συστατικών τους. was  PASTPROGRESSIVE a  SINGULARINDEFINITE drink  (INGEST, FLUID, BY-MOUTH)

Τέτοιες αναπαραστάσεις θ μπορούσαν να είναι χρήσιμες για inference-based disambiguation. The policeman saw the man with a telescope. The policeman shot the man with a telescope. Δουλεύει με λίγα παραδείγματα ή σε πολύ μικρά θεματικά πεδία.

Πρακτικά, τέτοιες δυνατές τεχνικές που βασίζονται στην διαγλώσσα δεν χρησιμοποιούνται.

Κάνοντας λοιπόν τον συντακτικό και σημασιολογικό αναλυτή και/ή τον παραγωγό να κάνουν «λίγη» παραπάνω δουλειά, δεν χρειαζόμαστε συγκριτική γνώση.

Σχέση μεταξύ του Μοντέλου Μετάβασης και του Μοντέλου Διαγλώσσας Interlingua interpretationgeneration source language target language parse tree transfer parse tree parsing generation SL wordsTL words

Η επιπλέον δουλειά που χρειάζεται δεν είναι εύκολη. Ο σχεδιαστής του συστήματος πρέπει να εξαντλήσει τη σημασιολογία του πεδίου και να το τυποποιήσει σε μία οντολογία. Στις υπογλώσσες είναι πραγματοποιήσιμο. Γενικά είναι πάντως τέχνη.

Η διαγλώσσα απαιτεί το σύστημα να αποσαφηνίζει σε κάθε στιγμή με αποτέλεσμα δουλειά που δεν είναι πάντα απαραίτητη. ELDER BROTHER – YOUNGER BROTHER Απαραίτητο για Ιαπωνικά-Κινέζικα Όχι για Αγγλικά-Γερμανικά

Επιπλέον χρειάζονται τεχνικές για την διατήρηση της ασάφειας (preserving ambiguity) ώστε η έξοδος να είναι ασαφής στον ίδιο βαθμό με την είσοδο.