Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Μηχανική Μετάφραση (MM) Machine Translation (MT)

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Μηχανική Μετάφραση (MM) Machine Translation (MT)"— Μεταγράφημα παρουσίασης:

1 Μηχανική Μετάφραση (MM) Machine Translation (MT)
1960: Bar-Hillel (review of MT progress): “Σημασιολογικά εμπόδια στη ΜΜ μπορούν να ξεπεραστούν μόνο με τεράστιες ποσότητες εγκυκλοπαιδικής γνώσης για τον ‘πραγματικό κόσμο’” Πραγματολογία Αποτυχία στις προσπάθειες δημιουργίας συστημάτων Fully Automatic High Quality Translation (FAHQT)

2 Ιστορική Ανασκόπηση 13 Λιγότερο φιλόδοξοι στόχοι:
ΜΑHΤ Machine-Aided Human Translation HAMT Human-Aided Machine Translation Computer-aided Translation (CAT) Προοπτικές Μηχανικής Μετάφρασης ??? 1966 Τελική Αναφορά Αξιολόγησης της Automatic Language Processing Advisory Committee (ALPAC):

3 Προοπτικές Μηχανικής Μετάφρασης ???
« ΜΜ πιο αργή, λιγότερο ακριβής & διπλάσια ακριβότερη της ανθρώπινης» «Δεν υπάρχουν άμεσες ή προβλέψιμες προοπτικές χρήσιμης ΜΜ» «Δημιουργία μηχανικών εργαλείων για μεταφραστές, π.χ. ηλεκτρονικών λεξικών» «Συνεχής υποστήριξη βασικής έρευνας Υπολ.Γλωσσολογίας» ΤΕΛΟΣ ΚΡΑΤΙΚΗΣ ΧΡΗΜΑΤΟΔΟΤΗΣΗΣ στις ΗΠΑ ΑΡΧΗ ΥΠΟΛΟΓΙΣΤΙΚΗΣ ΓΛΩΣΣΟΛΟΓΙΑΣ/NLP/ ΓΛΩΣΣΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ

4 Βασικές Στρατηγικές Σχεδίασης
Α. Δίγλωσσο # /Πολύγλωσσο σύστημα (bilingual # multilingual) -Δίγλωσσο: 1) μονής ή αμφίδρομης κατεύθυνσης (uni-directional # bi-directional) 2) αντιστρέψιμο # μη αντιστρέψιμο (reversible # non-reversible) Τεράστιες οι θεωρητικές και πρακτικές δυσκολίες κατασκευής αληθινά αντιστρέψιμου συστήματος (όπου η διαδικασία ανάλυσης της γλώσσας μπορεί να αντιστραφεί χωρίς αλλαγές για την παραγωγή κειμένου σε αυτή τη γλώσσα): τα περισσότερα δίγλωσσα συστήματα είναι στην ουσία δύο παρόμοια συστήματα μονής κατεύθυνσης που ‘τρέχουν’ στον ίδιο Η/Υ.

5 Πολύγλωσσα συστήματα ΜΜ
Πολύγλωσσο: σύστημα μετάφρασης που περιλαμβάνει περισσότερες των 2 γλώσσες π.χ. -Project Ευρωπαϊκής Επιτροπής Eurotra (9 γλώσσες της ΕΕ προς όλες τις κατευθύνσεις: 72 ζεύγη γλωσσών) -Γλώσσα-πηγή: αγγλική προς 3 γλώσσες-στόχους (3 ζεύγη) -Γλώσσα-πηγή & στόχος: ιαπωνική, μετάφραση από και προς την αγγλική, γαλλική, γερμανική και ισπανική Αληθινά πολύγλωσσο το σύστημα στο οποίο τα τμήματα ανάλυσης και παραγωγής παραμένουν σταθερά ανεξαρτήτως των γλωσσών που εμπλέκονται.

6 Συστήματα Direct # Indirect
Β. Επιλογή θεωρητικού γλωσσολογικού μοντέλου αναπαράστασης Direct (άμεσα) ‘πρώτης γενεάς’ ( ) Indirect (έμμεσα): Transfer-based ‘δεύτερης γενεάς’ ( ) Interlingua-based Άμεσα Συστήματα: Συστήματα ΜΜ από τη μεταφραστική διαδικασία των οποίων απουσιάζουν οποιουδήποτε είδους ενδιάμεσα στάδια. Η επεξεργασία του κειμένου της γλώσσας-πηγής οδηγεί απευθείας στο επιθυμητό κείμενο της γλώσσας-στόχου.

7 Άμεσα Συστήματα Κώδικας assembler/Διαγράμματα ροής (flow-charts)
Στοιχειώδης γλωσσολογική ανάλυση -μορφολογική ανάλυση γλώσσας-πηγής: επισήμανση καταλήξεων & λημματοποίηση -όχι συντακτική ή σημασιολογική ανάλυση -αναζήτηση τύπων σε δίγλωσσο λεξικό - κανόνες τοπικής αναδιάταξης της γλώσσας-στόχου Προφανή ανεπιτυχή αποτελέσματα από έλλειψη συντακτικών σχέσεων: λανθασμένη/μη αποδεκτή λεξική επιλογή & μη αποδεκτά συντακτικά σχήματα.

8 Modules Άμεσων Συστημάτων
Άμεσο (direct) σύστημα ΜΜ source bilingual target language morphological dictionary local language input analysis look-up reordering output

9 Διάγραμμα Ροής Άμεσου Συστήματος
Μετάφραση των λέξεων much & many στη ρωσική 1(2,3) Is preceding word how? 2(0) skol’ko (numeral, invariable) 3(4,5) Is preceding word as? 4(0) stol ko ze (numeral, variable) 5(7,9) Is current word much? 6(0) Not to be translated (adverb) 7(6,11) Is preceding word very? 8(0) mnogiii (adjective, hard stem, with sibilant) 9(8,12) Is preceding word a preposition, and following word a noun? 10(0) mnogo (adverb) 11,(12,10) Is following word a noun? 12(0) mnogo (adverb

10 Σύστημα METEO Καναδικό σύστημα METEO, το οποίο, αν και είναι 2ης γενεάς (1976), διατηρεί το βασικό χαρακτηριστικό των άμεσων συστημάτων και ενεργοποιεί τη διαδικασία λεξικής μεταφοράς πριν από τη συντακτική ανάλυση, λόγω του περιορισμένου / εξειδικευμένου λεξιλογίου και τηλεγραφικού ύφους των μετεωρολογικών δελτίων που μεταφράζει.

11 Έμμεσα Συστήματα Διαγλώσσα (Interlingua): αφηρημένη αναπαράσταση ανεξάρτητη συγκεκριμένης φυσικής γλώσσας -Κάθε ενότητα (module) του συστήματος είναι επίσης ανεξάρτητη των υπολοίπων ενοτήτων. -Σύνθεση του κειμένου στη γλώσσα-στόχο βάσει των δεδομένων του ενδιάμεσου αφηρημένου σταδίου αναπαράστασης: μεταφραστική διαδικασία 2 σταδίων: γλώσσα-πηγή  διαγλώσσα διαγλώσσα  γλώσσα-στόχο : Grenoble Γαλλίας: ρωσο-γαλλικό σύστημα διαγλώσσας CETA (με δίγλωσσο τμήμα λεξικής μεταφοράς): απογοητευτικά αποτελέσματα

12 Συστήματα Διαγλώσσας (Interlingua)
: σύστημα DLT ολλανδικής εταιρείας BSO: γαλλικά, γερμανικά, αγγλικά, ιταλικά με διαγλώσσα τη γλώσσα Esperanto. (Harada 1986): ιαπωνικό σύστημα της εταιρείας NEC (Uchida 1988,1989): ιαπωνικό σύστημα της εταιρείας Fujitsu (Hobbs & Kameyama 1990): χρήση τύπων της προτασιακής λογικής/δομών κατηγορήματος-ορισμάτων : σύστημα Rosetta της ολλανδικής εταιρείας Phillips με διαγλώσσα τη γραμματική του Montague η οποία συνδέει σημασιολογικές ερμηνείες με συντακτικές σχέσεις (δέντρα αναπαράστασης) Σημερινά συστήματα διαγλώσσας είναι λιγότερο φιλόδοξα.

13 Συστήματα Διαγλώσσας (Interlingua)
1982: Ευρωπαϊκή Επιτροπή: σύστημα Eurotra: προ-βιομηχανικό πρωτότυπο λέξεων, επέκταση λεξιλογίου σε λέξεις μέχρι 1990 1992 έκθεση Danzin: σπουδαία συμβολή στη βασική έρευνα Γλωσσικής Τεχνολογίας σε 12 χώρες (150 επιστήμονες) με τον καθορισμό ‘επιστημονικού πρωτοτύπου’, αλλά αποτυχία κατασκευής λειτουργικού συστήματος ΜΜ 1993: Έκθεση Oackley: Λήξη προγράμματος Σταύρου Μ. & Μ. Τζεβελέκου, 2000, Οι Γλωσσολογικές Προδιαγραφές του Συστήματος EUROTRA, Η Μηχανική Μετάφραση & η Ελληνική Γλώσσα, εκδ. Καστανιώτη

14 Σύστημα Διαγλώσσας EUROTRA
Αφομοίωση μεγαλύτερων σύγχρονων γλωσσολογικών θεωριών: Γενετική-Μετασχηματιστική Γραμματική (Chomsky (1965, 1981) Generative-Transformational Grammar Λεξική-Λειτουργική Γραμματική (Bresnan 1982) Lexical-Functional Grammar / LFG Γενικευμένη Γραμματική Φραστικής Δομής (Gazdar et al. 1985) Generalized Phrase Structure Grammar / GPSG Γραμματική των Εξαρτήσεων (Hudson 1984) Dependency Grammar

15 Σύστημα Διαγλώσσας EUROTRA
Μετάφραση 2 μεταβάσεων: -από κείμενο-πηγή σε σημασιολογική αναπαράσταση -από σημασιολογική αναπαράσταση σε κείμενο-στόχο Στο σημασιολογικό επίπεδο η Δομή Διεπαφής (ΔΔ) των γλωσσών, απ’όπου έχουν αφαιρεθεί ιδιόμορφα στοιχεία: κοινή μορφή αναπαράστασης γλωσσών Κείμενο (γλώσσα Χ) → ΔΔ (γλώσσα Χ) → ΔΔ (γλώσσα Ψ) → κείμενο (γλώσσα Ψ)

16 Σύστημα Διαγλώσσας EUROTRA
ΕΙΣΟΔΟΣ (γλώσσα-πηγή) ΕΞΟΔΟΣ (γλώσσα-στόχος) ↓ ↑ ΚΑΝΟΝΙΚΟΠΟΙΗΜΕΝΟ ΚΕΙΜΕΝΟ ΚΑΝΟΝΙΚΟΠΟΙΗΜΕΝΟ ΚΕΙΜΕΝΟ ΜΟΡΦΟΛΟΓΙΚΗ ΔΟΜΗ /ΜΔ ΜΟΡΦΟΛΟΓΙΚΗ ΔΟΜΗ/ΜΔ ΣΥΣΤΑΤΙΚΗ ΔΟΜΗ/ΣΤΔ ΣΥΣΤΑΤΙΚΗ ΔΟΜΗ/ΣΤΔ ΣΥΣΧΕΤΙΣΤΙΚΗ ΔΟΜΗ/ΣΧΔ ΣΥΣΧΕΤΙΣΤΙΚΗ ΔΟΜΗ/ΣΧΔ ΔΟΜΗ ΔΙΕΠΑΦΗΣ — ΜΕΤΑΒΑΣΗ → ΔΟΜΗ ΔΙΕΠΑΦΗΣ

17 Σύστημα Διαγλώσσας EUROTRA
Μορφολογική Δομή (ΜΔ): Αναγνώριση μορφημάτων ΚΑΝΟΝΑΣ ΠΕΡΙΓΡΑΦΗΣ ΔΟΜΗΣ ΟΥΣΙΑΣΤΙΚΩΝ Ουσιαστικό={συστατικό=λέξη, κατηγορία=ουσιαστικό, λέξημα=L, γένος=G, αριθμός=Ν, πτώση=C} [ {συστατικό=θέμα, κατηγορία=ουσιαστικό, λέξημα=L, γένος=G}, {συστατικό=κατάληξη, κατηγορία=κλιτικό μόρφημα, αριθμός=Ν, πτώση=C} ]

18 Σύστημα Διαγλώσσας EUROTRA
ΚΑΝΟΝΑΣ ΠΕΡΙΓΡΑΦΗΣ ΔΟΜΗΣ ΡΗΜΑΤΩΝ Ρήμα={συστατικό=λέξη, κατηγορία=ρήμα, λέξημα=L, αριθμός=Ν, πρόσωπο=P, χρόνος=Τ, όψη=Α} [ {συστατικό=θέμα, κατηγορία=ρήμα, λέξημα=L, όψη=Α}, {συστατικό=κατάληξη, κατηγορία=κλιτικό μόρφημα, αριθμός=Ν, πρόσωπο=P, χρόνος=Τ} ]

19 Σύστημα Διαγλώσσας EUROTRA
Συστατική Δομή (ΣΤΔ): Ομαδοποιούνται οι λέξεις της πρότασης σε συστατικά τα οποία θα εισαχθούν σε σχέσεις εξάρτησης στο επόμενο επίπεδο, αυτό της ΣΧΔ. ΚΑΝΟΝΑΣ ΠΕΡΙΓΡΑΦΗΣ ΔΟΜΗΣ ΠΡΟΤΑΣΗΣ Μόνος υποχρεωτικός κόμβος: η ρηματική ομάδα Όλοι οι άλλοι κόμβοι είναι προαιρετικοί () ή εναλλασσόμενοι (;) Πρόταση={κατηγορία=πρόταση, διάθεση=D, χρόνος=Τ, όψη=Α, έγκλιση=Μ, φωνή=V}

20 Σύστημα Διαγλώσσας EUROTRA
[ στον κήπο ({κατηγορία=προθετική φράση, λειτουργία=επίρρημα}; {κατηγορία=επιρρηματική φράση}; αύριο {κατηγορία=φράση προσδιοριστικού δείκτη, τύπος=ημερομηνία, πτώση=αιτιατική}; τη Δευτέρα {κατηγορία=πρόταση, τύπος=δευτερεύουσα}), {κατηγορία=φράση προσδιοριστικού δείκτη, πτώση=ονομαστική, πρόσωπο=P, αριθμός=Ν},

21 Σύστημα Διαγλώσσας EUROTRA
{κατηγορία=ρηματική ομάδα, διάθεση=D, χρόνος=Τ, όψη=Α, έγκλιση=Μ, πρόσωπο=P, αριθμός=Ν, φωνή=V}, *{κατηγορία=προθετική φράση, λειτουργία=συμπλήρωμα}, ({κατηγορία=φράση προσδιοριστικού δείκτη, πτώση=αιτιατική}, {κατηγορία=προθετική φράση, λειτουργία=συμπλήρωμα}; ({κατηγορία=πρόταση, έγκλιση=υποτακτική, τύπος=δευτερεύουσα}; {κατηγορία=πρόταση, τύπος=γερούνδιο}), ].

22 Σύστημα Διαγλώσσας EUROTRA
Συσχετιστική Δομή (ΣΧΔ): με στοιχεία από LFG & Dependency Grammar. Πληροφορίες από το λεξικό ως προς πλαίσιο υποκατηγοριοποίησης 3 τύπων κατηγορημάτων (ρήμα, επίθετο ή πρόθεση). Στοιχεία 3 τύπων: 1) κυβερνήτες=κατηγορήματα που ορίζουν εξαρτήσεις μέσα από το πλαίσιο υποκατηγοριοποίησης 2) συμπληρώματα=ορίσματα του πλαισίου υποκατηγοριοποίησης: Υποκείμενο, Αντικείμενο (άμεσο, έμμεσο, εμπρόθετο ή επιρρηματικό)

23 Σύστημα Διαγλώσσας EUROTRA
3) προσαρτήματα=στοιχεία που δεν ανήκουν στο πλαίσιο υποκατηγοριοποίησης (επιρρηματικές, επιθετικές ή προθετικές φράσεις) (Συντακτική Λειτουργία: ΣΛ) Διάβασε το βιβλίο {κατηγορία = Πρόταση} {ΣΛ=κυβερνήτης, {ΣΛ=Υποκ., {ΣΛ=Αντικ.,... λεξ.μονάδα=διαβαζ, λεξ.μονάδα=κενό} λεξ.μονάδα=βιβλι} Κατηγορία=ρήμα,... Πλαίσιο Υποκατηγοριοποίησης=Υποκ-Αντικ}

24 Σύστημα Διαγλώσσας EUROTRA
Δομή Διεπαφής (ΔΔ): Δομή εξάρτησης που απεικονίζει τις βαθιές συντακτικές σχέσεις. Κάθε φραστική κατηγορία αποτελείται από 1 πυρηνικό στοιχείο, τον κυβερνήτη, ο οποίος προαιρετικά ακολουθείται από εξαρτώμενα στοιχεία. Εξαρτώμενα στοιχεία: 3 ειδών: 1) Ορίσματα πλαισίου υποκατηγοριοποίησης κυβερνήτη [Ο Πέτρος] έδωσε [το βιβλίο] [στον Γιάννη]. 2) Προσαρτήματα προαιρετικής παρουσίας Ο Πέτρος έδωσε το βιβλίο στον Γιάννη [χθες]. 3) Διαπροτασιακά στοιχεία = στοιχεία προσανατολισμένα στον ομιλητή & ορίζονται με βάση το λόγο [Τέλος], θα αναφέρω ορισμένα συμπληρωματικά στοιχεία...

25 Συστήματα Μετάβασης (Transfer)
Συστήματα Μετάβασης: Μεταφραστική διαδικασία σε 3 στάδια: 1) Ανάλυση κειμένου γλώσσας-πηγής σε όλα τα επίπεδα (έμφαση στην επίλυση αμφισημιών) και ενδιάμεση αναπαράσταση πληροφοριών ανεξαρτήτως γλώσσας-στόχου. 2) Μετατροπή αναπαραστάσεων λεξικών & συντακτικών πληροφοριών σε αντίστοιχες της γλώσσας-στόχου 3) Σύνθεση τελικών κειμένων γλώσσας-στόχου Τα προγράμματα ανάλυσης & σύνθεσης είναι ανεξάρτητα μεταξύ τους αλλά language-dependent.

26 Σύστημα Μετάβασης SYSTRAN
Σύστημα SYSTRAN: Peter Toma, βασικός προγραμματιστής της ομάδας του Πανεπιστημίου Georgetown: σύστημα 1ης γενεάς GAT (1960 επίδειξη) 1964: ανάπτυξη ρωσοαγγλικού συστήματος SYSTRAN στη Γερμανία 1968: ίδρυση εταιρείας Latsec Inc. στη Καλιφόρνια για την ανάπτυξη του συστήματος προσαρμοσμένο στις ανάγκες της Αμερικανικής Πολεμικής Αεροπορίας. Χρηματοδότηση & χρήση SYSTRAN από NASA (Apollo-Soyuz) 1976: εγκατάσταση ρωσοαγγλικού συστήματος σε οργανισμό Euratom, Ιταλία & συμβόλαιο με Επιτροπή Ευρωπαϊκών Κοινοτήτων ανάπτυξης αγγλο-γαλλικού συστήματος

27 Σύστημα Μετάβασης SYSTRAN
SYSTRAN-EE: ανάπτυξη 18 ζευγών : Ίδρυση ποικίλων εταιρειών ανάπτυξης και προώθησης SYSTRAN: Systran Institut (Γερμανία), World Translation Corporation (Καναδάς), Systran Corporation (Ιαπωνία) 1986: Αγορά όλων των αμερικανικών και ευρωπαϊκών εταιρειών από γαλλική εταιρεία Gachot. Μόνο η Ιαπωνική IONA παραμένει ανεξάρτητη. Σύστημα προσβάσιμο στη Γαλλία μέσω δικτύου Μinitel (6-7 εκ.τερματικά τo 1996) 2000: Αγορά από εταιρεία Gachot και του συστήματος SYSTRAN-EE που ανέπτυξε η Ευρωπαϊκή Επιτροπή στο Λουξεμβούργο.

28 Λεξικά Συστήματος SYSTRAN-ΕΕ
Δύο είδη λεξικών: (STEM Dictionary) Λεξικό μεμονωμένων όρων ή ιδιωματικών αμετάβλητων εκφράσεων: απόδοση σημασίας στη γλώσσα-στόχο ανεξάρτητα γλωσσικού περιβάλλοντος (πλέον συχνή χρήση) + 21 Θεματικοί κώδικες ορολογίας + Κώδικες ορολογίας χρηστών Κωδικοποίηση λήμματος: γραμματική κατηγορία, κλιτικό υπόδειγμα, κώδικας ομογραφίας, συντακτικοί & σημασιολογικοί κώδικες, πλαίσια υποκατηγοριοποίησης ουσιαστικών & ρημάτων Κώδικες Αγγλικής Ανάλυσης: γραμματικής υποκατηγοριοποίησης 102, ομογραφίας 83, συντακτικοί 69, σημασιολογικοί 40 λήμματα αγγλικής ανάλυσης

29 SYSTRAN-EE STEM Dictionary
ΛΕΞΙΚΟ ENGANY 00 GREECE 1011 GN=(N,S) D 0 0 C$GRIEKENLAND SYN-GRP,HU F 0 0 C$GR2ECE SEM-COUNTR G 0 0 C$GRIECHENLAND *GEOLOC H 0 0 C$ELLA’DA *LOCATN, I 0 0 C$GRECIA GROUPS P 0 0 C$GR3ECIA *BEINGS S 0 0 C$GRECIA C0IN COMMON WITH 004R-IN.COMMON.WITH (Idiom Replace)

30 SYSTRAN-EE STEM Dictionary
ΛΕΞΙΚΟ ENGHEL 01 GREEK 1011 HMRTN=38,GN=(M,F,N,S) H00C$E’LLINAS 41 GREEKS SYN-ABS,CT,HU,MS ELLINJKO’ SEM-NATLTY*HUMANS CDS-AP *BEINGS 00 GREEK 2020 HMRTN=38,GN=(S,P) H00 ELLINJKO’S SEM-NATLTY*HUMANS 7C$E’LLINAS

31 Λεξικά Συστήματος SYSTRAN-ΕΕ
(IDLS Dictionary) Λεξικό εκφράσεων & λεξικών/συντακτικών κανόνων οι οποίοι προσδιορίζουν την απόδοση στη γλώσσα-στόχο βάσει του γλωσσικού περιβάλλοντος της γλώσσας-πηγής 5 είδη λημμάτων: 1) Ονοματική Φράση χωρίς μετάφραση (Β) 2) Ονοματική Φράση με μετάφραση (C) 3) Κανόνας καθορισμού συντακτικής σχέσης συγκεκριμένων λέξεων (ParsingLimitedSemantics) 4) Κανόνας επίλυσης ομογραφίας (HomographLS) 5) Κανόνας σημασιολογικής επιλογής βάσει γλωσσικού περιβάλλοντος της γλώσσας-πηγής (ConditionalLS) λήμματα αγγλικής ανάλυσης

32 SYSTRAN-EE IDLS Dictionary
Εκφράσεις Β: B2GROWING DEMAND B2COMPUTER NODE B2SWITCHING SYSTEM 2) Εκφράσεις C: C2CROPPING PERIOD C2ADVANCED TECHNOLOGY C3INFORMATION TECHNOLOGY EQUIPMENT 3) 91REPORT $C-B1,E,4C REQUIREMENT $C-CW,WA $C-B0,-,2 RESPECT $C-CW,WB $C-PW,CW $C-B18,CH,00 $C-WA,CW $C-B28,CH,00 $C-PW,CW $C-B12,BN,80 $C-PW,CW,B30,B20 $C-WB,WA,B18,B28 Κανόνες PLS

33 SYSTRAN-EE IDLS Dictionary
In addition we re-emphasize the importance of keeping to deadlines and respecting reporting requirements $C-B18,CH,00 $C-B28,CH,00 Ακύρωση σχέσης Ρήματος-Αντικειμένου: B18/B28 μεταξύ reporting & requirements Καθιέρωση νέου Aντικειμ για λέξη respecting: requirements Καθιέρωση σχέσης adnominal B30/B20 μεταξύ reporting & requirements Πριν από PLS: του σεβασμού εκθέτοντας τις απαιτήσεις Μετά από PLS: του σεβασμού των απαιτήσεων έκθεσης

34 SYSTRAN-EE IDLS Dictionary
4) Κανόνες HLS: C8MEETING $C-B137,E,20 QUALITY CRITERIUM $C-HMPOS=4C Meeting quality criteria alone does not guarantee support. Πριν από HLS: Ποιοτικά κριτήρια συνεδρίασης μόνο δεν εγγυώνται την υποστήριξη. Μετά από HLS: Η ικανοποίηση των ποιοτικών κριτηρίων μόνο δεν εγγυάται την υποστήριξη.

35 SYSTRAN-EE IDLS Dictionary
5) Κανόνες CLS: 41APPLICATION $C-TG=P $C-ADNOM30 $PROCEDURE: ΥΠΟΒΟΛΗ ΥΠΟΨΗΦΙΟΤΗΤΑΣ 41ASPECT $C-B24 $OF $C-B18 $PROCEDURE: ΠΤΥΧΗ …in response to requests to simplify and clarify certain aspects of the application procedures Πριν από CLS: πλευρές των διαδικασιών εφαρμογής Μετά από CLS: πτυχές των διαδικασιών υποβολής υποψηφιότητας

36 Περιγραφή συστήματος SYSTRAN
Δύο είδη προγραμμάτων: βασικά λειτουργικά, ανεξάρτητα των φυσικών γλωσσών του συστήματος, γραμμένα σε assembler: προγράμματα επεξεργασίας δεδομένων εισόδου, πρόσβασης στα λεξικά του συστήματος & ελέγχου σταδίων μετάφρασης b) μετάφρασης, κατανεμημένα σε ξεχωριστές ενότητες: ανάλυσης, μετάβασης & σύνθεσης, γραμμένα σε ειδική μακρο-γλώσσα (Systran Programming Language)

37 Περιγραφή συστήματος SYSTRAN
Αναπαράσταση όλων των πληροφοριών μιας λέξης του κειμένου-πηγής ως σύνολο 192 ψηφιολέξεων (bytes): Σε κάθε λέξη της μεταφραστικής ενότητας αντιστοιχεί μια δέσμη ψηφιολέξεων (byte area). Σε κάθε ψηφιολέξη αποθηκεύεται συγκεκριμένος τύπος πληροφορίας, που εντοπίζεται από το λεξικό και από κάθε διαδοχικό στάδιο επεξεργασίας. The Greek Ministry and the Commission organized a SYSTRAN demonstration on July 7th 1993, and showed that machine translation is very useful.

38 Περιγραφή συστήματος SYSTRAN
Byte area της λέξης MINISTRY: MINISTRY PLURALR MN-ΥΠΟΥΡΓΕΙΟ … B2B ……01.. 029-… …. 056-.E B2AB B249F0 103-… F 157-02B2C C LSNUM:00C4D5 BASIC FORM:MINISTRY SEM=BEINGS, ENPRIS, GROUP TG ΥΠΟΥΡΓΕΙΟ MNCDS

39 Στάδια επεξεργασίας SYSTRAN
ΕΙΣΑΓΩΓΗ ΚΕΙΜΕΝΟΥ Α. ΠΡΟ-ΕΠΕΞΕΡΓΑΣΙΑ Καθορισμός μεταφραστικών ενοτήτων (προτάσεων) Ανίχνευση λέξεων κειμένου σε λεξικό εκφράσεων Ανίχνευση λέξεων κειμένου σε βασικό λεξικό Μορφολογική Ανάλυση Β. ΑΝΑΛΥΣΗ Επίλυση ομογράφων Αναγνώριση & χαρακτηρισμός κυρίων & δευτερευουσών προτάσεων Αναγνώριση των επιφανειακών συντακτικών δομών Αναγνώριση παρατακτικών δομών Καθορισμός κατηγορηματικών σχέσεων

40 Στάδια επεξεργασίας SYSTRAN
Γ. ΜΕΤΑΒΑΣΗ (Στάδιο συγκριτικής μελέτης) Ενεργοποίηση κανόνων λεξικής μετάβασης που έχουν κωδικοποιηθεί βάσει του γλωσσικού περιβάλλοντος της γλώσσας-πηγής (IDLS) Μετάφραση προθέσεων βάσει γλωσσικού περιβάλλοντος Ενεργοποίηση λεξικών ρουτινών μετάφρασης μεμονωμένων λέξεων ή λεξικών ομάδων με ειδικά χαρακτηριστικά (π.χ. απόδοση αγγλικής ημερομηνίας στα ελληνικά, μετάφραση συγκεκριμένων αντωνυμιών both, one, own, μετάφραση επιθέτων εθνικότητας) – 28 ρουτίνες στο αγγλοελληνικό σύστημα το 1994

41 Στάδια επεξεργασίας SYSTRAN
Δ. ΣΥΝΘΕΣΗ Απόδοση μεμονωμένων λέξεων & εκφράσεων στη γλώσσα-στόχο Μορφολογική σύνθεση στη γλώσσα-στόχο Αναδιάταξη: τοποθέτηση των λέξεων σύμφωνα με τους κανόνες σειράς όρων πρότασης στη γλώσσα-στόχο Ε. ΤΕΛΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ Αποκατάσταση αρχικής μορφής κειμένου ΕΞΑΓΩΓΗ ΜΕΤΑΦΡΑΣΘΕΝΤΟΣ ΚΕΙΜΈΝΟΥ

42 Άλλα Συστήματα Μετάβασης 2ης γενεάς
Αρχετυπικό σύστημα 2ης γενεάς, πρωτοποριακό για την εποχή του: GETA-Ariane: μετά την αποτυχία του συστήματος διαγλώσσας CETA από την ομάδα του Πανεπιστημίου της Grenoble (Bernard Vauquois): 1971, GETA (Groupe d’Etudes pour la Traduction Automatique): σύστημα μετάβασης Ariane. Κυρίως Ρωσικά-γαλλικά, επίσης γερμανικά-γαλλικά & ενίοτε πορτογαλικά, μαλαισιανά, ιαπωνικά & κινεζικά Mεγάλη επιρροή στους χώρους ΜΜ μεταξύ ’60 & ‘80 (πολλά ιαπωνικά συστήματα παρόμοιας σχεδίασης, ειδικά το σύστημα Mu του Πανεπστημίου του Κυότο, το οποίο επηρέασε αρκετά εμπορικά ιαπωνικά συστήματα). Ariane-78, Ariane-85, Ariane-G5

43 Σύστημα Μετάβασης Ariane-78
Διαχωρισμός ανάλυσης-σύνθεσης σε 2 ενότητες: μορφολογική & συντακτική ανάλυση Μετάβαση 2 φάσεων: λεξική & δομική Αυστηρός διαχωρισμός γλωσσολογικής & αλγοριθμικής γνώσης σε κάθε στάδιο Αληθινά πολύγλωσσο σύστημα: επαναχρησιμοποίηση προγραμμάτων ανάλυσης & σύνθεσης για νέες γλώσσες-πηγές ή στόχους. Πολυ-επίπεδες δομές οι οποίες συνδυάζουν σχέσεις εξάρτησης με δομές συστατικών σε επιφανειακό και βαθύ επίπεδο. Ανεπαρκής σημασιολογική ανάλυση Σύστημα πειραματικό με μικρές λεξικές βάσεις δεδομένων (μοναδική δοκιμή μεγάλης έκτασης: ρωσικές λεξικές μονάδες διαστημικής επιστήμης & μεταλλουργίας)

44 Σύστημα Μετάβασης Ariane-78
source text target text character string character string ↓ ↑ MORPHOLOGICAL ATEF SYGMOR MORPHOLOGICAL ANALYSIS GENERATION flat labelled tree surface representation of ROBRA target string MULTILEVEL SYNTACTIC ANALYSIS GENERATION intermediate source TRANSF intermediate target structure structure LEXICAL TRANSFER → source structure with → STRUCTURAL TRANSFER target LUs

45 Σύστημα Μετάβασης METAL
Γερμανικά-αγγλικά : Linguistics Research center (LRC) του Πανεπιστημίου του Τέξας, Austin – Στρατός ΗΠΑ, Πολεμική Αεροπορία ΗΠΑ Εξερεύνηση προσέγγισης διαγλωσσικής, όπως CETA-Grenoble. 1978: Εταιρεία Siemens Μονάχου: Αλλαγή προς σύστημα μετάβασης 1989: Πρώτο εμπορικό σύστημα, για μεγάλες εταιρείες Και αυτό το σύστημα αρχικά σχεδιασμένο για mainframe (Symbolics 36-series Lisp machines on workstations: Siemens SINIX-based machines MX-2/300/500)

46 Σύστημα Μετάβασης METAL
Αγγλικά-γερμανικά (LRC), ολλανδικά ↔γαλλικά (Πανεπιστήμιο του Leuven, Βέλγιο), γερμανικά → ισπανικά (Πανεπιστήμιο της Βαρκελώνης), γαλλικά, δανικά (Handelshøjskole Syd, Kolding Δανίας) Κλασικά στάδια επεξεργασίας Μονόγλωσσα λεξικά χρησιμοποιούμενα και για την ανάλυση και τη σύνθεση Δίγλωσσα: μονής κατεύθυνσης ανάλογα με γλωσσικό ζεύγος Μορφολογικές, συντακτικές & σημασιολογικές πληροφορίες στο λεξικό υπό μορφή λίστας ζευγών (χαρακτηριστικό, τιμή)

47 Σύστημα Μετάβασης METAL
Γραμματικές του συστήματος: μη ταξινομημένα σύνολα κανόνων φραστικής δομής ανεξάρτητων περιβάλλοντος, επαυξημένων με τεστ και συνθήκες καθώς και με προδιαγραφές επιδιωκόμενων δομών εξόδου. Κανόνες = Λειτουργίες Lisp Φιλικές εφαρμογές διεπαφής: -Τέλειο αλληλεπιδραστικό expert system για τη δημιουργία των λεξικών (Intercoder) - συγγραφής της γραμματικής του συστήματος (Metalshop syntax development tool)

48 Σύστημα Μετάβασης METAL
Τάσεις για διαγλωσσική συντακτική ανάλυση με κλασική δίγλωσση λεξική μετάβαση Μη αντιστρέψιμα τα διαφορετικά τμήματα του συστήματος (ανάλυσης, σύνθεσης) Πλέον των 20 οργανισμών οι χρήστες του συστήματος (ελβετική μεταφραστική εταιρεία Compulex, Philips Kommunikations-Industrie AG)

49 Πειραματικό σύστημα μετάβασης SUSY
:Πανεπιστήμιο του Saarlandes στη Saarbrücken Γερμανίας: έμφαση στην ανάλυση και σύνθεση των γερμανικών σε συνδυασμό με αγγλικά, ρωσικά, γαλλικά Μετά το 1986 η έρευνα συγχωνεύθηκε με το έργο Eurotra. Fortran: Δομές δέντρων εξάρτησης (Dependency tree structures) Ιδιαίτερα αρθρωτή αρχιτεκτονική, με διάσπαση της μεταφραστικής διαδικασίας σε υπο-ενότητες αυστηρής σειράς Δυσδιάκριτος διαχωρισμός γλωσσολογικών & αλγοριθμικών ενοτήτων

50 MM: Όλη η δραστηριότητα εστιασμένη σχεδόν αποκλειστικά στην αυτόματη μηχανική μετάφραση με ανθρώπινη παρέμβαση είτε πριν από (προεπεξεργασία κειμένου: pre-editing/ελεγχόμενη γλώσσα: controlled language), είτε κατά τη διάρκεια (διαδραστική επίλυση προβλημάτων) είτε μετά (post-editing) την μεταφραστική διαδικασία  HAMT Σχεδόν όλη η ερευνητική προσπάθεια αφιερωμένη στην εξερεύνηση μεθόδων γλωσσικής ανάλυσης και σύνθεσης βάσει παραδοσιακών rule-based μοντέλων μετάβασης & διαγλώσσας.

51 ΜΜ: : νέα δραστηριοποίηση στο χώρο, κυρίως στην Ιαπωνία με νέες ιδέες για έρευνα όπως συστήματα knowledge-based και interlingua-based, νέες πηγές χρηματοδότησης (Ευρωπαϊκή Ένωση, εταιρείες Η/Υ), εμφάνιση πρώτων εμπορικών συστημάτων ΜΜ Πρώτα εμπορικά μεταφραστικά εργαλεία (π.χ. Mercury/Termex λογισμικά διαχείρισης ορολογίας, ALPNET, πρώτη έκδοση Translation Memories)

52 Τεχνητή Νοημοσύνη & knowledge-based ΜΜ
Αρχές δεκαετίας ’70 Πανεπιστήμιο του Stanford:Yorick Wilks & Πανεπιτήμιο του Yale: Roger Schank Οποιοδήποτε σύστημα ΜΜ πρέπει να ‘κατανοήσει’ το μήνυμα που μεταφέρεται μέσω του κειμένου: υιοθέτηση πρωτίστως σημασιολογικού parsing, ερμηνεία κειμένων μέσω αναφοράς σε βάσεις γνώσεων, χρήση επαγωγικών μηχανισμών, αναπαραστάσεις της σημασίας των κειμένων ανεξαρτήτως των γλωσσών που εμπλέκονται. Δεκαετία ’80: Eurotra project, Electro-Technical Laboratory (Ιαπωνία), κυρίως Β. Αμερική: Carnegie-Mellon University Center, Pittsburgh: J. Carbonell & S. Nirenburg 1989: πειραματικό σύστημα KBMT (CommonLisp-Lexical Functional Grammar)

53 ΜΜ: Ήδη από 1987 (Χακόνε Ιαπωνίας): διεθνή συνέδρια ανά διετία για τη Μηχανική Μετάφραση: MT Summits Παγκόσμιο συνέδριο SYSTRAN, Λουξεμβούργο 1986 IAMT/EAMT Αρχές δεκαετίας ’90: corpus-based προσεγγίσεις: -υιοθέτηση στατιστικών μεθόδων ανάλυσης (IBM Candide project) (Brown et al 1990) -μετάφραση βάσει παραδειγμάτων (example-based translation) (Sato & Nagao 1990, Sumita et al. 1990) Βασική κατεύθυνση: συγχώνευση μεθόδων (rule-based & corpus-based) & συστημάτων (‘pure’ MT & translation aids)

54 Statistics-based MM IBM Research Laboratories, Yorktown Heights, New York: το μοναδικό σύστημα που χρησιμοποιεί στατιστικές τεχνικές ως το μοναδικό εργαλείο ανάλυσης & σύνθεσης. 10% του Hansard corpus καναδικού κοινοβουλίου (αγγλικά-γαλλικά): ευθυγραμμισμένες (aligned) προτάσεις, υπολογισμός πιθανοτήτων ότι οποιαδήποτε λέξη στη μια γλώσσα αντιστοιχεί σε δύο, μια ή καμία λέξη στη μεταφρασμένη πρόταση στην άλλη γλώσσα. Αντιστοίχιση bigrams: ποσοστό επιτυχίας 48%

55 ΜΜ: Αρχές δεκαετίας ’90 κυρίως στην Ευρώπη: translator workstations (Trados Translator Workbench, IBM TranslationManager/2, STAR Transit, Eurolang Optimizer): συνδυασμός εξελιγμένων λογισμικών επεξεργασίας κειμένων & εκδοτικών λογισμικών με συστήματα διαχείρισης ορολογίας & τράπεζες μεταφρασθέντων κειμένων. Ευρωπαϊκή Επιτροπή: TWB project ( ), TRANSLEARN (interactive corpus-based translation drafting tool), EURAMIS workstation Κύριο χαρακτηριστικό της περιόδου: μεγάλη αύξηση στη χρήση της ΜΜ και των μεταφραστικών εργαλείων ---->MAHT.

56 ΜΜ: Χρήστες ΜΜ όχι πλέον μόνο οι παραδοσιακοί (μεγάλες πολυεθνικές εταιρείες & οργανισμοί –συστήματα σε κεντρικό υπολογιστή με παραγωγή εκατομμυρίων σελίδων/χρόνο π.χ. 8 εκ. σελίδες/χρόνο με συστήματα Metal & Logos στη Software group SAP). Δραματική αύξηση στις πωλήσεις συστημάτων ΜΜ για προσωπικό υπολογιστή κυρίως Β. Αμερική & Ιαπωνία: 1000 διαφορετικά πακέτα ΜΜ (με ξεχωριστή καταμέτρηση κάθε ζεύγους γλωσσών). Σχεδόν όλες οι ιαπωνικές εταιρείες υπολογιστών έχουν αναπτύξει σχετικά προϊόντα. Παλαιότερα συστήματα mainframe μετατρέπονται σε εφαρμογές για pc (Systran-Pro, Fujitsu, Metal, Logos).

57 ΜΜ: Η μετάφραση πλέον θεωρείται ως ένα ενδιάμεσο στάδιο των διαδικασιών μεταφοράς της πληροφορίας. MM διαθέσιμη και στο πλατύ κοινό μέσω των λογισμικών ΜΜ ιστοσελίδων (με πρωτοπόρες τις ιαπωνικές εταιρείες καθώς και SYSTRAN, Globalink, Intergraph) αλλά και ηλεκτρονικής αλληλογραφίας (Compuserve). Μετακίνηση ερευνητικού ενδιαφέροντος προς πολυγλωσσικά εργαλεία και μετάφραση φωνής π.χ. ATR, C-STAR, JANUS, VERBMOBIL 1993 (γερμανικά, ιαπωνικά, αγγλικά).

58 Έχει βελτιωθεί η ποιότητα της ΜΜ;
‘Has Machine Translation Improved? Some Historical Comparisons’ J. Hutchins Παράγουν τα σύγχρονα εμπορικά και online συστήματα καλύτερη ‘ακατέργαστη’ μετάφραση από τα παλαιότερα λειτουργικά συστήματα; Σύγκριση παλαιότερων λειτουργικών συστημάτων: Mainframe: -ΙΒΜ-USAF & Georgetown (δεκαετία 1960) -SYSTRAN (δεκαετία 1970) ( ) -SYSTRAN, Logos, METAL Pc systems: -ALPS, Weidner, PC-Translator, Globalink με

59 Έχει βελτιωθεί η ποιότητα της ΜΜ;
Μοντέρνα ‘προσωπικά’ συστήματα: Systran Personal, Personal Translator & Promt & Υπηρεσίες online: Babelfish (Systran online), Lycos, Reverso, Promt, FreeTranslation, InterTran Aποτελέσματα Ρωσικά-αγγλικά 1. Babelfish & Promt είναι καλύτερα από σύστημα 1ης γενεάς IBM-USAF: κατανοητό το νόημα (gist) 2. Babelfish & Promt είναι καλύτερα από σύστημα Georgetown 1ης γενεάς παρά τα προβλήματα

60 Έχει βελτιωθεί η ποιότητα της ΜΜ;
3. Σύγχρονο σύστημα Systran (Babelfish 2003) είναι οριακά καλύτερο από SYSTRAN 1976, σύστημα Promt όμως φαίνεται χειρότερο (ρωσικά-αγγλικά) 4. Babelfish, Lycos, Systran Personal 4.0, Reverso είναι καλύτερα από SYSTRAN 1983 αλλά FreeTranslation & InterTran κατά πολύ χειρότερα (!!) (γαλλικά-αγγλικά) 5. Σύγχρονα συστήματα Systran (Babelfish, Lycos, Systran Personal 4.0), Reverso, FreeTranslation & Personal Translator είναι λίγο καλύτερα από σύστημα Logos 1983 (γερμανικά-αγγλικά) (αν και το Personal Translator παράγει λανθασμένους μορφολογικούς τύπους π.χ. finishedly ή storedly).

61 Έχει βελτιωθεί η ποιότητα της ΜΜ;
6. Σύγχρονα συστήματα Systran (Babelfish, Systran Personal 4.0), Reverso & FreeTranslation είναι γενικά καλύτερα από σύστημα Globalink 1990 (γερμανικά-αγγλικά), ενώ Personal Translator & InterTran είναι σίγουρα χειρότερα. Συμπέρασμα Α. Σίγουρη πρόοδος από μέσα δεκαετίας ’60 Β. Πιθανή πρόοδος από αρχές δεκαετίας ’70 Γ. Αβέβαιη πρόοδος από αρχές δεκαετίας ’80

62 Έχει βελτιωθεί η ποιότητα της ΜΜ;
Τα προβλήματα παραμένουν άλυτα: άρση αμφισημιών, λανθασμένη επιλογή λέξεων γλώσσας-στόχου, καθορισμός σημείων αναφοράς, επιλογή γένους αντωνυμιών & οριστικών άρθρων, διατήρηση συντακτικών σχημάτων γλώσσας-πηγής, προβλήματα συμφωνίας όρων, πάντοτε προβλήματα με προτάσεις περιέχουσες δευτερεύουσες προτάσεις. Είναι περίεργο το γεγονός ότι μετά από 50 χρόνια έρευνας στο χώρο της ΜΜ υπάρχουν εμπορικά συστήματα τα οποία παράγουν λανθασμένη μορφολογία, λανθασμένη συμφωνία όρων πρότασης ή τοποθέτηση ρημάτων στην αρχή ή το τέλος πρότασης.

63 Το Μέλλον της Μηχανικής Μετάφρασης: Cross-language Communication Aids
Παραδοσιακή MM με στόχο την κατανόηση της πληροφορίας (rough translation for screening purposes) με ή χωρίς ανθρώπινη επεξεργασία text assimilation aids or ‘gisting’ aids Παραδοσιακή ΜΜ με στόχο τη διάχυση της πληροφορίας (raw translation for diffusion/dissemination purposes) με ανθρώπινη επεξεργασία computer-produced draft translation Υπολογιστικά εργαλεία μετάφρασης computer-based translation aids: δίγλωσσα λεξικά, συστήματα διαχείρισης ορολογίας, τράπεζες μεταφρασμένων κειμένων, μεταφραστικοί σταθμοί εργασίας

64 Το Μέλλον της Μηχανικής Μετάφρασης: Cross-language Communication Aids
Εργαλεία παραγωγής κειμένων σε μη μητρική γλώσσα text production aids π.χ. aids for multilingual generation of technical documents ή foreign language authoring software Εργαλεία διάχυσης μηνυμάτων message dissemination aids π.χ. μετάφραση υπoτίτλων, δημόσιες αναγγελίες μέσων μαζικής μεταφοράς κ.λπ. Εργαλεία πρόσβασης σε διαγλωσσικές πληροφορίες cross-language information access: cross-language information retrieval, cross-language information extraction, multi-language summarization Εργαλεία υποστήριξης διαγλωσσικής ανταλλαγής cross-language interchange γραπτής ή προφορικής.

65 Βιβλιογραφία Hutchins J., “Towards a new Vision for MT”, Introductory Speech at the MT Summit VIII, Santiago de Compostela, Spain, 2001. Η Μηχανική Μετάφραση και η Ελληνική Γλώσσα, επ. Μ. Σταύρου & Μ. Τζεβελέκου, εκδ. Καστανιώτη, 2000. Lembessi P, A. Petrits & S. Roussou, “The Commission’s SYSTRAN English-Greek system’, Proceedings of 1st International Conference on Greek Linguistics, J. Benjamins, 1994. Hutchins & Somers, An Introduction to Machine Translation, Academic Press, 1992. Hutchins J., ‘Retrospect and prospect in Computer-Based Translation’, Singapore, MT Summit 1999.

66 Βιβλιογραφία Hutchins J., ‘Computer-based translation systems and tools’, ELRA Newsletter vol.1 no. 4, 1996. Boitet C., ‘(Human-aided) Machine Translation’ & ‘Machine-aided Human Translation’, Survey of the State of the Art in Human Language Technology, 1996. Kay M., ‘Machine Translation: The Disappointing Past and Present’, Survey of the State of the Art in Human Language Technology, 1996.


Κατέβασμα ppt "Μηχανική Μετάφραση (MM) Machine Translation (MT)"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google