Αυτόματη Μετάφραση Machine Translation.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Γ ΛΩΣΣΙΚΟΙ Π ΟΡΟΙ & Τ ΕΧΝΟΛΟΓΙΕΣ : Η ΣΗΜΕΡΙΝΗ ΕΛΛΗΝΙΚΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ Πένυ Λαμπροπούλου Ινστιτούτο Επεξεργασίας Λόγου / Ε.Κ. "Αθηνά" Ημερίδα παρουσίασης.
Advertisements

Τεχνολογίες ανάκτησης και εξαγωγής δεδομένων με γλωσσική υποστήριξη - Εφαρμογές στο e-government και e-business - Εφαρμογές στο e-government και e-business.
Δ ΗΜΙΟΥΡΓΙΑ Π ΑΡΟΥΣΙΑΣΕΩΝ ΜΕ ΤΗ ΒΟΗΘΕΙΑ ΤΟΥ P OWER P OINT.
Παιδαγωγικό Τμήμα Ειδικής Αγωγής Πανεπιστήμιο Θεσσαλίας
Ρήμα Υποκείμενο Αντικείμενο Κατηγορούμενο
POINTERS, AGGREGATION, COMPOSITION. POINTERS TO OBJECTS.
Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές
Μετρήσεις στη γλώσσα και ανάλυση του λόγου Γ. Μικρός, Γ. Ταμπουρατζής, Σ. Μαρκαντωνάτου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH.
Τμήμα Εκπαιδευτικής Τεχνολογίας (ΤΕΤ) Ινστιτούτο Επεξεργασίας του Λόγου Φιλογλωσσία Διδασκαλία της Ελληνικής ως ξένης γλώσσας (2η Δράση του ΙΕΛ στην Γλωσσική.
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
Η διδασκαλία ως διαδικασία διαμόρφωσης εγγράμματων ταυτοτήτων
Η Θεματική Ταξινόμηση και η Συμβολή της στην Αναζήτηση Ευρωπαϊκών Κοινωνικών Δεδομένων.
Οι διαφάνειες αυτού του μαθήματος βασίζονται
ΕΠΛ223 - Θεωρία και Πρακτική Μεταγλωττιστών9-1 Στατικός Έλεγχος Με τον όρο στατικός έλεγχος (static checking) χαρακτηρίζεται ο έλεγχος της συντακτικής.
Η ΧΡΗΣΗ ΤΩΝ ΝΕΩΝ ΤΕΧΝΟΛΟΓΙΩΝ ΑΠΟ ΤΙΣ ΜΕΤΑΦΡΑΣΤΙΚΕΣ ΥΠΗΡΕΣΙΕΣ ΤΗΣ ΕΕ Ελπίδα ΛΟΥΠΑΚΗ Τμήμα Γαλλικής Γλώσσας και Φιλολογίας.
FUTURE SIMPLE Μέλλοντας Απλός
Η Παρέμβαση του Λογοθεραπευτή σε παιδιά με Μαθησιακές Δυσκολίες
Υπηρεσίες δικτύων επικοινωνίας
Προβλήματα πολλαπλασιαστικών δομών
ΘΠ06 - Μεταγλωττιστές Πίνακας Συμβόλων. Πίνακας Συμβόλων (Symbol Table) (Ι)  Είναι μια δομή στην οποία αποθηκεύονται τα ονόματα ενός προγράμματος και.
Η ΓΛΩΣΣΑ C ΜΑΘΗΜΑ 2.
Έντυπη ειδησεογραφία.
ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ
Ανάπτυξη της γλώσσας Η ανάπτυξη της γλωσσικής ικανότητας περνάει από συγκεκριμένα στάδια απόκτησης γλωσσικών επιπέδων. Ο στόχος ενός παιδιού που μαθαίνει.
Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας με τίτλο «Διοίκηση και Οργάνωση Βιβλιοθηκών με έμφαση στις Νέες Τεχνολογίες της Πληροφορίας»
Εισαγωγή στην Γλωσσολογία Επιμόρφωση των ομάδων εργασίας για την καταγραφή της κυπριακής νοηματικής γλώσσας Δρ. Χρυσόστομος Παπασπύρου, Λεμεσός,
ΘΠ06 - Μεταγλωττιστές Πίνακας Συμβόλων Φροντιστήριο - 30/04/2009.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΔΑΜΠΑΣ ΑΘΑΝΑΣΙΟΣ Β ΚΑΛΩΤΑ ΑΝΝΑ Β
Αυτόματη Μετάφραση - Machine Translation Machine Translation (τα παραδείγματα από το: Speech and Language Processing – Daniel Jurafsky & James H. Martin.
Κεφάλαιο 6: Εισαγωγή στον προγραμματισμό Φυσικές και τεχνητές γλώσσες.
ΕΙΣΑΓΩΓΗ Tο PRISM είναι ένα πιθανοκρατικό εργαλείο μοντελοποίησης, για μοντελοποίηση μη ντετερμινιστικών συστημάτων. Βασίζεται στην κατασκευή ενός ακριβούς.
Δευτερεύουσες Ονοματικές Προτάσεις
ΠΛΑΓΙΕΣ ΕΡΩΤΗΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ
ΘΠ06 - Μεταγλωττιστές Συντακτική Ανάλυση, Bison 1.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΜΣ: «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΕΡΓΑΣΙΑ: MULTI-DOCUMENT SUMMARIZATIONS.
Για τη διεκπεραίωση ενός προβλήματος πρέπει να ακολουθηθεί η εξής διαδικασία:  να γραφεί ο αλγόριθμος να συνταχθεί το πρόγραμμα σε γλώσσα υψηλού επιπέδου.
EContent Στέλιος Πιπερίδης Εθνικός Εκπρόσωπος eContent
Μάθημα 1ο: Εισαγωγή στη Γλωσσική Τεχνολογία
ΣΥΝΟΛΑ.
ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ. ΥΠΟΛΟΓΙΣΤΗΣ Μηχανή που μπορεί να φέρει σε πέρας πνευματικές εργασίες ρουτίνας με μεγάλη ταχύτητα.
Έλενα Αναγνωστοπούλου
ΕΙΣΑΓΩΓΗ ΣΤΗ ΛΑΤΙΝΙΚΗ ΓΡΑΜΜΑΤΙΚΗ
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 4 Σημασιολογία μιας Απλής Προστακτικής Γλώσσας Προπτυχιακό.
Γλώσσα και σκέψη Με τον όρο σκέψη εννοούμε ένα μεγάλο φάσμα νοητικών διεργασιών: Επεξεργασία εννοιών, επίλυση προβλημάτων, ονειροπόληση, προγραμματισμό.
Εισαγωγή στην Έννοια του Αλγορίθμου και στον Προγραμματισμό
Κ.Π. Καβάφης “Όσο μπορείς”.
Η γλώσσα είναι μορφή, όχι ύλη (Saussure) ΥΛΗ → έννοιες Περιεχόμενο ΜΟΡΦΗ → σημασίες ΥΛΗ → φθόγγοι Έκφραση ΜΟΡΦΗ → φωνήματα.
ΚΟΙΝΩΝΙΟΓΛΩΣΣΟΛΟΓΙΑ 5 η Θεματική ενότητα Διγλωσσία, πολυγλωσσία, επαφή γλωσσών Διδάσκων: Γιώργος Ανδρουλάκης ΠΤΔΕ, Πανεπιστήμιο Θεσσαλίας 1.
Κατά τη διάρκεια των χιλιάδων ετών της ιστορίας της κινεζικής γλώσσας, μπορούμε να δούμε καθαρά πώς τα εργαλεία και τα υλικά που χρησιμοποιήθηκαν για.
ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ Γ. Σιδερίδης. ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ- ΜΕΘΟΔΟΛΟΓΙΑΣ Η στατιστική ως επιστήμη.....γιατί ακριβώς τη χρειαζόμαστε; Η στατιστική ως επιστήμη.....γιατί.
ΥΠΟΛΟΓΙΣΤΙΚΕΣ ΤΕΧΝΙΚΕΣ ΓΙΑ ΣΥΣΤΗΜΑΤΑ ΜΕΤΑΔΟΣΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Αντικειμενοστραφής προγραμματισμός Web Site: ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ.
Ανάπτυξη της γλώσσας Η ανάπτυξη της γλωσσικής ικανότητας περνάει από συγκεκριμένα στάδια απόκτησης γλωσσικών επιπέδων. Ο στόχος ενός παιδιού που μαθαίνει.
Η διδασκαλία, εκμάθηση, πιστοποίηση της ελληνικής σε ΑμεΑ
Μεθοδολογία της έρευνας στις Κοινωνικές Επιστήμες Ι &ΙΙ
5η ΣΥΝΑΝΤΗΣΗ ΕΛΛΗΝΟΦΩΝΩΝ ΜΕΤΑΦΡΑΣΕΟΛΟΓΩΝ Θεσσαλονίκη Μάιος, 2015
ΠΑΡΑΛΛΗΛΑ ΚΑΙ ΣΥΓΚΡΙΣΙΜΑ ΣΩΜΑΤΑ ΚΕΙΜΕΝΩΝ
Κεφάλαιο 4 :: Σημασιολογική Ανάλυση
Λήμμα άντλησης Πως αποφασίζουμε αποδεικνύουμε ότι μία γλώσσα δεν είναι κανονική; Δυσκολότερο από την απόδειξη ότι μια γλώσσα είναι κανονική. Γενικότερο.
Αρχεσ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ Η/Υ ΤΑξη Β΄
Το πρόβλημα της μέτρησης Μέτρηση είναι η ένταξη αριθμών σε αντικείμενα σύμφωνα με oρισμένους κανόνες και υπό την βασική προϋπόθεση ότι υπάρχει ακριβής.
Web, Web 2.0, Web 3.0 και Web X.0 ΚΕΦΑΛΑΙΟ 9.
ΑΠΑΡΑΙΤΗΤΕΣ ΙΚΑΝΟΤΗΤΕΣ ΓΙΑ ΤΗ ΜΑΘΗΣΗ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΥ
Δομές δεδομένων.
Μεθοδολογία της έρευνας στις Κοινωνικές Επιστήμες Ι &ΙΙ
Συστήματα Θεματικής Πρόσβασης (Θ)
Επιμέρους Στοιχεία Αξιολόγησης Εκπαιδευτικού Λογισμικού
Η γλώσσα είναι μορφή, όχι ύλη (Saussure)
«Διγλωσσία και αφασία»
Τέστ Μπανάνας Test de la banane: Κάνε κλίκ!.
Μεταγράφημα παρουσίασης:

Αυτόματη Μετάφραση Machine Translation

Transfer Metaphor (Transfer Machine Translation) Αυτόματη Μετάφραση Μετάβασης

Τα συστήματα Μεταφοράς χρειάζονται μονογλωσσικά τμήματα (modules) για την ανάλυση και την παραγωγή προτάσεων, και τμήματα μεταφοράς για την συσχέτιση των μεταφραστικά ισοδύναμων αυτών των προτάσεων.

Συμβιβάζουν πρακτικά την αποτελεσματικότητα των συστημάτων Διαγλώσσας (interlingua) και την ευκολία της υλοποίησης των Άμεσων (direct) συστημάτων.

Αγγλική ανάλυση Αγγλο-Ισπανικό Ισπανική ανάλυση και παραγωγή τμήμα μετάβασης και παραγωγή Αγγλο-Γαλλικό Γαλλο-Ισπανικό Τμήμα μετάβασης τμήμα μετάβασης Γαλλική ανάλυση και παραγωγή

Όσο περισσότερες γλώσσες εμπλέκονται, τόσο ακριβότερα είναι τα συστήματα Μεταφοράς

Πλεονεκτήματα Πολλά συστήματα είναι δίγλωσσα ή προς μία κατεύθυνση με περιορισμένο αριθμό γλωσσών Όταν είναι πολύγλωσσα και με δύο κατευθύνσεις μπορεί να χρησιμοποιηθεί μία «κεντρική» γλώσσα. Μέρη των τμημάτων μετάβασης μπορούν να μοιραστούν όταν στενά συγγενικές γλώσσες εμπλέκονται (Αγγλο-Ισπανικά, Αγγλο-Πορτογαλλικά)

ΑΜ Συντακτικής Μετάβασης Τα συστήματα αυτά βασίζονται σε απεικονίσεις μεταξύ της επιφανειακής δομής των προτάσεων: Μία συλλογή από μετασχηματισμούς δέντρο-σε-δέντρο εφαρμόζεται αναδρομικά στο δέντρο ανάλυσης της πρότασης της γλώσσας πηγής (source language - SL) ώστε να φτιαχτεί ένα δέντρο ανάλυσης στην γλώσσα στόχου (target language - TL)

Μία νόστιμη σούπα  Una sopa Deliciosa Ελληνικά  Ισπανικά tv : translation variable, μεταβλητή μετάφρασης: συσχετίζει μεταφραστικά ισοδύναμα μέρη των δομών πηγής και στόχου

Δέντρο γλώσσας πηγής (SL) NP Det N1 Μία Adjv N νόστιμη σούπα

Μετασχηματισμοί δέντρο-σε-δέντρο NP  NP Tv(X) tv(Y) tv(X) tv(Y) N1  N1’ Adjv N N’ Adjv’ tv(A) tv(B) tv(A) tv(B) Det  Det’ νόστιμη  deliciosa Μία Una σούπα  sopa

Δέντρο γλώσσας στόχου (TL) NP’ Det’ N1’ Una N’ Adjv’ sopa deliciosa

Στην πραγματικότητα οι συντακτικές κατηγορίες είναι πλουσιότερες εμπεριέχοντας το πρόσωπο, αριθμό, χρόνο και άλλες πληροφορίες σχετικές με την μετάφραση.

Translation Test Cases

Τα περισσότερα προβλήματα της NLP υπάρχουν και στην ΜΤ. Ωστόσο κάποια προβλήματα σχετίζονται κύρια με τη ΜΤ λόγω των διαφοροποιήσεων μεταξύ των προτάσεων της ΓΠ και της ΓΣ.

Μια μεταφραστική διαφοροποίηση (translation divergence) δηλώνει ότι η έννοια δίνεται από την μετάφραση παρόλο που η συντακτική δομή και η σημασιολογική κατανομή των τμημάτων με νόημα είναι διαφορετικά στις δύο γλώσσες.

Μια μεταφραστική ανομοιότητα (translation mismatch) δηλώνει μία διαφορά στην περιεχόμενη πληροφορία μεταξύ της γλώσσας πηγής και στόχου

Κατηγοριοποίηση μεταφραστικών διαφοροποιήσεων Κατηγοριοποίηση μεταφραστικών διαφοροποιήσεων [1. βάση μόνο συντακτικής δομής 2. κάποια παραδείγματα μπορεί να ανήκουν σε πάνω από μία κατηγορίες]

1. Thematic divergences Θεματικές διαφοροποιήσεις Σχετίζονται με αλλαγές στον γραμματικό ρόλο. Αγγλικά: you like her Ισπανικά: Ella te gusta Lit: She you pleases

Το αντικείμενο στην Αγγλική γίνεται υποκείμενο στην Ελληνική και αντίστροφα. Στον ίδιο μετασχηματισμό πρέπει να πάρουμε το αντικείμενο και το υποκείμενο και να τους αλλάξουμε θέση στην δομή στόχου.

S  S’ tv(S) VP tv(O) VP V tv(O) tv(S) V like gusta

2. Head Switching Αλλαγή Κεφαλής Η συντακτική κεφαλή μιας έκφρασης στην ΓΣ δεν μεταφράζεται σαν συντακτική κεφαλή, αλλά σαν modifier, complement ή άλλο συστατικό. Αγγλικά: The baby just ate Ισπανικά: El bebe acada de comer Lit: The baby finished of to-eat.

Ate: η συντακτική κεφαλή στην Αγγλική. Η μετάφραση του δεν είναι στα Ισπανικά παρά συπλήρωμα της συντακτικής κεφαλής Το acaba πρέπει να πάρει σωστό αριθμό, πρόσωπο και χρόνο.

VP  VP’ Adjv VP V VP’ Just tv(V) acaba Mrk’ VPinf’ de tv(V)

3. Structural Διαφοροποιήσεις στη Δομή Σχετίζονται με διαφοροποιήσεις στην δομή. Η Αγγλική VP αποτελείται από μεταβατικό ρήμα NP σαν συμπλήρωμα, ενώ η Ισπανική από ρήμα και PP (εμπρόθετη φράση) συπλήρωμα. Αγγλικά: Luisa entered the house Ισπανικά: Luisa entro a la casa Lit: Luisa entered to the house.

VP  VP’ V tv(O) V’ PP’ entered entro P tv(O) a

4. Lexical Gap Λεκτικό Κενό Πρόκειται για έννοιες μονολεκτικές στην μία γλώσσα που μπορούν να αποδοθούν με δύο ή περισσότερες λέξεις στην άλλη γλώσσα. Αγγλικά: Camilo got up early Ισπανικά: Camilo madrugo.

VP  VP VP Adjv V V P early madrugo got up

5. Lexicalization Οι γλώσσες κατανέμουν το σημασιολογικό περιεχόμενο διαφορετικά μέσα σε μία πρόταση. Αγγλικά: Susan swam across the channel Ισπανικά: Susan cruzo el canal nadando Lit: Susan crossed the channel swimming

Στην Αγγλική ο τρόπος (swimming) και η κίνηση βρίσκονται στο ρήμα swam ενώ η κατεύθυνση στην πρόθεση across. Στα Ισπανικά το ρήμα cruzo περιέχει την κίνηση και κατεύθυνση, ενώ ο τρόπος περιέχεται στο γερούνδιο nadando.

VP  VP’ tv(V) PP VP’ tv(V) P tv(NP) V tv(NP) across cruzo

6. Categorial Σχετίζονται με αλλαγές στην συντακτική κατηγορία, π.χ. ένα Αγγλικό επίθετο γίνεται ουσιαστικό στα Ισπανικά Αγγλικά: A little bread Ισπανικά: Un poco de pan Lit: A bit of bread

Το συγκεκριμένο παράδειγμα είναι και στην κατηγορία head-switching. Δεν ανήκουν όμως όλα και στο head-switching: I am hungry – Tengo hambre (I have hunger).

N1  N1 Advj tv(N1) N PP Little poco P NP de tv(N1)

7. Collocational Όταν ο modifier, το συμπλήρωμα ή η κεφαλή μίας λέξης είναι διαφορετική από την ακριβή μετάφραση του. Αγγλικά: Jan made a decision Ισπανικά: Jan tomo/*hizo una decision Lit: Jan took/made a decision

H default μετάφραση του make είναι hacer, αλλά με το decision μεταφράζεται σαν tomar.

VP  VP’ V NP V’ NP’ made tv(Det) N1 tomo tv(Det) N1’ N’ decision

8. Multi-lexeme and Idiomatic Μία φράση στην ΓΠ αντιστοιχεί σε μία φράση στην ΓΣ χωρίς ξεκάθαρη σχέση μετάφρασης μεταξύ των λέξεων. Αγγλικά: Sokrates kicked the bucket Ισπανικά: Socrates estiro la pata Lit: Socrates stretched the leg

Πόσο μεταβλητός είναι ο ιδιωματισμός..

VP  VP’ V NP V’ NP’ kicked Det N1 estiro Det N1 the N la N bucket pata