Generating Chinese Classical Poems with Statistical Machine Translation Models Jing He, Ming Zhou, Long Jiang Μαρία Κωστάκη Εθνικό & Καποδιστριακό Πανεπιστήμιο.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
ΗΜΕΡΙΔΑ «Λόγος και Αντίλογος για την Επιλογή και Αξιολόγηση των Εκπαιδευτικών : Τάσεις και Προβληματισμοί» Σάββατο, 13 Απριλίου 2013 Ανάπτυξη Μηχανισμών.
Advertisements

Ατομικό έργo Προτάσεις για τη διδασκαλία του μαθήματος στην Α! τάξη
Επιχειρηματικά Μοντέλα Ανάπτυξης και Προώθησης Δικτύων Οπτικών Ινών
Μετρήσεις στη γλώσσα και ανάλυση του λόγου Γ. Μικρός, Γ. Ταμπουρατζής, Σ. Μαρκαντωνάτου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH.
Πολλαπλασιαστική συσχέτιση •Δύο ή περισσότερες ιδιότητες μπορούν να επιδρούν «πολλαπλασιαστικά» σε μια τρίτη. •Στην περίπτωση αυτή έχουμε δυο ανεξάρτητες.
H διαδικασία ανάπτυξης λογισμικού. Tι θα γνωρίσουμε •Τις φάσεις ανάπτυξης του λογισμικού. •Γιατί χρειάζεται να γίνει ανάλυση του προβλήματος. •Τι θα πρέπει.
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
ΕΠΙΜΕΛΕΙΑ ΕΡΓΑΣΙΑΣ: ΔΗΜΗΤΡΙΟΣ ΜΑΪΟΓΛΟΥ YOU ARE NOW ENTERING TO THE WORLD OF AGENT BASED MODELS.
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ ΚΑΙ ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ Πρόγραμμα μεταπτυχιακών σπουδών Προσαρμοστικό σχήμα συμπίεσης δεδομένων.
Περισσότερες Ασκήσεις Συνδυαστικής
Fluxplayer: A successful General Game Player (Stephan Schiffel, Michael Thielscher) Προηγμένη Τεχνητή Νοημοσύνη Νομικός Βαγγέλης 24/01/2008.
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
Ενίσχυση της έρευνας στο “ΕΠ. Εκπαίδευση και δια βίου μάθηση ” Νίκος Μαρούλης, Logotech AE Καρδίτσα 18 Σεπτεμβρίου 2008.
Η ΓΛΩΣΣΑ C ΜΑΘΗΜΑ 2.
ΕΥΡΕΣΗ ΚΑΤΗΓΟΡΙΚΩΝ ΕΚΤΟΠΩΝ ΣΕ ΒΙΒΛΙΟΓΡΑΦΙΚΗ ΒΑΣΗ ΔΕΔΟΜΕΝΩΝ
Τεχνικές Αναζήτησης στο Διαδίκτυο και όχι μόνο….
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Η μάθηση από κείμενα 1 Τρίτη, 5 Ιουλίου 2011  Η μάθηση από κείμενα είναι μια πολύπλοκη διαδικασία η οποία μέχρι σήμερα δεν έχει γίνει πλήρως κατανοητή.
1 η Συνάντηση Εργασίας Εθνικής Επιτροπής έργου VAB Πρόγραμμα εργασιών.
Εκπαιδευτικό μάθημα Αναζητηςη ςτη βαςη δεδομενων CINAHL
1 ΕΤΗΣΙΑ ΣΥΝΑΝΤΗΣΗ ΑΝΑΣΚΟΠΗΣΗΣ 2008 Αθήνα, 18 Μαρτίου 2009 ΘΕΜΑ: ΘΕΜΑ: Πρόοδος του Ε.Π. «Διοικητική Μεταρρύθμιση »
ΠΡΟΕΛΛΗΝΙΚΑ ΜΑΘΗΜΑΤΙΚΑ
Ενεργή επιλογή αλγορίθμου, Active Algorithm Selection, Feilong Chen and Rong Jin Εύα Σιταρίδη.
ΠΛΗΡΟΦΟΡΙΑΚΑ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΑΚΑ ΣΥΣΤΗΜΑΤΑ 2η Εργασία Μαθήματος Γιώργος Γιαγλής Οικονομικό Πανεπιστήμιο Αθηνών Τμήμα Διοικητικής Επιστήμης & Τεχνολογίας.
Αξιολόγηση πληροφοριακών συστημάτων
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών Τμήμα Πληροφορικής και Τηλεπικοινωνιών Learning to Learn: Algorithmic Inspirations from Human Problem Solving.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ & ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΜΣ: «ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ» ΜΑΘΗΜΑ: ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΕΡΓΑΣΙΑ: MULTI-DOCUMENT SUMMARIZATIONS.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
«ΤΑ ΡΩ ΤΟΥ ΕΡΩΤΑ» ΟΔΥΣΣΕΑΣ ΕΛΥΤΗΣ ΕΝΑ ΑΠΟ ΤΑ ΜΕΓΑΛΥΤΕΡΑ ΕΡΓΑ ΤΟΥ.
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού Προπτυχιακό.
ΠΜΣ ΕΡΓΑΣΙΑ ΣΤΟ ΜΑΘΗΜΑ ΨΗΦΙΑΚΕΣ ΒΙΒΛΙΟΘΗΚΕΣ The Digital Library and Computational Philology: The BAMBI Project Γόντικα Ειρήνη.
Ανάπτυξη μεθοδολογίας για το συστηματικό θεμελιώδη μηχανοτρονικό σχεδιασμό. Εφαρμογή στην ανάπτυξη ευφυούς συστήματος για το σχεδιασμό ρομποτικών αρπαγών.
ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ (ΥΠΟΠΡΟΓΡΑΜΜΑΤΑ - ΣΥΝΑΡΤΗΣΕΙΣ) Καλλονιάτης Χρήστος Επίκουρος Καθηγητής Τμήμα Πολιτισμικής Τεχνολογίας.
Ο υπολογιστής ως εργαλείο μάθησης
Ο Διαδραστικός Πίνακας ως διδακτικό εργαλείο Από τη βιβλιογραφία προκύπτουν μια σειρά από οφέλη από τη χρήση του ΔΠ τα οποία αφορούν τον εκπαιδευτικό,
ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΑΛΓΟΡΙΘΜΩΝ
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 4 Σημασιολογία μιας Απλής Προστακτικής Γλώσσας Προπτυχιακό.
ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ ΕΙΣΑΓΩΓΗ ΣΤΟΝ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟ (ΜΗ-ΠΡΟΚΑΘΟΡΙΣΜΕΝΕΣ ΕΠΑΝΑΛΗΨΕΙΣ – WHILE – REPEAT) Καλλονιάτης Χρήστος Επίκουρος Καθηγητής Τμήμα.
ΙΟΝΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΤΜΗΜΑ ΑΡΧΕΙΟΝΟΜΙΑΣ ΒΙΒΛΙΟΘΗΚΟΝΟΜΙΑΣ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΣΤΗΝ ΕΠΙΣΤΗΜΗ ΤΗΣ ΠΛΗΡΟΦΟΡΙΑΣ Βρίσκοντας κατάλληλα αντικείμενα μάθησης:
WEIGHTED CLUSTERING ΠΡΟΗΓΜΕΝΗ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ Μιχάλης Χριστόπουλος Μ Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence.
Μοντελοθεωρητική Σημασιολογία για την Άρνηση στο Λογικό Προγραμματισμό Το Πρόβλημα: Η σημασιολογία της άρνησης στο Λογικό Προγραμματισμό (negation-as-failure)
TRUST MODELS FOR P2P E-COMMERCE ΔΗΜΗΤΡΗΣ ΠΑΝΑΓΙΩΤΟΥ ΑΜ: ΑΘΗΝΑ, 12/10/2006 ΕΘΝΙΚΟ ΜΕΤΣΟΒΙΟ ΠΟΛΥΤΕΧΝΕΙΟ ΣΧΟΛΗ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ.
Βασικά στοιχεία της Java
Παρεμβολή συνάρτησης μιας μεταβλητής με την βοήθεια νευρωνικών δικτύων
ΑΜΕρίΑς: Πληροφοριακό Σύστημα Δομών Ειδικής Αγωγής και Εκπαίδευσης Γεώργιος Κουρουπέτρογλου
Ορισμός και Αρχιτεκτονική Συστημάτων Υποστήριξης Αποφάσεων.
ΤΕΙ ΙΟΝΙΩΝ ΝΗΣΩΝ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΕΠΙΧΕΙΡΗΣΕΩΝ ΠΑΡΆΡΤΗΜΑ ΛΕΥΚΑΔΑΣ ΥΠΕΥΘΥΝΗ ΚΑΘΗΓΉΤΡΙΑ Δρ. ΤΣΙΝΤΖΑ ΠΑΝΑΓΙΩΤΑ Οι παρουσιάσεις του μαθήματος βασίζονται στο.
ΥΝ Ι: ΑΝΑΠΑΡΑΣΤΑΣΗ ΓΝΩΣΗΣ 1 ΥΠΟΛΟΓΙΣΤΙΚΗ ΝΟΗΜΟΣΥΝΗ (Τεχνητά Νευρωνικά Δίκτυα και Γενετικοί Αλγόριθμοι) ΣΠΥΡΟΣ ΛΥΚΟΘΑΝΑΣΗΣ, ΚΑΘΗΓΗΤΗΣ ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ.
Ιατρικά Συστήματα Τεχνητής Νοημοσύνης με την συνεργασία τεχνικών Ασαφούς Λογικής, Νευρωνικών Δικτύων και Γενετικών Αλγορίθμων. A.Τζαβάρας P.R.Weller B.
Πληροφορική 2 Τεχνητή νοημοσύνη 1. Τι είναι τεχνητή νοημοσύνη;  Τεχνητή νοημοσύνη (AI=Artificial Intelligence) είναι η μελέτη προγραμματισμένων συστημάτων.
ΜΟΝΤΕΛΟΠΟΙΗΣΗ ΚΑΙ ΜΑΘΗΣΙΑΚΗ ΔΙΑΔΙΚΑΣΙΑ
ΚΕΦΑΛΑΙΟ 2ο - ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΑΛΓΟΡΙΘΜΩΝ
Το Σχεσιακό Μοντέλο Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
ΑΛΓΟΡΙΘΜΟΣ ΠΡΟΒΛΗΜΑ ΑΛΓΟΡΙΘΜΟΣ ΛΥΣΗ
Μελλοντικές Προκλήσεις στην Επιστήμη και Μηχανική του Περιβάλλοντος
ΠΑΡΑΛΛΗΛΑ ΚΑΙ ΣΥΓΚΡΙΣΙΜΑ ΣΩΜΑΤΑ ΚΕΙΜΕΝΩΝ
1ο Βήμα: Γενική εκτίμηση της εικόνας του σχολείου
Βάσεις Δεδομένων & Έμπειρα Συστήματα
Εργασία στο μάθημα «Προγραμματισμός ΙΙ»
Ο ρυθμός κάνει να ξεχωρίζει το ποίημα από το πεζό κείμενο.
Που και πως ψάχνουμε.
Ο υπολογιστής ως εργαλείο μάθησης
Το Σχεσιακό Μοντέλο Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
Επιστήμη των Υπολογιστών
Εισήγηση Δρ. Δ. Δαποντας.
ΕΛΛΗΝΙΚΟ ΑΝΟΙΚΤΟ ΠΑΝΕΠΙΣΤΗΜΙΟ
Β.ΕΠΑΛ-Γενικής Παιδείας  ΜΑΘΗΜΑ: Εισαγωγή στης αρχές Επιστήμης των Η/Υ  ΚΕΦΑΛΑΙΟ 4: Γλώσσες Αναπαράστασης Αλγορίθμων  ΕΝΟΤΗΤΑ 4.2: Δομή Ακολουθίας 
Σχεσιακεσ βασεισ δεδομενων
Το Σχεσιακό Μοντέλο Βάσεις Δεδομένων Ευαγγελία Πιτουρά.
ΣΥΓΓΡΑΦΗ ΕΠΙΣΤΗΜΟΝΙΚΗΣ ΕΡΓΑΣΙΑΣ
Μεταγράφημα παρουσίασης:

Generating Chinese Classical Poems with Statistical Machine Translation Models Jing He, Ming Zhou, Long Jiang Μαρία Κωστάκη Εθνικό & Καποδιστριακό Πανεπιστήμιο Αθηνών ΠΜΣ Βασικής & Εφαρμοσμένης Γνωσιακής Επιστήμης Μάθημα: Προηγμένη Τεχνητή Νοημοσύνη Καθηγητής: Π. Σταματόπουλος Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence

Εισαγωγή Δημιουργία τετράστιχων κινέζικων κλασσικών ποιημάτων. Χρήση μοντέλου μηχανικής μετάφρασης εμπλουτισμένο με διάφορες λειτουργίες ώστε να διασφαλίζεται η συνοχή και η συνάφεια στο ποίημα. Αξιολόγηση των αποτελεσμάτων με την BLUE metric. Κανένα άλλο σύστημα παραγωγής κινέζικων ποιημάτων δεν πετυχαίνει ένα φυσικό αποτέλεσμα. Ο στόχος του μοντέλου είναι να προσομοιώσει τις φάσεις συγγραφής ενός ποιητή και το αποτέλεσμα να είναι φυσικό. –Θέμα, λέξεις κλειδιά, είδος, τονικότητα και συγγραφή.

Κανόνες Κινέζικης Κλασσικής Ποίησης Τετράστιχα ή οκτάστιχα Κάθε στίχος περιλαμβάνει 5 ή 7 χαρακτήρες Κάθε χαρακτήρας  μία λέξη  μία συλλαβή με συγκεκριμένη τονικότητα (Ping (-) ή Ze (+)) Κανόνες –Εναλλαγή Τονικοτήτων με συγκεκριμένο τρόπο –Ομοιοκαταληξία 2 ου και 4 ου στίχου –Δομή 1 ος στίχος – αρχή 2 ος στίχος – συνέχεια 3 ος στίχος – μετάβαση 4 ος στίχος – σύνοψη

Βήματα παραγωγής ενός ποιήματος Ο χρήστης εισάγει τις λέξεις κλειδιά & το σύστημα αναλαμβάνει τη δημιουργία του ποιήματος Α΄ φάση –Δημιουργία πρώτου στίχου Β΄ φάση –Δημιουργία επόμενων στίχων Γ΄ φάση –Αξιολόγηση αποτελεσμάτων Σημείωση: για να είναι καλύτερα ελεγχόμενο το μοντέλο οι λέξεις κλειδιά περιορίζονται σε μία ταξονομία κινέζικων ποιητικών φράσεων (ShiXueHanYing) η οποία περιλαμβάνει 41,218 φράσεις ομαδοποιημένες σε 1,016 ομάδες.

A΄ Φάση (Template-Based Generation) Χρήστης: Εισαγωγή λέξεων κλειδιών Σύστημα: Ενεργοποίηση και επιλογή των ομάδων που περιέχουν τις λέξεις κλειδιά Δημιουργία πλέγματος φράσεων τοποθετώντας, σύμφωνα με τους κανόνες, κάθε πιθανή φράση σε κάθε πιθανή θέση. Αξιολόγηση όλων των πιθανών φράσεων και επιλογή των καλύτερων με τη βοήθεια ενός τριγράμματου γλωσσικού μοντέλου βασισμένο στους χαρακτήρες (character-based trigram language model). Το γλωσσικό μοντέλο αξιολόγησης εκπαιδεύεται με δεδομένα από κινέζικα ποιήματα και από αρχαία κινέζικα άρθρα. Από κάθε σύνολο δεδομένων εκπαιδεύεται ένα διαφορετικό μοντέλο και το αποτέλεσμα συνδυάζεται γραμμικά σε μία πρόταση με βάση τη σχέση p(s)= β 1 p 1 (s)+(1-β 1 )p 2 (s).

Β΄ Φάση (1/2) (Statistical Quatrain Generation with SMT models) Χρησιμοποιείται η μέθοδος της μηχανικής μετάφρασης (SMT). Αντί για λέξεις χρησιμοποιούνται χαρακτήρες. Με αυτή τη μέθοδο παράγονται ο 2 ος, ο 3 ος και ο 4 ος στίχος. Παραλλαγή του SMT μοντέλου για κάθε στίχο  συνάφεια και συνοχή Γενικό Μοντέλο Μηχανικής Μετάφρασης –Είσοδος στο σύστημα  η υπάρχουσα πρόταση F = {f 1, f 2,…, f n } (i = 1,2,3) –Έξοδος από το σύστημα  η ζητούμενη πρόταση S όπου h i ( S, F ) συναρτήσεις για απλοποίηση του προβλήματος και βελτίωση του αποτελέσματος

Β΄ Φάση (2/2) (Statistical Quatrain Generation with SMT models) Παραλλαγές SMT - ευαισθησία ως προς την θέση του στίχου που δημιουργούν –Περιλαμβάνουν τις 4 πρώτες συναρτήσεις του βασικού μοντέλου –Κάθε μοντέλο εκπαιδεύεται (με βάση ζεύγη στίχων) σε σχέση με Τη θέση του στίχου (2 ος, 3 ος, 4 ος ) Το σύνολο του ποιήματος –Τα αποτελέσματα συνδυάζονται με διαφορετικά βάρη: TM = α 1 TM s + (1-α 1 )ΤM b Ενίσχυση συνοχής –Εισάγει ένα 6 ο στοιχείο στο μοντέλο της μηχανικής μετάφρασης –Mutual Information Score  μετράει τη σχέση της επόμενης πρότασης με όλες τις προηγούμενες. Ρύθμιση ομοιοκαταληξίας και τονικότητας –Στη φάση της αποκρυπτογράφησης (decoding) –Παράγει ένα σύνολο από τις καλύτερες υποψήφιες προτάσεις –Απορρίπτει εκείνες που δεν συμβαδίζουν με την τονικότητα χαλάνε την ζητούμενη ομοιοκαταληξία.

Γ΄ Φάση Αξιολόγηση του μοντέλου με τη μέθοδο BLUE Metric BLUE Metric  αυτόματη μέθοδος αξιολόγησης της ποιότητας της μηχανικής μετάφρασης Πρωτοποριακή μέθοδος στην αξιολόγηση ποιημάτων Αξιολόγηση ανά ζεύγος προτάσεων (3 ζεύγη για κάθε ποίημα) Αναφορές για τη μέθοδο –Στίχοι δημιουργημένοι από ανθρώπους. Με δεδομένο τον πρώτο στίχο δημιουργούσαν τον επόμενο. Χρειάστηκαν πολλά δεδομένα για να διασφαλιστεί η ποιότητά τους. –Συλλογή μέσω διαδικτυακού forum –Όταν δύο στίχοι μοιράζονται παρόμοιες λέξεις κλειδιά, δημιουργείται η συσχέτιση με τους στίχους που τους ακολουθούν. –Εκπαίδευση του μοντέλου με κινέζικα ποιήματα – 6150 ζεύγη στίχων. Αξιολογήθηκαν τα αποτελέσματα από συστήματα 5 διαφορετικών επιπέδων Κλίμακα αξιολόγησης 0 (άσχημα) έως 1 (πολύ καλά).

Αποτελεσματικότητα μεθόδου αξιολόγησης Σύγκριση αποτελεσμάτων αξιολόγησης της μεθόδου με αποτελέσματα αξιολόγησης από ανθρώπους. Αξιολόγηση από ανθρώπους –Ανά πρόταση - με 4 κριτήρια - κλίμακα αξιολόγησης από 1 έως 3. –Άθροιση αποτελεσμάτων, και με βάση το σκορ αξιολόγηση με Α, Β, C. –Η αποτελεσματικότητα του κάθε συστήματος υπολογίζεται με βάση το πλήθος των προτάσεων σε κάθε βαθμίδα επί το βαθμό της βαθμίδας. Όσο πιο εμπλουτισμένο είναι το μοντέλο τόσο καλύτερα αποτελέσματα έχει στην παραγωγή ποιημάτων. Οι αξιολογήσεις από την μέθοδο BLUE ήταν πολύ κοντά με τις ανθρώπινες αξιολογήσεις. Λογική μέθοδος αξιολόγησης ποιημάτων.

Πίνακες Συγκριτικών Αποτελεσμάτων

Συμπεράσματα Μπορεί να χρησιμοποιηθεί για δημιουργία ποιημάτων και σε άλλες γλώσσες Μπορεί να γίνει διαδραστικό. Μπορεί να επεκταθεί ως προς τις λέξεις που υποστηρίζει. Keywords: spring, lute, drunk

Αναφορές He, J., Zhou, M., & Jiang, L. (2012). Generating Chinese Classical Poems with Statistical Machine Translation Models. Proceedings of the Twenty-Sixth AAAI Conference on Artificial Intelligence,