Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 1 Sub4All: Συμπύκνωση Κειμένου για την Παραγωγή Υποτίτλων Π. Προκοπίδης - ΙΕΛ.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 1 Sub4All: Συμπύκνωση Κειμένου για την Παραγωγή Υποτίτλων Π. Προκοπίδης - ΙΕΛ."— Μεταγράφημα παρουσίασης:

1 Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 1 Sub4All: Συμπύκνωση Κειμένου για την Παραγωγή Υποτίτλων Π. Προκοπίδης - ΙΕΛ

2 Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 2 Αρχιτεκτονική ΥΕΣΚ

3 Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 3 Περιορισμοί Περιορισμοί όσον αφορά τη χωρική παράμετρο (διάταξη) και τη χρονική παράμετρο (διάρκεια). Βάσει της πληροφορίας χρονισμού που παράγει το ΥΜΦ, υπολογισμός του αριθμού –των λέξεων και –των χαρακτήρων που πρέπει να διαγραφούν, για την ικανοποίηση των περιορισμών ΠεριορισμόςΕύρος τιμής Ρυθμός λέξεων 2.5 – 3 λέξεις/δευτ. Χρόνος εισόδου 0.25 δευτ. Καθυστέρηση μεταξύ 2 συνεχόμενων υποτίτλων 0.20 δευτ. Χαρακτήρες σε έναν πλήρη υπότιτλο 2 γραμμών 70 χαρακτήρες Λέξεις σε έναν πλήρη υπότιτλο 2 γραμμών 14 λέξεις Λέξεις σε έναν πλήρη υπότιτλο μίας γραμμής 7 λέξεις

4 Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 4 Περιορισμοί: παράδειγμα Τα πλεονεκτήματά της δεν αξιοποιούνται από τη χώρα μας, ενώ αξιοποιούνται απ' όλες τις άλλες χώρες της Ευρωπακής Ένωσης και τα μειονεκτήματά της μεγεθύνονται. Το Υπουργείο Αγροτικής Ανάπτυξης και Τροφίμων απουσιάζει.

5 Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 5 Μορφοσυντακτική ανάλυση Μορφολογικός χαρακτηρισμός (POS Tagging) –λόγος-NoCmMaSgNm [No = ουσ., Cm = κοινό, Ma = αρσ., Sg = ενικ., Nm = ονομ.] Λημματοποίηση –απαντήσεις [NoCm...] -> απάντηση –απαντήσεις [VbMn...] -> απαντώ Αναγνώριση γραμματικών σχέσεων (υποκείμενο, αντικείμενο, κ.λπ.) με έναν συντακτικό αναλυτή που παράγει δένδρα εξαρτήσεων

6 Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 6 Παράδειγμα ανάλυσης Γιατί ωριμάζουν οι συνθήκες για να έρθει αυτή η ρύθμιση. Γιατί ωριμάζουν οι συνθήκες για να έρθει αυτή η ρύθμιση.

7 Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 7 Εφαρμογή παραφράσεων Ημιαυτόματη δημιουργία πίνακα παραφράσεων από διαθέσιμους λεξικούς πόρους, όπως –ο Εθνικός Θησαυρός Ελληνικής Γλώσσας (ΕΘΕΓ) [Γαβριηλίδου κ.α. 1993] και –το Λεξικό Συνωνύμων και Αντιθέτων της Άννας Ιορδανίδου [Ιορδανίδου 2006] 450 παραφράσεις 503 λημμάτων 9860 παραφράσεις μεταξύ τύπων με κοινά μορφολογικά χαρακτηριστικά: Μονόδρομες αλλά και αμφίδρομες παραφράσεις

8 Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 8 Κανόνες διαγραφής Απαλοιφή στοιχείων δευτερεύουσας σημασιολογικής πληροφορίας Είσοδος: τα δένδρα εξάρτησης από τον συντακτικό αναλυτή Οι κανόνες –διατρέχουν τους κόμβους του δένδρου –ελέγχουν αν συγκεκριμένοι μορφοσυντακτικοί περιορισμοί ισχύουν για κάθε κόμβο: π.χ. σχέση του κόμβου προς την κεφαλή του ή/και γραμματικά χαρακτηριστικά του κόμβου (ή/και του προγόνου ή των παιδιών του κόμβου) Όταν οι περιορισμοί επαληθεύονται για τον τρέχοντα υπό εξέταση κόμβο, ο κόμβος, και το υποδένδρο του σημειώνονται ως deletables (προς διαγραφή)

9 Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 9 Παράδειγμα κανόνα διαγραφής deleteAdjectivesWithoutChildren εντοπίζει επίθετα τα οποία –δεν αποτελούν κεφαλές μεγαλύτερων υποδένδρων –δεν έχουν αναγνωριστεί ως κατηγορούμενα που έχουν ως κεφαλή τους ένα συνδετικό ρήμα. sub deleteAdjectivesWithoutChildren { my $node = shift; if ($node->children()) { # recursively apply rule if there are children nodes foreach my $child ($node->children()) { deleteAdjectivesWithoutChildren($child); } # An adjective not headed by a copula verb } elsif (($node->getAttribute("tag") =~ /^Aj/) && ($node->getAttribute("afun") ne /Pnom/)) { # mark as deletable setDeletable($node); }

10 Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 10 Εφαρμογή κανόνων στα συντακτικά δένδρα

11 Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 11 Ταξινόμηση των προς διαγραφή υποδένδρων Ταξινόμηση με βάση το άθροισμα του surprise value των κόμβων του υποδένδρου –υποθέτοντας πως οι υψίσυχνες λέξεις είναι λιγότερο σημαντικές [Daelemans et al. 2004] Εξαγωγή λεκτικών συχνοτήτων από ένα ελληνικό corpus 70M λέξεων Για κάθε λέξη w στο κείμενο της εισόδου, sv(w) = -log(Freq(w)/N)

12 Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 12 Παράδειγμα εφαρμογής παραφράσεων και κανόνων 13 Παράφραση (w_del=0, c_del=5): ανυπεράσπιστους → αβοήθητους Όπως είπε προηγουμένως και ο εισηγητής της Πλειοψηφίας, αφήσατε αβοήθητους στα καρτέλ τους κτηνοτρόφους, αφήσατε να ανθίσει και να καρπίσει η διαφθορά στην Επιτροπή Ανταγωνισμού, την κάνατε ξέφραγο αμπέλι και μας φέρνετε σήμερα ρυθμίσεις για να διορίσετε έναν ακόμα αντιπρόεδρο στον Ελληνικό Οργανισμό Γάλακτος. actn_1 40_2 deleteAllAdverbs WithoutChildren (rel=7.36 - w_del=1, c_del=6): σήμερα Όπως είπε προηγουμένως και ο εισηγητής της Πλειοψηφίας, αφήσατε αβοήθητους στα καρτέλ τους κτηνοτρόφους, αφήσατε να ανθίσει και να καρπίσει η διαφθορά στην Επιτροπή Ανταγωνισμού, την κάνατε ξέφραγο αμπέλι και μας φέρνετε ρυθμίσεις για να διορίσετε έναν ακόμα αντιπρόεδρο στον Ελληνικό Οργανισμό Γάλακτος. actn_1 40_3 deleteAllAdverbs WithoutChildren (rel=10.90 - w_del=1, c_del=12): προηγουμένως Όπως είπε και ο εισηγητής της Πλειοψηφίας, αφήσατε αβοήθητους στα καρτέλ τους κτηνοτρόφους, αφήσατε να ανθίσει και να καρπίσει η διαφθορά στην Επιτροπή Ανταγωνισμού, την κάνατε ξέφραγο αμπέλι και μας φέρνετε ρυθμίσεις για να διορίσετε έναν ακόμα αντιπρόεδρο στον Ελληνικό Οργανισμό Γάλακτος. actn_1 40_4 deleteAllAdjective sWithoutChildren (rel=13.82 - w_del=1, c_del=7): ξέφραγο Όπως είπε και ο εισηγητής της Πλειοψηφίας, αφήσατε αβοήθητους στα καρτέλ τους κτηνοτρόφους, αφήσατε να ανθίσει και να καρπίσει η διαφθορά στην Επιτροπή Ανταγωνισμού, την κάνατε αμπέλι και μας φέρνετε ρυθμίσεις για να διορίσετε έναν ακόμα αντιπρόεδρο στον Ελληνικό Οργανισμό Γάλακτος.

13 Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 13 Τελική Επεξεργασία Χωρισμός των προτάσεων σε υπότιτλους περίπου ίσου μήκους με βάση τη μορφοσυντακτική πληροφορία –Χωρισμός, όπου αυτό είναι δυνατό, στα όρια συντακτικών ομάδων … –… και όχι, π.χ., ανάμεσα σε ένα άρθρο και ένα ουσιαστικό:...οι οποίες μετά από γενική συνέλευση έχουν ορίσει τη διάρκεια......της θητείας τους στα 4 χρόνια ή μπορούν να την ορίσουν. Υπολογισμός cue_in, cue_out Μορφοποίηση (αποσιωπητικά, κ.α.)

14 Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 14 Αξιολόγηση Μέθοδος Μέσος αριθμός διαγραφέντων χαρακτήρων Μέσος λόγος συμπύκνωσης Παράφραση2.78 2.3% Κανόνες διαγραφής18.8 16% Ποσοστό συμπύκνωσης ανά μέθοδο Αξιολόγηση, από 2 σχολιαστές, σε κλίμακα 1-5 της γραμματικής ορθότητας (GR1, GR2) και της σημασιολογικής αποδεκτότητας (SEM1, SEM2) 100 προτάσεων χειρωνακτικά σχολιασμένων στο επίπεδο της σύνταξης

15 Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 15 Συνεισφορά και προεκτάσεις Συνεισφορά –Ανάπτυξη πίνακα παραφράσεων ανάμεσα σε τύπους, και συνόλου κανόνων διαγραφής για τα Ελληνικά –Ενσωμάτωση στο πρωτότυπο παραγωγής υποτίτλων του Sub4All –P. Prokopidis, V. Karra, A. Papagianopoulou, S. Piperidis. Condensing sentences for subtitle generation. In Proceedings of the 6 th International Conference on Language Resources and Evaluation, (LREC), Marrakech, May 2008. ELRA. Προεκτάσεις –αυτόματη επέκταση του πίνακα παραφράσεων με τη χρήση παράλληλων κειμένων –ανάπτυξη φίλτρου για τη μη διαγραφή λέξεων σε πολυλεκτικούς όρους και παγιωμένες εκφράσεις –κανόνες για απλοποίηση κειμένου για αναγνώστες με διαφορετικές ικανότητες κατανόησης


Κατέβασμα ppt "Τελικός Έλεγχος Sub4All, 8 Μαΐου 2008 1 Sub4All: Συμπύκνωση Κειμένου για την Παραγωγή Υποτίτλων Π. Προκοπίδης - ΙΕΛ."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google