Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Μακροδομή - Μικροδομή ΠΜΣ Τεχνογλωσσία V Υπολογιστική Λεξικογραφία Διάλεξη 3, 10.02.2009.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Μακροδομή - Μικροδομή ΠΜΣ Τεχνογλωσσία V Υπολογιστική Λεξικογραφία Διάλεξη 3, 10.02.2009."— Μεταγράφημα παρουσίασης:

1 Μακροδομή - Μικροδομή ΠΜΣ Τεχνογλωσσία V Υπολογιστική Λεξικογραφία Διάλεξη 3,

2 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V2 Πληροφορία λεξικού χαρακτηριστικά Λεξικού αποτελούν υποσύνολο του γενικού συνόλου των χαρακτηριστικών που χρησιμοποιεί το σύστημα είναι πρωτογενή: δεν είναι δυνατό να υπολογιστούν από τους κανόνες.

3 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V3 Μακροδομή – Επιλογή λημματολογίου Επιλογή λημματολογίου ανάλογα με την εφαρμογή λεξικά συγκεκριμένων εφαρμογών (ειδικά λεξικά, κλειστά λεξικά) «γενικά» λεξικά μέγεθος λεξικού Μέθοδοι επιλογής από Σώματα Κειμένων από άλλα λεξικά υβριδικές μέθοδοι «κλειστά» λημματολόγια

4 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V4 Ορισμός λήμματος Λήμμα / Λεξική εγγραφή / Lemma / Headword = η μορφή που επιλέγεται να αντιπροσωπεύσει όλες τις κλιτές μορφές μιας λέξης (αφηρημένη / κανονικοποιημένη) π.χ. γάτος - γάτος, γάτου, γάτο, γάτε, γάτοι, γάτων, γάτους ανάλογα με επίπεδο ανάλυσης μορφολογικά / συντακτικά / σημασιολογικά λήμματα δομή λήμματος μονολεκτική / πολυλεκτική εγγραφή

5 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V5 Διάκριση λημμάτων λεξική εγγραφή = σύνολο χαρακτηριστικών  αλλαγή στο σύνολο των χαρακτηριστικών συνεπάγεται νέα εγγραφή  διάκριση λημμάτων ανάλογα με τις απαιτήσεις της εφαρμογής / μικροδομής

6 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V6 Ενδεικτικά κριτήρια διάκρισης λημμάτων (1) γραμματική κατηγορία (ασθενής – ουσ.  επίθ.) γραμματική υποκατηγορία (πρέπει – προσωπ. –  απρόσ.) γένος (ο δάσκαλος  η δασκάλα, ο ταμίας  η ταμίας) διαφορετική κλίση κλιτά – άκλιτα (ουίσκι  ουίσκι-α) συνηρημένα (οδηγάω/ώ  οδηγώ – είς) διπλόκλιτα (καπνός –οί  καπνός–ά) διπλοτυπίες στην κλίση (άνθρωπος –άνθρωπου /ανθρώπου, πατρίδα – πατρίδας/πατρίδος αλλά και καλώ – καλέστηκα  καλώ - κλήθηκα)

7 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V7 Ενδεικτικά κριτήρια διάκρισης λημμάτων (2) συντακτική συμπεριφορά (πετάω κάτι  πετάω, ανοίγω κάτι  κάτι ανοίγει) σημασία ομωνυμία (γλώσσα, σίδερο)διάκριση πολυσημία (μαγειρεύω, θερμός) παραδ. λεξ/φίας μορφοσυντακτικοί περιορισμοί (θείο – θεία, μυρίζω - μυρίζομαι)

8 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V8 Μορφή λήμματος – ιδιαίτερες περιπτώσεις Γραφηματικές εκδοχές (αυγό – αβγό, δικλείδα – δικλίδα) Μη δόκιμοι τύποι λόγιοι τύποι (πατρίς/ίδα, εικών/όνα / σώφρων/ονας, εμπειρογνώμων/ονας) «νέοι» τύποι (η αρχιτέκτων/όνισσα) Συστατικά στερεότυπων εκφράσεων (παιδική χαρά, δεδομένου ότι # ο έχων σώας τας φρένας, υπό μάλης)

9 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V9 Μικροδομή - σύνολο συνοδευτικών πληροφοριών Καθορισμός βασικών μονάδων Καθορισμός συνοδευτικών πληροφοριών βάσει θεωρίας / μοντέλου βάσει προτύπου βάσει ιδιαιτεροτήτων γλώσσας Καθορισμός σχέσεων μονάδων

10 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V10 Επίπεδα αναπαράστασης Φωνητική/Φωνολογία Μορφολογία Σύνταξη Σημασιολογία Δίγλωσσο επίπεδο (μετάφρασης) Σχέση μεταξύ των επιπέδων

11 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V11 Μοντέλο Μορφολογικού Λεξικού (1) Λήμματα Θέματα Συνδέσεις Λημμάτων Κλιτικά παραδείγματα Καταλήξεις 1 ν Τονικές κατηγορίες

12 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V12 Τονικές κατηγορίες ΚΠ Περιγραφή Τονική κατηγορία 001 φύλακας 2 Αφετηρία για τον υπολογισμό της μετακίνησης τόνου: η θέση τόνου στο λήμμα ΤΚ 0 = δεν μετακινεί τον τόνο ΤΚ 1 = κατεβάζει στη γενική ενικού (για ουσιαστικά χωρίς πληθ.) ΤΚ 2 = κατεβάζει στη γενική πληθ.....

13 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V13 Σύνδεση θέματος - κλιτικού δεν (ενεστ.θέμα / ενεργ./ μεσοπαθ. φωνή) δεσ -031 (αοριστ. θέμα / ενεργ. φωνή) δεθ (θέμα παθ. αορ. / μεσοπαθ. φωνή)

14 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V14 Μοντέλο Μορφολογικού Λεξικού (2) γραμματική κατηγορία (π.χ. επίθετο, ουσιαστικό, ρήμα κ.λπ.) γραμματική υποκατηγορία (π.χ. κοινό, κύριο, απρόσωπο κ.λπ.) ορθογραφικές εκδοχές (π.χ. τρένο -τραίνο) μορφοφωνολογικά συνδεόμενα λήμματα (π.χ. κτίζω-χτίζω) κλίση (κλιτικά παραδείγματα & θέματα)

15 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V15 Μοντέλο Μορφολογικού Λεξικού (2) Λήμμα Συνδέσεις με άλλα λήμματα ίδιου επιπέδου Θέματα Κλιτικό παράδειγμα ΓραμμΚατ ΓραμμΥποΚατ Συνδέσεις με άλλα λήμματα άλλων επιπέδων

16 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V16 Παράδειγμα λήμματος & κλιτικού παραδείγματος ΜΜ = άνθρωπος ΓραμμΚατ = ΟΥΣ ΓραμμΥποΚατ = ΚΟΙΝΟ ΚλιτΠαρ = έφηβος Θέμα1 = άνθρωπ Θέμα2 = ανθρώπ ΘέμαΚατάληξη Μορφ. Χαρακτ. ΕΛ 1οςMSN 2ουMSG 1ουMSGFAMILIAR 1οMSA 1εMSV 1οιMPN 2ωνMPG 1ωνMPGFAMILIAR 2ουςMPA 1ουςMPAFAMILIAR 1οιMPV

17 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V17 Μοντέλο 2 Συνδυασμός κάθε θέματος με συγκεκριμένη κατάληξη κλιτός τύπος + γραμματικά χαρακτηριστικά παράδειγμα του τύπου “ανθρώπου” Word = ανθρώπου Stem = 2 Ending = ου Features = { gender = masculine, number = singular, case = genitive }

18 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V18 Σύγκριση λεξικών μοντέλων

19 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V19 Γραμματικό γένος: α' προσέγγιση

20 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V20 Γραμματικό γένος: β' προσέγγιση

21 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V21 Άκλιτα: α' προσέγγιση

22 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V22 Συνέπειες για το λεξικό ασανσέρ NoSgNeNo NoSgNeGe NoSgNeAc NoSgNeVo NoPlNeNo NoPlNeGe NoPlNeAc NoPlNeVo

23 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V23 Άκλιτα: β' προσέγγιση

24 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V24 Εφαρμογή γραμματικού χαρακτηρισμού – α' προσέγγιση Ο εξαιρετικός γιατρός AdSgMaNo NoCmSgMaNo / NoCmSgFeNo H εξαιρετική γιατρός AdSgFeNo/ NoCmSgMaNo / NoCmSgFeNo AdSgFeAc Το καινούργιοασανσέρ AdSgNeNo NoCmSgNeNo-Ge-Ac-Vo / AdSgNeAc NoCmPlNeNo-Ge-Ac-Vo

25 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V25 Εφαρμογή γραμματικού χαρακτηρισμού – β' προσέγγιση Ο εξαιρετικός γιατρός AdSgMaNo NoCmSgMfNo H εξαιρετική γιατρός AdSgFeNoNoCmSgMfNo AdSgFeAc Το καινούργιοασανσέρ AdSgNeNoNoCmNvNeNv AdSgNeAc

26 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V26 Γραμματική και λεξικό {cat=np, number=N, gender=G, case=C} [^{cat=Dt, number=N, gender=G, case=C}, ^{cat=Aj, number=N, gender=G, case=C}, {cat=No, number=N, gender=G, case=C}]. οι εξαιρετικές γιατροί DtPlMfNoAjPlFeNo NoPlMfNo AjPlFeAc

27 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V27 Σχολιασμός / επισημείωση (annotation) Μεθοδολογίες με χρήση λεξικών με χρήση γραμματικών κανόνων με χρήση στατιστικών μοντέλων υβριδικά μοντέλα Διαδικασία σχολιασμού από άνθρωπο αυτόματος (ημι-)αυτόματος επαλήθευση (μορφής / περιεχομένου)

28 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V28 Επίπεδα γλωσσικού σχολιασμού μορφο-συντακτικός (PoS tagging, below-PoS tagging) συντακτικός (αναγνώριση επιφανειακών δομών, βαθιά δομή προτάσεων) σημασιολογικός (semantic & sense annotation) άλλα λημματοποίηση Ονοματικές Οντότητες (Named Entities) συναναφορά (coreference) γεγονότα (events) …

29 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V29 Μορφο-συντακτικός σχολιασμός A typical case of corpus annotation is that of morphosyntactic annotation (also called grammatical tagging), whereby a label or tag is associated with each word token in the text, to indicate its grammatical classification. από τα EAGLES guidelines for morphosyntactic annotation,

30 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V30 Προ-απαιτούμενη επεξεργασία κειμένου Κατάτμηση κειμένου σε “προτάσεις/περιόδους” Κατάτμηση πρότασης σε “λέξεις” Διάκριση λέξεων από άλλα σημεία (σημεία στίξης, ημερομηνίες, αριθμούς, κτλ.)

31 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V31 Σχήμα μορφο-συντακτικού σχολιασμού Σύνολο χαρακτηριστικών Λέξη  Μέρος του Λόγου (N, V, A, J, …) Μέρος του Λόγου  επιπλέον χαρακτηριστικά (N  είδος, γένος, αριθμός, πτώση,...) Ανάλογα με τη γλώσσα κοινά χαρακτηριστικά (εφαρμογή σε κάθε γλώσσα) επιπλέον χαρακτηριστικά για κάθε γλώσσα

32 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V32 Δείγμα μορφο-συντακτικά σχολιασμένου κειμένου ΕΤΟΛΜΗΣΕ ο Κώστας Σημίτης και είπε ό,τι δεν έχει πει άλλος πρωθυπουργός αυτής της χώρας

33 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V33 Προβλήματα μορφο-συντακτικού σχολιασμού Αμφισημία μέρους του λόγου Επίρρημα / Επίθετο (καλά) Ουσιαστικό / Επίθετο (αγαθό) Ρήμα / Ουσιαστικό (εξουσιοδοτήσεις)... που (σύνδεσμος, αναφορική αντωνυμία, επίρρημα) Αμφισημία γραμματικών χαρακτηριστικών Ονομαστική / Αιτιατική / Κλητική πτώση (πολλά θηλυκά, ουδέτερα)... ‘Άγνωστες’ λέξεις μη καταχωρισμένες στο λεξικό νεολογισμοί ή δημιουργήματα των συγγραφέων (π.χ. λογοπαίγνια) ορθογραφικά λάθη

34 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V34 Προβλήματα μορφο-συντακτικού σχολιασμού "Θεωρητικά" προβλήματα συστατικά φράσεων/εκφράσεων (π.χ. πάνω από, πάνω σε, στ' αλήθεια, αφ' υψηλού, εν τω μεταξύ, για να) λειτουργικές κατηγορίες (π.χ. που, δηλαδή, για) κατάλοιπα αρχαιοπρεπών και λόγιων λέξεων (π.χ. βάσει, αφ' υψηλού, ο παθών) "Πρακτικά" προβλήματα ακόμη και με χρήση περικειμένου δεν είναι πάντα δυνατή η επίλυση (π.χ. ένας, μεσοπαθητικές μετοχές)

35 Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V35 Λημματοποίηση Αναγωγή κάθε λέξης στο λήμμα στο οποίο ανήκει Αποκοπή θέματος (stemming) Προβλήματα καθορισμού λήμματος κλιτική έναντι παραγωγικής κατάληξης καθορισμός πρότυπης μορφής (π.χ. συνηρημένα ρήματα) μορφές (κυρίως παλαιότερες) με ελλιπή κλίση (π.χ. ρολόι χειρός) τύποι από δύο λήμματα (παραδόθηκε από το παραδίνω και παραδίδω)


Κατέβασμα ppt "Μακροδομή - Μικροδομή ΠΜΣ Τεχνογλωσσία V Υπολογιστική Λεξικογραφία Διάλεξη 3, 10.02.2009."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google