Μακροδομή - Μικροδομή ΠΜΣ Τεχνογλωσσία V Υπολογιστική Λεξικογραφία Διάλεξη 3, 10.02.2009.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Πρόγραμμα Εκπαίδευσης Μουσουλμανοπαίδων
Advertisements

ΡΗΜΑΤΑ ΤΗΣ ΑΕ ΠΟΥ ΣΥΝΤΑΣΣΟΝΤΑΙ ΜΕ ΔΟΤΙΚΗ
Γ ΛΩΣΣΙΚΟΙ Π ΟΡΟΙ & Τ ΕΧΝΟΛΟΓΙΕΣ : Η ΣΗΜΕΡΙΝΗ ΕΛΛΗΝΙΚΗ ΠΡΑΓΜΑΤΙΚΟΤΗΤΑ Πένυ Λαμπροπούλου Ινστιτούτο Επεξεργασίας Λόγου / Ε.Κ. "Αθηνά" Ημερίδα παρουσίασης.
5 Ιουλίου 2005Ινστιτούτο Επεξεργασίας του Λόγου - Εβδομάδα Επιστήμης & Τεχνολογίας1 Τεχνολογία Διόρθωσης Κειμένων και Εφαρμογές Ν.Γλάρος Δρ. Ηλ/γος Μηχανικός.
ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH PROCESSING Τεχνολογία Ορθογραφικής Διόρθωσης Κειμένων Ν.Γλάρος Δρ. Ηλ/γος Μηχανικός.
Ρήμα Υποκείμενο Αντικείμενο Κατηγορούμενο
ΡΗΜΑ – ΥΠΟΚΕΙΜΕΝΟ – ΑΝΤΙΚΕΙΜΕΝΟ - ΚΑΤΗΓΟΡΟΥΜΕΝΟ
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ
Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές
Μετρήσεις στη γλώσσα και ανάλυση του λόγου Γ. Μικρός, Γ. Ταμπουρατζής, Σ. Μαρκαντωνάτου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH.
Κλίση ουσιαστικών Γ΄ κλίσης.
Το γλωσσικό μάθημα στο Δημοτικό Σχολείο Δ’ τάξη
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
Γνωριμία με το ρήμα, το υποκείμενο, το αντικείμενο και το αντικείμενο
Η διδασκαλία ως διαδικασία διαμόρφωσης εγγράμματων ταυτοτήτων
«Γραμματική Ε΄ και Στ΄ Δημοτικού»
Τελικές – Αιτιολογικές προτάσεις
Στρατηγικές Πρόσληψης των Μορφοσυντακτικών Φαινομένων
MUltilingual Subtitling of multimediA content
ΕΙΔΙΚΕΣ ΜΑΘΗΣΙΑΚΕΣ ΔΥΣΚΟΛΙΕΣ
Τι είναι το άρθρο; Άρθρα: ο, η, το, οι, οι, τα, ένας,μια, ένα
ΓΡΑΜΜΑΤΙΚΗ ΝΕΑΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ Α΄, Β΄, Γ΄ ΓΥΜΝΑΣΙΟΥ
Ε1) 2.4 Η διδασκαλία ως διαδικασία διαμόρφωσης εγγραμμάτων ταυτοτήτων
Μορφολογία. Μορφολογία Μόρφημα / Μορφή Μόρφημα (σύστημα), π.χ. το μόρφημα του πληθυντικού, το στερητικό μόρφημα Μορφή (πραγμάτωση) : το μόρφημα του.
ΤΑ ΜΕΡΗ ΤΟΥ ΛΟΓΟΥ.
ΕΔΩ ΑΡΧΙΖΟΥΝ ΤΑ ΔΥΣΚΟΛΑ, ΓΙ’ ΑΥΤΟ ΧΡΕΙΑΖΕΤΑΙ ΟΛΗ Η ΠΡΟΣΟΧΗ ΣΑΣ!
Οργάνωση πληροφοριών Ευρετηρίαση Μέρος Β Σχεδιασμός ευρετηρίων.
Εισαγωγή στην Γλωσσολογία
Εισαγωγή στην Γλωσσολογία Επιμόρφωση των ομάδων εργασίας για την καταγραφή της κυπριακής νοηματικής γλώσσας Δρ. Χρυσόστομος Παπασπύρου, Λεμεσός,
ΟΙ ΟΝΟΜΑΤΙΚΟΙ ΠΡΟΣΔΙΟΡΙΣΜΟΙ ΣΤΗΝ ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΗ ΓΛΩΣΣΑ
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
Λεξικολογία-Λεξικογραφία
ΕισαγωγικΑ στοιχεια : ΚΑΤΗΓΟΡΙΕΣ
Έλενα Αναγνωστοπούλου
ΔΙΑΤΑΡΑΧΕΣ ΛΟΓΟΥ ΣΤΗΝ ΠΡΟΣΧΟΛΙΚΗ ΗΛΙΚΙΑ
Η ΝΕΑ ΓΡΑΜΜΑΤΙΚΗ Ε’ ΚΑΙ Στ’ ΤΑΞΗΣ.
Η Β’ ΚΛΙΣΗ ΤΩΝ ΟΥΣΙΑΣΤΙΚΩΝ
E X a M p L e Αξιοποιώντας την τεχνολογία XML στη διαχείριση της πληροφορίας Λίνα Μπουντούρη Εθνικό Κέντρο Τεκμηρίωσης 13ο Πανελλήνιο Συνέδριο Ακαδημαϊκών.
ΠΛΑΓΙΕΣ ΕΡΩΤΗΜΑΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ
Μάθημα 11ο Υπολογιστικές Τεχνικές Γλωσσικής Ανάλυσης
ΜΑΘΗΜΑ: ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ ΔΙΔΑΣΚΟΝΤΕΣ: Π. ΚΑΤΣΑΡΟΣ Τρίτη, 31 Μαρτίου 2015Τρίτη, 31 Μαρτίου 2015Τρίτη, 31 Μαρτίου 2015Τρίτη, 31 Μαρτίου 2015Τμ. Πληροφορικής,
31 Μαρτίου 2015 ΔΙΑΦΑΝΕΙΑ 1 ΤΥΠΙΚΕΣ ΜΕΘΟΔΟΙ ΑΝΑΛΥΣΗΣ ΣΥΣΤΗΜΑΤΩΝ ΤΜ. ΠΛΗΡΟΦΟΡΙΚΗΣ Α.Π.Θ. – ΔΙΔΑΣΚΩΝ: Π. ΚΑΤΣΑΡΟΣ ΚΑΤΗΓΟΡΗΜΑΤΙΚΟΣ ΛΟΓΙΣΜΟΣ Ι Για τον προτασιακό.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
Σεμινάριο Οργάνωσης και Διοίκησης της Εκπαίδευσης Διδάσκουσα: Ελευθερία Αργυροπούλου.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 – 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 – 2013 Μάθημα 1 ο : Εισαγωγή.
ΜΑΘΗΜΑ: ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ ΔΙΔΑΣΚΟΝΤΕΣ: Π. ΚΑΤΣΑΡΟΣ Τετάρτη, 1 Απριλίου 2015Τετάρτη, 1 Απριλίου 2015Τετάρτη, 1 Απριλίου 2015Τετάρτη, 1 Απριλίου 2015Τμ. Πληροφορικής,
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Μάθημα 1ο: Εισαγωγή στη Γλωσσική Τεχνολογία
Η ΜΟΡΦΟΛΟΓΙΑ ΤΗΣ ΝΕΑΣ ΕΛΛΗΝΙΚΗΣ Η λέξη
6/12/2012 Παρουσίαση: Μιμηγιάννης Δημήτρης
Έλενα Αναγνωστοπούλου
ΕΙΣΑΓΩΓΗ ΣΤΗ ΛΑΤΙΝΙΚΗ ΓΡΑΜΜΑΤΙΚΗ
Τα φωνήεντα είναι επτά και φωνάζουν δυνατά : α,ε,ι,η,ο,υ,ω
Μεταγλωττιστές (Compilers) (Θ) Ενότητα 9: Παραγωγή Ενδιάμεσου Κώδικα (Ενδιάμεσες Γλώσσες) Κατερίνα Γεωργούλη Τμήμα Μηχανικών Πληροφορικής ΤΕ Ανοικτά Ακαδημαϊκά.
ΜΑΘΗΜΑ: ΜΕΤΑΓΛΩΤΤΙΣΤΕΣ ΔΙΔΑΣΚΟΝΤΕΣ: Κ. ΛΑΖΟΣ - Π. ΚΑΤΣΑΡΟΣ Τρίτη, 14 Απριλίου 2015Τρίτη, 14 Απριλίου 2015Τρίτη, 14 Απριλίου 2015Τρίτη, 14 Απριλίου 2015Τμ.
Τεχνολογία ΛογισμικούSlide 1 Τεχνολογία Απαιτήσεων u Καθορίζει τι θέλει ο πελάτης από ένα σύστημα λογισμικού.
ΑΝΑΦΟΡΙΚΕΣ ΑΝΤΩΝΥΜΙΕΣ
Γλωσσική επιμέλεια: επιλογή ή αναγκαιότητα; Άννα Ιορδανίδου.
Κατάκτηση της γλώσσας από το παιδί Ο γενικευτικός και αφαιρετικός χαρακτήρας της γλώσσας Το νόημα = σημαινόμενο του γλωσσικού σημείου συγκροτείται στη.
ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑ ΙΣΤΟΡΙΑ ΝΕΑ ΕΛΛΗΝΙΚΑ
Λεξικολογία Ενότητα 1: Εισαγωγικές έννοιες Γιώργος Ι. Ξυδόπουλος Σχολή Ανθρωπιστικών και Kοινωνικών Eπιστημών Τμήμα Φιλολογίας.
Θέματα υπολογισμού στον πολιτισμό
ΠΑΝΕΠΙΣΤΗΜΙΟ ΠΑΤΡΩΝ ΠΑΙΔΑΓΩΓΙΚΟ ΤΜΗΜΑ ΔΗΜΟΤΙΚΗΣ ΕΚΠΑΙΔΕΥΣΗΣ
Λήμμα άντλησης Πως αποφασίζουμε αποδεικνύουμε ότι μία γλώσσα δεν είναι κανονική; Δυσκολότερο από την απόδειξη ότι μια γλώσσα είναι κανονική. Γενικότερο.
Υποκείμενο-Ρήμα-Αντικείμενο-Κατηγορούμενο
Τι είναι η σχολική γραμματική;
Άρθρα Παιδιά, ελάτε μαζί μου να σας ξεναγήσω στον μικρό - μεγάλο κόσμο των άρθρων!
Αρσενικά: -ος Θηλυκά: -ος Ουδέτερα: -ον
Θέματα Γλωσσολογίας (α)
Μοντέλα διδασκαλίας της γλώσσας Σχετίζονται με εκάστοτε θεώρηση και αντίληψη για γλώσσα και παιδαγωγικές και διδακτικές τάσεις που επικρατούν. Η διδακτική.
Μεταγράφημα παρουσίασης:

Μακροδομή - Μικροδομή ΠΜΣ Τεχνογλωσσία V Υπολογιστική Λεξικογραφία Διάλεξη 3,

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V2 Πληροφορία λεξικού χαρακτηριστικά Λεξικού αποτελούν υποσύνολο του γενικού συνόλου των χαρακτηριστικών που χρησιμοποιεί το σύστημα είναι πρωτογενή: δεν είναι δυνατό να υπολογιστούν από τους κανόνες.

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V3 Μακροδομή – Επιλογή λημματολογίου Επιλογή λημματολογίου ανάλογα με την εφαρμογή λεξικά συγκεκριμένων εφαρμογών (ειδικά λεξικά, κλειστά λεξικά) «γενικά» λεξικά μέγεθος λεξικού Μέθοδοι επιλογής από Σώματα Κειμένων από άλλα λεξικά υβριδικές μέθοδοι «κλειστά» λημματολόγια

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V4 Ορισμός λήμματος Λήμμα / Λεξική εγγραφή / Lemma / Headword = η μορφή που επιλέγεται να αντιπροσωπεύσει όλες τις κλιτές μορφές μιας λέξης (αφηρημένη / κανονικοποιημένη) π.χ. γάτος - γάτος, γάτου, γάτο, γάτε, γάτοι, γάτων, γάτους ανάλογα με επίπεδο ανάλυσης μορφολογικά / συντακτικά / σημασιολογικά λήμματα δομή λήμματος μονολεκτική / πολυλεκτική εγγραφή

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V5 Διάκριση λημμάτων λεξική εγγραφή = σύνολο χαρακτηριστικών  αλλαγή στο σύνολο των χαρακτηριστικών συνεπάγεται νέα εγγραφή  διάκριση λημμάτων ανάλογα με τις απαιτήσεις της εφαρμογής / μικροδομής

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V6 Ενδεικτικά κριτήρια διάκρισης λημμάτων (1) γραμματική κατηγορία (ασθενής – ουσ.  επίθ.) γραμματική υποκατηγορία (πρέπει – προσωπ. –  απρόσ.) γένος (ο δάσκαλος  η δασκάλα, ο ταμίας  η ταμίας) διαφορετική κλίση κλιτά – άκλιτα (ουίσκι  ουίσκι-α) συνηρημένα (οδηγάω/ώ  οδηγώ – είς) διπλόκλιτα (καπνός –οί  καπνός–ά) διπλοτυπίες στην κλίση (άνθρωπος –άνθρωπου /ανθρώπου, πατρίδα – πατρίδας/πατρίδος αλλά και καλώ – καλέστηκα  καλώ - κλήθηκα)

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V7 Ενδεικτικά κριτήρια διάκρισης λημμάτων (2) συντακτική συμπεριφορά (πετάω κάτι  πετάω, ανοίγω κάτι  κάτι ανοίγει) σημασία ομωνυμία (γλώσσα, σίδερο)διάκριση πολυσημία (μαγειρεύω, θερμός) παραδ. λεξ/φίας μορφοσυντακτικοί περιορισμοί (θείο – θεία, μυρίζω - μυρίζομαι)

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V8 Μορφή λήμματος – ιδιαίτερες περιπτώσεις Γραφηματικές εκδοχές (αυγό – αβγό, δικλείδα – δικλίδα) Μη δόκιμοι τύποι λόγιοι τύποι (πατρίς/ίδα, εικών/όνα / σώφρων/ονας, εμπειρογνώμων/ονας) «νέοι» τύποι (η αρχιτέκτων/όνισσα) Συστατικά στερεότυπων εκφράσεων (παιδική χαρά, δεδομένου ότι # ο έχων σώας τας φρένας, υπό μάλης)

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V9 Μικροδομή - σύνολο συνοδευτικών πληροφοριών Καθορισμός βασικών μονάδων Καθορισμός συνοδευτικών πληροφοριών βάσει θεωρίας / μοντέλου βάσει προτύπου βάσει ιδιαιτεροτήτων γλώσσας Καθορισμός σχέσεων μονάδων

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V10 Επίπεδα αναπαράστασης Φωνητική/Φωνολογία Μορφολογία Σύνταξη Σημασιολογία Δίγλωσσο επίπεδο (μετάφρασης) Σχέση μεταξύ των επιπέδων

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V11 Μοντέλο Μορφολογικού Λεξικού (1) Λήμματα Θέματα Συνδέσεις Λημμάτων Κλιτικά παραδείγματα Καταλήξεις 1 ν Τονικές κατηγορίες

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V12 Τονικές κατηγορίες ΚΠ Περιγραφή Τονική κατηγορία 001 φύλακας 2 Αφετηρία για τον υπολογισμό της μετακίνησης τόνου: η θέση τόνου στο λήμμα ΤΚ 0 = δεν μετακινεί τον τόνο ΤΚ 1 = κατεβάζει στη γενική ενικού (για ουσιαστικά χωρίς πληθ.) ΤΚ 2 = κατεβάζει στη γενική πληθ.....

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V13 Σύνδεση θέματος - κλιτικού δεν (ενεστ.θέμα / ενεργ./ μεσοπαθ. φωνή) δεσ -031 (αοριστ. θέμα / ενεργ. φωνή) δεθ (θέμα παθ. αορ. / μεσοπαθ. φωνή)

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V14 Μοντέλο Μορφολογικού Λεξικού (2) γραμματική κατηγορία (π.χ. επίθετο, ουσιαστικό, ρήμα κ.λπ.) γραμματική υποκατηγορία (π.χ. κοινό, κύριο, απρόσωπο κ.λπ.) ορθογραφικές εκδοχές (π.χ. τρένο -τραίνο) μορφοφωνολογικά συνδεόμενα λήμματα (π.χ. κτίζω-χτίζω) κλίση (κλιτικά παραδείγματα & θέματα)

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V15 Μοντέλο Μορφολογικού Λεξικού (2) Λήμμα Συνδέσεις με άλλα λήμματα ίδιου επιπέδου Θέματα Κλιτικό παράδειγμα ΓραμμΚατ ΓραμμΥποΚατ Συνδέσεις με άλλα λήμματα άλλων επιπέδων

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V16 Παράδειγμα λήμματος & κλιτικού παραδείγματος ΜΜ = άνθρωπος ΓραμμΚατ = ΟΥΣ ΓραμμΥποΚατ = ΚΟΙΝΟ ΚλιτΠαρ = έφηβος Θέμα1 = άνθρωπ Θέμα2 = ανθρώπ ΘέμαΚατάληξη Μορφ. Χαρακτ. ΕΛ 1οςMSN 2ουMSG 1ουMSGFAMILIAR 1οMSA 1εMSV 1οιMPN 2ωνMPG 1ωνMPGFAMILIAR 2ουςMPA 1ουςMPAFAMILIAR 1οιMPV

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V17 Μοντέλο 2 Συνδυασμός κάθε θέματος με συγκεκριμένη κατάληξη κλιτός τύπος + γραμματικά χαρακτηριστικά παράδειγμα του τύπου “ανθρώπου” Word = ανθρώπου Stem = 2 Ending = ου Features = { gender = masculine, number = singular, case = genitive }

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V18 Σύγκριση λεξικών μοντέλων

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V19 Γραμματικό γένος: α' προσέγγιση

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V20 Γραμματικό γένος: β' προσέγγιση

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V21 Άκλιτα: α' προσέγγιση

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V22 Συνέπειες για το λεξικό ασανσέρ NoSgNeNo NoSgNeGe NoSgNeAc NoSgNeVo NoPlNeNo NoPlNeGe NoPlNeAc NoPlNeVo

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V23 Άκλιτα: β' προσέγγιση

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V24 Εφαρμογή γραμματικού χαρακτηρισμού – α' προσέγγιση Ο εξαιρετικός γιατρός AdSgMaNo NoCmSgMaNo / NoCmSgFeNo H εξαιρετική γιατρός AdSgFeNo/ NoCmSgMaNo / NoCmSgFeNo AdSgFeAc Το καινούργιοασανσέρ AdSgNeNo NoCmSgNeNo-Ge-Ac-Vo / AdSgNeAc NoCmPlNeNo-Ge-Ac-Vo

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V25 Εφαρμογή γραμματικού χαρακτηρισμού – β' προσέγγιση Ο εξαιρετικός γιατρός AdSgMaNo NoCmSgMfNo H εξαιρετική γιατρός AdSgFeNoNoCmSgMfNo AdSgFeAc Το καινούργιοασανσέρ AdSgNeNoNoCmNvNeNv AdSgNeAc

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V26 Γραμματική και λεξικό {cat=np, number=N, gender=G, case=C} [^{cat=Dt, number=N, gender=G, case=C}, ^{cat=Aj, number=N, gender=G, case=C}, {cat=No, number=N, gender=G, case=C}]. οι εξαιρετικές γιατροί DtPlMfNoAjPlFeNo NoPlMfNo AjPlFeAc

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V27 Σχολιασμός / επισημείωση (annotation) Μεθοδολογίες με χρήση λεξικών με χρήση γραμματικών κανόνων με χρήση στατιστικών μοντέλων υβριδικά μοντέλα Διαδικασία σχολιασμού από άνθρωπο αυτόματος (ημι-)αυτόματος επαλήθευση (μορφής / περιεχομένου)

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V28 Επίπεδα γλωσσικού σχολιασμού μορφο-συντακτικός (PoS tagging, below-PoS tagging) συντακτικός (αναγνώριση επιφανειακών δομών, βαθιά δομή προτάσεων) σημασιολογικός (semantic & sense annotation) άλλα λημματοποίηση Ονοματικές Οντότητες (Named Entities) συναναφορά (coreference) γεγονότα (events) …

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V29 Μορφο-συντακτικός σχολιασμός A typical case of corpus annotation is that of morphosyntactic annotation (also called grammatical tagging), whereby a label or tag is associated with each word token in the text, to indicate its grammatical classification. από τα EAGLES guidelines for morphosyntactic annotation,

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V30 Προ-απαιτούμενη επεξεργασία κειμένου Κατάτμηση κειμένου σε “προτάσεις/περιόδους” Κατάτμηση πρότασης σε “λέξεις” Διάκριση λέξεων από άλλα σημεία (σημεία στίξης, ημερομηνίες, αριθμούς, κτλ.)

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V31 Σχήμα μορφο-συντακτικού σχολιασμού Σύνολο χαρακτηριστικών Λέξη  Μέρος του Λόγου (N, V, A, J, …) Μέρος του Λόγου  επιπλέον χαρακτηριστικά (N  είδος, γένος, αριθμός, πτώση,...) Ανάλογα με τη γλώσσα κοινά χαρακτηριστικά (εφαρμογή σε κάθε γλώσσα) επιπλέον χαρακτηριστικά για κάθε γλώσσα

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V32 Δείγμα μορφο-συντακτικά σχολιασμένου κειμένου ΕΤΟΛΜΗΣΕ ο Κώστας Σημίτης και είπε ό,τι δεν έχει πει άλλος πρωθυπουργός αυτής της χώρας

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V33 Προβλήματα μορφο-συντακτικού σχολιασμού Αμφισημία μέρους του λόγου Επίρρημα / Επίθετο (καλά) Ουσιαστικό / Επίθετο (αγαθό) Ρήμα / Ουσιαστικό (εξουσιοδοτήσεις)... που (σύνδεσμος, αναφορική αντωνυμία, επίρρημα) Αμφισημία γραμματικών χαρακτηριστικών Ονομαστική / Αιτιατική / Κλητική πτώση (πολλά θηλυκά, ουδέτερα)... ‘Άγνωστες’ λέξεις μη καταχωρισμένες στο λεξικό νεολογισμοί ή δημιουργήματα των συγγραφέων (π.χ. λογοπαίγνια) ορθογραφικά λάθη

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V34 Προβλήματα μορφο-συντακτικού σχολιασμού "Θεωρητικά" προβλήματα συστατικά φράσεων/εκφράσεων (π.χ. πάνω από, πάνω σε, στ' αλήθεια, αφ' υψηλού, εν τω μεταξύ, για να) λειτουργικές κατηγορίες (π.χ. που, δηλαδή, για) κατάλοιπα αρχαιοπρεπών και λόγιων λέξεων (π.χ. βάσει, αφ' υψηλού, ο παθών) "Πρακτικά" προβλήματα ακόμη και με χρήση περικειμένου δεν είναι πάντα δυνατή η επίλυση (π.χ. ένας, μεσοπαθητικές μετοχές)

Διάλεξη 3, Μαρία Γαβριηλίδου, Υπολογιστική Λεξικογραφία, Τεχνογλωσσία V35 Λημματοποίηση Αναγωγή κάθε λέξης στο λήμμα στο οποίο ανήκει Αποκοπή θέματος (stemming) Προβλήματα καθορισμού λήμματος κλιτική έναντι παραγωγικής κατάληξης καθορισμός πρότυπης μορφής (π.χ. συνηρημένα ρήματα) μορφές (κυρίως παλαιότερες) με ελλιπή κλίση (π.χ. ρολόι χειρός) τύποι από δύο λήμματα (παραδόθηκε από το παραδίνω και παραδίδω)