Μάθημα 3ο: Βασικές Γλωσσολογικές Έννοιες Ι: Μορφολογία

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Γραφήματα & Επίπεδα Γραφήματα
Advertisements

«Κυβερνητικές προτάσεις για το Ασφαλιστικό» © VPRC – Μάρτιος / Δ.1 © VPRC – Μάρτιος 2008 ΚΥΒΕΡΝΗΤΙΚΕΣ ΠΡΟΤΑΣΕΙΣ ΓΙΑ ΤΟ ΑΣΦΑΛΙΣΤΙΚΟ.
Βασικές έννοιες αλγορίθμων
Ερωτηματολόγιο Συλλογής Απαιτήσεων Εφαρμογών Υψηλών Επιδόσεων
Μετά από έρευνα που διενήργησε εταιρεία ερευνών, διαπιστώθηκε πως στην εταιρεία μας οι εργαζόμενοι χρησιμοποιούν μεταξύ τους ένα λεξιλόγιο κάπως ανάρμοστο.
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
ΜοντελοποίησηΈργα ΜαθήματαΑξιολόγηση Αναστοχασμος Μαθήματα.
Τα στοιχειώδη περί γεωδαιτικών υπολογισμών
Ιστορία και Δομή της Ελληνικής
ΣΤΟΙΧΕΙΑ ΨΕΥΔΟΚΩΔΙΚΑ ΒΑΣΙΚΕΣ ΔΟΜΕΣ ΒΑΣΙΚΟΙ ΑΛΓΟΡΙΘΜΟΙ ΠΙΝΑΚΩΝ
Κεφάλαιο 6 Υλοποίηση Γλωσσών Προγραμματισμού
«Γραμματική Ε΄ και Στ΄ Δημοτικού»
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 – 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 – 2013 Μάθημα 3 ο : Μορφολογία.
Οι διαφάνειες αυτού του μαθήματος βασίζονται
Προγραμματισμός PASCAL Πληροφορική Γ' Λυκείου μέρος γ
ΕΛΙΑ-ΕΛΑΙΟΛΑΔΟ-ΜΕΣΟΓΕΙΑΚΗ ΔΙΑΤΡΟΦΗ
ΓΡΑΜΜΑΤΙΚΗ ΝΕΑΣ ΕΛΛΗΝΙΚΗΣ ΓΛΩΣΣΑΣ Α΄, Β΄, Γ΄ ΓΥΜΝΑΣΙΟΥ
Ανάλυση του λευκού φωτός και χρώματα
© GfK 2012 | Title of presentation | DD. Month
-17 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Σεπτέμβριος 2013 Δείκτης > +20 Δείκτης 0 a +20 Δείκτης 0 a -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
+21 Προσδοκίες οικονομικής ανάπτυξης στην Ευρώπη Δεκέμβριος 2013 Δείκτης > +20 Δείκτης 0 να +20 Δείκτης 0 να -20 Δείκτης < -20 Σύνολο στην Ευρωπαϊκή Ένωση:
Εισαγωγικές Έννοιες Διδάσκοντες: Σ. Ζάχος, Δ. Φωτάκης Επιμέλεια διαφανειών: Δ. Φωτάκης Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Εθνικό Μετσόβιο.
Αναγνώριση Προτύπων.
Κεφάλαιο 2ο Πεπερασμένα αυτόματα.
1 AYTOΣ Ο ΠΛΑΝΗΤΗΣ ΕΙΝΑΙ ΠΟΛΥ ΕΝΔΙΑΦΕΡΩΝ ΤΟΠΟΣ ΓΙΑ ΝΑ ΖΕΙ ΚΑΝΕΙΣ….
ΙΣΟΛΟΓΙΣΜΟΣ ΒΑΣΕΙ Δ.Λ.Π. (ΕΝΑΡΞΗΣ)
1 Θεματική Ενότητα Γραφήματα & Επίπεδα Γραφήματα.
ΑΠΕΙΚΟΝΙΣΗ ΕΝΝΟΙΩΝ 1. 2 Χρήστης Στόχος Ταμίας διενέργεια πώλησης διενέργεια ενοικίασης εισαγωγή ταμείου εξαγωγή ταμείου * 1 Μοντέλο Πεδίου Προβλήματος.
Η αλληλουχία των ενεργειών δεν είναι πάντα μία και μοναδική!!!
Αποκεντρωμένη Διοίκηση Μακεδονίας Θράκης ∆ιαχείριση έργων επίβλεψης µε σύγχρονα µέσα και επικοινωνία C2G, B2G, G2G Γενική Δ/νση Εσωτερικής Λειτουργίας.
+14 Σεπτέμβριο 2014 Δείκτης > +20 Δείκτης 0 να +20 Δείκτης 0 να -20 Δείκτης < -20 Συνολικά της ΕΕ: +1 Δείκτης > +20 Δείκτης 0 να +20 Δείκτης 0 να -20 Δείκτης.
1 Τοπικές βλάβες από δήγματα όφεων Κουτσουμπού Γεωργία Ειδικευόμενη Γενικής Ιατρικής ΓΚΑ Αθήνα, 18 η Ιουλίου 2002.
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Μορφολογία. Μορφολογία Μόρφημα / Μορφή Μόρφημα (σύστημα), π.χ. το μόρφημα του πληθυντικού, το στερητικό μόρφημα Μορφή (πραγμάτωση) : το μόρφημα του.
1 Α. Βαφειάδης Αναβάθμισης Προγράμματος Σπουδών Τμήματος Πληροφορικής Τ.Ε.Ι Θεσσαλονίκης Μάθημα Προηγμένες Αρχιτεκτονικές Υπολογιστών Κεφαλαίο Τρίτο Συστήματα.
Ενιαίο Πλαίσιο Προγράμματος Σπουδών Πληροφορικής.
Δομές Δεδομένων 1 Στοίβα. Δομές Δεδομένων 2 Στοίβα (stack)  Δομή τύπου LIFO: Last In - First Out (τελευταία εισαγωγή – πρώτη εξαγωγή)  Περιορισμένος.
ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ
Ο ΗΛΕΚΤΡΟΝΙΚΟΣ ΥΠΟΛΟΓΙΣΤΗΣ
Dr. Holbert Νικ. Α. Τσολίγκας Χρήστος Μανασής
Τεχνολογία ΛογισμικούSlide 1 Αλγεβρική Εξειδίκευση u Καθορισμός τύπων αφαίρεσης σε όρους σχέσεων μεταξύ τύπων λειτουργιών.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
Μοντέλα Συστημάτων Παρουσιάσεις των συστημάτων των οποίων οι απαιτήσεις αναλύονται.
1 Τμήμα Μηχανικών Ηλεκτρονικών Υπολογιστών και Πληροφορικής Πανεπιστήμιο Πατρών ΟΝΤΟΚΕΝΤΡΙΚΟΣ ΠΡΟΓΡΑΜΜΑΤΙΣΜΟΣ ΙΙ (C++) Κληρονομικότητα.
Ανάπτυξη Πρωτοτύπου Λογισμικού
ΔΙΑΤΑΡΑΧΕΣ ΛΟΓΟΥ ΣΤΗΝ ΠΡΟΣΧΟΛΙΚΗ ΗΛΙΚΙΑ
Ενότητα Α.4. Δομημένος Προγραμματισμός
Θεωρία Υπολογισμού Εισαγωγή (μέρος 2 ο ) Πρακτική Θεωρία.
Η αλληλουχία των ενεργειών δεν είναι πάντα μία και μοναδική!!!
Προχωρημένα Θέματα Τεχνολογίας και Εφαρμογών Βάσεων Δεδομένων Διαχείριση Συναλλαγών Πάνος Βασιλειάδης Μάρτιος 2014
Θεωρία Υπολογισμού Εισαγωγή (μέρος 3 ο ). Χρειαζόμαστε Μοντέλα Εμπρός πατάκι Πίσω πατάκι Πόρτα ΚλειστόΑνοιχτό.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 – 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 – 2013 Μάθημα 1 ο : Εισαγωγή.
ΜΑΘΗΜΑ ΝΟΣΗΛΕΥΤΙΚΗ ΜΕΤΑΓΓΙΣΗ ΑΙΜΑΤΟΣ - ΑΙΜΟΔΟΣΙΑ
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Βάσεις Δεδομένων Εργαστήριο ΙΙ Τμήμα Πληροφορικής ΑΠΘ
Μάθημα 1ο: Εισαγωγή στη Γλωσσική Τεχνολογία
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού Προπτυχιακό.
6/12/2012 Παρουσίαση: Μιμηγιάννης Δημήτρης
+19 Δεκέμβριος 2014 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20 Δείκτης < -20 Συνολικά της ΕΕ: +5 Δείκτης > +20 Δείκτης 0 έως +20 Δείκτης 0 έως -20.
ΘΕΜΑΤΙΚΗ ΕΝΟΤΗΤΑ 2: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ Η/Υ
ΡΑΛΛΕΙΑ ΣΧΟΛΕΙΑ: 155 ΧΡΟΝΙΑ ΙΣΤΟΡΙΑΣ ΚΑΙ ΠΡΟΣΦΟΡΑΣ.
Γλώσσα και σκέψη Με τον όρο σκέψη εννοούμε ένα μεγάλο φάσμα νοητικών διεργασιών: Επεξεργασία εννοιών, επίλυση προβλημάτων, ονειροπόληση, προγραμματισμό.
Η γλώσσα είναι μορφή, όχι ύλη (Saussure) ΥΛΗ → έννοιες Περιεχόμενο ΜΟΡΦΗ → σημασίες ΥΛΗ → φθόγγοι Έκφραση ΜΟΡΦΗ → φωνήματα.
7. Λόγος – Γλώσσα – Ομιλία Επίπεδα γλωσσικής ανάλυσης Φωνητική
Θέματα Γλωσσολογίας (α)
Η γλώσσα είναι μορφή, όχι ύλη (Saussure)
Κεφάλαιο 2ο: ΘΕΜΑΤΑ ΘΕΩΡΗΤΙΚΗΣ ΕΠΙΣΤΗΜΗΣ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΣΥΓΓΡΑΦΗ ΕΠΙΣΤΗΜΟΝΙΚΗΣ ΕΡΓΑΣΙΑΣ
Μεταγράφημα παρουσίασης:

Μάθημα 3ο: Βασικές Γλωσσολογικές Έννοιες Ι: Μορφολογία Γλωσσική Τεχνολογία Μάθημα 3ο: Βασικές Γλωσσολογικές Έννοιες Ι: Μορφολογία Ακαδημαϊκό Έτος 2013-2014

Επεξεργασία Φυσικής Γλώσσας Ακαδημαϊκό Έτος 2013-2014 Επεξεργασία Φυσικής Γλώσσας Κυρίως γραπτή γλώσσα, κύριος στόχος η δημιουργία υπολογιστικών μοντέλων γλωσσολογικών θεωριών Γλωσσολογικοί κανόνες και αρχές που διέπουν τα επίπεδα ανάλυσης της φυσικής γλώσσας Εισαγωγή σε βασικές γλωσσολογικές έννοιες, ιδιαίτερα σημαντικές στην ΕΦΓ

Γλωσσολογία Η επιστημονική μελέτη της ανθρώπινης γλώσσας Ακαδημαϊκό Έτος 2013-2014 Γλωσσολογία Η επιστημονική μελέτη της ανθρώπινης γλώσσας Μορφή (μορφολογία, φωνολογία, σύνταξη) Νόημα (σημασιολογία, πραγματολογία) Ευρύτερο πλαίσιο (εξελικτική, ιστορική γλωσσολογία, κοινωνιογλωσσολογία, ψυχογλωσσολογία, νευρογλωσσολογία, γλωσσική απόκτηση, ανάλυση λόγου) Αλληλεπίδραση και με άλλες γνωστικές επιστήμες

Γενετική Θεωρία, Noam Chomsky Ακαδημαϊκό Έτος 2013-2014 Γενετική Θεωρία, Noam Chomsky Ανθρώπινη (φυσική) γλώσσα: σημαντικότερο γνωσιακό σύστημα του ανθρώπου Οι ομιλητές μιας φυσικής γλώσσας κατέχουν ένα σύνολο γνώσεων που αποτελεί το το γλωσσικό τους σύστημα, έτσι όπως εκφράζεται και αναπαρίσταται από τη γραμματική Γραμματική: σύνολο αρχών και κανόνων που καθορίζει αν μια πρόταση είναι γραμματική ή όχι Colorless green ideas sleep furiously

Γλωσσολογική Ανάλυση Πολυεπίπεδη (μορφή, νόημα, ευρύτερο πλαίσιο) Ακαδημαϊκό Έτος 2013-2014 Γλωσσολογική Ανάλυση Πολυεπίπεδη (μορφή, νόημα, ευρύτερο πλαίσιο) Γλωσσική Ιεραρχία: Φωνήματα Μορφήματα* Λέξεις Φράσεις Προτάσεις

Ακαδημαϊκό Έτος 2013-2014 Eπίπεδα ανάλυσης

Μορφολογία Στον πυρήνα της γλωσσολ. έρευνας Ακαδημαϊκό Έτος 2013-2014 Μορφολογία Στον πυρήνα της γλωσσολ. έρευνας Μελετά τη δομή των λέξεων, τα επιμέρους συστατικά τους, και τις σχέσεις αυτών των συστατικών Προτείνει αρχές και κανόνες =>ανάλυση και δημιουργία των λέξεων *μόρφημα: η ελάχιστη μονάδα που συνδυάζει μορφή και σημασία, π.χ. αντι-μιλ-ώ

Μορφολογικές κατηγορίες Ι Ακαδημαϊκό Έτος 2013-2014 Μορφολογικές κατηγορίες Ι Λέξεις: Φέρουν έναν τόνο Έχουν ολοκληρωμένη σημασία Ανεπηρέαστη η εσωτερική τους δομή από τη σύνταξη Μεσολαβούν παύσεις μεταξύ τους στο γραπτό λόγο Δυσκολίες στην αναγνώριση και τα όρια των λέξεων=>χαλαρά σύνθετα : ψυχρός πόλεμος

Μορφολογικές κατηγορίες ΙΙ Ακαδημαϊκό Έτος 2013-2014 Μορφολογικές κατηγορίες ΙΙ Μορφήματα: Ελάχιστα συστατικά των λέξεων Ελεύθερα χωρίς, με, και, σήμερα κτλ. Δεσμευμένα Θέματα* (stems) ομορφ-, τρεχ-, ανθρωπ- κτλ. Προσφύματα(affixes) Προθήματα δυσ- τυχος, ξε- φευγω Επιθήματα παιδ- ακι, τρεχ- ω

Ακαδημαϊκό Έτος 2013-2014 Θέμα VS Ρίζα Θέμα(stem): βάση για τη δημιουργία των λέξεων, ευθύνη για σημασία. Ρίζα(root): μόνο ετυμολογική και ιστορική αξία στην ΚΝΕ (Ralli, 1988) Δυσδιάκριτα τα όρια των δύο στοιχείων => Θέμα: βάση για δημιουργία λέξεων, ταύτιση με ρίζα σε πολλές πρισπτώσεις

Διαδικασίες σχηματισμού λέξεων Ι Ακαδημαϊκό Έτος 2013-2014 Διαδικασίες σχηματισμού λέξεων Ι Κλίση: Διαδικασία σχηματισμού διαφορετικών μορφών μιας λέξης, συνδυασμός συγκεκριμένου θέματος και κλιτικών προσφυμάτων παίζω=> έ – παιζ – α γιατρός => γιατρ- ού Παραγωγή Διαδικασία σχηματισμού νέων λέξεων, συνδυασμός θέματος και παραγωγικού προσφύματος όργαν(ο)=> οργαν-ώνω, οργανω-τής, οργανω-τικ(ός), οργανωτικ-ά

Διαδικασίες σχηματισμού λέξεων ΙΙ Ακαδημαϊκό Έτος 2013-2014 Διαδικασίες σχηματισμού λέξεων ΙΙ Σύνθεση Διαδικασία που δημιουργεί μορφολογικά πολύπλοκα στοιχεία από τουλάχιστον δύο θέματα ντομάτα+σαλάτα=> ντοματοσαλάτα αλάτι+πιπέρι=> αλατοπίπερο δεύτερος+λεπτό=> δευτερόλεπτο σφιχτά+αγκαλιάζω=> σφιχταγκαλιάζω

Ακαδημαϊκό Έτος 2013-2014 Η Μορφολογία στην ΕΦΓ Ι Ανάλυση της ενσωματωμένης γραμματικής πληροφορίας λεξικών μορφών αυτή: γ’πρόσωπο, ενικός αριθμός, αρσενικό γένος τραγούδησα: α’ πρόσωπο, ενικός αριθμός, αόριστος χρόνος Parsing σύνθετων λεξικών μορφών στα επιμέρους συστατικά τους Αντιπολεμικός: αντι+πολεμ+ικ+ος

Η Μορφολογία στην ΕΦΓ ΙΙ Ακαδημαϊκό Έτος 2013-2014 Η Μορφολογία στην ΕΦΓ ΙΙ Αnaphora resolution: Ο Κώστας συνάντησε τους φίλους του στο δρόμο και τους είπε τι του συνέβη. Αναγνώριση μερών του λόγου(Parts of Speech) Noun: ονόματα, ουσιαστικά Verb: ρηματικοί τύποι Adjective: επίθετα Η ίδια κλάση ελέγχεται με το τεστ της αντικατάστασης: το καλό/κακό/χαζό κορίτσι/αγόρι/παιδί/ζώο έτρεχε/έπαιζε/χτύπησε

Άλλα μέρη του λόγου Σχεση με ονόματα: pronouns και determiners* Ακαδημαϊκό Έτος 2013-2014 Άλλα μέρη του λόγου Σχεση με ονόματα: pronouns και determiners* Εκείνος, μας, εγώ, αυτών, ο, το, ένας *στη ΝΕ ταυτίζεται με το άρθρο Αdverbs, prepositions και particles συχνά, καλώς, μετά, έτσι, για, με, σε, θα, μα Conjunctions Και, αλλά, ή, είτε-είτε

Αυτόματα πεπερασμένων καταστάσεων Ακαδημαϊκό Έτος 2013-2014 Αυτόματα πεπερασμένων καταστάσεων Finite State Automata (FSA) Αναπαριστάνεται σαν γράφος ενός συνόλου καταστάσεων κατευθυνόμενων μεταβάσεων που αντιστοιχούν σε σύμβολα ενός αλφαβήτου Μια κατάσταση ορίζεται σαν αρχική Μερικές καταστάσεις ορίζονται σαν τελικές

Ακαδημαϊκό Έτος 2013-2014 Αναγνώριση με FSA Ι Είσοδος: μια «ταινία» με «κελιά». Κάθε κελί περιέχει ένα σύμβολο από την είσοδο Η μηχανή ξεκινά από την αρχική κατάσταση:

Ακαδημαϊκό Έτος 2013-2014 Αναγνώριση με FSA ΙΙ Σε κάθε κατάσταση, ελέγχεται ο επόμενος χαρακτήρας εισόδου Αν υπάρχει μετάβαση για αυτόν τον χαρακτήρα, γίνεται η μετάβαση και η είσοδος μετακινείται 1 κελί Αν δεν υπάρχει μετάβαση, η είσοδος δεν είναι αποδεκτή Αν τελειώσουν τα κελιά εισόδου: Αν η τρέχουσα κατάσταση είναι τελική, η είσοδος είναι αποδεκτή

Μορφολογία Ι Εφαρμόζεται σε επίπεδο λέξης Εξετάζει τη μορφή των λέξεων Ακαδημαϊκό Έτος 2013-2014 Μορφολογία Ι Εφαρμόζεται σε επίπεδο λέξης Εξετάζει τη μορφή των λέξεων Επηρεάζει/εται (από) τη φωνολογία Είναι το επίπεδο ανάλυσης που συσχετίζει: Αλεπού, αλεπούδες, αλεπουδάκι Είμαι, ήμουν Έρχομαι, ήρθα …

Μορφολογία ΙΙ Δύο ειδών κανόνες: Ορθογραφικοί κανόνες Ακαδημαϊκό Έτος 2013-2014 Μορφολογία ΙΙ Δύο ειδών κανόνες: Ορθογραφικοί κανόνες Ο πληθυντικός αγγλικών λέξεων σε –y σχηματίζεται με την μετατροπή του –y σε –i, και την προσθήκη – es Μορφολογικοί κανόνες Μας λένε ότι οι λέξεις fish, deer, beer δεν έχουν πληθυντικό Ο πληθυντικός την λέξης goose γίνεται με αλλαγή του φωνήεντος (geese)

Μορφολογική Ανάλυση Το πρόβλημα της: Ακαδημαϊκό Έτος 2013-2014 Μορφολογική Ανάλυση Το πρόβλημα της: αναγνώρισης ότι μια λέξη (όπως αλεπούδες) αποσυντίθεται σε μορφήματα (αλεπ + ούδες), και η δημιουργία μιας δομημένης αναπαράστασης για αυτό το γεγονός, ονομάζεται μορφολογική ανάλυση (morphological parsing) Parsing: η διαδικασία της παραγωγής κάποιας μορφής γλωσσικής πληροφορίας για κάποια είσοδο

Υπολογιστική μορφολογία Ακαδημαϊκό Έτος 2013-2014 Υπολογιστική μορφολογία Η αυτόματη (μέσω μηχανής) αντιστοίχηση μιας λέξης με τις μορφολογικές πληροφορίες που την χαρακτηρίζουν Μορφολογική ανάλυση (parsing) Αλεπούδες: αλεπού + ονομαστική + πληθυντικός Μορφολογική παραγωγή (generation) Αλεπού + ονομαστική + πληθυντικός: αλεπούδες

Αλγόριθμοι και εργασίες Ακαδημαϊκό Έτος 2013-2014 Αλγόριθμοι και εργασίες Μορφολογική ανάλυση Finite state transducers Μορφολογικά λεξικά (ηλεκτρονικά) Μορφολογική παραγωγή Συστήματα κανόνων Συχνές εργασίες Εύρεση θέματος (stemming) Λημματοποίηση: εύρεση λήμματος (lemmatization) Αναγνώριση μερών του λόγου (POS tagging) Αναγνώριση λέξεων/προτάσεων

Μορφολογική ανάλυση Στόχος: Μορφολογική πληροφορία για την είσοδο Ακαδημαϊκό Έτος 2013-2014 Μορφολογική ανάλυση Στόχος: Μορφολογική πληροφορία για την είσοδο

Μορφολογικός αναλυτής Ακαδημαϊκό Έτος 2013-2014 Μορφολογικός αναλυτής Για την κατασκευή ενός μορφολογικού αναλυτή χρειαζόμαστε: Λεξικό: λίστα από θέματα και προσφύματα, μαζί με βασική πληροφορία για αυτά (π.χ. μέρος του λόγου) Μορφοτακτικοί κανόνες (morphotactics): το μοντέλο της οργάνωσης των μορφημάτων ποιοι τύποι μορφημάτων μπορούν να ακολουθούν άλλα μορφήματα μέσα σε μια λέξη Ορθογραφικοί κανόνες: περιγράφουν τις αλλαγές που συμβαίνουν όταν συνδυάζονται μορφήματα city + s → cities (και όχι citys)

Προσεγγίσεις Προσεγγίσεις για την κατασκευή μορφολογικών αναλυτών Ακαδημαϊκό Έτος 2013-2014 Προσεγγίσεις Προσεγγίσεις για την κατασκευή μορφολογικών αναλυτών Αποκλειστική χρήση λεξικού Χρήση λεξικού και κανόνων Finite state transducers Finite state automata Αποκλειστική χρήση κανόνων

Προσεγγίσεις Ι: Χρήση λεξικού Ακαδημαϊκό Έτος 2013-2014 Προσεγγίσεις Ι: Χρήση λεξικού Το λεξικό απαριθμεί όλες τις λέξεις και τις πληροφορίες που την χαρακτηρίζουν Δεν υπάρχουν κανόνες …? Εύκολη ανάλυση/παραγωγή Μεγάλο μέγεθος (αγγλικά) Ελληνικά, Γαλλικά; Αραβικά, Τούρκικα; Κινέζικα;

Προσεγγίσεις ΙΙ: Λεξικό + κανόνες (1) Ακαδημαϊκό Έτος 2013-2014 Προσεγγίσεις ΙΙ: Λεξικό + κανόνες (1) Λεξικό:

Προσεγγίσεις ΙΙ: Λεξικό + κανόνες (2) Ακαδημαϊκό Έτος 2013-2014 Προσεγγίσεις ΙΙ: Λεξικό + κανόνες (2)

Μορφολογικός αναγνωριστής Ακαδημαϊκό Έτος 2013-2014 Μορφολογικός αναγνωριστής Μια συμβολοσειρά από χαρακτήρες, είναι έγκυρη λέξη; Ενσωμάτωση των «υπο-λεξικών» στο FSA των κανόνων:

Μορφολογική ανάλυση Αυτόματα πεπερασμένων καταστάσεων (FSA) Αναγνώριση Ακαδημαϊκό Έτος 2013-2014 Μορφολογική ανάλυση Αυτόματα πεπερασμένων καταστάσεων (FSA) Αναγνώριση Μορφολογία ενός επιπέδου Finite state transducers (FST) Μορφολογία δύο επιπέδων Παράγουν έξοδο, ανάλογα με την είσοδο Όπως και στην περίπτωση των FSA, τόσο το λεξικό όσο και οι μορφοτακτικοί κανόνες μπορούν να αναπαρασταθούν από FSTs

Μορφολογία δύο επιπέδων Ακαδημαϊκό Έτος 2013-2014 Μορφολογία δύο επιπέδων Επιφανειακή (surface) μορφή: λέξη όπως απαντάται στο κείμενο Λεξιλογική (lexical) μορφή: η ακολουθία των μορφολογικών χαρακτηριστικών Μορφολογία δύο επιπέδων: αντιστοίχιση μεταξύ επιφανειακού/λεξιλογικού επιπέδου Λεξιλογικό επίπεδο Επιφανειακό επίπεδο

Ορθογραφικοί κανόνες (1) Ακαδημαϊκό Έτος 2013-2014 Ορθογραφικοί κανόνες (1) Οι μέθοδοι που περιγράφηκαν αναγνωρίζουν λέξεις όπως «fox» και «goose» Όμως η απλή συνένωση μορφημάτων δεν λειτουργεί όταν απαιτούνται ορθογραφικές προσθήκες foxs: αποδεκτό, foxes: απορριπτέο

Ορθογραφικοί κανόνες (2) Ακαδημαϊκό Έτος 2013-2014 Ορθογραφικοί κανόνες (2) Μπορούν να ειδωθούν σαν μετασχηματισμός: Δέχεται μια συνένωση μορφημάτων (ενδιάμεσο επίπεδο) Παράγει την επιφανειακή μορφή της λέξης

Ορθογραφικοί κανόνες (3) Ακαδημαϊκό Έτος 2013-2014 Ορθογραφικοί κανόνες (3) Λεξιλογικό επίπεδο Ενδιάμεσο επίπεδο Επιφανειακό επίπεδο

Ορθογραφικοί κανόνες (4) Ακαδημαϊκό Έτος 2013-2014 Ορθογραφικοί κανόνες (4) «Εισαγωγή ενός e στην ταινία επιφανειακού επιπέδου, όταν η ταινία του λεξιλογικού επιπέδου έχει ένα μόρφημα που τελειώνει σε x (ή z) και το επόμενο μόρφημα είναι το -s» Chomsky and Halle (1968) notation:

Ορθογραφικοί κανόνες (5) Ακαδημαϊκό Έτος 2013-2014 Ορθογραφικοί κανόνες (5) Αναπαράσταση του ορθογραφικού κανόνα σαν FST, πίνακας μεταβάσεων

Συνδυάζοντας λεξικό και κανόνες (1) Ακαδημαϊκό Έτος 2013-2014 Συνδυάζοντας λεξικό και κανόνες (1) Το FST λεξικού αντιστοιχίζει το λεξιλογικό επίπεδο στο ενδιάμεσο επίπεδο, που αναπαριστά απλές συνενώσεις μορφημάτων Ένα σύνολο από FST κανόνων τρέχουν παράλληλα/σειριακά αντιστοιχίζοντας το ενδιάμεσο στο επιφανειακό επίπεδο Ο FST λεξικού και οι FST των ορθογραφικών κανόνων σχηματίζουν μια αλληλουχία (cascade)

Συνδυάζοντας λεξικό και κανόνες (2) Ακαδημαϊκό Έτος 2013-2014 Συνδυάζοντας λεξικό και κανόνες (2)

FSTs και ασάφεια Η ανάλυση είναι δυσκολότερη της παραγωγής Ακαδημαϊκό Έτος 2013-2014 FSTs και ασάφεια Η ανάλυση είναι δυσκολότερη της παραγωγής Λόγω ασάφειας: π.χ. foxes fox +V +3Sg fox +N +PL Η αποσαφήνιση δεν μπορεί να γίνει χωρίς τα συμφραζόμενα Ο FST πρέπει να δημιουργήσει και τις δύο αναλύσεις Ασάφεια μπορεί να προκληθεί και εξαιτίας πολλαπλών πιθανών μονοπατιών, ή λόγω μεταβάσεων 𝜖

Αναγνώριση θέματος Stemming: η εύρεση της ρίζας/θέματος μιας λέξης Ακαδημαϊκό Έτος 2013-2014 Αναγνώριση θέματος Stemming: η εύρεση της ρίζας/θέματος μιας λέξης Συνήθως δεν χρησιμοποιείται λεξικό Χρησιμοποιείται σε εφαρμογές ανάκτησης πληροφορίας και ταξινόμησης κειμένων Η βελτίωση που επιφέρει στην ανάκτηση πληροφορίας δεν είναι πάντα αξιόλογη Χρησιμοποιείται στην μείωση διαστατικότητας, όταν εφαρμόζεται μηχανική μάθηση

Porter stemmer (1980) Ευρέως διαδεδομένος stemmer (Αγγλικά) Ακαδημαϊκό Έτος 2013-2014 Porter stemmer (1980) Ευρέως διαδεδομένος stemmer (Αγγλικά) Βασίζεται σε ένα σύνολο κανόνων, που εφαρμόζονται σειριακά ATIONAL →ATE (relational → relate) ING → 𝜖 if stem contains vowel (motoring → motor) Παραδείγματα λαθών: organization → organ, doing → doe Παραδείγματα παραλείψεων: matrices → matrix, explain → explanation http://www.tartarus.org/~martin/PorterStemmer/

Βιβλιογραφία Αγγελική Ράλλη, 2005. Μορφολογία. Εκδόσεις Πατάκη, Αθήνα Ακαδημαϊκό Έτος 2013-2014 Βιβλιογραφία Αγγελική Ράλλη, 2005. Μορφολογία. Εκδόσεις Πατάκη, Αθήνα Κεφάλαια 2 & 3 από το εγχειρίδιο «Speech and Language Processing» των D. Jurafsky και J.H. Martin, 2η έκδοση, Pearson, 2009