Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Υπολογιστική Λεξικογραφία Γνώση σχετικά με μεμονωμένες λέξεις μιας γλώσσας: απαραίτητη για κάθε είδους επεξεργασία φυσικής γλώσσας Συστήματα Μηχανικής.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Υπολογιστική Λεξικογραφία Γνώση σχετικά με μεμονωμένες λέξεις μιας γλώσσας: απαραίτητη για κάθε είδους επεξεργασία φυσικής γλώσσας Συστήματα Μηχανικής."— Μεταγράφημα παρουσίασης:

1 Υπολογιστική Λεξικογραφία Γνώση σχετικά με μεμονωμένες λέξεις μιας γλώσσας: απαραίτητη για κάθε είδους επεξεργασία φυσικής γλώσσας Συστήματα Μηχανικής Μετάφρασης: από τις πρώτες εφαρμογές υπολογιστικής λεξικογραφίας Εφαρμογές Speech-to-Text και Text-to-Speech Ηλεκτρονικά λεξικά τσέπης Εργαλεία ελέγχου ορθογραφίας Κοινό αίτημα: σχεδιασμός λεξικών πηγών ενιαίας μορφής έτσι ώστε να διευκολύνεται η ευρεία χρήση τους και να αποφεύγεται η επανάληψη των διαδικασιών ανάπτυξής τους

2 Λεξικό # Εγκυκλοπαίδεια συμβουλευτικού χαρακτήρα Λεξικό: Βιβλίο αλφαβητικής καταγραφής λέξεων & σημασιών τους Κείμενο που μεταφέρει γλωσσικές πληροφορίες βάσει χιλιάδων μεμονωμένων στοιχείων (λημμάτων) Κυκλικής δομής (ορισμός στοιχείων βάσει άλλων στοιχείων του έργου) “Τι σημαίνει (η λέξη x);” Εγκυκλοπαίδεια: Βιβλίο αλφαβητικής καταγραφής εννοιών Κείμενο που μεταφέρει πραγματιστικές πληροφορίες βάσει χιλιάδων μεμονωμένων στοιχείων “Τι είναι (το φαινόμενο x);”

3 Είδη λεξικών Κανονιστικά (prescriptive)Περιγραφικά (descriptive) Oxford Dictionary for Writers and EditorsWebster's Third New (ορθογραφία & κλίση)International Dictionary «Κάθε γλώσσα έχει τις απρέπειές της και τις ατοπίες της, τις οποίες ο λεξικογράφος έχει καθήκον να διορθώσει ή να προγράψει» (S. Johnson, 1755). Δηλαδή, αποστολή του λεξικογράφου είναι να διατηρήσει την «καθαρότητα» της πρότυπης γλώσσας. Ο συντάκτης του λεξικού είναι γλωσσικός νομοθέτης και ρυθμιστής. Υπαγορεύει ποιες από τις υπάρχουσες χρήσεις των λέξεων είναι οι σωστές. Φυσικά, η αρχή αυτή απορρίφθηκε ως λεξικογραφική αρχή το 1934 στις ΗΠΑ. Ο λεξικογράφος καταγράφει αντικειμενικά όλες τις λέξεις, τις σημασίες τους και τις χρήσεις τους μέσα στη γλωσσική κοινότητα. Δίνει πληροφορίες σχετικά με την ιστορία των σημασιών των λέξεων και την ετυμολογία τους. Εδώ, το κύριο έργο ενός λεξικού είναι να καταγράψει τη χρήση. Από το 1934 η περιγραφική λεξικογραφική αρχή έχει επικρατήσει οριστικά στις ΗΠΑ και σε όλες τις αγγλοσαξονικές χώρες.

4 Είδη λεξικών Διαχρονικά (diachronic)Συγχρονικά (synchronic) Ιστορικά (historical)Σύγχρονα (contemporary) Oxford English DictionaryCollins COBUILD Dictionary Μονόγλωσσα (monolingual)Δίγλωσσα (bilingual) Λεξικό Νέας Ελληνικής Γλώσσας Oxford English-Greek Learner’s (Κέντρο Λεξικολογίας) Dictionary Δίγλωσσα: Ενεργητικά (active)Παθητικά (passive) Oxford Greek-English Learner’s DictionaryOxford English-Greek Learner’s Dictionary ΓενικάTεχνικά Λεξικό της Kοινής Nεοελληνικής (ΙΝΣ)Σύγχρονο Λεξικό Πληροφορικής ΠαιδικάΕνηλίκων Λεξικό της Γλώσσας μαςΛεξικό Σύγχρονης Ελληνικής Δημοτικής Γλώσσας (Εκδοτική Αθηνών)

5 Είδη λεξικών Ετυμολογικά 1. N. Aνδριώτης, [1951] Eτυμολογικό λεξικό της κοινής νεοελληνικής. 3η έκδοση. Θεσσαλονίκη: Iνστιτούτο Nεοελληνικών Σπουδών ['Ιδρυμα Μανόλη Τριανταφυλλίδη]. 2. A. Φλώρος, Nεοελληνικό ετυμολογικό και ερμηνευτικό λεξικό. Aθήνα: Λιβάνης. 3. K. Δαγκίτσης, Eτυμολογικό λεξικό της νεοελληνικής Aθήνα: Βασιλείου. Αντίστροφα 1. Γ. Kουρμούλης, Aντίστροφον λεξικόν της νέας ελληνικής. Aθήνα. 2. E. Mπαλαφούτης, Aντίστροφο λεξικό. Aθήνα: Eπικαιρότητα. 3. A.Aναστασιάδη-Συμεωνίδη, Aντίστροφο λεξικό της νέας ελληνικής. Θεσσαλονίκη: Iνστιτούτο Nεοελληνικών Σπουδών ['Iδρυμα Μανόλη Τριανταφυλλίδη].

6 Είδη λεξικών Λεξικά συνωνύμων 1. Π. Bλαστός, Συνώνυμα και συγγενικά. Tέχνες και σύνεργα. Aθήνα: Eστία. Π. Bλαστός, Συνώνυμα και συγγενικά. Nέα έκδοση συμπληρωμένη από τα κατάλοιπα του συγγραφέα. Aθήνα: Eταιρεία Eλληνικού Λογοτεχνικού και Iστορικού Aρχείου. 2. K. Δαγκίτσης, Λεξικό των συνωνύμων της νεοελληνικής. Aθήνα: Bασιλείου. 3. Θ. Bοσταντζόγλου, Aντιλεξικόν ή Oνομαστικόν της νεοελληνικής γλώσσης. 3η έκδοση Aθήνα: Δομή. Περιέχει περίπου λέξεις, που τις αντλεί από τα κυριότερα λεξικά της εποχής και τις κατατάσσει εννοιολογικά σε ενότητες. Στο τέλος του βιβλίου το λημματολόγιο παρατίθεται και αλφαβητικά, ώστε να μπορεί ο χρήστης εύκολα να αναζητήσει λέξεις του ίδιου σημασιολογικού πεδίου στο κυρίως σώμα του λεξικού. 4. Θ. Bοσταντζόγλου, Eικονόγραπτον ονομαστικόν της νεοελληνικής γλώσσης. Aθήνα. Μοναδικό στο είδος του, με εικόνες παρμένες από το Eγκυκλοπαιδικό Λεξικό Duden, βοηθάει τον χρήστη να βρει τη λέξη που αντιστοιχεί στο συγκεκριμένο αντικείμενο.

7 Ιστορία Aγγλικής Λεξικογραφίας 5 ο αιώνας π.Χ. Πρωταγόρας: γλωσσάριο με σπάνιες λέξεις στα έργα του Ομήρου. Πριν από 1750 Κατάλογος σημαντικότερων λέξεων λατινικών χειρογράφων στα Αγγλικά στο περιθώριο της σελίδας ή ως παράρτημα της κάθε σελίδας Δανεισμός βιβλίων μεταξύ βιβλιοθηκών Αγγλοσαξονικών μοναστηριών: σποραδικός εμπλουτισμός καταλόγων λέξεων-κλειδιών Δομή πρώτων λεξικών:1. Συστηματική θεματική ταξινόμηση 2. Αλφαβητική ταξινόμηση Richard Huloet: Latin-English dictionary Abcedarium Anglico Latinum, ο λεξικό: Robert Cawdrey-εποχή Shakespeare ( ): (2.500 λήμματα) + Λεξικά Αγγλικά-Λατινικά ( λήμματα)

8 Ιστορία Aγγλικής Λεξικογραφίας 1660 (Παλινόρθωση Καρόλου Β’ Ανεπιτυχής πρόταση στην επιτροπή της Royal Society για τη σύνταξη λεξικού Αγγλικών λέξεων, αλλά ο Benjamin Martin εισάγει λόγια επιστημονική μεθοδολογία: δομή λήμματος + σύστημα κατηγοριοποίησης σημασιών + σύστημα ταξινόμησης ορισμών: 1. προέλευσης ή ετυμολογίας 2. κοινότερη σημασία 3. μεταφορικές σημασίες 4. ποιητικές/χιουμοριστικές σημασίες 5. τεχνικές σημασίες 6. σύνθετες λέξεις 7. ιδιωματικές σημασίες και το λεξικό αρχίζει πλέον να θεωρείται ως «συστηματική συλλογή» όλων των λέξεων μιας γλώσσας Γύρω στο 1750 Συμπεριλαμβάνονται τεχνικοί τομείς όπως νομική, ρητορική, ανατομία, ιππασία κ.λπ.

9 Ιστορία Aγγλικής Λεξικογραφίας Σταδιακά σημαντικότερος ο ρόλος των λεξικών. Υπέστησαν ποικίλες αλλαγές προς μια μορφή πλησιέστερη της σημερινής ‘It came to be seen as a scholarly record of the whole language; in method, it became inductive - that is, based on or derived from a corpus; the emphasis came to lie far more than hither to on the literary rather than the technical language; and the dictionary now assumed an authoritarian or normative function’. (N.E. Osselton) (Hartmann, 1983) `Τoleration in language has gone far enough...'`the time for discrimination seems to now come...Good order and authority are now necessary‘ (Λόρδος Chesterfield) Τέλη 18ου αιώνα Πρώτο λεξικό προφοράς Αρχές 19ου αιώνα Συστηματική εισαγωγή προφοράς λέξεων (Hartmann, 1983).

10 Ιστορία Aγγλικής Λεξικογραφίας Μετά το 1850 Oxford English Dictionary από μέλη της Φιλολογικής Εταιρείας Ο λεξικογράφος είναι ο «ιστορικός» της γλώσσας: επιστημονική μελέτη της ιστορίας κάθε λέξης 20ος αιώνας Επιλογή λημμάτων καθορίζεται από πρακτικές ανάγκες: συχνότητα χρήσης Χρήση υπολογιστικών μεθόδων και εργαλείων καταγραφής και αποθήκευσης αποσπασμάτων Λεξικά ηλεκτρονικής μορφής “The marriage of computers and the OED enhances end user access & simplifies basic publishing needs, but computerization can also result in more effective lexicography” (Computerization of Lexicographical Activity on the New Oxford English Dictionary, D. Raymond & Y. Warburton) - Αυτοματισμός κουραστικών επαναλαμβανόμενων διαδικασιών - Νέα προϊόντα π.χ. Ηλεκτρονικές βάσεις δεδομένων αποσπασμάτων

11 Λεξικογραφία # Λεξικολογία -“Lexicography (1805) is a branch of linguistics which consists in observing, collecting, selecting, and describing units frοm the stock of words and word combinations in one or more languages” (Hartmann, 1983). - Lexicography also includes the development and description of the theories and methods which are used for the compilation of dictionaries. This part of the subject is sometimes called metalexicography, `lexicography which deals with lexicography'. - Lexicology is the branch of linguistics concerned with the study of vocabulary, its structure, the meaning of words and the connection between the meanings of words, word formation and word structure.

12 Είδη πληροφορίας Οργάνωση μικροδομής λεξικού: Οργάνωση δομής λημμάτων: 5 κατηγορίες πληροφοριών Formal: ορθογραφία, προφορά, κλίση, παραγωγή & σύνθεση (σύνδεση συναφών τύπων ή απαρίθμηση τύπων υπό μορφή λίστας ή και τα δύο) Combinational/syntagmatic: POS, συντακτική συμπεριφορά, συμπληρωματικές δομές λέξεων ή εννοιών (collocations, idioms) Semantic: ιεραρχική ταξινόμηση και πρότυπα επιλογής (πολυσημία!!!) Encyclopedic-Pragmatic: λεκτικές ή/και οπτικές εγκυκλοπαιδικές πληροφορίες - θεματική περιοχή, ύφος Etymological

13 Χρήση Η/Υ στην Λεξικογραφία 1. Συλλογή γλωσσικών δεδομένων 2. Αυτοματοποίηση διαδικασιών γλωσσολογικής έρευνας 3. Υπολογιστικές εφαρμογές αποτελεσμάτων γλωσσολογικής έρευνας (Garvin 1962) 1. Υπολογιστική παραγωγή βοηθημάτων για γλωσσολογική (και λογοτεχνική) ανάλυση 2. Γλωσσική αυτοματοποίηση - ανάλυση & σύνθεση 3. Προσομοίωση της γλωσσικής δυναμικής 4. Ανάκτηση πληροφοριών 5. Στατιστική ανάλυση γλωσσικών φαινομένων (Lamb 1961)

14 Υπολογιστική Λεξικογραφία Σχεδιασμός, κατασκευή και χρήση ηλεκτρονικών λεξικών στην επεξεργασία φυσικής γλώσσας (NLP) “Computational lexicography covers the computational methods and tools designed to assist the various lexicographical tasks, including preparation of lexicographical evidence from many sources recording in database form of the relevant linguistic information editing of lexicographical entries dissemination of lexicographical products”. (Atkins & Zampolli, 1994)

15 Υπολογιστική Λεξικογραφία “We are beginning to approach a situation where a dictionary that is not accessible to computer processing is not fully published“ (Allen, 1970) Αρχές δεκαετίας ’70: ‘monolingual dictionaries of the future - of the next century - will be much better than those of the twentieth century'. Philip B. Gove Αιτίες: -Ανάπτυξη γλωσσολογικής επιστήμης προς κατεύθυνση επιβοηθητική του λεξικογραφικού έργου -Εισαγωγή πανίσχυρου υπολογιστικού εργαλείου συλλογής, αποθήκευσης και ταξινόμησης δεδομένων στους χώρους εκτύπωσης και δημοσίευσης Αποτέλεσμα: λεξικά έντυπης μορφής γίνονται αναγνώσιμα από μηχανή (Machine-Readable)

16 Machine-Readable Dictionaries (MRDs) A Machine Readble Dictionary (MRD) is the typesetting computer tape of an existing `printed' dictionary. In addition, lexicographic information may also be included which is not included in the printed version. A typesetting tape includes the information of the printed book, e.g. typesetting instructions, font changes, special symbols etc. Thus, the computerised dictionary has emerged from machine readability. Τρία πρώτα Αγγλικά λεξικά έντυπης μορφής που μετετράπησαν σε MRD Oxford Advanced learner's Dictionary (OALD). Longman Dictionary of Contemporary English (LDOCE). Collins Cobuild English Dictionary (COBUILD)

17 Printed-to-MR Dictionaries Διαφορετικός βαθμός συμβολής Η/Y: 3 διαδοχικά στάδια ανάπτυξης ενός MRD 1. OALD (τέλος δεκαετίας ’70)Πρώτο αναγνώσιμο από Η/Υ λεξικό Μηδαμινή η συμβολή του Η/Υ στη λεξικογραφική προετοιμασία του λεξικού Απλά ταινία στοιχειοθέτησης. 2. LDOCE (αρχές δεκαετίας ’80)Πρώτο υποβοηθούμενο από Η/Υ λεξικό Ταινία Η/Υ. Έλεγχος της συνεπούς απόδοσης των ορισμών με τη βοήθεια Η/Υ. Προσθήκη πρόσθετων λεξικολογικών πληροφοριών στην ηλεκτρονική έκδοση. 3. COBUILD Πρώτο σχεδιασμένο σε Η/Υ λεξικό Τέσσερα στάδια ανάπτυξης: συλλογή κειμενικών δεδομένων, επιλογή λημμάτων, κατασκευή ορισμών λημμάτων, ταξινόμηση λημμάτων Έλεγχος συνέπειας και πληρότητας δεδομένων

18 Machine Readable Dictionaries (MRD)=> Machine Tractable Dictionaries (MTD) Λεξικό=ορισμοί εννοιών λέξεων: παροχή γνώσης γλωσσικής & πραγματιστικής Στους χώρους CL & AI αντιμετωπίζεται ως: α) μέσο έρευνας της σημασιολογικής δομής της φυσικής γλώσσας & β) πιθανό μέσο υπέρβασης της δυσκολίας απόκτησης/αναπαράστασης της γνώσης (knowledge acquisition bottleneck) για υπολογιστικές εφαρμογές 2 διαφορετικές μέθοδοι σύνταξης λεξικών demo approachbook approach

19 The demo approach Κυρίαρχη τάση σε NLP & AI (1960s-1970s) Δεν αντιμετωπίζει το πρόβλημα της απόκτησης / αναπαράστασης της γνώσης Ανθρώπινη κωδικοποίηση μικρού πλούσιου λεξικού για ένα σύστημα ανάλυσης μικρού αριθμού γλωσσικών φαινομένων Ακριβή μέθοδος-ξεχωριστή προετοιμασία κάθε λήμματος με αφετηρία την σχεδιαζόμενη χρήση του Τεράστια προβλήματα στην αντιμετώπιση πρόσθετων γλωσσικών φαινομένων

20 The book approach Από δεκαετία 1980 Aντιμετωπίζει το πρόβλημα της απόκτησης / αναπαράστασης της γνώσης Προσπαθεί να αναπτύξει μεθόδους αλλαγής της μορφής της γνώσης από λεξικά & εγκυκλοπαίδειες σε μορφή χρησιμοποιήσιμη από συστήματα CL & AI, καλύπτοντας ένα όσο το δυνατόν μεγαλύτερο τμήμα της γλώσσας

21 Πρώτα λεξικά κοινής χρήσης στην κοινότητα Υπολογιστικής Γλωσσολογίας Machine Readable Dictionaries - Merriam-Webster New Pocket Dictionary (Amsler & White 1979; Amsler 1980,1981) -Webster’s 7 th New Collegiate Dictionary (Evens & Smith 1983; Chodorow, Byrd & Heidom 1985; Markowitz, Ahlswede & Evens 1986; Binot & Jensen 1987) -Longman Dictionary of Contemporary English (με λεπτομερείς συντακτικούς & σημασιολογικούς κώδικες) (Michiels, Mullenders & Noel 1980; Michiels & Noel 1982; Walker & Amsler 1986; Boguraev, Briscoe, Carroll, Carter & Grover 1987; Boguraev & Briscoe 1987; Wilks, Fass, Guo, McDonald, Plate & Slator 1987)

22 Μορφή έρευνας Υποκείμενη σημασιολογική δομή των λεξικών (π.χ. Amsler & White 1979; Amsler 1980,1981; Chodorow, Byrd & Heidom 1985) Ανάπτυξη πρακτικών ευρέων μεθόδων εξαγωγής συντακτικών πληροφοριών από ηλεκτρονικά λεξικά (π.χ. Boguraev & Briscoe 1987) & μετατροπής της μορφής τους για άλλες εφαρμογές Στόχος: Μετατροπή του MRD σε ‘περιορισμένο’ MRT (μόνο συντακτική πληροφορία διαθέσιμη – σημασιολογική παραμένει θαμμένη στο λεξικό)

23 Σημασιολογικές πληροφορίες Στόχος: Αυτόματη εξαγωγή σημασιολογικών πληροφοριών από ηλεκτρονικά λεξικά (MRDs) αφού CYC Project (Lenat, Prakash & Shepherd 1986; Lenat & Feigenbaum 1987): 1 εκατ. λέξεις: κωδικοποίηση με το χέρι: 2 person-centuries work!!

24 Βασικά θέματα μετατροπής MRD σε MTD Είδος γνώσης που απαντά σε MRDs Κατανόηση δομής & περιεχομένου γνώσης κωδικοποιημένης σε λεξικά & εγκυκλοπαίδειες Γενική αρχιτεκτονική λεξικού MTD Συνήθως διαιρείται σε αλληλοσυνδεόμενες μονάδες (modules) διαφορετικού επιπέδου γλωσσολογικής πληροφορίας Φορμαλισμός αναπαράστασης δεδομένων -SGML (Standard Generalized Markup Language) αναπαράσταση κειμενικών και λεξικών δεδομένων -Text Encoding Initiative (TEI) : και μοντέλο αναπαράστασης MRDs, εκτός από μοντέλο αναπαράστασης κειμένων

25 Σημασιολογικές Θεωρίες Έλλειψη κοινά αποδεκτής θεωρίας σχετικά με λεξική σημασία/αμφισημία Αποδοχή τρόπου αντιμετώπισης του φαινομένου από παραδοσιακή λεξικογραφία, αν και η αμφισημία παραμένει ακόμα και στην αυθαίρετη μετα- γλώσσα που χρησιμοποιούν παραδοσιακά λεξικά για τον ορισμό των εννοιών Μεθοδολογικές υποθέσεις για την εξαγωγή σημασιολογικών πληροφοριών από κείμενο: α) sufficiency επάρκεια βάσης γνώσης ως προς γλωσσολογικές & πραγματιστικές πληροφορίες β) extricability δυνατότητα καθορισμού υπολογιστικών μεθόδων αυτόματης εξαγωγής πληροφοριών γ) bootstrapping διαδικασία συλλογής αρχικών πληροφοριών απαραίτητων στις υπολογιστικές διαδικασίες (source internal / source external π.χ. λήμμα ‘noun’ > γνώση γραμματικής δομής/συντακτικών κατηγοριών)

26 Προτεινόμενες προσεγγίσεις μετατροπής MRD σε MTD (Wilks, Fass, Guo, McDonald, Plate & Slator 1988) Computing Research Laboratory του New Mexico State University Longman Dictionary of Contemporary English ( λήμματα σε έντυπη μορφή – λήμματα σε MR μορφή) Μετα-γλώσσα «ελεγχόμενου» λεξιλογίου λέξεων 1.Ελάχιστη ανθρώπινη κωδικοποίηση, βάσει μεθόδου συνεμφάνισης: δεδομένα που παράγονται έχουν την απλούστερη μορφή σημασιολογικής πληροφορίας 2.Κωδικοποίηση γραμματικής και σημασιολογικών προτύπων που χρησιμοποιούνται από τον parser: μηδαμινή κωδικοποίηση λεξιλογικών δεδομένων 3.Πλήρης κωδικοποίηση λεξιλογικών δεδομένων (πολύ προσεκτικά ελεγχόμενο λεξιλόγιο μετα-γλώσσας λεξιλογικών σημασιών/1.200 λέξεων): MTD λεπτομερώς δομημένων σημασιολογικών πληροφοριών

27 ESPRIT Basic Research Action ACQUILEX Πλέον σημαντικό έργο χρήσης κοινών μεθόδων εξαγωγής συντακτικών & σημασιολογικών πληροφοριών από 10 MRDs σε 4 γλώσσες με στόχο την κατασκευή πρωτότυπης κοινής Λεξικής Βάσης Γνώσης ενιαίου Τυπολογικού Συστήματος και κοινής μετα-γλώσσας παραμέτρων & αξιών Ann Copestake, The Acquilex LKB: Representation issues in semi- automatic acquisition of large lexicons, 1992

28 (Machine-Readable Dictionaries: What have we Learned, Where do we Go? Ide & Veronis 1994) 15 χρόνια έρευνας ( ) αυτόματης εξαγωγής γνώσης από MRDs για την κατασκευή βάσεων γνώσης, παρά τις αρχικές προσδοκίες: μικρός αριθμός περιορισμένων και ατελών συστημάτων ταξινόμησης (taxonomies) Οι πληροφορίες των MRDs είναι ελλιπείς και ασυνεπείς Η κατασκευή Βάσεων Γνώσης απαιτεί συνδυασμό πληροφοριών από ποικίλες πηγές, ειδικά από ανάλυση σωμάτων κειμένων (όπου παρέχονται πληροφορίες για παραθέσεις, κύρια ονόματα, συχνότητα χρήσης, στατιστικά συμπεράσματα), καθώς και από τη συγχώνευση διαφορετικών «ατελών» λεξικών

29 Computer-assisted corpus lexicography Inside Hector: The Systems View (L. Guarino Reid & J. R. Meehan 1994) Διαδραστική ανάπτυξη εργαλείων λογισμικού από Systems Research Center της Digital Equipment Corporation (Palo Alto, California) για το Τμήμα Λεξικογραφίας του εκδοτικού οίκου Oxford University Press Αντικειμενοστρεφής γλώσσα προγραμματισμού: Modula-3 1. Εργαλείο κειμενικής έρευνας (20-million-word corpus search tool): sorting KWIC concordances παρόμοιο με βοηθητικό πρόγραμμα Unix grep αλλά μεγαλύτερης λειτουργικότητας (π.χ. ταυτόχρονη αναζήτηση πολλαπλών λέξεων) 2 διακομιστές: Index Server (εντοπισμός θέσης λέξης μέσω δυαδικής αναζήτησης) & Corpus Position Server (αντιστοίχιση δεικτών λέξεων σε όνομα αρχείου από αρχεία και σε θέση χαρακτήρα) Πολυνηματικά προγράμματα & σωλήνωση για μεγαλύτερη ταχύτητα στο στάδιο παρουσίασης των concordances

30 Hector System (1994) Ταξινόμηση των corcondances/citations προς τα δεξιά: run along, run in, run into, run over a bicycle προς τα αριστερά: a first edition, the morning edition, paperback edition με βάση τη σειρά των κειμένων στο corpus (θεματικό περιεχόμενο): δημοσιογραφία, λογοτεχνία, αλληλογραφία Με βάση τη σειρά των σημασιών που είχαν αποδοθεί στις ζητούμενες λέξεις από τους λεξικογράφους

31 Hector System (1994) Πολυπλοκότερες αναζητήσεις Σύνολα λέξεων (κλίση, γραφηματικά αλλόμορφα Stock, Stock, STOCK, stocked, stocks Χρήση wordclass tagging προγραμμάτων (Αdam & Hougton Mifflin Parser): 300->20 βασικές κατηγορίες Stock ως ουσιαστικό Collocates Stock με exchange 3 λέξεις δεξιά Stock + preposition Collocates of collocates Breathe down one’s neck 10 λέξεις αριστερά του neck: breathe 5 λέξεις δεξιά του breathe: down

32 Hector System (1994) Σύνδεση λέξεων και σημασιών Naming senses Sense-tagging (mnemonics) Sense server Searching and sorting sense-tags 2. Επεξεργαστής λημμάτων (dictionary entry editor) SGML Διαχείριση αρχείων λημμάτων: κάθε λήμμα ένα αρχείο Παρουσίαση λημμάτων: 3 επιλογές: Complete Structure View Set-of-Senses View Print View

33 “Combining Corpus and MRD data for Building Bilingual Lexicons” J. Klavans & E. Tzoukermann 1996 BICORD System Στόχος: Σύνδεση λημμάτων των δίγλωσσων αγγλο-γαλλικών και γαλλο- αγγλικών λεξικών Collins με ένα μεγάλο δίγλωσσο αγγλο-γαλλικό και γαλλο- αγγλικό σώμα κειμένων Eπιλεγμένο υποσύνολο: ρήματα κίνησης Ευθυγραμμισμένο σώμα κειμένων: Hansard Corpus (69 εκατομμύρια αγγλικές λέξεις–75 εκατομμύρια γαλλικές λέξεις) εκατομμύρια ευθυγραμμισμένες προτάσεις Σύγκριση πληροφοριών των MRD με κειμενικές πληροφορίες Συνδυασμός γλωσσολογικών και στατιστικών μεθόδων Ενσωμάτωση πληροφοριών από MRD & corpora σε νέα λεξιλογική βάση δεδομένων

34 Inductive Lexica W. Daelemans & G. Durieux 2000 Τεχνικές μηχανικής μάθησης= χρήσιμα εργαλεία αυτόματης επέκτασης ήδη υπαρχουσών λεξιλογικών βάσεων δεδομένων Προτεινόμενη λύση στο πρόβλημα ατελών ηλεκτρονικών λεξικών: πρέπει να έχουν ιδιότητες αυτό-επέκτασης Εναλλακτική προσέγγιση στην υπολογιστική λεξικογραφία: Από επαναχρησιμοποιούμενα, αναλυτικά, προσανατολισμένα προς τη γνώση, ανεξάρτητα θεωρητικών μοντέλων, πολλαπλών εφαρμογών ηλεκτρονικά λεξικά: (εγκατάλειψη ιδέας γενικών λεξικών) Σε λεξικά προσανατολισμένα προς την απόδοση Μετακίνηση από την ιδέα επαναχρησιμοποίησης λεξιλογικής γνώσης προς την ιδέα επαναχρησιμοποίησης των μεθόδων απόκτησής της knowledge-oriented => performance-oriented

35 Lexicography Associations ACL Special Interest Group on the Lexicon (SIGLEX) African Association for Lexicography (AFRILEX) American Dialect Society (ADS) Asian Association for Lexicography (ASIALEX) Association for Linguistic Typology (ALT) Australasian Association for Lexicography (AUSTRALEX) Computational Lexicography (UK) SIG (COLEX) Dictionary Society of North America (DSNA) European Association for Lexicography (EURALEX) European Language Resources Association (ELRA) European Network of Excellence in Human Language Technologies Linguistic Data Consortium (LDC) Vietnam Lexicography Centre (VIETLEX)

36 Journals International Journal of Lexicography Lexicos Lexicography tools IMS Stuttgart: Terminology and Lexicography Tools

37 Ηλεκτρονικές Διευθύνσεις σχετικής αρθρογραφίας Computerization of Lexicographical Activity on the New Oxford English Dictionary (Raymond & Warburton ???) Machine Tractable Dictionaries as Tools and Resources for NLP (Wilks, Fass, Guo, McDonald, Plate & Slator 1988) Towards Developing Reusable NLP Dictionaries (Van der Eijk, Bloksma & Van der Kraan 1992) Machine Readable Dictionaries: What have we learned, Where do we go? (Ide & Veronis 1994)

38 Ηλεκτρονικές Διευθύνσεις σχετικής αρθρογραφίας Inside Hector: The Systems View (Guarino Reid & Meehan 1994) Combining Corpus and Machine-Readable Dictionary Data for Building Bilingual Lexicons (Klavans & Tzoukermann 1996) Electronic Dictionaries – from Publisher Data to a Distribution Server: the DicoPro, DicoEast and REPO Projects (Popescu-Belis, Armstrong & Robert ???) Inductive Lexica (Daelemans & Durieux 2000)

39 Ηλεκτρονικές Διευθύνσεις σχετικής αρθρογραφίας WASP-Bench: an MT Lexicographer's Workstation Supporting State- of-the-art Lexical Disambiguation (Kilgariff & Tugwell 2001) Kirrkirr: A Java-based visualization tool for XML dictionaries of Australian Languages


Κατέβασμα ppt "Υπολογιστική Λεξικογραφία Γνώση σχετικά με μεμονωμένες λέξεις μιας γλώσσας: απαραίτητη για κάθε είδους επεξεργασία φυσικής γλώσσας Συστήματα Μηχανικής."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google