Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

ΥΠΟΛΟΓΙΣΤΙΚΗ ΓΛΩΣΣΟΛΟΓΙΑ ΕΙΣΑΓΩΓΗ Ιστορικά ξεχωριστοί τομείς αρχίζουν να συγκλίνουν: Επεξεργασία Φυσικής Γλώσσας (NLP) Αναγνώριση Φωνής (speech recognition)

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "ΥΠΟΛΟΓΙΣΤΙΚΗ ΓΛΩΣΣΟΛΟΓΙΑ ΕΙΣΑΓΩΓΗ Ιστορικά ξεχωριστοί τομείς αρχίζουν να συγκλίνουν: Επεξεργασία Φυσικής Γλώσσας (NLP) Αναγνώριση Φωνής (speech recognition)"— Μεταγράφημα παρουσίασης:

1 ΥΠΟΛΟΓΙΣΤΙΚΗ ΓΛΩΣΣΟΛΟΓΙΑ ΕΙΣΑΓΩΓΗ Ιστορικά ξεχωριστοί τομείς αρχίζουν να συγκλίνουν: Επεξεργασία Φυσικής Γλώσσας (NLP) Αναγνώριση Φωνής (speech recognition) Υπολογιστική Γλωσσολογία Υπολογιστική Ψυχογλωσσολογία

2 Ευρέως διαθέσιμα πλέον: μεγάλα Σώματα Κειμένων on-line Ηλεκτρονικά λεξικά Τράπεζες ορολογίας Συστήματα ελέγχου ορθογραφίας, γραμματικής & στυλ Συστήματα Ανάκτησης Πληροφοριών Συστήματα αναγνώρισης φωνής Συστήματα Μηχανικής Μετάφρασης

3 ΓΛΩΣΣΟΛΟΓΙΑ & ΠΛΗΡΟΦΟΡΙΚΗ Υπολογιστική Γλωσσολογία Computational Linguistics Η επιστήμη της γλώσσας που χρησιμοποιεί υπολογισμούς ως εργαλείο διερεύνησης Επεξεργασία Φυσικής Γλώσσας Natural Language Processing/NLP Η επιστήμη των υπολογισμών η οποία έχει ως αντικείμενο τις δομές δεδομένων & τους αλγορίθμους επεξεργασίας μιας φυσικής γλώσσας Γλωσσική Τεχνολογία Language Technology Aνάπτυξη συστημάτων επεξεργασίας φυσικής γλώσσας

4 ΓΛΩΣΣΟΛΟΓΙΑ & ΕΠΕΞΕΡΓΑΣΙΑ ΦΥΣΙΚΗΣ ΓΛΩΣΣΑΣ (NLP) (1) Κλασσική γλωσσολογική προσέγγιση στον 1 αιώνα ζωής της επιστήμης: -Μελέτη μεμονωμένων φαινομένων βάσει περιορισμένων γλωσσικών δεδομένων με στόχο την ερμηνεία & τον καθορισμό του βαθμού παραγωγικότητας του κανόνα που διέπει το φαινόμενο -Ανάπτυξη γλωσσολογικών θεωριών/μοντέλων ανάλυσης των γλωσσικών δομών

5 ΣΤΟΧΟΙ ΓΛΩΣΣΟΛΟΓΙΚΗΣ ΕΞΕΤΑΣΗΣ Μέχρι 1980: έμφαση στη Δομή της γλώσσας -Περιγραφές (συγχρονικές/διαχρονικές) Φωνητικές/Φωνολογικές Μορφολογικές Συντακτικές -Καθολικές αρχές/ Τυπολογία γλωσσών Language Typology -Κατάκτηση γλώσσας/Ψυχογλωσσολογία Psycholinguistics -Κοινωνιογλωσσολογία Sociolinguistics

6 Δευτερεύουσας σημασίας: -Σημασιολογία Semantics -Πραγματολογία Pragmatics -Ανάλυση λόγου Discourse Analysis ΑΜΦΙΣΗΜΙΑ ΑΠΟΔΕΚΤΗ

7 ΦΩΝΗΤΙΚΗ/ΦΩΝΟΛΟΓΙΑ μελέτη φθόγγων ΜΟΡΦΟΛΟΓΙΑ μελέτη μορφημάτων (ελάχιστων μονάδων λεξικής ή γραμματικής σημασίας δυσ-προ-φερ-το-ς ΣΥΝΤΑΞΗ μελέτη συνταγμάτων (συντακτικών δομών των λέξεων) ΣΗΜΑΣΙΟΛΟΓΙΑμελέτη σημασιών ΠΡΑΓΜΑΤΟΛΟΓΙΑ μελέτη τρόπων χρήσης γλώσσας για την επίτευξη στόχων ΑΝΑΛΥΣΗ ΛΟΓΟΥ μελέτη γλωσσικών μονάδων μεγαλύτερων των απλών εκφωνημάτων

8 ΓΛΩΣΣΟΛΟΓΙΑ & ΕΠΕΞΕΡΓΑΣΙΑ ΦΥΣΙΚΗΣ ΓΛΩΣΣΑΣ (NLP) (2) Προσέγγιση NLP τα τελευταία 50 χρόνια: Υιοθέτηση γλωσσολογικών θεωριών και ΕΛΕΓΧΟΣ της υπολογιστικής αποτελεσματικότητας αυτών βάσει εκτεταμένων γλωσσικών δεδομένων με στόχο τη κατανόηση της φυσικής γλώσσας & την ΑΡΣΗ ΤΗΣ ΑΜΦΙΣΗΜΙΑΣ (disambiguation)

9 ΣΥΝΕΠΕΙΑ Έλεγχος του μοντέλου γλωσσολογικής ανάλυσης ως προς τη κάλυψη του φαινομένου ανθεκτικότητά του (αντιμετώπιση μη αναμενόμενων δεδομένων) πολυπλοκότητα εφαρμογής του ως προς χώρο και χρόνο επεκτασιμότητά του προσαρμοστικότητά του δυνατότητα συντήρησής του

10 ΜΕΘΟΔΟΙ NLP & ΥΠΟΛΟΓΙΣΤΙΚΗΣ ΓΛΩΣΣΟΛΟΓΙΑΣ Βασισμένες στη γνώση rule/knowledge-based Στατιστικές data-driven Μοντέλα και αλγόριθμοι από: -Επιστήμη των Η/Υ -Γλωσσολογία -Τεχνητή Νοημοσύνη-Λογική-Μαθηματικά -Ψυχολογία-Φιλοσοφία-Γνωσιακή Επιστήμη

11 ΒΑΣΙΚΑ ΕΡΓΑΛΕΙΑ NLP για ανάλυση φωνητική, μορφολογική & συντακτική A)Μηχανές Καταστάσεων: διαδικαστικές State machines: procedural Καταστάσεις – μεταπτώσεις μεταξύ καταστάσεων– Αναπαράσταση εισόδου Αυτόματα Πεπερασμένων Καταστάσεων deterministic/non-deterministic FSA Trasnducers? (FST) Πεπερασμένων Καταστάσεων Αυτόματα με Βάρη Weighted Automata Μοντέλα Markov Κρυφά Μοντέλα Markov (ΗΜΜ)=Μοντέλα Markov εμπλουτισμένα με στοιχεία πιθανοτήτων

12 ΒΑΣΙΚΑ ΕΡΓΑΛΕΙΑ NLP για ανάλυση φωνητική, μορφολογική & συντακτική B) Τυπικά συστήματα κανόνων : δηλωτικά Formal rule systems: declarative Κανονικές Γραμματικές Regular Grammars & Κανονικές Σχέσεις Regular Relations Αλγεβρικές Γραμματικές Context-Free Grammars Γραμματικές Επαυξημένες με Χαρακτηριστικά? Feature-Augmented Grammars + παραλλαγές αυτών με στοιχεία πιθανοτήτων

13 ΒΑΣΙΚΑ ΕΡΓΑΛΕΙΑ NLP για ανάλυση σημασιολογική, πραγματολογική & λόγου Α)Λογική Λογική Πρώτης Τάξης First Order Logic = Κατηγορηματικός Λογισμός Predicate Calculus Δομές Χαρακτηριστικών Feature-Structures Σημασιολογικά Δίκτυα Semantic Networks Εννοιολογική Εξάρτηση Conceptual Dependency

14 ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 1 Χρήση Η/Υ στη λογοτεχνική ανάλυση Literary & Linguistic Computing Μηχανική Μετάφραση (ΜΜ) Machine Translation(ΜΤ) 17o αιώνα: πρόταση Descartes & Leibniz: Ανάγκη δημιουργίας λεξικών βασισμένων σε καθολικούς αριθμητικούς κώδικες

15 ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 2 -Μέσα 17ου αιώνα: Δημοσίευση παραδειγμάτων Cave Beck, Athanasius Kischer, Johann Becher -Kίνημα «Παγκόσμιας Γλώσσας» βασισμένης σε αρχές λογικής και εικονικά σύμβολα Interlingua του John Wilkins (1668) “Essay towards a Real Character & a Philosophical Language”

16 ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 3 18ος αιώνας – μέσα 20ου αιώνα: διάφορες προτάσεις για Παγκόσμια Γλώσσα Esperanto 1933: 2 πατέντες ανεξάρτητες α) Γαλλία: George Artsouni: αποθηκευτικό μηχάνημα σε χάρτινη ταινία όπου βρίσκεται το αντίστοιχο οποιασδήποτε λέξης σε άλλη γλώσσα 1937: επίδειξη πρωτοτύπου

17 ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 4 β) Ρωσία: P. Smirnov-Troyanski: 3 στάδια μηχανικής μετάφρασης: -ανθρώπινη ‘λογική’ ανάλυση των λέξεων της γλώσσας-πηγής στη βασική τους λημματική μορφή και καθορισμός των συντακτικών τους λειτουργιών -μηχανική μετατροπή των λημμάτων και συντακτικών λειτουργιών τους σε αντίστοιχη μορφή στη γλώσσα-στόχο -ανθρώπινη απόδοση στη γλώσσα-στόχο

18 ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ : W. Weaver, Ίδρυμα Rockfeller, Η.Π.Α Υπόμνημα: χρήση για Μηχανική Μετάφραση μεταπολεμικών τεχνικών κρυπτογραφίας στατιστικής ανάλυσης θεωρία της πληροφορίας του Shannon λογικής και καθολικών γλωσσικών χαρακτηριστικών

19 ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ :1ος full-time ερευνητής σε ΜΜ στο ΜΙΤ: Yehoshua Bar-Hillel 1952: προτάσεις 1oυ συνεδρίου Μηχανικής Μετάφρασης: -σύνταξη -ελεγχόμενες γλώσσες controlled languages -κατασκευή συστημάτων υπογλώσσας -αναγνώριση ανάγκης pre- & post-editing

20 ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ : Πρώτη δημόσια επίδειξη συστήματος ΜΜ (Georgetown University-ΙΒM): 49 προτάσεις Ρωσικά-Αγγλικά Λεξιλόγιο 250 λέξεων 6 γραμματικοί κανόνες -Μεγάλης κλίμακας κρατική χρηματοδότηση στις ΗΠΑ την επόμενη 10ετία - Νέα projects ΜΜ σε Ρωσία και Αγγλία

21 ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ : πολλές ενεργές ομάδες: Α) εμπειρικές μέθοδοι δοκιμής-λάθους, συχνά στατιστικές, με στόχο άμεσα λειτουργικά συστήματα (brute-force) Β) θεωρητικές μέθοδοι βασικής γλωσσολογικής έρευνας, με στόχο μακροπρόθεσμες λύσεις (perfectionist)

22 ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 9 Παραδείγματα εμπειρικής προσέγγισης (pragmatically oriented): -Λεξικογραφική προσέγγιση Παν/μιο Washington (Seattle)  IBM Ρωσικά-Αγγλικά/ Πολεμική Αεροπορία ΗΠΑ -Στατιστική engineering προσέγγιση RAND Corporation -Institute of Precision Mechanics Σοβ. Ένωση -National Physical Laboratory Αγγλία

23 ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 10 -Μεγαλύτερη όλων: Georgetown University Επιτυχημένο Ρωσο-Αγγλικό σύστημα, τυπικό των συστημάτων 1ης γενεάς ΜΜ ‘Direct’ translation: ζεύγος 2 γλωσσών με αυστηρά προκαθορισμένη κατεύθυνση από μια γλώσσα-πηγή σε μια γλώσσα-στόχο

24 ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 11 Παραδείγματα θεωρητικής προσέγγισης: -MIT -Παν/μιο Harvard -Παν/μιο Texas -Παν/μιο Καλιφόρνιας στο Berkeley -Institute of Linguistics Μόσχα -Παν/μιο Λένιγκραντ -Cambridge Language Research Unit (CLRU) -Παν/μιο Μιλάνου -Παν/μιο Grenoble

25 ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 12 Η έρευνα περιόδου είναι σημαντικότατη, όχι μόνο για τη ΜΜ, μα κυρίως για την Υπολογιστική Γλωσσολογία και την Τεχνητή Νοημοσύνη (ανάπτυξη αυτοματοποιημένων λεξικών και τεχνικών συντακτικής ανάλυσης) Σημαντική συμβολή στη Γλωσσολογία

26 ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 13 Αποτυχία στις προσπάθειες δημιουργίας συστημάτων FAHQT Fully Automatic High Quality Translation 1960: Bar-Hillel (review of MT progress): “Σημασιολογικά εμπόδια στη ΜΜ μπορούν να ξεπεραστούν μόνο με τεράστιες ποσότητες εγκυκλοπαιδικής γνώσης για τον ‘πραγματικό κόσμο’”  Πραγματολογία

27 ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 14 -Λιγότερο φιλόδοξοι στόχοι -ΜΑHΤ Machine-Aided Human Translation -HAMT Human-Aided Machine Translation Computer-aided Translation (CAT) Προοπτικές Μηχανικής Μετάφρασης ??? 1966 Τελική ΈκθεσηAutomatic Language Processing Advisory Committee (ALPAC):

28 ΙΣΤΟΡΙΚΗ ΑΝΑΣΚΟΠΗΣΗ 15 « ΜΜ πιο αργή, λιγότερο ακριβής & διπλάσια ακριβότερη της ανθρώπινης» «Δεν υπάρχουν άμεσες ή προβλέψιμες προοπτικές χρήσιμης ΜΜ» «Δημιουργία μηχανικών εργαλείων για μεταφραστές, π.χ. ηλεκτρονικών λεξικών» «Συνεχής υποστήριξη βασικής έρευνας Υπολ.Γλωσσολογίας» ΤΕΛΟΣ ΚΡΑΤΙΚΗΣ ΧΡΗΜΑΤΟΔΟΤΗΣΗΣ στις ΗΠΑ ΑΡΧΗ ΥΠΟΛΟΓΙΣΤΙΚΗΣ ΓΛΩΣΣΟΛΟΓΙΑΣ/NLP/ ΓΛΩΣΣΙΚΗΣ ΤΕΧΝΟΛΟΓΙΑΣ

29 ΔΙΑΡΘΡΩΣΗ ΜΑΘΗΜΑΤΟΣ ΛΕΞΗ: Φωνητική/Φωνολογία Μορφολογία Αλγόριθμοι επεξεργασίας: Πεπερασμένα Αυτόματα


Κατέβασμα ppt "ΥΠΟΛΟΓΙΣΤΙΚΗ ΓΛΩΣΣΟΛΟΓΙΑ ΕΙΣΑΓΩΓΗ Ιστορικά ξεχωριστοί τομείς αρχίζουν να συγκλίνουν: Επεξεργασία Φυσικής Γλώσσας (NLP) Αναγνώριση Φωνής (speech recognition)"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google