Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η αυτόματη επεξεργασία των φυσικών γλωσσών: Μέθοδοι και εφαρμογές Αναστασία Γιαννακοπούλου Δρ Υπολογιστικής Γλωσσολογίας Εργαστήριο ΤΝΤΛ Τομέα ΕΥ Γενικό.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Η αυτόματη επεξεργασία των φυσικών γλωσσών: Μέθοδοι και εφαρμογές Αναστασία Γιαννακοπούλου Δρ Υπολογιστικής Γλωσσολογίας Εργαστήριο ΤΝΤΛ Τομέα ΕΥ Γενικό."— Μεταγράφημα παρουσίασης:

1 Η αυτόματη επεξεργασία των φυσικών γλωσσών: Μέθοδοι και εφαρμογές Αναστασία Γιαννακοπούλου Δρ Υπολογιστικής Γλωσσολογίας Εργαστήριο ΤΝΤΛ Τομέα ΕΥ Γενικό Τμήμα Θετικών Επιστημών ΤΕΙ Κρήτης

2 Πλάνο O Τι είναι η Υπολογιστική Γλωσσολογία O Πεδία εφαρμογής O Αυτόματη Μετάφραση O Βασική έρευνα O Εφαρμογές O Συστήματα ερωταποκρίσεων στα ελληνικά

3 Αυτόματη επεξεργασία των φυσικών γλωσσών: ορισμός O Αυτόματη επεξεργασία των φυσικών γλωσσών = NLP: Natural Language Processing O Είναι μια επιστήμη που συνδυάζει την Πληροφορική, τη Γλωσσολογία και την Τεχνητή Νοημοσύνη. O Φυσική γλώσσα = ανθρώπινη γλώσσα O Απώτερος στόχος = κατανόηση της ανθρώπινης γλώσσας από τον υπολογιστή

4 Πεδία εφαρμογής O ΑO Αυτόματη μετάφραση – MT: Machine Translation O ΑO Ανάκτηση πληροφορίας – IR: Information Retrieval O ΕO Εξαγωγή πληροφορίας – IE: Information Extraction O ΕO Εξόρυξη δεδομένων – DM: Data Mining O ΑO Αναγνώριση μερών του λόγου – Part-of-speech (POS) tagging O ΣO Συντακτική ανάλυση – Parsing O ΑO Αναγνώριση ονοματικών οντοτήτων – NER: Named Entities Recognition O ΜO Μηχανική μάθηση – ML: Machine Learning O ΑO Αυτόματη αναπαραγωγή κειμένων – NLG: Natural Language Generation O ΑO Αναγνώριση προφορικού λόγου – Speech Recognition (Text-to-speech and Speech-to-text systems) O …O …

5 Αυτόματη Μετάφραση http://translate.google.com/

6 Μορφολογία Αυτόματη Μετάφραση O Ruled-based machine translation (RBMT) – SYSTRAN Σύνταξη Σημασιολογία Μεταφορά Σημασιολογία Σύνταξη Μορφολογία

7 Αυτόματη Μετάφραση O Statistical Machine Translation (SMT) O Παράλληλα σώματα κειμένων (parallel corpus) – +1.000.000 λέξεις O 2 μονόγλωσσα σώματα κειμένων – +1 δις λέξεις το καθένα Στατιστικά μοντέλα Προβλήματα : O Ευθυγράμμιση προτάσεων (Sentence alignement) O Σύνθετες λέξεις και ιδιωματικές εκφράσεις O Μορφολογικοί τύποι O Σύνταξη

8 Αυτόματη Μετάφραση O Υβριδικά μοντέλα Input Text SMT System(Moses) Phrase Table RBMT System Output Text Phrase substitution Hybrid Output

9 Βασική έρευνα O Δημιουργία ηλεκτρονικών λεξικών O Εμπλουτισμός και διαχείριση ηλεκτρονικών λεξικών O Συντακτικο - σημασιολογική περιγραφή των ιδιοτήτων των ρημάτων με συμπλήρωμα που δηλώνει τον τόπο. O Δημιουργία γραμματικών για τη συντακτική ανάλυση, μερική ή πλήρη, δομών O Ονοματικές Οντότητες (NER) O Κυρίως γλώσσες : αγγλικά, γαλλικά, ελληνικά

10 Γλωσσολογικά δεδομένα Χρησιμοποιούμε τα γλωσσολογικά δεδομένα για να αναλύσουμε τα κείμενα (parsing), δηλαδή : O μορφολογική ανάλυση των κειμένων, με την εφαρμογή ηλεκτρονικών λεξικών (electronic dictionaries) O συντακτική και σημασιολογική ανάλυση των κειμένων, με την εφαρμογή γραμματικών (local grammars)

11 Ηλεκτρονικά λεξικά O Με τον όρο « ηλεκτρονικά λεξικά » εννοούμε τα λεξικά που έχουν μια συγκεκριμένη δομή, η πληροφορία είναι κωδικοποιημένη και μπορούν να χρησιμοποιηθούν σε αναλυτές κειμένων (parsers). O Διαφορά ηλεκτρονικών λεξικών και λεξικών σε ηλεκτρονική μορφή.

12 Ηλεκτρονικά λεξικά O Παράδειγμα ηλεκτρονικού λεξικού : book,.N+Conc:s book,.V:W:P1s:P2s:P1p:P2p:P3p booking office,.N+XN+Conc+z1:s booking offices,booking office.N+XN+Conc+z1:p booking,.N:s booking,book.V:G bookings,booking.N:p books,book.N+Conc:p books,book.V:P3s bookseller,.N+Hum:s booksellers,bookseller.N+Hum:p O Μορφή : κλιτός _ τύπος, λημματικός _ τύπος. γραμμ _ κατ + ΣΣ _ πλρφ +…: κλιτ _ πλρφ :…

13 Γραμματικές O Γενικά, μια γραμματική περιγράφει έναν ή περισσότερους κανόνες. O Για τη διατύπωσή της, χρησιμοποιούμε τη μορφή πεπερασμένων αυτομάτων (Finite-State Automata, Roche 1997).

14 Γραμματικές

15 Ανάλυση σε XML Input: for an hour and a half Output:

16 UNITEX O Πολύγλωσσος ο pen-source parser που κατασκευάστηκε από τον Sébastien Paumier στο Εργαστήριο Υπολογιστικής Γλωσσολογίας του Institut Garspard Monge (IGM) στο Πανεπιστήμιο Paris-Est Marne-la-Vallée. http://www-igm.univ-mlv.fr/~unitex/http://www-igm.univ-mlv.fr/~unitex/ O Χρησιμ o ποιούμε την επιφάνεια διεπαφής για να κατασκευάσουμε, να εμπλουτίσουμε και να διορθώσουμε τις τοπικές γραμματικές. O Χρησιμοποιούμε τα εργαλεία του Unitex για να κάνουμε την ανάλυση κειμένων. O Οι πηγές του UNITEX διατίθενται με την άδεια LGPLRS.LGPLRS

17 Convex

18 O Natural Language Processing module Output:

19 Convex O Γλωσσολογικά δεδομένα O Ηλεκτρονικά λεξικά O Γραμματικές αναγνώρισης δομών O Αναπαράσταση της πληροφορίας σε XML O Επιδόσεις O PAF = Packed Array File O Αναγνώριση σε πραγματικό χρόνο

20 Αναγνώριση ονοματικών οντοτήτων O Systran O Κώδικας σε C++ για την αυτόματη μετάφραση των ημερομηνιών σε 14 ζεύγη γλωσσών. O Ergonotics O ημερομηνίες O κύρια ονόματα προσώπων O τοπωνύμια και διευθύνσεις O url, email O τηλεφωνικοί αριθμοί και αριθμοί O μονάδες μέτρησης

21 Συστήματα ερωταποκρίσεων

22

23 O Ομάδα Επεξεργασίας Φυσικής Γλώσσας, Τμήμα Πληροφορικής, Οικονομικό Πανεπιστήμιο Αθηνών ( Ιων Ανδουτσόπουλος ) (URL)URL O « Ανάπτυξη συστήματος ερωταποκρίσεων για αρχεία ελληνικών εφημερίδων » (URL)URL O « Αυτόματη κατάταξη ελληνικών ερωτήσεων σε κατηγορίες » (URL)URL O « Χειρισ µ ός Ερωτήσεων Ορισ µ ού σε Συστή µ ατα Ερωταποκρίσεων » (URL)URL

24 Συστήματα ερωταποκρίσεων O Πολυτεχνείο Κρήτης ( Σ. Χριστοδουλάκης ) O « Συντακτικός αναλυτής ελληνικής γλώσσας και εφαρμογές ανάληψης πληροφορίας ” (URL)URL O TEI Κρήτης ( Μ. Μαρακάκης ) O « Ανάπτυξη συστή µ ατος ανάλυσης προτάσεων – ερωτήσεων της Ελληνικής γλώσσας, µ ετατροπή τους σε στόχους Prolog και επεξεργασία τους από σχεσιακή βάση δεδο µ ένων ». O Ανάπτυξη συστήματος δημιουργίας προτάσεων στην Ελληνική γλώσσα σαν απάντηση από την επεξεργασία ερωτήσεων σε σχεσιακή βάση δεδομένων. O Καναδά : O “Working Towards a Greek-English Cross-Language Question- Answering System” (URL)URL

25 Συστήματα ερωταποκρίσεων O ΕO Ε ρωτήσεις τ ων ο ποίων η α πάντηση ε ίναι α υστηρά καθορισ µ ένη (factual questions) O όO ό νο µ α π ροσώπου O όO ό νομα ο ργανισμού O χO χ ρονική έ κφραση O τO τ οποθεσία O πO π οσότητα O οO ο ρισμός O ΕO Ε ρωτήσεις γ νώμης (opinion questions) O E ρωτήσεις π ερίληψης (summary questions)

26 Συστήματα ερωταποκρίσεων

27  Σύστημα αναγνώρισης μερών του λόγου (POS tagger)  Σύστημα αναγνώρισης ονοματικών οντοτήτων (NER)

28 Ευχαριστώ ! anastasiay@cs.teicrete.gr http://www.linkedin.com/in/anastasiayannacopoulou

29 Βιβλιογραφία Emmanuel Roche. 1997. Parsing with finite state transducers. In E. Roche & Y. Schabes (eds), Finite-State Language Processing, Cambridge, Mass./London, The MIT Press, pp. 241-281.


Κατέβασμα ppt "Η αυτόματη επεξεργασία των φυσικών γλωσσών: Μέθοδοι και εφαρμογές Αναστασία Γιαννακοπούλου Δρ Υπολογιστικής Γλωσσολογίας Εργαστήριο ΤΝΤΛ Τομέα ΕΥ Γενικό."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google