Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Γλωσσική Τεχνολογία Μάθημα 11 ο Υπολογιστικές Τεχνικές Γλωσσικής Ανάλυσης Σοφία Στάμου Άκ.Έτος 2009-10.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Γλωσσική Τεχνολογία Μάθημα 11 ο Υπολογιστικές Τεχνικές Γλωσσικής Ανάλυσης Σοφία Στάμου Άκ.Έτος 2009-10."— Μεταγράφημα παρουσίασης:

1 Γλωσσική Τεχνολογία Μάθημα 11 ο Υπολογιστικές Τεχνικές Γλωσσικής Ανάλυσης Σοφία Στάμου Άκ.Έτος 2009-10

2 31/3/2015 Γλωσσική Τεχνολογία2 Επίπεδα Γλωσσικής Επεξεργασίας Αναγνώριση ορίων λέξεων Λεξικογραφία Συντακτική Ανάλυση Σημασιολογική Ανάλυση Πραγματολογική Ανάλυση Αναγνώριση πλάνων

3 31/3/2015 Γλωσσική Τεχνολογία3 Αναγνώριση ορίων λέξεων Αναγνώριση φωνημάτων σε συστήματα επεξεργασίας φωνής (ακουστικά μοντέλα) Ανίχνευση ορίων λέξεων σε κείμενο (γλωσσικά μοντέλα)

4 31/3/2015 Γλωσσική Τεχνολογία4 Μηχανική επεξεργασία γλώσσας Tokenization Διαχωρισμός προτάσεων Λίστες λέξεων Ο ελάχιστος γλωσσικός πόρος που απαιτείται για πλήθος εφαρμογών Ορθογραφικός έλεγχος, συλλαβισμός,...

5 31/3/2015 Γλωσσική Τεχνολογία5 Λίστες λέξεων Λεξικά που περιέχουν από 50.000 έως 150.000 λέξεις Πώς θα τα δημιουργήσουμε; Από την επεξεργασία σωμάτων κειμένων Πόσες λέξεις θα χρειαστούμε; 8.000 ρίζες λέξεων (μορφήματα) αρκούν για να επεξεργαστούμε το 95% των κειμένων Οι 15 πιο συνχά εμφανιζόμενες λέξεις παράγουν το 25% όλων των λέξεων Οι 100 πιο συχνά εμφανιζόμενες λέξεις παράγουν το 60% όλων των λέξεων

6 31/3/2015 Γλωσσική Τεχνολογία6 Λεξικά Αποτελούν συλλογή λέξεων καθεμιά από τις οποίες συνοδεύεται από πληροφορία για: Τη φωνητική τους μεταγραφή, αναγκαία για συστήματα αναγνώρισης φωνής Τη μορφοσυντακτική τους ετικέτα (PoS tag), αναγκαία για όλες τις εφαρμογές γλωσσικής τεχνολογίας

7 31/3/2015 Γλωσσική Τεχνολογία7 Κλιτική Μορφολογία Ρίζα + κατάληξη ή πρόθεμα ή επίθημα Το Μέρος του Λόγου παραμένει σταθερό Παραδείγματα: Deliver + s = delivers [τρίτο ενικό ενεστώτα] Deliver + ing = delivering [ μετοχή ενεστώτα] Deliver + ed = delivered [ αόριστος] Η ρίζα λέγεται και stem

8 31/3/2015 Γλωσσική Τεχνολογία8 Παραγωγική Μορφολογία Λέξη μιας γραμματικής κατηγορίας παράγει λέξεις άλλων γραμματικών κατηγοριών friend [ noun] + ly [suffix] = friendly [adjective] friendly [adjective] + ness [suffix] = friendliness [noun]

9 Συντακτική Ανάλυση Σε ένα κείμενο οι λέξεις δεν είναι οργανωμένες σαν μια σειρά μερών του λόγου, αντίθετα σχηματίζουν φράσεις. Συντακτικό είναι η μελέτη των κανόνων που διέπουν τη σειρά των λέξεων και τη δομή των φράσεων. Η βασική ιδέα είναι ότι συγκεκριμένες ομάδες λέξεων συμπεριφέρονται σαν συστατικά (constituents). 31/3/2015 Γλωσσική Τεχνολογία9

10 Συντακτική Ανάλυση 31/3/2015 Γλωσσική Τεχνολογία10 Αναγνωρίζουμε τα constituents από τη δυνατότητά τους να εμφανίζονται σε διαφορετικές θέσεις, διατηρώντας ενιαίες συντακτικές ιδιότητες. πχ.ονοματικές φράσεις, ρηματικές φράσεις, εμπρόθετοι προσδιορισμοί κλπ.

11 31/3/2015 Γλωσσική Τεχνολογία11 Συντακτική Ασάφεια The astronomer saw the star with a telescope The astronomer married the star with a history Visiting uncles can be a nuisance I forgot how good beer tastes

12 31/3/2015 Γλωσσική Τεχνολογία12 Συντακτική Ασάφεια The man saw the boy with the telescope

13 31/3/2015 Γλωσσική Τεχνολογία13 Συντακτική Ασάφεια Η γραμματική καταγράφει τις πιθανές συντακτικές δομές μιας γλώσσας ως ένα πεπερασμένο σύνολο κανόνων Οι κανόνες υπαγορεύουν πώς τα σύμβολα της γλώσσας μπορούν να συνδυαστούν για να δημιουργήσουν σωστές προτάσεις S  NP VP NP  Det N VP  V NP Ο συντακτικός αναλυτής χρησιμοποιεί τους γραμματικούς κανόνες για να αναλύσει τη δομή των προτάσεων

14 31/3/2015 Γλωσσική Τεχνολογία14 Εφαρμογές συντακτικής ανάλυσης Η συντακτική ανάλυση είναι αναγκαία για: Συντακτικό έλεγχο κειμένου Μηχανική μετάφραση Question –answering systems Εξαγωγή πληροφορίας από κείμενο

15 Σημασιολογική Ανάλυση Ανάλυση του νοήματος λέξεων και λεξικών κατασκευών Χωρίζεται σε δύο μέρη: Ανάλυση σημασιολογίας μεμονωμένων λέξεων Ανάλυση του πως συνδυάζονται τα νοήματα των λέξεων σε μεγαλύτερες μονάδες Δημοφιλέστερη προσέγγιση: Εκμετάλλευση των σχέσεων μεταξύ εννοιών Συστηματικές Μη συστηματικές 31/3/2015 Γλωσσική Τεχνολογία15

16 Σχέσεις Λέξεων - Συστηματικές Οργάνωση λέξεων σε ιεραρχίες με χρήση των σημασιολογικών σχέσεων: Συνωνυμία αυτοκίνητο, αμάξι Υπερωνυμία/Υπωνυμία αυτοκίνητο, όχημα Μερωνυμία/Ολωνυμία αυτοκίνητο, τροχός Αντίθετα γρήγορος, αργός 31/3/2015 Γλωσσική Τεχνολογία16

17 Σχέσεις Λέξεων - Μη συστηματικές Λέξεις που τείνουν να συνεμφανίζονται στα ίδια περιβάλλοντα χωρίς να έχουν σχέση μεταξύ τους οδηγώ, αυτοκίνητο Collocations (συνεμφανίσεις) εκφράσεις που αποτελούνται από δύο ή περισσότερες λέξεις που αντιστοιχούν σε συμβασιοποιημένο τρόπο έκφρασης κάποιου νοήματος παιδική χαρά δυνατό τσάι αλλά όχι ισχυρό τσάι τραβάω ζόρι αλλά όχι τραβάω πρόβλημα 31/3/2015 Γλωσσική Τεχνολογία17

18 Collocations Αναγνώριση: στατιστικά με χρήση corpora. Συχνότητα συνεμφάνισης Αναγνώριση ακουλουθιών δύο ή περισσότερων λέξεων που παρουσιάζουν μεγάλη συχνότητα εμφάνισης. Χρήσιμο για «σταθερές» φράσεις (πχ παιδική χαρά) Τυπική Απόκλιση Χρήση της μέσης απόστασης μεταξύ των λέξεων Χρήσιμο για πιο ευέλικτες φράσεις (πχ τραβάω πολύ μεγάλο ζόρι) Πιθανοτικές Μέθοδοι Μεγαλύτερη ακρίβεια, αποκλείουν «τυχαίες» συνεμφανίσεις 31/3/2015 Γλωσσική Τεχνολογία18

19 31/3/2015 Γλωσσική Τεχνολογία19 Λεξική Ασάφεια The astronomer saw the star The astronomer married the star King Kong sat on the bank

20 31/3/2015 Γλωσσική Τεχνολογία20 Λεξική Ασάφεια Αρχικά η επίλυση της λεξικής ασάφειας στηριζόταν σε κανόνες μερικής κατανόησης των συμφραζομένων Επιλεκτικοί περιορισμοί στο λεξικό: marry [agent=animate, object=animate] star 1 [+animate] % famous or celebrated person star 2 [-animate] % celestial object Σύγχρονες τεχνικές στηρίζονται σε στατιστικά δεδομένα από σώματα κειμένων

21 31/3/2015 Γλωσσική Τεχνολογία21 Επίλυση αναφοράς The counselors refused the women a permit because they feared revolution The counselors refused the women a permit because they advocated revolution

22 31/3/2015 Γλωσσική Τεχνολογία22 Επίλυση αναφοράς Η επίλυση αναφοράς είναι άρρηκτα συνδεδεμένη με τη σημασιολογική ερμηνεία Απαιτεί γνώση της γλώσσας, της σύνταξης, της σημασιολογίας και πραγματολογίας Macy swore at Sabine then she insulted her Jim hurt him Andy put the cake on the table and ate it Sue went to Mary’s house and she cooked her dinner

23 Πραγματολογική Ανάλυση Η μελέτη του πως η γνώση για τον κόσμο και οι λεκτικές συμβάσεις αλληλεπιδρούν με το κυριολεκτικό νόημα. πχ Αγόρασα ένα αυτοκίνητο. Το ραδιόφωνο ήταν χαλασμένο. αντί Αγόρασα ένα αυτοκίνητο. Είχε εγκατεστημένο ραδιόφωνο. Ήταν χαλασμένο. Οι αναφορικές σχέσεις υπάγονται στην πραγματολογική ανάλυση καθώς προϋποθέτουν γνώση του κόσμου. 31/3/2015 Γλωσσική Τεχνολογία23

24 Πραγματολογική Ανάλυση Έστω το κείμενο Στις 29 Αυγούστου του 2005 η πολιτεία της Λουϊζιάνα χτυπήθηκε από τον τυφώνα Κατρίνα. Οι νεκροί από την καταστροφή ανήλθαν σε χιλιάδες. Θέτουμε την ερώτηση: Ποιά καταστροφή είχε χιλιάδες νεκρούς στη Λουϊζιάνα; Για να απαντήσουμε πρέπει να αναγνωρίσουμε ότι: Ο φράσεις «τυφώνας Κατρίνα» και «καταστροφή» αναφέρονται στην ίδια οντότητα. 31/3/2015 Γλωσσική Τεχνολογία24

25 Αναγνώριση Πλάνων Μεθοδολογία αναγνώρισης του στόχου ή του πλάνου χρησιμοποιώντας: Χρονική σειρά ενεργειών Δεδομένα κειμένου Παρατηρήσεις Οργάνωση παρατηρήσεων με χρήση κανόνων σε εξήγηση Συνδυασμός των εξηγήσεων για αναγνώριση του πλάνου. 31/3/2015 Γλωσσική Τεχνολογία25

26 Αναγνώριση Πλάνων - Παράδειγμα Ο χρήστης ψάχνει «φορητός σκληρός δίσκος» στη μηχανή αναζήτησης. Βλέπει κάποιες σελίδες. =>Ενδιαφέρεται για φορητούς σκληρούς δίσκους Ψάχνει «πλαίσιο» στη μηχανή Μπαίνει στη σελίδα του Πλαισίου =>Ενδιαφέρεται για online αγορά προϊόντων πληροφορικής Ενδιαφέρεται για φορητούς σκληρούς δίσκους Ενδιαφέρεται για online αγορά προϊόντων πληροφορικής =>Σχεδιάζει να αγοράσει φορητό σκληρό δίσκο 31/3/2015 Γλωσσική Τεχνολογία26

27 31/3/2015 Γλωσσική Τεχνολογία27..... http://www.dblab.upatras.gr/gr/GlwssikiTexnologia.html


Κατέβασμα ppt "Γλωσσική Τεχνολογία Μάθημα 11 ο Υπολογιστικές Τεχνικές Γλωσσικής Ανάλυσης Σοφία Στάμου Άκ.Έτος 2009-10."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google