Μάθημα 11ο Υπολογιστικές Τεχνικές Γλωσσικής Ανάλυσης Γλωσσική Τεχνολογία Μάθημα 11ο Υπολογιστικές Τεχνικές Γλωσσικής Ανάλυσης Σοφία Στάμου Άκ.Έτος 2009-10
Επίπεδα Γλωσσικής Επεξεργασίας Αναγνώριση ορίων λέξεων Λεξικογραφία Συντακτική Ανάλυση Σημασιολογική Ανάλυση Πραγματολογική Ανάλυση Αναγνώριση πλάνων 9/4/2017 Γλωσσική Τεχνολογία
Αναγνώριση ορίων λέξεων Αναγνώριση φωνημάτων σε συστήματα επεξεργασίας φωνής (ακουστικά μοντέλα) Ανίχνευση ορίων λέξεων σε κείμενο (γλωσσικά μοντέλα) 9/4/2017 Γλωσσική Τεχνολογία
Μηχανική επεξεργασία γλώσσας Tokenization Διαχωρισμός προτάσεων Λίστες λέξεων Ο ελάχιστος γλωσσικός πόρος που απαιτείται για πλήθος εφαρμογών Ορθογραφικός έλεγχος, συλλαβισμός, ... 9/4/2017 Γλωσσική Τεχνολογία
Λίστες λέξεων Λεξικά που περιέχουν από 50.000 έως 150.000 λέξεις Πώς θα τα δημιουργήσουμε; Από την επεξεργασία σωμάτων κειμένων Πόσες λέξεις θα χρειαστούμε; 8.000 ρίζες λέξεων (μορφήματα) αρκούν για να επεξεργαστούμε το 95% των κειμένων Οι 15 πιο συνχά εμφανιζόμενες λέξεις παράγουν το 25% όλων των λέξεων Οι 100 πιο συχνά εμφανιζόμενες λέξεις παράγουν το 60% όλων των λέξεων 9/4/2017 Γλωσσική Τεχνολογία
Λεξικά Αποτελούν συλλογή λέξεων καθεμιά από τις οποίες συνοδεύεται από πληροφορία για: Τη φωνητική τους μεταγραφή, αναγκαία για συστήματα αναγνώρισης φωνής Τη μορφοσυντακτική τους ετικέτα (PoS tag), αναγκαία για όλες τις εφαρμογές γλωσσικής τεχνολογίας 9/4/2017 Γλωσσική Τεχνολογία
Κλιτική Μορφολογία Ρίζα + κατάληξη ή πρόθεμα ή επίθημα Το Μέρος του Λόγου παραμένει σταθερό Παραδείγματα: Deliver + s = delivers [τρίτο ενικό ενεστώτα] Deliver + ing = delivering [ μετοχή ενεστώτα] Deliver + ed = delivered [ αόριστος] Η ρίζα λέγεται και stem 9/4/2017 Γλωσσική Τεχνολογία
Παραγωγική Μορφολογία Λέξη μιας γραμματικής κατηγορίας παράγει λέξεις άλλων γραμματικών κατηγοριών friend [ noun] + ly [suffix] = friendly [adjective] friendly [adjective] + ness [suffix] = friendliness [noun] 9/4/2017 Γλωσσική Τεχνολογία
Συντακτική Ανάλυση Σε ένα κείμενο οι λέξεις δεν είναι οργανωμένες σαν μια σειρά μερών του λόγου, αντίθετα σχηματίζουν φράσεις. Συντακτικό είναι η μελέτη των κανόνων που διέπουν τη σειρά των λέξεων και τη δομή των φράσεων. Η βασική ιδέα είναι ότι συγκεκριμένες ομάδες λέξεων συμπεριφέρονται σαν συστατικά (constituents). 9/4/2017 Γλωσσική Τεχνολογία
Συντακτική Ανάλυση Αναγνωρίζουμε τα constituents από τη δυνατότητά τους να εμφανίζονται σε διαφορετικές θέσεις, διατηρώντας ενιαίες συντακτικές ιδιότητες. πχ.ονοματικές φράσεις, ρηματικές φράσεις, εμπρόθετοι προσδιορισμοί κλπ. 9/4/2017 Γλωσσική Τεχνολογία
Συντακτική Ασάφεια The astronomer saw the star with a telescope The astronomer married the star with a history Visiting uncles can be a nuisance I forgot how good beer tastes 9/4/2017 Γλωσσική Τεχνολογία
Συντακτική Ασάφεια The man saw the boy with the telescope 9/4/2017 Γλωσσική Τεχνολογία
Συντακτική Ασάφεια Η γραμματική καταγράφει τις πιθανές συντακτικές δομές μιας γλώσσας ως ένα πεπερασμένο σύνολο κανόνων Οι κανόνες υπαγορεύουν πώς τα σύμβολα της γλώσσας μπορούν να συνδυαστούν για να δημιουργήσουν σωστές προτάσεις S NP VP NP Det N VP V NP Ο συντακτικός αναλυτής χρησιμοποιεί τους γραμματικούς κανόνες για να αναλύσει τη δομή των προτάσεων 9/4/2017 Γλωσσική Τεχνολογία
Εφαρμογές συντακτικής ανάλυσης Η συντακτική ανάλυση είναι αναγκαία για: Συντακτικό έλεγχο κειμένου Μηχανική μετάφραση Question –answering systems Εξαγωγή πληροφορίας από κείμενο 9/4/2017 Γλωσσική Τεχνολογία
Σημασιολογική Ανάλυση Ανάλυση του νοήματος λέξεων και λεξικών κατασκευών Χωρίζεται σε δύο μέρη: Ανάλυση σημασιολογίας μεμονωμένων λέξεων Ανάλυση του πως συνδυάζονται τα νοήματα των λέξεων σε μεγαλύτερες μονάδες Δημοφιλέστερη προσέγγιση: Εκμετάλλευση των σχέσεων μεταξύ εννοιών Συστηματικές Μη συστηματικές 9/4/2017 Γλωσσική Τεχνολογία
Σχέσεις Λέξεων - Συστηματικές Οργάνωση λέξεων σε ιεραρχίες με χρήση των σημασιολογικών σχέσεων: Συνωνυμία αυτοκίνητο, αμάξι Υπερωνυμία/Υπωνυμία αυτοκίνητο, όχημα Μερωνυμία/Ολωνυμία αυτοκίνητο, τροχός Αντίθετα γρήγορος, αργός 9/4/2017 Γλωσσική Τεχνολογία
Σχέσεις Λέξεων - Μη συστηματικές Λέξεις που τείνουν να συνεμφανίζονται στα ίδια περιβάλλοντα χωρίς να έχουν σχέση μεταξύ τους οδηγώ, αυτοκίνητο Collocations (συνεμφανίσεις) εκφράσεις που αποτελούνται από δύο ή περισσότερες λέξεις που αντιστοιχούν σε συμβασιοποιημένο τρόπο έκφρασης κάποιου νοήματος παιδική χαρά δυνατό τσάι αλλά όχι ισχυρό τσάι τραβάω ζόρι αλλά όχι τραβάω πρόβλημα 9/4/2017 Γλωσσική Τεχνολογία
Collocations Αναγνώριση: στατιστικά με χρήση corpora. Συχνότητα συνεμφάνισης Αναγνώριση ακουλουθιών δύο ή περισσότερων λέξεων που παρουσιάζουν μεγάλη συχνότητα εμφάνισης. Χρήσιμο για «σταθερές» φράσεις (πχ παιδική χαρά) Τυπική Απόκλιση Χρήση της μέσης απόστασης μεταξύ των λέξεων Χρήσιμο για πιο ευέλικτες φράσεις (πχ τραβάω πολύ μεγάλο ζόρι) Πιθανοτικές Μέθοδοι Μεγαλύτερη ακρίβεια, αποκλείουν «τυχαίες» συνεμφανίσεις 9/4/2017 Γλωσσική Τεχνολογία
Λεξική Ασάφεια The astronomer saw the star The astronomer married the star King Kong sat on the bank 9/4/2017 Γλωσσική Τεχνολογία
Λεξική Ασάφεια Αρχικά η επίλυση της λεξικής ασάφειας στηριζόταν σε κανόνες μερικής κατανόησης των συμφραζομένων Επιλεκτικοί περιορισμοί στο λεξικό: marry [agent=animate, object=animate] star1 [+animate] % famous or celebrated person star2 [-animate] % celestial object Σύγχρονες τεχνικές στηρίζονται σε στατιστικά δεδομένα από σώματα κειμένων 9/4/2017 Γλωσσική Τεχνολογία
Επίλυση αναφοράς The counselors refused the women a permit because they feared revolution The counselors refused the women a permit because they advocated revolution 9/4/2017 Γλωσσική Τεχνολογία
Επίλυση αναφοράς Η επίλυση αναφοράς είναι άρρηκτα συνδεδεμένη με τη σημασιολογική ερμηνεία Απαιτεί γνώση της γλώσσας, της σύνταξης, της σημασιολογίας και πραγματολογίας Macy swore at Sabine then she insulted her Jim hurt him Andy put the cake on the table and ate it Sue went to Mary’s house and she cooked her dinner 9/4/2017 Γλωσσική Τεχνολογία
Πραγματολογική Ανάλυση Η μελέτη του πως η γνώση για τον κόσμο και οι λεκτικές συμβάσεις αλληλεπιδρούν με το κυριολεκτικό νόημα. πχ Αγόρασα ένα αυτοκίνητο. Το ραδιόφωνο ήταν χαλασμένο. αντί Αγόρασα ένα αυτοκίνητο. Είχε εγκατεστημένο ραδιόφωνο. Ήταν χαλασμένο. Οι αναφορικές σχέσεις υπάγονται στην πραγματολογική ανάλυση καθώς προϋποθέτουν γνώση του κόσμου. 9/4/2017 Γλωσσική Τεχνολογία
Πραγματολογική Ανάλυση Έστω το κείμενο Στις 29 Αυγούστου του 2005 η πολιτεία της Λουϊζιάνα χτυπήθηκε από τον τυφώνα Κατρίνα. Οι νεκροί από την καταστροφή ανήλθαν σε χιλιάδες. Θέτουμε την ερώτηση: Ποιά καταστροφή είχε χιλιάδες νεκρούς στη Λουϊζιάνα; Για να απαντήσουμε πρέπει να αναγνωρίσουμε ότι: Ο φράσεις «τυφώνας Κατρίνα» και «καταστροφή» αναφέρονται στην ίδια οντότητα. 9/4/2017 Γλωσσική Τεχνολογία
Αναγνώριση Πλάνων Μεθοδολογία αναγνώρισης του στόχου ή του πλάνου χρησιμοποιώντας: Χρονική σειρά ενεργειών Δεδομένα κειμένου Παρατηρήσεις Οργάνωση παρατηρήσεων με χρήση κανόνων σε εξήγηση Συνδυασμός των εξηγήσεων για αναγνώριση του πλάνου. 9/4/2017 Γλωσσική Τεχνολογία
Αναγνώριση Πλάνων - Παράδειγμα Ο χρήστης ψάχνει «φορητός σκληρός δίσκος» στη μηχανή αναζήτησης. Βλέπει κάποιες σελίδες. =>Ενδιαφέρεται για φορητούς σκληρούς δίσκους Ψάχνει «πλαίσιο» στη μηχανή Μπαίνει στη σελίδα του Πλαισίου =>Ενδιαφέρεται για online αγορά προϊόντων πληροφορικής Ενδιαφέρεται για φορητούς σκληρούς δίσκους Ενδιαφέρεται για online αγορά προϊόντων πληροφορικής =>Σχεδιάζει να αγοράσει φορητό σκληρό δίσκο 9/4/2017 Γλωσσική Τεχνολογία
..... http://www.dblab.upatras.gr/gr/GlwssikiTexnologia.html 9/4/2017 Γλωσσική Τεχνολογία