ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 – 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 – 2013 Μάθημα 5 ο : Σημασιολογική ανάλυση
<> Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση1 Οι διαφάνειες αυτού του μαθήματος βασίζονται στο κεφάλαιο 17 του βιβλίου: «Speech and Language Processing» των D. Jurafsky και J.H. Martin, 2η έκδοση, Pearson, 2009 Το βιβλίο δεν απαιτείται για το μάθημα αυτό.
<> Σημασιολογία • Ορισμός: Είναι η επιστημονική μελέτη του γλωσσικού νοήματος • Τι είναι «σημασία» «έννοια» και «νόημα» • Αγγλικά: What is the meaning of the sentence X • Ελληνικά: Ποιο είναι το νόημα / η έννοια / η σημασία της πρότασης Χ Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση2
<> Σημασία (1) • Μέχρι στιγμής, έχουμε επικεντρωθεί στην δομή της γλώσσας, και όχι στο τι σημαίνουν τα στοιχεία της • Είδαμε ότι οι λέξεις μπορεί να έχουν διαφορετική σημασία, ανάλογα με το περιβάλλον μέσα στο οποίο έχουν χρησιμοποιηθεί Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση3
<> Σημασία (2) • Καθημερινές εργασίες που χρειάζονται σημασιολογική ανάλυση: – Απάντηση ερωτήματος σε διαγώνισμα • Γνώση θέματος, και πώς συνήθως απαντώνται – Παραγγελία φαγητού σε εστιατόριο διαβάζοντας τον κατάλογο, εκτέλεση συνταγής • Γνώση σχετική με φαγητό, την προετοιμασία, εστιατόρια,… – Αναγνώριση του ότι έχεις προσβληθεί – Εκμάθηση χρήσης λογισμικού διαβάζοντας το εγχειρίδιο • Γνώση σχετική με Η/Υ, εφαρμογές, GUI, … Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση4
<> Σημασιολογική ανάλυση • Η μετατροπή μιας πρότασης φυσική γλώσσας σε μια σημασιολογική αναπαράσταση (ΣΑ) – Η οποία αποτελείται από «πράγματα» που χρησιμοποιούνται για την αναπαράσταση καθημερινής, συνηθισμένης γνώσης του κόσμου Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση5
<> I have a car Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση6 Πρωτοβάθμια Κατηγορηματική Λογική (First-Order Logic) Σημασιολογικό Δίκτυο (Semantic Network) Διάγραμμα Εννοιολογικής Εξάρτησης (Conceptual Dependency Diagram) Αναπαράσταση με Πλαίσια (Frame-based Representation)
<> Σημασιολογικές αναπαραστάσεις (1) • Συνδέουν γλωσσικές μορφές με γνώση για τον κόσμο • Διττή αναπαράσταση: • Σημασίας για την πρόταση • Κατάστασης κάποιου κόσμου • Τι είναι; – Οτιδήποτε εξυπηρετεί τους σκοπούς ενός προγράμματος που εκτελεί σημασιολογική ανάλυση Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση7
<> Σημασιολογικές αναπαραστάσεις (2) • Θα καλύψουμε: – Ποια είναι η σημασία μιας λέξης – Πώς μπορούμε να αναπαραστήσουμε την σημασία – Τι φορμαλισμοί μπορούν να χρησιμοποιηθούν • Γλώσσες αναπαράστασης σημασίας Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση8
<> Αναπαράσταση σημασίας • Επιθυμητά στοιχεία: – Επαληθευσιμότητα (Verifiability) – Σαφής Αναπαράσταση (Unambiguous Representation) – Κανονική Μορφή (Canonical Form) – Συμπερασμός (Inference) – Εκφραστικότητα (Expressiveness) Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση9
<> Επαληθευσιμότητα (1) • Η πλέον στοιχειώδης ιδιότητα: – Ποια η σχέση μεταξύ της έννοιας της πρότασης, και του κόσμου, όπως τον ξέρουμε; • Πρέπει να μπορούμε να καθορίσουμε το αληθές της αναπαράστασης • Ένα σύστημα πρέπει να μπορεί να συγκρίνει, ταιριάζει: – Την σημασιολογική αναπαράσταση με μια βάση γνώσης (ΒΓ) • Η οποία περιέχει πληροφορία για τον κόσμο Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση10
<> Επαληθευσιμότητα (2) • Does Maharani serve vegetarian food? • Αν υποθέσουμε ότι η πρόταση σημαίνει: Maharani serves vegetarian food • Μπορούμε να έχουμε την αναπαράσταση: Serves(Maharani, vegetarian food) • Η οποία πρέπει να συγκριθεί με την βάση γνώσης – Η οποία περιέχει γεγονότα για εστιατόρια – Αν βρεθεί ταίριασμα «Ναι», αλλιώς «Όχι» • Επαληθευσιμότητα: ικανότητα σύγκρισης μιας αναπαράστασης με μια βάση γνώσης για κάποιο κόσμο Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση11
<> Σαφής αναπαράσταση (1) • Μια πρόταση μπορεί να έχει διαφορετικές σημασιολογικές αναπαραστάσεις • Κάθε σημασιολογική αναπαράσταση περιγράφει μια σημασία • Ανεξάρτητα από την αμφισημία της εισόδου, η τελική αναπαράσταση της σημασίας δεν πρέπει να είναι αμφίσημη – Ενδιάμεσες αναπαραστάσεις μπορεί να φέρουν αμφισημία “I wanna eat someplace that’s close to ICSI.” Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση12
<> Σαφής αναπαράσταση (2) • Σχετική έννοια είναι και η ασάφεια (vagueness) – Η σημασιολογική αναπαράσταση δεν προσδιορίζει επακριβώς το πραγματικό γεγονός «Θέλω να φάω Ιταλικό φαγητό» • Δεν προκύπτουν πολλαπλές αναπαραστάσεις λόγω ασάφειας – Όπως στην περίπτωση της αμφισημίας • Η ασάφεια μπορεί να είναι αποδεκτή για κάποιες εφαρμογές – Θεμιτή η ασάφεια στην σημασιολογική αναπαράσταση Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση13
<> Ασάφεια ή αμφισημία • I went to the bank. – Bank: τράπεζα, όχθη • Αυτός είναι ψηλός. • Είναι ζεστό. Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση14
<> Κανονική μορφή (1) • Πολλαπλές προτάσεις εισόδου μπορεί να έχουν την ίδια σημασία – Does Maharani have vegetarian dishes? – Do they have vegetarian food at Maharani? – Are vegetarian dishes served at Maharani? – Does Maharani serve vegetarian fare? • Εναλλακτική: – Τέσσερις σημασιολογικές αναπαραστάσεις – Αποθήκευση όλων των δυνατών αναπαραστάσεων στην βάση γνώσης (ΒΓ) Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση15
<> Κανονική μορφή (2) • Λύση: ανάθεση σε όλες τις εισόδους με την ίδια σημασία, της ίδιας σημασιολογ. Αναπαράστασης • Είναι εύκολο; – Όχι! – vegetarian fare, vegetarian dishes, vegetarian food • Σημαίνουν το ίδιο πράγμα σε αυτό το περιβάλλον χρήσης – Have, serve • Είναι ισοδύναμα, άσχετα με την διαφορετική σύνταξη • Τι μπορούμε να κάνουμε; Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση16
<> Παραγωγή κανονικής μορφής • Αξιοποίηση θησαυρών για την συστηματική εξαγωγή ΣΑ – Π.χ. έννοιες λέξεων (word senses) • Food ___ • Dish ___ | ___ Υπάρχει κάποια κοινή έννοια; • Fare ___ | ___ | … • Αξιοποίηση συντακτικών δομών για την συστηματική εξαγωγή ΣΑ – [S [NP Maharani] serves [NP vegetarian dishes]] – [S [NP vegetarian dishes] are served at [NP Maharani]] Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση17
<> Συμπερασμός (1) • Ένα πιο σύνθετο ερώτημα: – Can vegetarians eat at Maharani? – Αντί: Does Maharani serve vegetarian food? • Γιατί έχουν την ίδια απάντηση; – Μπορούμε να χρησιμοποιήσουμε την ίδια ΣΑ; (Όχι) – Δεν σημαίνουν το ίδιο πράγμα! – Απαντάμε το ίδιο επειδή: • Ξέρουμε τι τρώνε οι χορτοφάγοι • Ξέρουμε τι σερβίρουν τα χορτοφαγικά εστιατόρια • Κάνουμε την σύνδεση Συμπερασμός Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση18
<> Συμπερασμός (2) • Εξαγωγή συμπερασμάτων για την αλήθεια κατηγορημάτων (propositions) που δεν είναι ρητά εκφρασμένα στην ΓΒ – Δεν περιέχονται αυτούσια στην ΓΒ serve(Maharani, VegetarianFood) CanEat(Vegetarians, AtMaharani) Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση19
<> Εκφραστικότητα • Είναι επιθυμητό μια ΣΑ να μπορεί να περιγράψει μια ευρεία γκάμα από γεγονότα για τον κόσμο – Μια ΣΑ δεν πρέπει να θέτει σημαντικούς περιορισμούς – Ιδανικά θέλουμε μια ΣΑ ικανή να αναπαραστήσει οποιαδήποτε «λογική» πρόταση • Δεν είναι εύκολο να βρεθεί μια τέτοια ΣΑ – Υπάρχουν ωστόσο ΣΑ που είναι αρκετά εκφραστικές, επιτρέποντας την μοντελοποίηση αρκετών πραγμάτων • Πρωτοβάθμια Κατηγορηματική Λογική (First-Order Logic) Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση20
<> Σημασιολογική δομή γλώσσας (Meaning Structure of Language) • Αφορά τρόπους με τους οποίους η φυσική γλώσσα μεταφέρει σημασία • Οι φυσικές γλώσσες – Χρησιμοποιούν δομές κατηγόρημα-όρισμα (predicate – argument structure) – Χρησιμοποιούν μεταβλητές – Χρησιμοποιούν ποσοδείκτες (quantifiers) – Χρησιμοποιούν συνθετική σημασιολογία (compositional semantics) • Η σημασία κάθε έκφρασης ΦΓ υπολογίζεται ως συνάρτηση των σημασιών των επιμέρους μερών της Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση21
<> Συνθετικότητα (compositionality) • Η αρχή της συνθετικότητας είναι σημαντική στην σημασιολογία: – Η σημασία μιας έκφρασης είναι αυστηρά μια συνάρτηση των σημασιών των επιμέρους μερών της • Επιτρέπει την δημιουργία ΣΑ με αυξητικό τρόπο (incrementally) • Ο κατηγορικός λογισμός (predicate logic) δεν τηρεί αυτή την αρχή Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση22
<> Δομή κατηγόρημα-όρισμα (1) • Αναπαριστά έννοιες (concepts) και σχέσεις μεταξύ τους • Κάποιες λέξεις δρουν σαν ορίσματα, και κάποιες σαν κατηγορήματα: – Ουσιαστικά: έννοιες ή ορίσματα – κόκκινη(μπάλα) – Επίθετα, επιρρήματα, ρήματα: κατηγορήματα – κόκκινη(μπάλα) Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση23
<> Δομή κατηγόρημα-όρισμα (2) • Τα ρήματα υπαγορεύουν περιορισμούς: – Αριθμό, γένος, πτώση – Γραμματικές κατηγορίες – Θέση των φράσεων που τα συνοδεύουν • Subcategorisation frames Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση24
<> Δομή κατηγόρημα-όρισμα (3) • Το κατηγόρημα έχει δύο ορίσματα • Και τα δύο ορίσματα είναι τύπου ΟΦ (NP) • Το πρώτο όρισμα είναι πριν το ρήμα, και έχει τον ρόλο υποκειμένου • Το δεύτερο όρισμα είναι μετά το ρήμα, και έχει ρόλο του (άμεσου) αντικειμένου Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση25
<> Σημασιολογικοί ρόλοι • Σημασιολογικοί/θεματικοί ρόλοι (semantic/thematic roles) : συμμετέχουν σε ένα γεγονός • Ο υποκινητής μιας ενέργειας, ο αποδέκτης μιας ενέργειας, το αντικείμενο που μεταφέρει μια ενέργεια, κλπ. • Σημασιολογικοί περιορισμοί (selectional restrictions) : περιορίζουν τους τύπους των ορισμάτων • Ο τρομοκράτης δολοφόνησε τον βουλευτή • *Η αράχνη δολοφόνησε την μύγα • Subcategorisation ρημάτων: Επιτρέπουν την αντιστοίχιση ορισμάτων από την επιφανειακή δομή με τον συντακτικό τους ρόλο • Οι προθέσεις συμπεριφέρονται ανάλογα Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση26
<> Ένα μοντέλο για τον κόσμο των εστιατορίων Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση27 Domain Matthew, Franco, Katie and Caroline Frasca, Med, Rio ItalianCuisine, MexicanCuisne, EclecticCuisine Noisy Frasca, Med and Rio are noisy Likes Matthew likes the Med Katie likes the Med and Rio Franco likes Frasca Caroline likes the Med and Rio Serves Med serves eclectic Rio serves Mexican Frasca serves Italian Αντικείμενα: στοιχεία του κόσμου Ιδιότητες: σύνολα από στοιχεία του κόσμου Σχέσεις: σύνολα από πλειάδες από στοιχεία του κόσμου
<> Πρωτοβάθμιος Κατηγορηματικός Λογισμός (1) • First-Order Predicate Calculus: – Παρέχει στέρεα υπολογιστική βάση για επαληθευσιμότητα, συμπερασμό και εκφραστικότητα • Επιτρέπει τον προσδιορισμό της αλήθειας/ψεύδους ενός κατηγορήματος • Επιτρέπει την συνθετικότητα της σημασίας • Επιτρέπει την απάντηση ερωτημάτων (μέσω μεταβλητών) • Επιτρέπει συμπερασμό Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση28
<> Πρωτοβάθμιος Κατηγορηματικός Λογισμός (2) Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση29
<> ΠΚΛ: Σύνταξη Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση30
<> ΠΚΛ: Σημασιολογία • Εκφράσεις σε ΠΚΛ μπορούν να σχετιστούν με τις τιμές Αληθές (True) ή Ψευδές (False) Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση31
<> Μεταβλητές και ποσοδείκτες Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση32
<> Παραδείγματα Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση33
<> Γιατί χρειαζόμαστε μεταβλητές; • Προτάσεις με το ρήμα “eat” – I ate. – I ate a turkey sandwich. – I ate a turkey sandwich at my desk. – I ate at my desk. – I ate lunch. – I ate a turkey sandwich for lunch. – I ate a turkey sandwich for lunch at my desk. • Επτά διαφορετικές αναπαραστάσεις: – Eating 1 (Speaker) – Eating 2 (Speaker, TurkeySandwich) – Eating 3 (Speaker, TurkeySandwich, Desk) – Eating 4 (Speaker, Desk) – Eating 5 (Speaker, Lunch) – Eating 6 (Speaker, TurkeySandwich, Lunch) – Eating 7 (Speaker, TurkeySandwich, Lunch, Desk) Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση34
<> Λύση με μεταβλητές • Eating(v,w,x,y) • Τα παραδείγματα πλέον γίνονται: – ( w,x,y) Eating(Speaker,w,x,y) – ( x,y) Eating(Speaker,TurkeySandwich,x,y) – ( x) Eating(Speaker,TurkeySandwich,x,Desk) – ( w,x) Eating(Speaker,w,x,Desk) – ( w,y) Eating(Speaker,w,Lunch,y) – ( y) Eating(Speaker,TurkeySandwich,Lunch,y) – Eating(Speaker,TurkeySandwich,Lunch,Desk) Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση35
<> Συμπερασμός (1) Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση36
<> Συμπερασμός (2) Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση37
<> Σημειογραφία λ Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση38
<> Σύνταξη και Σημειολογία • Δύο τρόποι συνδυασμού μεταξύ συντακτικής ανάλυσης και σημασιολογικής ανάλυσης 1.Οι δύο αναλύσεις γίνονται ταυτόχρονα, εμπλουτίζοντας την γραμματική με σημασιολογία 2.Η συντακτική ανάλυση πραγματοποιείται ανεξάρτητα, και με βάση το συντακτικό δέντρο δημιουργείται η σημασιολογική ερμηνεία Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση39
<> Σημασιολογία απλών προτάσεων Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση40
<> Υπολογισμός ΣΑ Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση41 Ουσιαστικά μεταφράζουμε από μια φυσική σε μια τεχνητή γλώσσα, με αυστηρά ορισμένη σημασιολογία Αναγωγή λ
<> Σημασιολογικές προσαρτήσεις Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση42
<> Σημασιολογικές σχέσεις λέξεων • Ομώνυμα: ίδια γραφή, διαφορετικές σημασίες – Bank, γράμμα, άπειρος • Συνώνυμα: διαφορετικές λέξεις, με περίπου την ίδια σημασία – Αυτοκίνητο – αμάξι, big – large • Υπερώνυμο – υπώνυμο: ευρύτερη – στενότερη έννοια – Όχημα – αυτοκίνητο, θηλαστικό – άνθρωπος • Αντίθετα: αντίθετη έννοια – Μεγάλος – μικρός Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση43
<> Wordnet • Το δημοφιλέστερο ιεραρχικά οργανωμένο λεξικό της Αγγλικής ( • Κάθε έννοια παριστάνεται από ένα σύνολο συνωνύμων (synset) που μπορούν να έχουν αυτή την έννοια • Ιεραρχίες υπερωνύμων-υπωνύμων ανά μέρος του λόγου (ουσιαστικά, επίθετα, ρήματα, επιρρήματα) • Παρέχει και άλλες σχέσεις – Π.χ. μερώνυμα (το «παράθυρο» μέρος του «σπιτιού») Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση44
<> Αποσαφήνιση εννοιών λέξεων • Επιλογή της σωστής έννοιας μιας λέξης σε ένα κείμενο (word sense disambiguation – WSD) – Χρήσιμο και σε άλλες εφαρμογές – Επιλογή από τις δυνατές έννοιες μιας λέξης (Wordnet), ή κατασκευή των δυνατών εννοιών μιας λέξης (sense induction) – Δημοφιλής η χρήση μηχανικής μάθησης Γλωσσική Τεχνολογία, Μάθημα 5 ο, Σημασιολογική ανάλυση45