Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
Οι διαφάνειες αυτού του μαθήματος βασίζονται στα κεφάλαια 1, 2 και 3 του βιβλίου: «Η τεχνολογία της πληροφορίας στην επεξεργασία φυσικής γλώσσας», Κ. Φράγγος και Αν. Κουτσούκος, εκδόσεις ΜΥΡΜΙΔΟΝΕΣ, Ακαδημαϊκό Έτος
Επεξεργασία Φυσικής Γλώσσας: Χρήση ηλεκτρονικών υπολογιστών για τη γραπτή και προφορική επεξεργασία της γλώσσας για διάφορες πρακτικές, χρήσιμες εφαρμογές, κλπ Επιστημονική περιοχή που συνδυάζει την επιστήμη της γλωσσολογίας με αυτή των υπολογιστών Ακαδημαϊκό Έτος
Τα ποικίλα είδη γνώσης της ΕΦΓ μπορούν να αναπαρασταθούν από ένα μικρό σύνολο τυπικών μεθόδων (formal methods) ή θεωριών Προέρχονται από τον χώρο της επιστήμης υπολογιστών, των μαθηματικών και της γλωσσολογίας Ακαδημαϊκό Έτος
Σημαντικές τεχνικές για την αναπαράσταση της γλωσσολογικής γνώσης: – Μηχανές καταστάσεων (state machines) – Συστήματα τυπικών κανόνων (formal rule systems) – Λογική – Θεωρία πιθανοτήτων – Μηχανική μάθηση (machine learning) Ακαδημαϊκό Έτος
Τυπικά μοντέλα που αποτελούνται: Καταστάσεις Μεταβάσεις μεταξύ καταστάσεων Μία αναπαράσταση εισόδου Παραλλαγές βασικού μοντέλου: (Μη) ντετερμινιστικά αυτόματα πεπερασμένων καταστάσεων Finite state transducers (γραφή σε συσκευή εξόδου) Αυτόματα με βάρη Αυτόματα με πιθανότητες (Markov models) Hidden Markov models (συστατικά πιθανοτήτων) Ακαδημαϊκό Έτος
Συστήματα τυπικών κανόνων: Κανονικές γραμματικές Γραμματικές ανεξάρτητες από συμφραζόμενα Γραμματικές με χαρακτηριστικά (feature augmented grammars) Πιθανοτικές παραλλαγές Συνήθως χρησιμοποιούνται στον χειρισμό γνώσης (state machines & formal rule systems) : Φωνολογίας Μορφολογίας Σύνταξης Ακαδημαϊκό Έτος
Δημοφιλές μοντέλο, σημαντικό κριτικό λόγο στη γνώση της γλώσσας First order logic Predicate calculus Επαγωγή/απαγωγή Λογικές αναπαραστάσεις Σημασιολογική γνώση Πραγματολογική γνώση Επεξεργασία λόγου ^πλέον εφαρμογές: απλούστερους μηχανισμούς^ Το κυρίαρχο μοντέλο για την αξιοποίηση οντολογιών Ακαδημαϊκό Έτος
Το κυρίαρχο μοντέλο αναπαράστασης γλωσσολογικής γνώσης και πιο σημαντικό Όλα τα προηγούμενα μοντέλα μπορούν να εμπλουτιστούν με πιθανότητες Μπορεί να λύσει πολλά είδη προβλημάτων ασάφειας Σχεδόν κάθε πρόβλημα ΕΦΓ μπορεί να δοθεί σαν: «δεδομένων Ν επιλογών για μια ασαφή είσοδο, επέλεξε την πιο πιθανή» Εκμάθηση πιθανοτικών μοντέλων από σώματα κειμένων (μηχανική μάθηση) Ακαδημαϊκό Έτος
Στατιστική συμπερασματολογία Κλάδος της στατιστικής Ασχολείται με μεθόδους μεταφοράς πληροφοριών από δείγμα στον γενικό πληθυσμό Περιλαμβάνει: Εκτιμητική: εκτίμηση παραμέτρων πληθυσμού με βάση αντίστοιχες παραμέτρους του δείγματος Έλεγχο υποθέσεων: επιβεβαίωση/απόρριψη ισχυρισμών για τις τιμές παραμέτρων του πληθυσμού Διατύπωση στατιστικών μοντέλων εκτίμησης τιμής/διαστήματος εμπιστοσύνης εξαρτημένων μεταβλητών, με βάση τιμές ανεξάρτητων μεταβλητών Ακαδημαϊκό Έτος
Αναζήτηση ισχυρών ενδείξεων για την αλήθεια ενός ισχυρισμού Η διαδικασία της γενίκευσης από ένα δείγμα στον πληθυσμό δεν είναι συχνά δίχως σφάλματα Σφάλμα τύπου Ι (α): η πιθανότητα απόρριψης μιας υπόθεσης Ηο, ενώ είναι ορθή Σφάλμα τύπου ΙΙ (β): η πιθανότητα αποδοχής μιας υπόθεσης Ηο, ενώ είναι λανθασμένη, Όπου Ηο: αρχική υπόθεση και υπάρχει και Η1: εναλλακτική υπόθεση Ακαδημαϊκό Έτος
Εφαρμογή και χρήση στατιστικών μεθόδων στους διάφορους κλάδους της ΕΦΓ Ανάκτηση Πληροφορίας (Information Retrieval) : Ανάπτυξη αλγορίθμων και μοντέλων για την αναζήτηση πληροφορίας από διάφορες συλλογές κειμένων. Χρήση στατιστικών μοντέλων Αναπαράσταση, αποθήκευση, οργάνωση, επεξεργασία, προσπέλαση στοιχείων της πληροφορίας Μέτρηση απόδοσης και αξιολόγηση Ακαδημαϊκό Έτος
Η αποτίμηση/εκτίμηση της αποδοτικότητας συστημάτων ΕΦΓ είναι σημαντική Κυρίαρχα μέτρα αποτίμησης: Ακρίβεια (precision) Πόσες από τις απαντήσεις που έδωσε ένα σύστημα είναι σωστές Ανάκληση (recall) Πόσα ερωτήματα προς το σύστημα απαντήθηκαν σωστά F-measure: συνδυασμός ακρίβειας και ανάκλησης Ακαδημαϊκό Έτος
Ανάκτηση πληροφορίας Υποθέτουμε ένα σύνολο εγγράφων Υποθέτουμε ένα σύνολο ερωτημάτων Κάθε ερώτημα πρέπει να απαντηθεί με ένα σύνολο εγγράφων, που ικανοποιούν το ερώτημα Έστω ερώτημα, και το σύνολο των σχετικών εγγράφων Έστω ένα ελεγχόμενο σύστημα ΕΦΓ, επεξεργάζεται το ερώτημα, και επιστρέφει το σύνολο εγγράφων Ακαδημαϊκό Έτος
Ακαδημαϊκό Έτος