Μάθημα 1ο: Εισαγωγή στη Γλωσσική Τεχνολογία ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο: Εισαγωγή στη Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2013-2014
Βασισμένο στις διαλέξεις προηγούμενων ετών της Σοφίας Στάμου και του Γιώργου Πετάση Ακαδημαϊκό Έτος 2013-2014
Εισαγωγικά Γλώσσα Φυσική Γλώσσα Τεχνητή γλώσσα Ελληνικά vs Java Μέσο ανταλλαγής και καταγραφής πληροφοριών Φυσική Γλώσσα Μέσο επικοινωνίας μεταξύ ανθρώπων Τεχνητή γλώσσα Μέσο επικοινωνίας ανθρώπου- μηχανής Ελληνικά vs Java Εισαγωγικά Ακαδημαϊκό Έτος 2013-2014
Τι είναι η γλωσσική τεχνολογία; Ορισμός Η ανάπτυξη και μελέτη υπολογιστικών μοντέλων επεξεργασίας πληροφορίας εκφρασμένης σε φυσική γλώσσα Δημιουργία φορμαλιστικών μοντέλων (θεωρητική) Αναπαράσταση της γλωσσολογικής γνώσης Περιγραφή των μηχανισμών κατανόησης και παραγωγής της γλώσσας από τον άνθρωπο Ανάπτυξη συστημάτων λογισμικού για την επεξεργασία φυσικής γλώσσας (εφαρμοσμένη) Τι είναι η γλωσσική τεχνολογία; Ακαδημαϊκό Έτος 2013-2014
Αυτόματη ανάλυση και παραγωγή γραπτών ή προφορικών εκφράσεων φυσικής γλώσσας*: Αυτόματη διόρθωση κειμένου Επεξεργασία λόγου(αναγνώριση-σύνθεση) Μηχανική μετάφραση Ανάκτηση, Εξαγωγή πληροφορίας Αυτόματη εξαγωγή περιλήψεων Εξόρυξη κειμένου, άποψης ... *διάφορα μέσα την περιέχουν Γλωσσική Τεχνολογία Ακαδημαϊκό Έτος 2013-2014
Γιατί είναι σημαντική; Κατανόηση της ανάλυσης και της παραγωγής της γλώσσας Επικοινωνία Πολύ μεγάλο μέρος της καταγεγραμένης ανθρώπινης γνώσης είναι εκφρασμένο σε φυσική γλώσσα Γνώση οργανισμών: νόμοι, κανονισμοί, εγχειρίδια, οδηγίες, κλπ Πληροφορία από/για χρήστες: ιστότοποι οργανισμών, αλληλογραφία, περιγραφές προϊόντων, μέσα κοινωνικής δικτύωσης, κλπ Γιατί είναι σημαντική; Ακαδημαϊκό Έτος 2013-2014
Ακόμα.. Ραγδαία αύξηση του Παγκόσμιου Ιστού Γλωσσική Τεχνολογία Μεγάλος όγκος πληροφορίας, άμεσα προσβάσιμος Υπερ-πληροφόρηση Γλωσσική Τεχνολογία Ανακάλυψη νέων τρόπων, καλύτερη συμβίωση με την τεχνολογία Συστήματα που: Αναγνωρίζουν λόγο(ομιλία-γραφή) Κατανοούν κείμενα, επιλογή πληροφοριών Μεταφράζουν από μια γλώσσα σε άλλη Συνθέτουν λόγο ... Ακόμα.. Ακαδημαϊκό Έτος 2013-2014
Γιατί είναι δύσκολη; Η φυσική γλώσσα είναι περίπλοκη... Πολλαπλοί τρόποι έκφρασης της ίδιας πληροφορίας Ελλιπής πληροφορία Ασάφεια Διαφορετικό νόημα ανάλογα με το περιβάλλον Δημιουργία νέων εκφράσεων, κλπ επειδή απευθύνεται σε ανθρώπους Χρήση της γνώσης του κόσμου και της εμπειρίας για την κατανόηση της φυσικής γλώσσας Η μηχανή δυσκολεύεται σημαντικά Περιορισμένη γνώση του κόσμου Εστίαση σε θεματικές περιοχές, χρήση οντολογιών Γιατί είναι δύσκολη; Ακαδημαϊκό Έτος 2013-2014
Ασάφεια Φωνολογική Μορφοσυντακτική Σημασιολογική Πραγματολογική Λύπη, λείπει, λίπη Στον ώμο, στο νόμο Μορφοσυντακτική Οι απαντήσεις, να απαντήσεις Σημασιολογική Ποντίκι Τόνος Πραγματολογική - Ξέρεις τι ώρα είναι; - Μα δεν σας είπα ότι δεν θέλω πράσινο; Ασάφεια Ακαδημαϊκό Έτος 2013-2014
Επεξεργασία Φυσικής Γλώσσας(NLP - Natural Language Processing) Κυρίως γραπτό λόγο, δημιουργία υπολογιστικών συστημάτων, υποτομέας της ΤΝ Υπολογιστική Γλωσσολογία(CL – Computational Linguistics) Κυρίως γραπτό λόγο, δημιουργία υπολογιστικών μοντέλων γλωσσολογικών θεωριών, πλέον συνώνυμο της ΕΦΓ Γλωσσική Τεχνολογία (LT – Language Technology) Λιγότερο καθιερωμένος όρος, κυρίως τεχνικές επεξεργασίας φωνής, έμφαση στη δημιουργία υπολογιστικών συστημάτων Συναφείς όροι Ακαδημαϊκό Έτος 2013-2014
Ανάλυση και παραγωγή λόγου Ακαδημαϊκό Έτος 2013-2014
Επίπεδα ανάλυσης λόγου Αναγνώριση λέξεων, προτάσεων, … Πληροφορίες για τις λέξεις, όπως θέμα, κατάληξη, πρόσωπο, αριθμό, γένος, … Συντακτική δομή περιόδων, ρόλοι των λέξεων, κλπ. Αναγνώριση του νοήματος των προτάσεων Αναφορικές εκφράσεις, σχέσεις μεταξύ προτάσεων Σκοποί του χρήστη, σχέδια δράσεως, … Επίπεδα ανάλυσης λόγου Ακαδημαϊκό Έτος 2013-2014
Σύντομη αναδρομή Γλωσσική τεχνολογία: τόσο παλιά όσο και οι Η/Υ Γλωσσική τεχνολογία: τόσο παλιά όσο και οι Η/Υ 50s: αρχή έρευνας Επιρροή Noam Chomsky Διατύπωση θεωριών εκμάθησης της γλώσσας από παιδιά Ιεραρχία γλωσσών, αποτελούμενη από 4 κατηγορίες γραματικών Κανονικές Ανεξάρτητες από τα συμφραζόμενα Εξαρτημένες άπό τα συμφραζόμενα Απεριόριστες Σύντομη αναδρομή Ακαδημαϊκό Έτος 2013-2014
1950 - 1965 Πρώτα βήματα, έμφαση στην μηχανική μετάφραση 1965 – 1980 Έμφαση στη σημασιολογία 1980 – 1990 Έμφαση στη σύνταξη, στατιστική μηχανική μετάφραση, αναγνώριση ομιλίας 1990 – σήμερα Εργασίες χαμηλού επιπέδου, συνδυασμός με τεχνικές μηχανικής μάθησης, εξαγωγή πληροφορίας, αξιολόγηση Ιστορικό Ακαδημαϊκό Έτος 2013-2014
Εφαρμογές Υποστήριξη συγγραφής Μετάφραση κειμένων Κατηγοριοποίηση/φιλτράρισμα κειμένου Εξαγωγή πληροφορίας – παραγωγή περίληψης Διεπαφές σε φυσική γλώσσα Αυτόματος υποτιτλισμός Εξαγωγή στοιχείων για το συγγραφέα από τον τρόπο γραφής του Εντοπισμός συναισθήματος Αντιστοίχηση βιογραφικών με αγγελίες ευρέσεως εργασίας Εφαρμογές Ακαδημαϊκό Έτος 2013-2014
Κοινές εργασίες Αναγνώριση ομιλίας, OCR Καθάρισμα κειμένων (π.χ. από HTML) Αναγνώριση λέξεων/προτάσεων Αναγνώριση μερών του λόγου Ρηχή συντακτική ανάλυση Αναγνώριση ονομάτων οντοτήτων Εξαγωγή συσχετίσεων Αναγνώριση συναισθήματος/πολικότητας Αποσαφήνιση έννοιας λέξεων Κοινές εργασίες Ακαδημαϊκό Έτος 2013-2014
Πλατφόρμες GATE - http://gate.ac.uk/ Ellogon - http://www.ellogon.org/ Η πρώτη δημοφιλής πλατφόρμα – Java Ellogon - http://www.ellogon.org/ Η πρώτη UNICODE πλατφόρμα – C/C++/Tcl/… NLTK - http://nltk.org/ Η «εκπαιδευτική» πλατφόρμα – Python Apache UIMA - http://uima.apache.org/ Η «ανερχόμενη» πλατφόρμα – Java/C++ Πλατφόρμες Ακαδημαϊκό Έτος 2013-2014