Γλωσσολογία Σωμάτων Κειμένων (Corpus Linguistics)

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Πρόγραμμα Εκπαίδευσης Μουσουλμανοπαίδων
Advertisements

Μάρτιος 2011 Βαρόμετρο ΕΒΕΘ - Καταναλωτές. “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι.
ΣΧ. ΣΥΜΒΟΥΛΟΣ ΠΛΗΡΟΦΟΡΙΚΗΣ
Επιμέλεια: Τίκβα Χριστίνα
Πέτσας Δημήτριος Παρουσίαση στο μάθημα: Ψηφιακές Βιβλιοθήκες
Υποδομές Ανοικτής Πρόσβασης: Το μέλλον της επιστημονικής επικοινωνίας, ΕΚΤ, Αθήνα, Δεκεμβρίου 2008 Πρωτοβουλίες Ανοικτής Πρόσβασης στη Βιβλιοθήκη.
ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH PROCESSING Τεχνολογία Ορθογραφικής Διόρθωσης Κειμένων Ν.Γλάρος Δρ. Ηλ/γος Μηχανικός.
Ινστιτούτο Επεξεργασίας του Λόγου Βέλτιστες Πρακτικές στη Γλωσσική Τεχνολογία Βέλτιστες Πρακτικές στη Γλωσσική Τεχνολογία Εβδομάδα Επιστήμης & Τεχνολογίας.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Εισαγωγικό Φροντιστήριο.
Ανάλυση & Περιγραφή Θέσεων Εργασίας
Ανάκτηση και Εξαγωγή Πληροφορίας από Πολυμεσικές και Πολυγλωσσικές
Μετρήσεις στη γλώσσα και ανάλυση του λόγου Γ. Μικρός, Γ. Ταμπουρατζής, Σ. Μαρκαντωνάτου ΙΝΣΤΙΤΟΥΤΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΤΟΥ ΛΟΓΟΥ INSTITUTE FOR LANGUAGE & SPEECH.
Το γλωσσικό μάθημα στο Δημοτικό Σχολείο Δ’ τάξη
ΕΡΕΥΝΑ ΜΑΡΚΕΤΙΝΓΚ ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ ΙΙ: ΤΥΠΟΙ ΕΡΩΤΗΣΕΩΝ.
Τμήμα Εκπαιδευτικής Τεχνολογίας (ΤΕΤ) Ινστιτούτο Επεξεργασίας του Λόγου Φιλογλωσσία Διδασκαλία της Ελληνικής ως ξένης γλώσσας (2η Δράση του ΙΕΛ στην Γλωσσική.
ΟΡΟΛΟΓΙΑ Στην ΚτΠ: Χρησιμότητα στον Δημόσιο Τομέα ή Η σημασία της γνώσης των όρων για αποτελεσματική πρόσβαση στην πληροφορία Γ. Καραγιάννης Καθηγητής.
ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ (Εργαστήριο) Εισηγητής: Θανάσης Βαφειάδης
Η διδασκαλία ως διαδικασία διαμόρφωσης εγγράμματων ταυτοτήτων
MUltilingual Subtitling of multimediA content
Μηχανική Μάθηση και Εξόρυξη Γνώσης
Βαρόμετρο ΕΒΕΘ - Καταναλωτές Σεπτέμβριος “Η καθιέρωση ενός αξιόπιστου εργαλείου καταγραφής του οικονομικού, επιχειρηματικού και κοινωνικού γίγνεσθαι.
Αναγνώριση Προτύπων.
Σωφρ. Χατζησαββίδης Η διδασκαλία της Πρώτης Γραφής και Ανάγνωσης
ΑΥΤΟΝΟΜΙΑ ΤΟΥ ΕΚΠΑΙΔΕΥΤΙΚΟΥ
Ψηφιακή Βιβλιοθήκη ΤΕΕ
Μάθημα 2 ο : Βασικές έννοιες 1 Ακαδημαϊκό Έτος
ΕΝΔΕΙΚΤΙΚΗ ΕΠΕΞΕΡΓΑΣΙΑ ΚΕΙΜΕΝΙΚΟΥ ΕΙΔΟΥΣ
Οργάνωση πληροφοριών Ευρετηρίαση Μέρος Β Σχεδιασμός ευρετηρίων.
ΕΙΣΑΓΩΓΗ ΣΤΑ ΓΕΩΓΡΑΦΙΚΑ ΣΥΣΤΗΜΑΤΑ ΠΛΗΡΟΦΟΡΙΩΝ
Εισαγωγή στην Γλωσσολογία
Είδη δειγμάτων Τυχαίο/ μη τυχαίο
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Προεπεξεργασία Κειμένου.
ΜΕΘΟΔΟΙ ΔΙΔΑΣΚΑΛΙΑΣ Δομιστική προσέγγιση (Ι)
Η διδασκαλία ως διαδικασία διαμόρφωσης εγγράμματων ταυτοτήτων Ειδικό Μέρος Ενότητα Ι, 2.4.
ΔΙΑΧΕΙΡΙΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ ΠΑΓΚΟΣΜΙΟΥ ΙΣΤΟΥ ΚΑΙ ΓΛΩΣΣΙΚΑ ΕΡΓΑΛΕΙΑ Information Extraction.
Ερευνητικές Εργασίες: Πόσο
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Γεώργιος Πετάσης Ακαδημαϊκό Έτος: 2012 – 2013 ΤMHMA MHXANIKΩΝ Η/Υ & ΠΛΗΡΟΦΟΡΙΚΗΣ, Πανεπιστήμιο Πατρών, 2012 – 2013 Μάθημα 1 ο : Εισαγωγή.
ΓΛΩΣΣΙΚΗ ΤΕΧΝΟΛΟΓΙΑ Μάθημα 1ο Εισαγωγή στη Γλωσσική Τεχνολογία
Μάθημα 1ο: Εισαγωγή στη Γλωσσική Τεχνολογία
Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών – Τμήμα Πληροφορικής και Τηλεπικοινωνιών 1 Κεφάλαιο 3 Η Σημασιολογία των Γλωσσών Προγραμματισμού Προπτυχιακό.
 Λαμβάνουν υπόψη τις πολιτισμικές και κοινωνικές συνθήκες μάθησης.  Έχουν επιρροές από ανθρωπολογία και κοινωνική ψυχολογία  Ενδιαφέρονται για τις.
Ταξίδι στον κόσμο της Γλώσσας Β’ Δημοτικού
Νεοελληνική γλώσσα και διαδραστικός πίνακας διαδραστικός πίνακας.
ΤΠΕ - ΔΙΔΑΣΚΑΛΙΑ ΓΛΩΣΣΑΣ
Ιόνιο Πανεπιστήμιο Τμήμα Αρχειονομίας και Βιβλιοθηκονομίας Πρόγραμμα Μεταπτυχιακών Σπουδών στην Επιστήμη της Πληροφορίας «Διοίκηση & Οργάνωση Βιβλιοθηκών.
Η διδασκαλία ως διαδικασία διαμόρφωσης εγγράμματων ταυτοτήτων Ειδικό Μέρος Ενότητα Ι, 2.4.
ΗΛΕΚΤΡΟΝΙΚΗ ΔΗΜΟΣΙΕΥΣΗ ΑΚΑΔΗΜΑΪΚΗ ΔΗΜΟΣΙΕΥΣΗ ΚΑΙ ΠΕΡΙΠΤΩΣΕΙΣ ΗΛΕΚΤΡΟΝΙΚΩΝ ΠΕΡΙΟΔΙΚΩΝ ΒΛΙΣΙΔΟΥ ΕΥΔΟΚΙΑ ΚΕΡΚΥΡΑ, ΙΟΥΝΗΣ 2006.
ΚΟΙΝΩΝΙΟΓΛΩΣΣΟΛΟΓΙΑ Μάθημα 1ο Επιστημολογία της κοινωνιογλωσσολογίας Διδάσκων: Γιώργος Ανδρουλάκης ΠΤΔΕ, Πανεπιστήμιο Θεσσαλίας.
Τεχνολογία ΛογισμικούSlide 1 Τεχνολογία Απαιτήσεων u Καθορίζει τι θέλει ο πελάτης από ένα σύστημα λογισμικού.
Η εργογραφία του Ναπολέοντα Μήτση
ΕΦΑΡΜΟΓΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΥΠΟΛΟΓΙΣΤΩΝ ΤΣΩΝΗΣ ΚΩΝΣΤΑΝΤΙΝΟΣ.
Ο μύθος της ομοιογένειας
ΑΡΧΑΙΑ ΕΛΛΗΝΙΚΑ ΙΣΤΟΡΙΑ ΝΕΑ ΕΛΛΗΝΙΚΑ
ΜΕΙΖΟΝ ΠΡΟΓΡΑΜΜΑ ΕΠΙΜΟΡΦΩΣΗΣ
Η βιβλιογραφική έρευνα πηγές. Πρωτογενείς πηγές: άρθρα περιοδικών και συνεδρίων, αναφορές, επίσημες εκδόσεις ευρεσιτεχνίας, προδιαγραφές Δευτερογενείς.
4 Μαίου 2012 Ομάδα 7 Βολιανίτη Γεωργία-Βαλεντίνα Καμπόλη Μαρίνα Κοντογιώργη Ιωάννα Τρίκολα Μαρίνα.
ΕΝΟΤΗΤΑ 1. ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΚΕΦΑΛΑΙΟ 1.1 ΕΠΙΣΤΗΜΗ ΤΩΝ ΥΠΟΛΟΓΙΣΤΩΝ 1.
7. Λόγος – Γλώσσα – Ομιλία Επίπεδα γλωσσικής ανάλυσης Φωνητική
Προσεγγίσεις επεξεργασίας πληροφοριών Οι βασικές διεργασίες: Κωδικοποίηση, αποθήκευση, ανάσυρση.
Συμμετοχική παρατήρηση Συστηματική παρατήρηση
Γραμματισμός και σχεδιασμός γλωσσικού μαθήματος: 1. Βασικές έννοιες
RICAPITOLAZIONE Della prima lezione.
Το κείμενο Ορισμός Το κείμενο αποτελεί μια γλωσσική ενότητα που έχει καθορισμένα όρια, εσωτερική συνοχή και φέρνει τόσο στοιχεία από τις προθέσεις του/της.
Μοντέλα διδασκαλίας της γλώσσας Σχετίζονται με εκάστοτε θεώρηση και αντίληψη για γλώσσα και παιδαγωγικές και διδακτικές τάσεις που επικρατούν. Η διδακτική.
ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ
Προσεγγίσεις στην κοινωνική έρευνα - Ποιοτική και ποσοτική μεθοδολογία
ΔΙΔΑΚΤΙΚΗ ΤΗΣ ΙΣΤΟΡΙΑΣ Χειμερινό εξάμηνο
Εννοιολογική Χαρτογράφηση
ΑΝΑΣΚΟΠΗΣΗ ΤΗΣ ΒΙΒΛΙΟΓΡΑΦΙΑΣ
RICAPITOLAZIONE Della prima lezione.
Μεταγράφημα παρουσίασης:

Γλωσσολογία Σωμάτων Κειμένων (Corpus Linguistics) Στόχος της γλωσσολογικής επιστήμης: χαρακτηρισμός & ερμηνεία των γλωσσικών φαινομένων Κατάκτηση, παραγωγή & κατανόηση γλώσσας (γνωσιακή πλευρά) Κατανόηση σχέσης γλωσσικών σημείων & πραγματικότητας Κατανόηση γλωσσικών δομών επικοινωνίας

Κατανόηση γλωσσικών δομών Κανόνες Δόμησης γλωσσικών εκφράσεων (2.000 χρόνια) Κρατύλος Πλάτωνα: τέχνη γραμματική Διονύσιος ο Θραξ 100 π.Χ. Γραμματική Καθορισμός ορθών-λανθασμένων εκφωνήσεων περιγραφή νόρμας

Στατιστική προσέγγιση ‘All grammars leak” Edward Sapir 1921 Δυναμικός χαρακτήρας γλώσσας: παραβίαση κανόνων για λόγους επικοινωνιακούς Ποιά είναι τα κοινά σχήματα που εμφανίζονται στη χρήση της γλώσσας; Κύριο εργαλείο εντοπισμού: καταμέτρηση Στατιστική προσέγγιση

Ρασιοναλιστικές#Εμπειριοκρατικές Προσεγγίσεις στη Γλώσσα 1960-1985 ρασιοναλισμός στη Γλωσσολογία, Ψυχολογία, Τεχνητή Νοημοσύνη, Επεξεργασία Φυσικής Γλώσσας (NLP) Μεγάλο τμήμα της γνώσης στον ανθρώπινο εγκέφαλο καθορισμένο εκ των προτέρων μέσω της γενετικής κληρονομικότητας Noam Chomsky: εγγενής γλωσσική ικανότητα ως τμήμα του ανθρώπινου γενετικού κώδικα AI: ευφυή συστήματα (κωδικοποίησης αρχικής γνώσης και μηχανισμών λογικής ανάλυσης κατ’αναπαράσταση ανθρώπινου εγκεφάλου)

Εμπειριοκρατία 1920-1960 εμπειριοκρατία δέχεται γνωστικές ικανότητες του εγκεφάλου μα σε μικρότερο βαθμό Μάθηση: αδύνατη από κατάσταση tabula rasa Αρνείται την ύπαρξη λεπτομερών συνόλων αρχών και διαδικασιών όπως θεωρίες μορφολογικής δομής. Δέχεται την ύπαρξη γενικών λειτουργιών σύνδεσης, αναγνώρισης σχημάτων & γενικεύσεων εφαρμοζόμενων κατά την επεξεργασία του πλούσιου αισθητηριακού υλικού της παιδικής ηλικίας

Εμπειριοκρατία και NLP Επανεμφάνιση από 1985 Εκμάθηση πολύπλοκης και εκτενούς δομής γλώσσας μέσω καθορισμού γενικού μοντέλου και κατόπιν επαγωγική απόδοση αξιών στις παραμέτρους μέσω της εφαρμογής -σε εκτεταμένα ποσά γλωσσικής χρήσης- στατιστικών μεθόδων, μεθόδων αναγνώρισης σχημάτων και μεθόδων εκπαίδευσης μηχανών

Στατιστική NLP Χρήση σώματος κειμένων ως υποκατάστατο γλώσσας σε πραγματικό περιβάλλον Corpus-based approach “You shall know a word by the company it keeps” J. R. Firth (1957) in “A synopsis of linguistic theory 1930-1955” Post-Bloomfieldians, i.e. Zellig Harris 1951 Methods in Structural Linguistics Ανακάλυψη διαδικασιών για την αυτόματη ανακάλυψη της γλωσσικής δομής

Βασική διαφορά ρασιοναλιστών-εμπειριοκρατών Βασική διαφορά ρασιοναλιστών-εμπειριοκρατών Ρασιοναλιστές (Chomskyan/Generative) Περιγραφή της εσωτερικής γλώσσας (I-language), στον ανθρώπινο εγκέφαλο (Λόγος), για την οποία λαμβάνουμε έμμεσα δεδομένα από την εξωτερική γλώσσα (E-language) (Ομιλία), κείμενα κ.λπ. Εμπειριοκράτες Περιγραφή της εξωτερικής γλώσσας όπως αυτή εμφανίζεται

Λόγος # Ομιλία Λόγος (ενδιάθετος) (langue): η εσωτερικευμένη, ασυνείδητη εν πολλοίς, γνώση ενός συστήματος επικοινωνίας, μόνιμης σταθερής υφής: Ομιλία (parole): Φωνούμενος λόγος: πράξη συνειδητή, πρακτική εφαρμογή της γνώσης της γλώσσας για την πλήρωση συγκεκριμένης επικοινωνιακής ανάγκης= φυσική πραγματικότητα περιστασιακού χαρακτήρα, προσιτή στις αισθήσεις (δυνατή να καταγραφεί): Saussure (Μπαμπινιώτης 1980)

Γενετική Μετασχηματιστιστική Γλωσσολογία Chomsky Syntactic Structures 1957 Aspects of the Theory of Syntax 1965 Γλωσσική ικανότητα (Linguistic Competence) # Γλωσσική πλήρωση/εφαρμογή (Linguistic Performance)

Βασική διαφορά ρασιοναλιστών-εμπειριοκρατών Βασική διαφορά ρασιοναλιστών-εμπειριοκρατών Ρασιοναλιστές: Είναι δυνατόν να απομονώσουμε και να περιγράψουμε τη γλωσσική ικανότητα Β΄ φάση Τεχνητής Νοημοσύνης (1970-1989): Απομόνωση μικρών προβλημάτων, κατασκευή μικρών συστημάτων (toy systems) που λειτουργούσαν ευφυώς Σύγχρονοι εμπειριοκράτες: έμφαση σε πρακτικές λύσεις βάσει ακατέργαστων κειμένων Στατιστική NLP βάσει του έργου του Shannon: απόδοση πιθανοτήτων σε γλωσσικά γεγονότα βάσει συχνότητας

Γραμματικές#Μη-γραμματικές προτάσεις Παραδοσιακή γλωσσολογία (δομιστική ή μετασχηματιστική): κατηγορηματική περιγραφή γλωσσικής ικανότητας που αποτελεί τη βάση της γλώσσας (competence grammar) Colorless green ideas sleep furiously Γραμματικά ορθή

Δυναμικός χαρακτήρας γλώσσας Πραγματικότητα: μη κατηγορηματική Δυναμική συμπεριφορά της γλώσσας John I believe Sally said Bill believed Sue saw While: ουσιαστικό έως 1742: take a while σύνδεσμος (complementizer) από 1742

Γλωσσική εξέλιξη Η γλωσσική εξέλιξη είναι γενικά βαθμιαία Ανακάλυψη λεπτομερειών αλλαγής μέσω της εξέτασης της συχνότητας χρήσης Ανάγκη στατιστικών και όχι κατηγορηματικών παρατηρήσεων Στατιστική ανάλυση καλύπτει καλύτερα μη κατηγορηματικά φαινόμενα (π.χ. γλωσσική εξέλιξη)

Πιθανοτικές προσεγγίσεις 1 Ανθρώπινη γνώση: πιθανοτική Γλώσσα πρέπει να είναι πιθανοτική όντας αναφαίρετο τμήμα της γνώσης Γνωσιακές διαδικασίες για τη γλώσσα: παρόμοιες με αυτές που χρησιμοποιούνται για την επεξεργασία άλλων ειδών αισθητηριακών δεδομένων

Πιθανοτικές προσεγγίσεις 2 Σκεπτικισμός σχετικά με πιθανοτικά μοντέλα (1940-1960): υπερβολικά απλοϊκά Σύνθετα πιθανοτικά μοντέλα συλλαμβάνουν την αβεβαιότητα και ατέλεια που χαρακτηρίζουν τη νόηση και γλώσσα ειδικότερα Στατιστική NLP & σημασία “The meaning of a word is defined by the circumstances of its use” Wittgenstein 1968

Γλωσσικοί Πόροι Κείμενα σε ηλεκτρονική μορφή Ηλεκτρονικά Λεξικά Θησαυροί Προφορικό Υλικό (speech corpora) Εργαλεία επεξεργασίας τους

Αμερικανικής Αγγλικής γλώσσας Σώματα Κειμένων 1 Brown corpus (Πανεπιστήμιο Brown 1960-1980) 1.000.000 λέξεις γραπτής Αμερικανικής Αγγλικής γλώσσας Ισορροπημένο σώμα κειμένων (αντιπροσωπευτικό της γλωσσικής πραγματικότητας σε δεδομένη χρονική περίοδο π.χ. 1961)

Brown corpus Many_DT0 people_NN0 with_PRP AIDS_NN1 have_VHB to_TO0 spend_VVI long_AJ0 periods_NN2 of_PRF time_NN1 in_PRP hospital_NN1 unless_CJS there_EX0 is_VBZ someone_PNI at_PRP home_NN1 who_PNQ can_VM0 help_VVI and_CJC look_VVI after_CJS them_PNP ._. ACET_NP0 volunteers_NN2 work_NN1 as_CJS part_NN1 of_PRF a_AT0 team_NN0 and_CJC provide_VVB help_NN1 in_PRP many_DT0 different_AJ0 ways_NN2 to_TO0 ensure_VVI that_CJT people_NN0 do_VDB n't_XX0 spend_VVI time_NN1 in_PRP hospital_NN1 unnecessarily_AV0 ._. How_AVQ much_DT0 time_NN1 to_PRP I_PNP need_NN1 to_TO0 give_VVI ?_? The_AT0 simple_AJ0 answer_NN1 is_VBZ as_AV0 much_AV0 or_CJC as_AV0 little_AJ0 as_CJS you_PNP feel_VVB able_AJ0 to_TO0 give_VVI ._.

Σώματα Κειμένων 2 Lancaster-Oslo-Bergen (LOB) corpus Βρετανική Αγγλική Susanne coprus 130.000 λέξεις του Brown corpus χαρακτηρισμένες ως προς συντακτική λειτουργία Penn Treebank > Wall Street Journal: συντακτικά χαρακτηρισμένο σώμα http://www.cis.upenn.edu/~treebank/home.html

Penn Treebank (POS Tagging) SpeakerB3/SYM ./. Well/UH what/WP do/VBP you/PRP think/VB about/IN the/DT idea/NN of/IN ,/, uh/UH ,/, kids/NNS having/VBG to/TO do/VB public/JJ service/NN work/NN for/IN a/DT year/NN ?/. Do/VBP you/PRP think/VBP it/PRP 's/BES a/DT ,/,

Penn Treebank (Syntactic Bracketing) ( (CODE SpeakerB3 .)) ( (SBARQ (INTJ Well) (WHNP-1 what) (SQ do (NP-SBJ you) (VP think (NP *T*-1) (PP about (NP (NP the idea) (PP of , (INTJ uh) , (S-NOM (NP-SBJ-2 kids) (VP having (S (NP-SBJ *-2) (VP to (VP do (NP public service work)))) (PP-TMP for (NP a year))))))))) ? E_S))

Σώματα Κειμένων 3 Canadian Hansards Καναδικό Κοινοβούλιο Γνωστότερο παράδειγμα δίγλωσσου σώματος παράλληλων μεταφρασμένων κειμένων (γαλλικά-αγγλικά): στατιστική Μηχανική Μετάφραση

Βασικοί προμηθευτές αγγλικών σωμάτων κειμένων Βασικοί προμηθευτές αγγλικών σωμάτων κειμένων Linguistic Data Consortium (LDC) http://www.ldc.upenn.edu European Language Resources Association http://www.icp.grenet.fr/ELRA/ International Computer Archive of Modern English (ICAME) http://nora.hd.uib.no/icame.html

Βασικοί προμηθευτές σωμάτων κειμένων της Αγγλικής Βασικοί προμηθευτές σωμάτων κειμένων της Αγγλικής Oxford Text Archive (OTA) http://ota.ahds.ac.uk Child Language Data Exchange System (CHILDES) http://childes.psy.cmu.edu/

Σώμα Κειμένων (text corpus) Ιδιαίτερη συλλογή κειμενικού υλικού το οποίο έχει επιλεγεί σύμφωνα με συγκεκριμένα κριτήρια π.χ. Brown coprus δεν περιέχει ποίηση αλλά κείμενα σε αναλογία προς βαθμό δημοσίευσής τους: άρθρα εφημερίδων, λογοτεχνία, επιστημονικά κείμενα, νομικά κείμενα κ.λπ. (Francis & Kucera 1982)

Eθνικός Θησαυρός Ελληνικής Γλώσσας (ΙΕΛ) http:// hnc.ilsp.gr Περισσότερες από 34.000.000 λέξεις, με συνεχή εμπλουτισμό. Επιλεγμένα, έτσι ώστε να αντικατοπτρίζουν την πραγματική εικόνα της σύγχρονης γλώσσας από το 1990 και μετά. Αποφεύγονται τα κείμενα με διαλεκτικές ή άλλες ιδιαιτερότητες και προτιμώνται κείμενα με υψηλή αναγνωσιμότητα (εφημερίδες μεγάλης κυκλοφορίας, βιβλία με υψηλές πωλήσεις κτλ). Προφορικός λόγος δεν έχει περιληφθεί στην παρούσα έκδοση του Σώματος Στοιχεία κατηγοριοποίησης Κατάταξη των κειμένων σε καθορισμένες κατηγορίες, με βάση α) το μέσο δημοσίευσής τους, β) το γένος / κειμενικό είδος στο οποίο ανήκουν και γ) το θέμα / περιεχόμενό τους.

α) Ταξινόμηση με βάση το μέσο δημοσίευσης α) Ταξινόμηση με βάση το μέσο δημοσίευσης Βιβλία: κάθε είδους βιβλίο Εφημερίδες: ημερήσιες ή εβδομαδιαίες εφημερίδες Περιοδικά: εβδομαδιαίες, δεκαπενθήμερες, μηνιαίες κτλ εκδόσεις Αδιευκρίνιστο: κάθε είδους κείμενα, που δεν εντάσσονται στις παραπάνω κατηγορίες: -κείμενα σχεδιασμένα για το διαδίκτυο ή άλλα ηλεκτρονικά μέσα -διαφημιστικά ή ενημερωτικά φυλλάδια, προσπέκτους -δακτυλογραφημένο υλικό π.χ.αναφορές, αιτήσεις, νομικά κείμενα, πρακτικά, ανακοινώσεις      

β) Ταξινόμηση με βάση το γένος/κειμενικό είδος 1 β) Ταξινόμηση με βάση το γένος/κειμενικό είδος 1 ΕΙΔΟΣ ΠΕΡΙΓΡΑΦΗ ΠΑΡΑΔΕΙΓΜΑ Βιογραφία προσωπική ζωή και καθημερινότητα «Μάης 36: Αναμνήσεις βιογραφίες, αυτοβιογραφίες, βιογραφικά ενός πρωταγωνιστή» Γνώμη βασικά άρθρα του τύπου, επιφυλλίδες, «Υπολογιστές στην κριτικές, μόνιμες στήλες, δοκίμια, εκπαίδευση: πώς και επιστημονικές ανακοινώσεις, γιατί» διατριβές, επιστημονικά βιβλία, στήλες με υποκειμενικά σχόλια, χιουμοριστικό ή χρονογραφικό περιεχόμενο, παράθεση άρθρων άλλων εντύπων και γενικότερα κείμενα που εκφράζουν κάποια υποκειμενική άποψη Διαφήμιση διάφορα διαφημιστικά κείμενα, φυλλάδια, «Το Ίδρυμα Ελληνικού σποτ καθώς και κάθε κείμενο που Πολιτισμού εξορμά σε προαναγγέλλει εκδηλώσεις Αμερική και Ευρώπη»

β) Ταξινόμηση με βάση το γένος/κειμενικό είδος β) Ταξινόμηση με βάση το γένος/κειμενικό είδος Επίσημα κείμενα νομικά κείμενα, διοικητικές αναφορές, «Σύνταγμα της Ελλάδας» αξιολογήσεις, πρακτικά της Βουλής, αποσπάσματα από την Εφημερίδα της Κυβερνήσεως, αιτήσεις, επίσημες επιστολές Ιδιωτικά κείμενα προσωπικές επιστολές, ημερολόγια «Μονόλογος οργής και απόγνωσης» Λογοτεχνία λογοτεχνικά έργα, σενάρια, παραμύθια «Η μητέρα του σκύλου» Πληροφόρηση κείμενα πληροφοριακού χαρακτήρα «Ταχύπλοα: Διασκέδαση (ειδήσεις, ρεπορτάζ, ανταποκρίσεις, με κανόνες» ερωτηματολόγια, δελτία καιρού/ειδήσεων, δημοσκοπήσεις, επίσημες αναφορές, εγχειρίδια, τουριστικοί οδηγοί, βιβλιογραφικοί πίνακες, εγκυκλοπαίδειες, διδακτικά βιβλία Συζήτηση συζητήσεις, ομιλίες, συνεντεύξεις, «Η ιστορική συνέντευξη επιστολές,άρθρα που εμφανίζονται στο ABC» με τη μορφή επιστολής (όλα σε γραπτό λόγο) Αδιευκρίνιστο κείμενα που δεν εντάσσονται σε καμία από τις παραπάνω κατηγορίες 

γ) Ταξινόμηση με βάση το περιεχόμενο Ασχολίες Ελεύθερος Χρόνος, Αθλητισμός, «Μπράβο Σπόρτινγκ!» Τηλεόραση, Αυτοκίνητο, Μοτοσυκλέτα, Αγορές, Κατοικία, Αστρολογία, Μόδα Γεωγραφία Ταξίδια, Πόλεις, Ανθρωπολογία, «Οι παγίδες στα Λαογραφία λιμάνια του Αιγαίου» Επιστήμη Τεχνολογία, Μαθηματικά, «Η Ανθρακική Περιβάλλον-Οικολογία, Διάστημα Πλατφόρμα Παρνασσού κατά το ανώτερο Ιουρασικό-κατώτερο Κρητιδικό: Στρωματογραφική διάρθρωση και Παλαιογεωγραφική εξέλιξη» Επιχειρήσεις Επιχειρήσεις, Οικονομία, Διαφήμιση «Πονοκέφαλος ύψους 1,5 τρισ.»

Ταξινόμηση με βάση το περιεχόμενο Ιστορία Ιστορία, Αρχαιολογία, Ιστορία Τέχνης, «Ένα ταξίδι στην ιστορία Βιογραφίες κτλ που καταξιώνει το μύθο» Κοινωνία Πολιτική, Κοινωνιολογία, Νομική, Άμυνα, «Διαλύεται 1 στους 3 Ευρωπαϊκή Ένωση κτλ γάμους στην Ε.Ε.» Τέχνες Ανθρωπιστικές Επιστήμες, Βιβλίο- «Αυτός που έκανε Γράμματα, Φιλοσοφία, Θρησκεία, το κόμικς τέχνη» Αρχαιολογία, Εικαστικά, Εκπαίδευση- Παιδεία Υγεία Υγεία, Ιατρική, Ψυχολογία, «Έμφραγμα: Μεγάλος Παιδαγωγική, Κτηνιατρική κίνδυνος οι μικρές βλάβες» Αδιευκρίνιστο κείμενα που δεν εντάσσονται σε καμία «Διηγήσεις παραφυσικών από τις παραπάνω κατηγορίες φαινομένων»

Προβλήματα προ-επεξεργασίας κειμένου 1 Low-level formatting issues Εκκαθάριση υλικού από άχρηστα σύμβολα (π.χ. τίτλοι, υποσημειώσεις, πίνακες, λάθη οπτικής αναγνώρισης χαρακτήρων) Αντιμετώπιση κεφαλαίων χαρακτήρων (κύρια ονόματα, τέλος πρότασης) Tokenization: Διαδικασία κατάτμησης κειμένου εισόδου σε tokens: λέξεις, αριθμοί, σημεία στίξης: graphic word: a string of contiguous alphanumeric characters with space on either side; may include hyphens and apostrophes, but no other punctuation marks (Kucera & Francis 1967) Αντιμετώπιση της τελείας: τέλος πρότασης ή συντομογραφία; Hyphenization: 1 ή 2 λεξήματα;

Προβλήματα προ-επεξεργασίας κειμένου 2 Ομόγραφα: 1 ή 2 λεξήματα; Ποικιλία στην κωδικοποίηση συγκεκριμένου σημασιολογικού τύπου π.χ. αριθμοί τηλεφώνου +45 43 48 60 60 Δανία 95-51-279648 Πακιστάν +411/284 3797 Ελβετία (94-1) 866854 Σρι Λάνκα +49 69 136-2 98 05 Γερμανία 33 1 34 43 32 26 Γαλλία ++31-20-5200161 Ολλανδία (44.171) 830 1007 Αγγλία 212. 995.5402 Η.Π.Α. The Economist

Προβλήματα προ-επεξεργασίας κειμένου 3 Μορφολογική ανάλυση stemming: stripping off affixes: left with stem Lemmatization καθορισμός λήμματος/λεξήματος Καθορισμός ορίων πρότασης -90% των τελειών= δείκτες ορίων πρότασης (Riley 1989), μα όχι πάντα.. -προτάσεις ενσωματωμένες σε άλλες προτάσεις (embedded sentences) Ευριστικοί Αλγόριθμοι

Στατιστική Ανάλυση 1 Μετατροπή κείμενου σε λίστα λέξεων Α) Ποιές είναι οι πλέον κοινές λέξεις ενός κειμένου; (ποιοτική ανάλυση) Λειτουργικές λέξεις (Function words) Β) Πόσες είναι οι λέξεις ενός κειμένου; (ποσοτική ανάλυση) Δείγματα λέξεων # Τύποι λέξεων (Word Tokens # Word Types)

Open Lexical Categories # Closed Functional categories Στατιστική Ανάλυση 2 Α) Ποιοτική ανάλυση Mark Twain’s Tom Sawyer the 3332 determiner (article) and 2972 conjunction a 1775 determiner to 1725 preposition, verbal infinitive marker of 1440 preposition was 1161 auxiliary verb it 1027 personal/expletive pronoun (there/it:the logical subject follows the copula) in 906 preposition that 877 complementizer, demonstrative he 877 (personal) pronoun I 783 (personal) pronoun his 772 (possessive) pronoun you 686 (personal) pronoun Tom 679 proper noun with 642 preposition Open Lexical Categories # Closed Functional categories

Κρυπτογραφία Αναγνώριση ύφους ή συγγραφέα Στατιστική Ανάλυση 3 Β) Ποσοτική ανάλυση Mark Twain’s Tom Sawyer 0,5 ΜΒ: 71.370 Δείγματα 8.018 Τύποι ιδιαίτερα άνισης κατανομής: 12 πλέον κοινές λέξεις (λειτουργικές): πάνω από 700 φορές= 1% κειμένου Πλέον κοινές 100 λέξεις: 50,9% του κειμένου Μοναδικής εμφάνισης τύποι (‘hapax legomena’ ): 49,8% 90%+ τύπων εμφανίζονται 10 ή λιγότερο φορές 12% κειμένου= λέξεις που εμφανίζονται 3 ή λιγότερο φορές Κρυπτογραφία Αναγνώριση ύφους ή συγγραφέα Σε κείμενο πληροφόρησης ιδίου μεγέθους: 11.000+ τύποι λέξεων

Σχέση συχνότητας f και σειράς r (rank) (τύπου) λέξης Στατιστική Ανάλυση 4 Νόμος του Ζιπφ: Human Behavior and the Principle of Least Effort (1949) Οι άνθρωποι δρουν κατά τρόπο ώστε να ελαχιστοποιηθεί ο πιθανός μέσος όρος εργασίας τους (όχι μόνο της άμεσης μα και της μακροπρόθεσμης) Σχέση συχνότητας f και σειράς r (rank) (τύπου) λέξης Λίγες πολύ συχνές λέξεις – μέτριος αριθμός λέξεων μεσαίας συχνότητας – πολλές λέξεις χαμηλής συχνότητας: μικρό λεξιλόγιο κοινών λέξεων ομιλητή & μεγάλο λεξιλόγιο σπάνιων λέξεων ακροατή (μηνύματα λιγότερο αμφίσημα) Mandelbrot 1954

Παρα-θέσεις (collocations) Σημασία παράθεσης διαφορετική της σημασίας των μερών της disk drive σύνθετη make up περιφραστικό ρήμα bacon and eggs έκφραση κλισέ strong tea ?powerful tea in broad daylight ?bright daylight ??narrow darkness kick the bucket ?kick the horse

Σημασία εντοπισμού παρα-θέσεων Μηχανική Μετάφραση (MT) Ανάκτηση Πληροφορίας (IR) Λεξικογραφία + Θεωρητικό ενδιαφέρον, καθώς το μεγαλύτερο ποσοστό γλωσσικής χρήσης είναι επαναλαμβανόμενες φράσεις & δομές Δημιουργικότητα γλωσσικής χρήσης (Chomsky)??? Πραγματικό & κοινωνικό περιβάλλον γλωσσικής χρήσης (Halliday)???

Παρα-θέσεις (collocations) 2 Πλέον συχνά δίγραμμα (bigrams) σε σώμα 14.000.000 λέξεων από New York Times (115ΜΒ, Αύγουστος-Νοέμβριος 1990) Συχνότητα Λέξη 1 Λέξη 2 Συχνότητα Λέξη 1 Λέξη 2 80.871 of the 13.689 of a 58.841 in the 13.361 by the 26.430 to the 13.183 with the 21.842 on the 12.622 from the 21.839 for the 11.428 New York 18.568 and the 10.007 he said 16.121 that the 9.775 as a 15.630 at the 9.231 is a 15.494 to be 8.753 has been 13.899 in a 8.573 for a Είναι παραθέσεις;;;;;;

Παρα-θέσεις (collocations) 3 Φιλτράρισμα ως προς γραμματική κατηγορία: A-N N-N 11.487 New York A-N 7.261 United States A-N 5.412 Los Angeles N-N 3.301 last year A-N ??? 3.191 Saudi Arabia N-N 2.699 last week A-N ??? 2.514 vice president A-N Παράθεση=συχνό δίγραμμα συγκεκριμένου συνδυασμού γραμματικών κατηγοριών

Συμφωνίες (concordances) Αυτόματος εντοπισμός πλαισίου εμφάνισης KWIC (Key Word In Context) 1 could find a target. The librarian showed off- running hither 2.ihts in. The young lady teachers showed off- bending sweetl 3.nuwyne?” Tom lifted his lip and showed the vacancy. “Wel 4.is little finger for a pen. Then he showed Huckleberry how t 5. face was haggard, and his eyes showed the fear that was u 6. e first thing his aunt said to him showed him that he had br 7. om her lethargy of distress and showed good interest in the

Συμφωνίες (concordances) NP agent showed off (PP[with/in] manner) NP agent showed NP[interest] PP[in] content NP agent showed NP [aversion] PP[to] content NP content CP[that] content NP agent showed (NP recipient) VP[inf] content how VP[inf] content CP[where] content

Συμφωνίες (concordances) Χρήση σε Λεξικογραφία Μηχανική Μετάφραση Οποιοδήποτε είδος parsing (στατιστικό ή μη)