Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Γλωσσολογία Σωμάτων Κειμένων (Corpus Linguistics)

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Γλωσσολογία Σωμάτων Κειμένων (Corpus Linguistics)"— Μεταγράφημα παρουσίασης:

1 Γλωσσολογία Σωμάτων Κειμένων (Corpus Linguistics)
Στόχος της γλωσσολογικής επιστήμης: χαρακτηρισμός & ερμηνεία των γλωσσικών φαινομένων Κατάκτηση, παραγωγή & κατανόηση γλώσσας (γνωσιακή πλευρά) Κατανόηση σχέσης γλωσσικών σημείων & πραγματικότητας Κατανόηση γλωσσικών δομών επικοινωνίας

2 Κατανόηση γλωσσικών δομών
Κανόνες Δόμησης γλωσσικών εκφράσεων (2.000 χρόνια) Κρατύλος Πλάτωνα: τέχνη γραμματική Διονύσιος ο Θραξ 100 π.Χ. Γραμματική Καθορισμός ορθών-λανθασμένων εκφωνήσεων περιγραφή νόρμας

3 Στατιστική προσέγγιση
‘All grammars leak” Edward Sapir 1921 Δυναμικός χαρακτήρας γλώσσας: παραβίαση κανόνων για λόγους επικοινωνιακούς Ποιά είναι τα κοινά σχήματα που εμφανίζονται στη χρήση της γλώσσας; Κύριο εργαλείο εντοπισμού: καταμέτρηση Στατιστική προσέγγιση

4 Ρασιοναλιστικές#Εμπειριοκρατικές Προσεγγίσεις στη Γλώσσα
ρασιοναλισμός στη Γλωσσολογία, Ψυχολογία, Τεχνητή Νοημοσύνη, Επεξεργασία Φυσικής Γλώσσας (NLP) Μεγάλο τμήμα της γνώσης στον ανθρώπινο εγκέφαλο καθορισμένο εκ των προτέρων μέσω της γενετικής κληρονομικότητας Noam Chomsky: εγγενής γλωσσική ικανότητα ως τμήμα του ανθρώπινου γενετικού κώδικα AI: ευφυή συστήματα (κωδικοποίησης αρχικής γνώσης και μηχανισμών λογικής ανάλυσης κατ’αναπαράσταση ανθρώπινου εγκεφάλου)

5 Εμπειριοκρατία εμπειριοκρατία δέχεται γνωστικές ικανότητες του εγκεφάλου μα σε μικρότερο βαθμό Μάθηση: αδύνατη από κατάσταση tabula rasa Αρνείται την ύπαρξη λεπτομερών συνόλων αρχών και διαδικασιών όπως θεωρίες μορφολογικής δομής. Δέχεται την ύπαρξη γενικών λειτουργιών σύνδεσης, αναγνώρισης σχημάτων & γενικεύσεων εφαρμοζόμενων κατά την επεξεργασία του πλούσιου αισθητηριακού υλικού της παιδικής ηλικίας

6 Εμπειριοκρατία και NLP
Επανεμφάνιση από 1985 Εκμάθηση πολύπλοκης και εκτενούς δομής γλώσσας μέσω καθορισμού γενικού μοντέλου και κατόπιν επαγωγική απόδοση αξιών στις παραμέτρους μέσω της εφαρμογής -σε εκτεταμένα ποσά γλωσσικής χρήσης- στατιστικών μεθόδων, μεθόδων αναγνώρισης σχημάτων και μεθόδων εκπαίδευσης μηχανών

7 Στατιστική NLP Χρήση σώματος κειμένων ως υποκατάστατο γλώσσας σε πραγματικό περιβάλλον Corpus-based approach “You shall know a word by the company it keeps” J. R. Firth (1957) in “A synopsis of linguistic theory ” Post-Bloomfieldians, i.e. Zellig Harris 1951 Methods in Structural Linguistics Ανακάλυψη διαδικασιών για την αυτόματη ανακάλυψη της γλωσσικής δομής

8 Βασική διαφορά ρασιοναλιστών-εμπειριοκρατών
Βασική διαφορά ρασιοναλιστών-εμπειριοκρατών Ρασιοναλιστές (Chomskyan/Generative) Περιγραφή της εσωτερικής γλώσσας (I-language), στον ανθρώπινο εγκέφαλο (Λόγος), για την οποία λαμβάνουμε έμμεσα δεδομένα από την εξωτερική γλώσσα (E-language) (Ομιλία), κείμενα κ.λπ. Εμπειριοκράτες Περιγραφή της εξωτερικής γλώσσας όπως αυτή εμφανίζεται

9 Λόγος # Ομιλία Λόγος (ενδιάθετος) (langue): η εσωτερικευμένη, ασυνείδητη εν πολλοίς, γνώση ενός συστήματος επικοινωνίας, μόνιμης σταθερής υφής: Ομιλία (parole): Φωνούμενος λόγος: πράξη συνειδητή, πρακτική εφαρμογή της γνώσης της γλώσσας για την πλήρωση συγκεκριμένης επικοινωνιακής ανάγκης= φυσική πραγματικότητα περιστασιακού χαρακτήρα, προσιτή στις αισθήσεις (δυνατή να καταγραφεί): Saussure (Μπαμπινιώτης 1980)

10 Γενετική Μετασχηματιστιστική Γλωσσολογία
Chomsky Syntactic Structures 1957 Aspects of the Theory of Syntax 1965 Γλωσσική ικανότητα (Linguistic Competence) # Γλωσσική πλήρωση/εφαρμογή (Linguistic Performance)

11 Βασική διαφορά ρασιοναλιστών-εμπειριοκρατών
Βασική διαφορά ρασιοναλιστών-εμπειριοκρατών Ρασιοναλιστές: Είναι δυνατόν να απομονώσουμε και να περιγράψουμε τη γλωσσική ικανότητα Β΄ φάση Τεχνητής Νοημοσύνης ( ): Απομόνωση μικρών προβλημάτων, κατασκευή μικρών συστημάτων (toy systems) που λειτουργούσαν ευφυώς Σύγχρονοι εμπειριοκράτες: έμφαση σε πρακτικές λύσεις βάσει ακατέργαστων κειμένων Στατιστική NLP βάσει του έργου του Shannon: απόδοση πιθανοτήτων σε γλωσσικά γεγονότα βάσει συχνότητας

12 Γραμματικές#Μη-γραμματικές προτάσεις
Παραδοσιακή γλωσσολογία (δομιστική ή μετασχηματιστική): κατηγορηματική περιγραφή γλωσσικής ικανότητας που αποτελεί τη βάση της γλώσσας (competence grammar) Colorless green ideas sleep furiously Γραμματικά ορθή

13 Δυναμικός χαρακτήρας γλώσσας
Πραγματικότητα: μη κατηγορηματική Δυναμική συμπεριφορά της γλώσσας John I believe Sally said Bill believed Sue saw While: ουσιαστικό έως 1742: take a while σύνδεσμος (complementizer) από 1742

14 Γλωσσική εξέλιξη Η γλωσσική εξέλιξη είναι γενικά βαθμιαία
Ανακάλυψη λεπτομερειών αλλαγής μέσω της εξέτασης της συχνότητας χρήσης Ανάγκη στατιστικών και όχι κατηγορηματικών παρατηρήσεων Στατιστική ανάλυση καλύπτει καλύτερα μη κατηγορηματικά φαινόμενα (π.χ. γλωσσική εξέλιξη)

15 Πιθανοτικές προσεγγίσεις 1
Ανθρώπινη γνώση: πιθανοτική Γλώσσα πρέπει να είναι πιθανοτική όντας αναφαίρετο τμήμα της γνώσης Γνωσιακές διαδικασίες για τη γλώσσα: παρόμοιες με αυτές που χρησιμοποιούνται για την επεξεργασία άλλων ειδών αισθητηριακών δεδομένων

16 Πιθανοτικές προσεγγίσεις 2
Σκεπτικισμός σχετικά με πιθανοτικά μοντέλα ( ): υπερβολικά απλοϊκά Σύνθετα πιθανοτικά μοντέλα συλλαμβάνουν την αβεβαιότητα και ατέλεια που χαρακτηρίζουν τη νόηση και γλώσσα ειδικότερα Στατιστική NLP & σημασία “The meaning of a word is defined by the circumstances of its use” Wittgenstein 1968

17 Γλωσσικοί Πόροι Κείμενα σε ηλεκτρονική μορφή Ηλεκτρονικά Λεξικά
Θησαυροί Προφορικό Υλικό (speech corpora) Εργαλεία επεξεργασίας τους

18 Αμερικανικής Αγγλικής γλώσσας
Σώματα Κειμένων 1 Brown corpus (Πανεπιστήμιο Brown ) λέξεις γραπτής Αμερικανικής Αγγλικής γλώσσας Ισορροπημένο σώμα κειμένων (αντιπροσωπευτικό της γλωσσικής πραγματικότητας σε δεδομένη χρονική περίοδο π.χ. 1961)

19 Brown corpus Many_DT0 people_NN0 with_PRP AIDS_NN1 have_VHB to_TO0 spend_VVI long_AJ0 periods_NN2 of_PRF time_NN1 in_PRP hospital_NN1 unless_CJS there_EX0 is_VBZ someone_PNI at_PRP home_NN1 who_PNQ can_VM0 help_VVI and_CJC look_VVI after_CJS them_PNP ._. ACET_NP0 volunteers_NN2 work_NN1 as_CJS part_NN1 of_PRF a_AT0 team_NN0 and_CJC provide_VVB help_NN1 in_PRP many_DT0 different_AJ0 ways_NN2 to_TO0 ensure_VVI that_CJT people_NN0 do_VDB n't_XX0 spend_VVI time_NN1 in_PRP hospital_NN1 unnecessarily_AV0 ._. How_AVQ much_DT0 time_NN1 to_PRP I_PNP need_NN1 to_TO0 give_VVI ?_? The_AT0 simple_AJ0 answer_NN1 is_VBZ as_AV0 much_AV0 or_CJC as_AV0 little_AJ0 as_CJS you_PNP feel_VVB able_AJ0 to_TO0 give_VVI ._.

20 Σώματα Κειμένων 2 Lancaster-Oslo-Bergen (LOB) corpus Βρετανική Αγγλική
Susanne coprus λέξεις του Brown corpus χαρακτηρισμένες ως προς συντακτική λειτουργία Penn Treebank > Wall Street Journal: συντακτικά χαρακτηρισμένο σώμα

21 Penn Treebank (POS Tagging)
SpeakerB3/SYM ./. Well/UH what/WP do/VBP you/PRP think/VB about/IN the/DT idea/NN of/IN ,/, uh/UH ,/, kids/NNS having/VBG to/TO do/VB public/JJ service/NN work/NN for/IN a/DT year/NN ?/. Do/VBP you/PRP think/VBP it/PRP 's/BES a/DT ,/,

22 Penn Treebank (Syntactic Bracketing)
( (CODE SpeakerB3 .)) ( (SBARQ (INTJ Well) (WHNP-1 what) (SQ do (NP-SBJ you) (VP think (NP *T*-1) (PP about (NP (NP the idea) (PP of , (INTJ uh) , (S-NOM (NP-SBJ-2 kids) (VP having (S (NP-SBJ *-2) (VP to (VP do (NP public service work)))) (PP-TMP for (NP a year))))))))) ? E_S))

23 Σώματα Κειμένων 3 Canadian Hansards Καναδικό Κοινοβούλιο
Γνωστότερο παράδειγμα δίγλωσσου σώματος παράλληλων μεταφρασμένων κειμένων (γαλλικά-αγγλικά): στατιστική Μηχανική Μετάφραση

24 Βασικοί προμηθευτές αγγλικών σωμάτων κειμένων
Βασικοί προμηθευτές αγγλικών σωμάτων κειμένων Linguistic Data Consortium (LDC) European Language Resources Association International Computer Archive of Modern English (ICAME)

25 Βασικοί προμηθευτές σωμάτων κειμένων της Αγγλικής
Βασικοί προμηθευτές σωμάτων κειμένων της Αγγλικής Oxford Text Archive (OTA) Child Language Data Exchange System (CHILDES)

26 Σώμα Κειμένων (text corpus)
Ιδιαίτερη συλλογή κειμενικού υλικού το οποίο έχει επιλεγεί σύμφωνα με συγκεκριμένα κριτήρια π.χ. Brown coprus δεν περιέχει ποίηση αλλά κείμενα σε αναλογία προς βαθμό δημοσίευσής τους: άρθρα εφημερίδων, λογοτεχνία, επιστημονικά κείμενα, νομικά κείμενα κ.λπ. (Francis & Kucera 1982)

27 Eθνικός Θησαυρός Ελληνικής Γλώσσας (ΙΕΛ) http:// hnc.ilsp.gr
Περισσότερες από λέξεις, με συνεχή εμπλουτισμό. Επιλεγμένα, έτσι ώστε να αντικατοπτρίζουν την πραγματική εικόνα της σύγχρονης γλώσσας από το 1990 και μετά. Αποφεύγονται τα κείμενα με διαλεκτικές ή άλλες ιδιαιτερότητες και προτιμώνται κείμενα με υψηλή αναγνωσιμότητα (εφημερίδες μεγάλης κυκλοφορίας, βιβλία με υψηλές πωλήσεις κτλ). Προφορικός λόγος δεν έχει περιληφθεί στην παρούσα έκδοση του Σώματος Στοιχεία κατηγοριοποίησης Κατάταξη των κειμένων σε καθορισμένες κατηγορίες, με βάση α) το μέσο δημοσίευσής τους, β) το γένος / κειμενικό είδος στο οποίο ανήκουν και γ) το θέμα / περιεχόμενό τους.

28 α) Ταξινόμηση με βάση το μέσο δημοσίευσης
α) Ταξινόμηση με βάση το μέσο δημοσίευσης Βιβλία: κάθε είδους βιβλίο Εφημερίδες: ημερήσιες ή εβδομαδιαίες εφημερίδες Περιοδικά: εβδομαδιαίες, δεκαπενθήμερες, μηνιαίες κτλ εκδόσεις Αδιευκρίνιστο: κάθε είδους κείμενα, που δεν εντάσσονται στις παραπάνω κατηγορίες: -κείμενα σχεδιασμένα για το διαδίκτυο ή άλλα ηλεκτρονικά μέσα -διαφημιστικά ή ενημερωτικά φυλλάδια, προσπέκτους -δακτυλογραφημένο υλικό π.χ.αναφορές, αιτήσεις, νομικά κείμενα, πρακτικά, ανακοινώσεις      

29 β) Ταξινόμηση με βάση το γένος/κειμενικό είδος 1
β) Ταξινόμηση με βάση το γένος/κειμενικό είδος 1 ΕΙΔΟΣ ΠΕΡΙΓΡΑΦΗ ΠΑΡΑΔΕΙΓΜΑ Βιογραφία προσωπική ζωή και καθημερινότητα «Μάης 36: Αναμνήσεις βιογραφίες, αυτοβιογραφίες, βιογραφικά ενός πρωταγωνιστή» Γνώμη βασικά άρθρα του τύπου, επιφυλλίδες, «Υπολογιστές στην κριτικές, μόνιμες στήλες, δοκίμια, εκπαίδευση: πώς και επιστημονικές ανακοινώσεις, γιατί» διατριβές, επιστημονικά βιβλία, στήλες με υποκειμενικά σχόλια, χιουμοριστικό ή χρονογραφικό περιεχόμενο, παράθεση άρθρων άλλων εντύπων και γενικότερα κείμενα που εκφράζουν κάποια υποκειμενική άποψη Διαφήμιση διάφορα διαφημιστικά κείμενα, φυλλάδια, «Το Ίδρυμα Ελληνικού σποτ καθώς και κάθε κείμενο που Πολιτισμού εξορμά σε προαναγγέλλει εκδηλώσεις Αμερική και Ευρώπη»

30 β) Ταξινόμηση με βάση το γένος/κειμενικό είδος
β) Ταξινόμηση με βάση το γένος/κειμενικό είδος Επίσημα κείμενα νομικά κείμενα, διοικητικές αναφορές, «Σύνταγμα της Ελλάδας» αξιολογήσεις, πρακτικά της Βουλής, αποσπάσματα από την Εφημερίδα της Κυβερνήσεως, αιτήσεις, επίσημες επιστολές Ιδιωτικά κείμενα προσωπικές επιστολές, ημερολόγια «Μονόλογος οργής και απόγνωσης» Λογοτεχνία λογοτεχνικά έργα, σενάρια, παραμύθια «Η μητέρα του σκύλου» Πληροφόρηση κείμενα πληροφοριακού χαρακτήρα «Ταχύπλοα: Διασκέδαση (ειδήσεις, ρεπορτάζ, ανταποκρίσεις, με κανόνες» ερωτηματολόγια, δελτία καιρού/ειδήσεων, δημοσκοπήσεις, επίσημες αναφορές, εγχειρίδια, τουριστικοί οδηγοί, βιβλιογραφικοί πίνακες, εγκυκλοπαίδειες, διδακτικά βιβλία Συζήτηση συζητήσεις, ομιλίες, συνεντεύξεις, «Η ιστορική συνέντευξη επιστολές,άρθρα που εμφανίζονται στο ABC» με τη μορφή επιστολής (όλα σε γραπτό λόγο) Αδιευκρίνιστο κείμενα που δεν εντάσσονται σε καμία από τις παραπάνω κατηγορίες 

31 γ) Ταξινόμηση με βάση το περιεχόμενο
Ασχολίες Ελεύθερος Χρόνος, Αθλητισμός, «Μπράβο Σπόρτινγκ!» Τηλεόραση, Αυτοκίνητο, Μοτοσυκλέτα, Αγορές, Κατοικία, Αστρολογία, Μόδα Γεωγραφία Ταξίδια, Πόλεις, Ανθρωπολογία, «Οι παγίδες στα Λαογραφία λιμάνια του Αιγαίου» Επιστήμη Τεχνολογία, Μαθηματικά, «Η Ανθρακική Περιβάλλον-Οικολογία, Διάστημα Πλατφόρμα Παρνασσού κατά το ανώτερο Ιουρασικό-κατώτερο Κρητιδικό: Στρωματογραφική διάρθρωση και Παλαιογεωγραφική εξέλιξη» Επιχειρήσεις Επιχειρήσεις, Οικονομία, Διαφήμιση «Πονοκέφαλος ύψους 1, τρισ.»

32 Ταξινόμηση με βάση το περιεχόμενο
Ιστορία Ιστορία, Αρχαιολογία, Ιστορία Τέχνης, «Ένα ταξίδι στην ιστορία Βιογραφίες κτλ που καταξιώνει το μύθο» Κοινωνία Πολιτική, Κοινωνιολογία, Νομική, Άμυνα, «Διαλύεται 1 στους 3 Ευρωπαϊκή Ένωση κτλ γάμους στην Ε.Ε.» Τέχνες Ανθρωπιστικές Επιστήμες, Βιβλίο- «Αυτός που έκανε Γράμματα, Φιλοσοφία, Θρησκεία, το κόμικς τέχνη» Αρχαιολογία, Εικαστικά, Εκπαίδευση- Παιδεία Υγεία Υγεία, Ιατρική, Ψυχολογία, «Έμφραγμα: Μεγάλος Παιδαγωγική, Κτηνιατρική κίνδυνος οι μικρές βλάβες» Αδιευκρίνιστο κείμενα που δεν εντάσσονται σε καμία «Διηγήσεις παραφυσικών από τις παραπάνω κατηγορίες φαινομένων»

33 Προβλήματα προ-επεξεργασίας κειμένου 1
Low-level formatting issues Εκκαθάριση υλικού από άχρηστα σύμβολα (π.χ. τίτλοι, υποσημειώσεις, πίνακες, λάθη οπτικής αναγνώρισης χαρακτήρων) Αντιμετώπιση κεφαλαίων χαρακτήρων (κύρια ονόματα, τέλος πρότασης) Tokenization: Διαδικασία κατάτμησης κειμένου εισόδου σε tokens: λέξεις, αριθμοί, σημεία στίξης: graphic word: a string of contiguous alphanumeric characters with space on either side; may include hyphens and apostrophes, but no other punctuation marks (Kucera & Francis 1967) Αντιμετώπιση της τελείας: τέλος πρότασης ή συντομογραφία; Hyphenization: 1 ή 2 λεξήματα;

34 Προβλήματα προ-επεξεργασίας κειμένου 2
Ομόγραφα: 1 ή 2 λεξήματα; Ποικιλία στην κωδικοποίηση συγκεκριμένου σημασιολογικού τύπου π.χ. αριθμοί τηλεφώνου Δανία Πακιστάν +411/ Ελβετία (94-1) Σρι Λάνκα Γερμανία Γαλλία Ολλανδία (44.171) Αγγλία Η.Π.Α. The Economist

35 Προβλήματα προ-επεξεργασίας κειμένου 3
Μορφολογική ανάλυση stemming: stripping off affixes: left with stem Lemmatization καθορισμός λήμματος/λεξήματος Καθορισμός ορίων πρότασης -90% των τελειών= δείκτες ορίων πρότασης (Riley 1989), μα όχι πάντα.. -προτάσεις ενσωματωμένες σε άλλες προτάσεις (embedded sentences) Ευριστικοί Αλγόριθμοι

36 Στατιστική Ανάλυση 1 Μετατροπή κείμενου σε λίστα λέξεων
Α) Ποιές είναι οι πλέον κοινές λέξεις ενός κειμένου; (ποιοτική ανάλυση) Λειτουργικές λέξεις (Function words) Β) Πόσες είναι οι λέξεις ενός κειμένου; (ποσοτική ανάλυση) Δείγματα λέξεων # Τύποι λέξεων (Word Tokens # Word Types)

37 Open Lexical Categories # Closed Functional categories
Στατιστική Ανάλυση 2 Α) Ποιοτική ανάλυση Mark Twain’s Tom Sawyer the determiner (article) and conjunction a determiner to preposition, verbal infinitive marker of preposition was auxiliary verb it personal/expletive pronoun (there/it:the logical subject follows the copula) in preposition that complementizer, demonstrative he (personal) pronoun I (personal) pronoun his (possessive) pronoun you (personal) pronoun Tom 679 proper noun with 642 preposition Open Lexical Categories # Closed Functional categories

38 Κρυπτογραφία Αναγνώριση ύφους ή συγγραφέα
Στατιστική Ανάλυση 3 Β) Ποσοτική ανάλυση Mark Twain’s Tom Sawyer 0,5 ΜΒ: Δείγματα 8.018 Τύποι ιδιαίτερα άνισης κατανομής: 12 πλέον κοινές λέξεις (λειτουργικές): πάνω από 700 φορές= 1% κειμένου Πλέον κοινές 100 λέξεις: 50,9% του κειμένου Μοναδικής εμφάνισης τύποι (‘hapax legomena’ ): 49,8% 90%+ τύπων εμφανίζονται 10 ή λιγότερο φορές 12% κειμένου= λέξεις που εμφανίζονται 3 ή λιγότερο φορές Κρυπτογραφία Αναγνώριση ύφους ή συγγραφέα Σε κείμενο πληροφόρησης ιδίου μεγέθους: τύποι λέξεων

39 Σχέση συχνότητας f και σειράς r (rank) (τύπου) λέξης
Στατιστική Ανάλυση 4 Νόμος του Ζιπφ: Human Behavior and the Principle of Least Effort (1949) Οι άνθρωποι δρουν κατά τρόπο ώστε να ελαχιστοποιηθεί ο πιθανός μέσος όρος εργασίας τους (όχι μόνο της άμεσης μα και της μακροπρόθεσμης) Σχέση συχνότητας f και σειράς r (rank) (τύπου) λέξης Λίγες πολύ συχνές λέξεις – μέτριος αριθμός λέξεων μεσαίας συχνότητας – πολλές λέξεις χαμηλής συχνότητας: μικρό λεξιλόγιο κοινών λέξεων ομιλητή & μεγάλο λεξιλόγιο σπάνιων λέξεων ακροατή (μηνύματα λιγότερο αμφίσημα) Mandelbrot 1954

40 Παρα-θέσεις (collocations)
Σημασία παράθεσης διαφορετική της σημασίας των μερών της disk drive σύνθετη make up περιφραστικό ρήμα bacon and eggs έκφραση κλισέ strong tea ?powerful tea in broad daylight ?bright daylight ??narrow darkness kick the bucket ?kick the horse

41 Σημασία εντοπισμού παρα-θέσεων
Μηχανική Μετάφραση (MT) Ανάκτηση Πληροφορίας (IR) Λεξικογραφία + Θεωρητικό ενδιαφέρον, καθώς το μεγαλύτερο ποσοστό γλωσσικής χρήσης είναι επαναλαμβανόμενες φράσεις & δομές Δημιουργικότητα γλωσσικής χρήσης (Chomsky)??? Πραγματικό & κοινωνικό περιβάλλον γλωσσικής χρήσης (Halliday)???

42 Παρα-θέσεις (collocations) 2
Πλέον συχνά δίγραμμα (bigrams) σε σώμα λέξεων από New York Times (115ΜΒ, Αύγουστος-Νοέμβριος 1990) Συχνότητα Λέξη 1 Λέξη 2 Συχνότητα Λέξη 1 Λέξη 2 of the of a in the by the to the with the on the from the for the New York and the he said that the as a at the is a to be has been in a for a Είναι παραθέσεις;;;;;;

43 Παρα-θέσεις (collocations) 3
Φιλτράρισμα ως προς γραμματική κατηγορία: A-N N-N New York A-N United States A-N Los Angeles N-N last year A-N ??? Saudi Arabia N-N last week A-N ??? vice president A-N Παράθεση=συχνό δίγραμμα συγκεκριμένου συνδυασμού γραμματικών κατηγοριών

44 Συμφωνίες (concordances)
Αυτόματος εντοπισμός πλαισίου εμφάνισης KWIC (Key Word In Context) 1 could find a target. The librarian showed off- running hither 2.ihts in. The young lady teachers showed off- bending sweetl 3.nuwyne?” Tom lifted his lip and showed the vacancy. “Wel 4.is little finger for a pen. Then he showed Huckleberry how t 5. face was haggard, and his eyes showed the fear that was u 6. e first thing his aunt said to him showed him that he had br 7. om her lethargy of distress and showed good interest in the

45 Συμφωνίες (concordances)
NP agent showed off (PP[with/in] manner) NP agent showed NP[interest] PP[in] content NP agent showed NP [aversion] PP[to] content NP content CP[that] content NP agent showed (NP recipient) VP[inf] content how VP[inf] content CP[where] content

46 Συμφωνίες (concordances)
Χρήση σε Λεξικογραφία Μηχανική Μετάφραση Οποιοδήποτε είδος parsing (στατιστικό ή μη)


Κατέβασμα ppt "Γλωσσολογία Σωμάτων Κειμένων (Corpus Linguistics)"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google