Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Γλωσσολογία Σωμάτων Κειμένων (Corpus Linguistics) Στόχος της γλωσσολογικής επιστήμης: χαρακτηρισμός & ερμηνεία των γλωσσικών φαινομένων 1.Κατάκτηση, παραγωγή.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Γλωσσολογία Σωμάτων Κειμένων (Corpus Linguistics) Στόχος της γλωσσολογικής επιστήμης: χαρακτηρισμός & ερμηνεία των γλωσσικών φαινομένων 1.Κατάκτηση, παραγωγή."— Μεταγράφημα παρουσίασης:

1 Γλωσσολογία Σωμάτων Κειμένων (Corpus Linguistics) Στόχος της γλωσσολογικής επιστήμης: χαρακτηρισμός & ερμηνεία των γλωσσικών φαινομένων 1.Κατάκτηση, παραγωγή & κατανόηση γλώσσας (γνωσιακή πλευρά) 2.Κατανόηση σχέσης γλωσσικών σημείων & πραγματικότητας 3.Κατανόηση γλωσσικών δομών επικοινωνίας

2 Κατανόηση γλωσσικών δομών Κανόνες Δόμησης γλωσσικών εκφράσεων (2.000 χρόνια) Κρατύλος Πλάτωνα: τέχνη γραμματική Διονύσιος ο Θραξ 100 π.Χ. Γραμματική Καθορισμός ορθών-λανθασμένων εκφωνήσεων περιγραφή νόρμας

3 Στατιστική προσέγγιση ‘All grammars leak” Edward Sapir 1921 Δυναμικός χαρακτήρας γλώσσας: παραβίαση κανόνων για λόγους επικοινωνιακούς Ποιά είναι τα κοινά σχήματα που εμφανίζονται στη χρήση της γλώσσας; Κύριο εργαλείο εντοπισμού: καταμέτρηση Στατιστική προσέγγιση

4 Ρασιοναλιστικές#Εμπειριοκρατικές Προσεγγίσεις στη Γλώσσα • ρασιοναλισμός στη Γλωσσολογία, Ψυχολογία, Τεχνητή Νοημοσύνη, Επεξεργασία Φυσικής Γλώσσας (NLP) Μεγάλο τμήμα της γνώσης στον ανθρώπινο εγκέφαλο καθορισμένο εκ των προτέρων μέσω της γενετικής κληρονομικότητας Noam Chomsky: εγγενής γλωσσική ικανότητα ως τμήμα του ανθρώπινου γενετικού κώδικα AI: ευφυή συστήματα (κωδικοποίησης αρχικής γνώσης και μηχανισμών λογικής ανάλυσης κατ’αναπαράσταση ανθρώπινου εγκεφάλου)

5 Εμπειριοκρατία • εμπειριοκρατία δέχεται γνωστικές ικανότητες του εγκεφάλου μα σε μικρότερο βαθμό Μάθηση: αδύνατη από κατάσταση tabula rasa Αρνείται την ύπαρξη λεπτομερών συνόλων αρχών και διαδικασιών όπως θεωρίες μορφολογικής δομής. Δέχεται την ύπαρξη γενικών λειτουργιών σύνδεσης, αναγνώρισης σχημάτων & γενικεύσεων εφαρμοζόμενων κατά την επεξεργασία του πλούσιου αισθητηριακού υλικού της παιδικής ηλικίας

6 Εμπειριοκρατία και NLP •Επανεμφάνιση από 1985 Εκμάθηση πολύπλοκης και εκτενούς δομής γλώσσας μέσω καθορισμού γενικού μοντέλου και κατόπιν επαγωγική απόδοση αξιών στις παραμέτρους μέσω της εφαρμογής -σε εκτεταμένα ποσά γλωσσικής χρήσης- στατιστικών μεθόδων, μεθόδων αναγνώρισης σχημάτων και μεθόδων εκπαίδευσης μηχανών

7 Στατιστική NLP Χρήση σώματος κειμένων ως υποκατάστατο γλώσσας σε πραγματικό περιβάλλον Corpus-based approach •“You shall know a word by the company it keeps” J. R. Firth (1957) in “A synopsis of linguistic theory ” •Post-Bloomfieldians, i.e. Zellig Harris 1951 Methods in Structural Linguistics Ανακάλυψη διαδικασιών για την αυτόματη ανακάλυψη της γλωσσικής δομής

8 Βασική διαφορά ρασιοναλιστών-εμπειριοκρατών •Ρασιοναλιστές (Chomskyan/Generative) Περιγραφή της εσωτερικής γλώσσας (I-language), στον ανθρώπινο εγκέφαλο (Λόγος), για την οποία λαμβάνουμε έμμεσα δεδομένα από την εξωτερική γλώσσα (E-language) (Ομιλία), κείμενα κ.λπ. •Εμπειριοκράτες Περιγραφή της εξωτερικής γλώσσας όπως αυτή εμφανίζεται

9 Λόγος # Ομιλία •Λόγος (ενδιάθετος) (langue): η εσωτερικευμένη, ασυνείδητη εν πολλοίς, γνώση ενός συστήματος επικοινωνίας, μόνιμης σταθερής υφής: •Ομιλία (parole): Φωνούμενος λόγος: πράξη συνειδητή, πρακτική εφαρμογή της γνώσης της γλώσσας για την πλήρωση συγκεκριμένης επικοινωνιακής ανάγκης= φυσική πραγματικότητα περιστασιακού χαρακτήρα, προσιτή στις αισθήσεις (δυνατή να καταγραφεί): Saussure(Μπαμπινιώτης 1980)

10 Γενετική Μετασχηματιστιστική Γλωσσολογία •Chomsky Syntactic Structures 1957 Aspects of the Theory of Syntax 1965 Γλωσσική ικανότητα (Linguistic Competence) # Γλωσσική πλήρωση/εφαρμογή (Linguistic Performance)

11 Βασική διαφορά ρασιοναλιστών-εμπειριοκρατών •Ρασιοναλιστές: Είναι δυνατόν να απομονώσουμε και να περιγράψουμε τη γλωσσική ικανότητα Β΄ φάση Τεχνητής Νοημοσύνης ( ): Απομόνωση μικρών προβλημάτων, κατασκευή μικρών συστημάτων (toy systems) που λειτουργούσαν ευφυώς •Σύγχρονοι εμπειριοκράτες: έμφαση σε πρακτικές λύσεις βάσει ακατέργαστων κειμένων Στατιστική NLP βάσει του έργου του Shannon: απόδοση πιθανοτήτων σε γλωσσικά γεγονότα βάσει συχνότητας

12 Γραμματικές#Μη-γραμματικές προτάσεις Παραδοσιακή γλωσσολογία (δομιστική ή μετασχηματιστική): κατηγορηματική περιγραφή γλωσσικής ικανότητας που αποτελεί τη βάση της γλώσσας (competence grammar) Colorless green ideas sleep furiously Γραμματικά ορθή

13 Δυναμικός χαρακτήρας γλώσσας •Πραγματικότητα: μη κατηγορηματική •Δυναμική συμπεριφορά της γλώσσας John I believe Sally said Bill believed Sue saw While: ουσιαστικό έως 1742: take a while σύνδεσμος (complementizer) από 1742

14 Γλωσσική εξέλιξη Η γλωσσική εξέλιξη είναι γενικά βαθμιαία •Ανακάλυψη λεπτομερειών αλλαγής μέσω της εξέτασης της συχνότητας χρήσης •Ανάγκη στατιστικών και όχι κατηγορηματικών παρατηρήσεων •Στατιστική ανάλυση καλύπτει καλύτερα μη κατηγορηματικά φαινόμενα (π.χ. γλωσσική εξέλιξη)

15 Πιθανοτικές προσεγγίσεις 1 •Ανθρώπινη γνώση: πιθανοτική Γλώσσα πρέπει να είναι πιθανοτική όντας αναφαίρετο τμήμα της γνώσης •Γνωσιακές διαδικασίες για τη γλώσσα: παρόμοιες με αυτές που χρησιμοποιούνται για την επεξεργασία άλλων ειδών αισθητηριακών δεδομένων

16 Πιθανοτικές προσεγγίσεις 2 •Σκεπτικισμός σχετικά με πιθανοτικά μοντέλα ( ): υπερβολικά απλοϊκά •Σύνθετα πιθανοτικά μοντέλα συλλαμβάνουν την αβεβαιότητα και ατέλεια που χαρακτηρίζουν τη νόηση και γλώσσα ειδικότερα •Στατιστική NLP & σημασία “The meaning of a word is defined by the circumstances of its use” Wittgenstein 1968

17 Γλωσσικοί Πόροι •Κείμενα σε ηλεκτρονική μορφή •Ηλεκτρονικά Λεξικά •Θησαυροί •Προφορικό Υλικό (speech corpora) •Εργαλεία επεξεργασίας τους

18 Σώματα Κειμένων 1 •Brown corpus (Πανεπιστήμιο Brown ) λέξεις γραπτής Αμερικανικής Αγγλικής γλώσσας Ισορροπημένο σώμα κειμένων (αντιπροσωπευτικό της γλωσσικής πραγματικότητας σε δεδομένη χρονική περίοδο π.χ. 1961)

19 Brown corpus •Many_DT0 people_NN0 with_PRP AIDS_NN1 have_VHB to_TO0 spend_VVI long_AJ0 periods_NN2 of_PRF time_NN1 in_PRP hospital_NN1 unless_CJS there_EX0 is_VBZ someone_PNI at_PRP home_NN1 who_PNQ can_VM0 help_VVI and_CJC look_VVI after_CJS them_PNP._. •ACET_NP0 volunteers_NN2 work_NN1 as_CJS part_NN1 of_PRF a_AT0 team_NN0 and_CJC provide_VVB help_NN1 in_PRP many_DT0 different_AJ0 ways_NN2 to_TO0 ensure_VVI that_CJT people_NN0 do_VDB n't_XX0 spend_VVI time_NN1 in_PRP hospital_NN1 unnecessarily_AV0._. •How_AVQ much_DT0 time_NN1 to_PRP I_PNP need_NN1 to_TO0 give_VVI ?_? •The_AT0 simple_AJ0 answer_NN1 is_VBZ as_AV0 much_AV0 or_CJC as_AV0 little_AJ0 as_CJS you_PNP feel_VVB able_AJ0 to_TO0 give_VVI._.

20 Σώματα Κειμένων 2 •Lancaster-Oslo-Bergen (LOB) corpus Βρετανική Αγγλική •Susanne coprus λέξεις του Brown corpus χαρακτηρισμένες ως προς συντακτική λειτουργία •Penn Treebank > Wall Street Journal: συντακτικά χαρακτηρισμένο σώμα

21 Penn Treebank (POS Tagging) •SpeakerB3/SYM./. Well/UH what/WP do/VBP you/PRP think/VB about/IN the/DT idea/NN of/IN,/, uh/UH,/, kids/NNS having/VBG to/TO do/VB public/JJ service/NN work/NN for/IN a/DT year/NN ?/. Do/VBP you/PRP think/VBP it/PRP 's/BES a/DT,/,

22 Penn Treebank (Syntactic Bracketing) •( (CODE SpeakerB3.)) ( (SBARQ (INTJ Well) (WHNP-1 what) (SQ do (NP-SBJ you) (VP think (NP *T*-1) (PP about (NP (NP the idea) (PP of, (INTJ uh), (S-NOM (NP-SBJ-2 kids) (VP having (S (NP-SBJ *- 2) (VP to (VP do (NP public service work)))) (PP-TMP for (NP a year))))))))) ? E_S))

23 Σώματα Κειμένων 3 •Canadian Hansards Καναδικό Κοινοβούλιο Γνωστότερο παράδειγμα δίγλωσσου σώματος παράλληλων μεταφρασμένων κειμένων (γαλλικά-αγγλικά): στατιστική Μηχανική Μετάφραση

24 Βασικοί προμηθευτές αγγλικών σωμάτων κειμένων •Linguistic Data Consortium (LDC) •European Language Resources Association •International Computer Archive of Modern English (ICAME)

25 Βασικοί προμηθευτές σωμάτων κειμένων της Αγγλικής •Oxford Text Archive (OTA) •Child Language Data Exchange System (CHILDES)

26 Σώμα Κειμένων (text corpus) Ιδιαίτερη συλλογή κειμενικού υλικού το οποίο έχει επιλεγεί σύμφωνα με συγκεκριμένα κριτήρια π.χ. Brown coprus δεν περιέχει ποίηση αλλά κείμενα σε αναλογία προς βαθμό δημοσίευσής τους: άρθρα εφημερίδων, λογοτεχνία, επιστημονικά κείμενα, νομικά κείμενα κ.λπ. (Francis & Kucera 1982)

27 Eθνικός Θησαυρός Ελληνικής Γλώσσας (ΙΕΛ) hnc.ilsp.gr •Περισσότερες από λέξεις, με συνεχή εμπλουτισμό. •Επιλεγμένα, έτσι ώστε να αντικατοπτρίζουν την πραγματική εικόνα της σύγχρονης γλώσσας από το 1990 και μετά. Αποφεύγονται τα κείμενα με διαλεκτικές ή άλλες ιδιαιτερότητες και προτιμώνται κείμενα με υψηλή αναγνωσιμότητα (εφημερίδες μεγάλης κυκλοφορίας, βιβλία με υψηλές πωλήσεις κτλ). •Προφορικός λόγος δεν έχει περιληφθεί στην παρούσα έκδοση του Σώματος •Στοιχεία κατηγοριοποίησης Κατάταξη των κειμένων σε καθορισμένες κατηγορίες, με βάση α) το μέσο δημοσίευσής τους, β) το γένος / κειμενικό είδος στο οποίο ανήκουν και γ) το θέμα / περιεχόμενό τους.

28 α) Ταξινόμηση με βάση το μέσο δημοσίευσης •Βιβλία: κάθε είδους βιβλίο • Εφημερίδες: ημερήσιες ή εβδομαδιαίες εφημερίδες • Περιοδικά: εβδομαδιαίες, δεκαπενθήμερες, μηνιαίες κτλ εκδόσεις • Αδιευκρίνιστο: κάθε είδους κείμενα, που δεν εντάσσονται στις παραπάνω κατηγορίες: -κείμενα σχεδιασμένα για το διαδίκτυο ή άλλα ηλεκτρονικά μέσα -διαφημιστικά ή ενημερωτικά φυλλάδια, προσπέκτους -δακτυλογραφημένο υλικό π.χ.αναφορές, αιτήσεις, νομικά κείμενα, πρακτικά, ανακοινώσεις

29 β) Ταξινόμηση με βάση το γένος/κειμενικό είδος 1 ΕΙΔΟΣΠΕΡΙΓΡΑΦΗΠΑΡΑΔΕΙΓΜΑ •Βιογραφίαπροσωπική ζωή και καθημερινότητα«Μάης 36: Αναμνήσεις βιογραφίες, αυτοβιογραφίες, βιογραφικάενός πρωταγωνιστή» •Γνώμηβασικά άρθρα του τύπου, επιφυλλίδες, «Υπολογιστές στην κριτικές, μόνιμες στήλες, δοκίμια, εκπαίδευση: πώς και επιστημονικές ανακοινώσεις, γιατί» διατριβές, επιστημονικά βιβλία, στήλες με υποκειμενικά σχόλια, χιουμοριστικό ή χρονογραφικό περιεχόμενο, παράθεση άρθρων άλλων εντύπων και γενικότερα κείμενα που εκφράζουν κάποια υποκειμενική άποψη •Διαφήμισηδιάφορα διαφημιστικά κείμενα, φυλλάδια, «Το Ίδρυμα Ελληνικού σποτ καθώς και κάθε κείμενο που Πολιτισμού εξορμά σε προαναγγέλλει εκδηλώσειςΑμερική και Ευρώπη»

30 β) Ταξινόμηση με βάση το γένος/κειμενικό είδος •Επίσημα κείμενα νομικά κείμενα, διοικητικές αναφορές, «Σύνταγμα της Ελλάδας» αξιολογήσεις, πρακτικά της Βουλής, αποσπάσματα από την Εφημερίδα της Κυβερνήσεως, αιτήσεις, επίσημες επιστολές •Ιδιωτικά κείμενα προσωπικές επιστολές, ημερολόγια«Μονόλογος οργής και απόγνωσης» •Λογοτεχνίαλογοτεχνικά έργα, σενάρια, παραμύθια «Η μητέρα του σκύλου» •Πληροφόρησηκείμενα πληροφοριακού χαρακτήρα «Ταχύπλοα: Διασκέδαση (ειδήσεις, ρεπορτάζ, ανταποκρίσεις, με κανόνες» ερωτηματολόγια, δελτία καιρού/ειδήσεων, δημοσκοπήσεις, επίσημες αναφορές, εγχειρίδια, τουριστικοί οδηγοί, βιβλιογραφικοί πίνακες, εγκυκλοπαίδειες, διδακτικά βιβλία •Συζήτησησυζητήσεις, ομιλίες, συνεντεύξεις, «Η ιστορική συνέντευξη επιστολές,άρθρα που εμφανίζονται στο ABC» με τη μορφή επιστολής (όλα σε γραπτό λόγο) •Αδιευκρίνιστοκείμενα που δεν εντάσσονται σε καμία από τις παραπάνω κατηγορίες

31 γ) Ταξινόμηση με βάση το περιεχόμενο •ΑσχολίεςΕλεύθερος Χρόνος, Αθλητισμός, «Μπράβο Σπόρτινγκ!» Τηλεόραση, Αυτοκίνητο, Μοτοσυκλέτα, Αγορές, Κατοικία, Αστρολογία, Μόδα •ΓεωγραφίαΤαξίδια, Πόλεις, Ανθρωπολογία, «Οι παγίδες στα Λαογραφία λιμάνια του Αιγαίου» •Επιστήμη Τεχνολογία, Μαθηματικά, «Η Ανθρακική Περιβάλλον-Οικολογία, Διάστημα Πλατφόρμα Παρνασσού κατά το ανώτερο Ιουρασικό-κατώτερο Κρητιδικό: Στρωματογραφική διάρθρωση και Παλαιογεωγραφική εξέλιξη» •ΕπιχειρήσειςΕπιχειρήσεις, Οικονομία, Διαφήμιση«Πονοκέφαλος ύψους 1,5 τρισ.»

32 Ταξινόμηση με βάση το περιεχόμενο •ΙστορίαΙστορία, Αρχαιολογία, Ιστορία Τέχνης,«Ένα ταξίδι στην ιστορία Βιογραφίες κτλ που καταξιώνει το μύθο» •ΚοινωνίαΠολιτική, Κοινωνιολογία, Νομική, Άμυνα, «Διαλύεται 1 στους 3 Ευρωπαϊκή Ένωση κτλ γάμους στην Ε.Ε.» •ΤέχνεςΑνθρωπιστικές Επιστήμες, Βιβλίο- «Αυτός που έκανε Γράμματα, Φιλοσοφία, Θρησκεία, το κόμικς τέχνη» Αρχαιολογία, Εικαστικά, Εκπαίδευση- Παιδεία •ΥγείαΥγεία, Ιατρική, Ψυχολογία,«Έμφραγμα: Μεγάλος Παιδαγωγική, Κτηνιατρική κίνδυνος οι μικρές βλάβες» •Αδιευκρίνιστοκείμενα που δεν εντάσσονται σε καμία «Διηγήσεις παραφυσικών από τις παραπάνω κατηγορίεςφαινομένων»

33 Προβλήματα προ-επεξεργασίας κειμένου 1 Low-level formatting issues •Εκκαθάριση υλικού από άχρηστα σύμβολα (π.χ. τίτλοι, υποσημειώσεις, πίνακες, λάθη οπτικής αναγνώρισης χαρακτήρων) •Αντιμετώπιση κεφαλαίων χαρακτήρων (κύρια ονόματα, τέλος πρότασης) •Tokenization: Διαδικασία κατάτμησης κειμένου εισόδου σε tokens: λέξεις, αριθμοί, σημεία στίξης: graphic word: a string of contiguous alphanumeric characters with space on either side; may include hyphens and apostrophes, but no other punctuation marks (Kucera & Francis 1967) •Αντιμετώπιση της τελείας: τέλος πρότασης ή συντομογραφία; •Hyphenization: 1 ή 2 λεξήματα;

34 Προβλήματα προ-επεξεργασίας κειμένου 2 •Ομόγραφα: 1 ή 2 λεξήματα; •Ποικιλία στην κωδικοποίηση συγκεκριμένου σημασιολογικού τύπου π.χ. αριθμοί τηλεφώνου Δανία Πακιστάν +411/ Ελβετία (94-1) Σρι Λάνκα Γερμανία Γαλλία Ολλανδία (44.171) Αγγλία Η.Π.Α. The Economist

35 Προβλήματα προ-επεξεργασίας κειμένου 3 •Μορφολογική ανάλυση stemming: stripping off affixes: left with stem Lemmatization καθορισμός λήμματος/λεξήματος •Καθορισμός ορίων πρότασης -90% των τελειών= δείκτες ορίων πρότασης (Riley 1989), μα όχι πάντα.. -προτάσεις ενσωματωμένες σε άλλες προτάσεις (embedded sentences) Ευριστικοί Αλγόριθμοι

36 Στατιστική Ανάλυση 1 Μετατροπή κείμενου σε λίστα λέξεων Α) Ποιές είναι οι πλέον κοινές λέξεις ενός κειμένου; (ποιοτική ανάλυση) Λειτουργικές λέξεις (Function words) Β) Πόσες είναι οι λέξεις ενός κειμένου; (ποσοτική ανάλυση) Δείγματα λέξεων # Τύποι λέξεων (Word Tokens # Word Types)

37 Στατιστική Ανάλυση 2 Α) Ποιοτική ανάλυση Mark Twain’s Tom Sawyer the3332determiner (article) and2972conjunction a1775determiner to1725preposition, verbal infinitive marker of1440preposition was1161auxiliary verb it1027personal/expletive pronoun (there/it:the logical subject follows the copula) in 906preposition that 877complementizer, demonstrative he 877(personal) pronoun I 783(personal) pronoun his 772(possessive) pronoun you 686(personal) pronoun Tom679proper noun with642preposition Open Lexical Categories # Closed Functional categories

38 Στατιστική Ανάλυση 3 Β) Ποσοτική ανάλυση Mark Twain’s Tom Sawyer 0,5 ΜΒ: Δείγματα Τύποι ιδιαίτερα άνισης κατανομής: 12 πλέον κοινές λέξεις (λειτουργικές): πάνω από 700 φορές= 1% κειμένου Πλέον κοινές 100 λέξεις: 50,9% του κειμένου Μοναδικής εμφάνισης τύποι (‘hapax legomena’ ): 49,8% 90%+ τύπων εμφανίζονται 10 ή λιγότερο φορές 12% κειμένου= λέξεις που εμφανίζονται 3 ή λιγότερο φορές ΚρυπτογραφίαΑναγνώριση ύφους ή συγγραφέα •Σε κείμενο πληροφόρησης ιδίου μεγέθους: τύποι λέξεων

39 Στατιστική Ανάλυση 4 Νόμος του Ζιπφ: Human Behavior and the Principle of Least Effort (1949) Οι άνθρωποι δρουν κατά τρόπο ώστε να ελαχιστοποιηθεί ο πιθανός μέσος όρος εργασίας τους (όχι μόνο της άμεσης μα και της μακροπρόθεσμης) Σχέση συχνότητας f και σειράς r (rank) (τύπου) λέξης Λίγες πολύ συχνές λέξεις – μέτριος αριθμός λέξεων μεσαίας συχνότητας – πολλές λέξεις χαμηλής συχνότητας: μικρό λεξιλόγιο κοινών λέξεων ομιλητή & μεγάλο λεξιλόγιο σπάνιων λέξεων ακροατή (μηνύματα λιγότερο αμφίσημα) Mandelbrot 1954

40 Παρα-θέσεις (collocations) Σημασία παράθεσης διαφορετική της σημασίας των μερών της disk drive σύνθετη make upπεριφραστικό ρήμα bacon and eggs έκφραση κλισέ strong tea?powerful tea in broad daylight?bright daylight ??narrow darkness kick the bucket?kick the horse

41 Σημασία εντοπισμού παρα-θέσεων •Μηχανική Μετάφραση (MT) •Ανάκτηση Πληροφορίας (IR) •Λεξικογραφία + Θεωρητικό ενδιαφέρον, καθώς το μεγαλύτερο ποσοστό γλωσσικής χρήσης είναι επαναλαμβανόμενες φράσεις & δομές •Δημιουργικότητα γλωσσικής χρήσης (Chomsky)??? •Πραγματικό & κοινωνικό περιβάλλον γλωσσικής χρήσης (Halliday)???

42 Παρα-θέσεις (collocations) 2 Πλέον συχνά δίγραμμα (bigrams) σε σώμα λέξεων από New York Times (115ΜΒ, Αύγουστος-Νοέμβριος 1990) ΣυχνότηταΛέξη 1Λέξη ofthe13.689ofa inthe13.361bythe tothe13.183withthe onthe12.622fromthe forthe11.428NewYork and the10.007hesaid thatthe 9.775asa atthe 9.231isa tobe 8.753hasbeen ina 8.573fora Είναι παραθέσεις;;;;;;

43 Παρα-θέσεις (collocations) 3 Φιλτράρισμα ως προς γραμματική κατηγορία: A-NN-N NewYorkA-N 7.261UnitedStatesA-N 5.412LosAngelesN-N 3.301lastyearA-N ??? 3.191SaudiArabiaN-N 2.699lastweekA-N ??? 2.514vicepresidentA-N Παράθεση=συχνό δίγραμμα συγκεκριμένου συνδυασμού γραμματικών κατηγοριών

44 Συμφωνίες (concordances) Αυτόματος εντοπισμός πλαισίου εμφάνισης KWIC (Key Word In Context) 1 could find a target. The librarian showed off- running hither 2.ihts in. The young lady teachers showed off- bending sweetl 3.nuwyne?” Tom lifted his lip and showed the vacancy. “Wel 4.is little finger for a pen. Then he showed Huckleberry how t 5. face was haggard, and his eyes showed the fear that was u 6. e first thing his aunt said to him showed him that he had br 7. om her lethargy of distress and showed good interest in the

45 Συμφωνίες (concordances) •NP agent showed off (PP[with/in] manner) •NP agent showed NP[interest] PP[in] content •NP agent showed NP [aversion] PP[to] content NP content CP[that] content •NP agent showed (NP recipient) VP[inf] content how VP[inf] content CP[where] content

46 Συμφωνίες (concordances) Χρήση σε •Λεξικογραφία •Μηχανική Μετάφραση •Οποιοδήποτε είδος parsing (στατιστικό ή μη)


Κατέβασμα ppt "Γλωσσολογία Σωμάτων Κειμένων (Corpus Linguistics) Στόχος της γλωσσολογικής επιστήμης: χαρακτηρισμός & ερμηνεία των γλωσσικών φαινομένων 1.Κατάκτηση, παραγωγή."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google