Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Δρ Μαρία Καμηλάκη, Πανεπιστημιακή υπότροφος Φιλοσοφική Σχολή

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Δρ Μαρία Καμηλάκη, Πανεπιστημιακή υπότροφος Φιλοσοφική Σχολή"— Μεταγράφημα παρουσίασης:

1 Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων Eνότητες 3&4: Εργαλεία ανάλυσης ΗΣΚ
Δρ Μαρία Καμηλάκη, Πανεπιστημιακή υπότροφος Φιλοσοφική Σχολή Τμήμα Ιταλικής Γλώσσας & Φιλολογίας Δ΄ Εξάμηνο, 2018

2 Η σημερινή μας «ατζέντα»
Να ολοκληρώσουμε τις αρχές σχεδιασμού και συγκρότησης ΗΣΚ. Να εξοικειωθούμε με τα βασικά μεθοδολογικά εργαλεία που διαθέτουμε για την προσπέλαση και ανάλυσή τους. Να ενημερωθούμε για τα διαθέσιμα υπολογιστικά εργαλεία επεξεργασίας ΣΚ.

3 Σχεδιασμός και συγκρότηση ΗΣΚ (σε Γούτσος & Φραγκάκη 2015:43)

4 Σχεδιασμός και Συγκρότηση ΗΣΚ
Κάθε ερευνητική υπόθεση εκκινεί από προϋποθέσεις και παραδοχές, οι οποίες οδηγούν στη διαμόρφωση των ερευνητικών ερωτημάτων. Η συλλογή και ανάλυση των δεδομένων και η παρατήρηση των συμπερασμάτων οδηγεί στην ερμηνεία και τη σύγκριση των πληροφοριών, που θα αναμορφώσει κυκλικά τις αρχικές προϋποθέσεις και παραδοχές. Κυκλικότητα της ερμηνευτικής κίνησης στις ανθρωπιστικές επιστήμες.

5 Σχεδιασμός και Συγκρότηση ΗΣΚ
Η συγκρότηση ενός ΗΣΚ περιλαμβάνει τις εξής διαδικασίες: διερεύνηση πηγών και ανάπτυξη εισαγωγή των δεδομένων μεταγραφή (για προφορικά δεδομένα) καθαρισμός των αρχείων από περιττά, μη λεκτικά στοιχεία (π.χ. εικόνες, γραμμές, κενά κ.λπ.) και από κάθε είδους μορφοποίηση που προέρχεται από το αρχικό πρόγραμμα επεξεργασίας κειμένου ή την κωδικοποίηση μιας ιστοσελίδας σε HTML αποθήκευση σε μορφή txt (UTF-8) τυποποίηση (βασικός χαρακτηρισμός των δομικών μερών του κειμένου (π.χ. παραγράφων, ενοτήτων, τίτλων, ομιλητών κ.λπ.) κωδικοποίηση ταυτότητας σε header ή ανεξάρτητη βάση δεδομένων γλωσσική επισημείωση (αρχή «καθαρού κειμένου» του Sinclair)

6 Εισαγωγή δεδομένων σε ΗΣΚ
Η εισαγωγή των γραπτών δεδομένων γίνεται με τρεις τρόπους (βλ. Sinclair 1991: 14): προσαρμογή δεδομένων σε ηλεκτρονική μορφή (προσαρμογή σε μορφότυπο (format) που μπορεί να χειριστεί το σύστημα επεξεργασίας) οπτική σάρωση (σαρωτής και πρόγραμμα οπτικής αναγνώρισης χαρακτήρων - OCR, Optical Character Recognition) δακτυλογράφηση (π.χ. για χειρόγραφα κείμενα ή για κείμενα με κακή ποιότητα πρωτότυπου εντύπου).

7 Εισαγωγή δεδομένων σε ΗΣΚ
Για τα προφορικά κείμενα: μαγνητοφώνηση ή βιντεοσκόπηση, απομαγνητοφώνηση, μεταγραφή. Δείγμα από Corpus Προφορικού Λόγου ΙΝΣ:

8 Εισαγωγή δεδομένων σε ΗΣΚ
Δείγμα από ΣΕΚ:

9 (σε Γούτσος & Φραγκάκη 2015:48)

10 Eίδη συστημάτων αναζήτησης σε ΗΣΚ (γενική κατηγοριοποίηση)
Κλειστά συστήματα, που επιτρέπουν την αναζήτηση και ανάλυση δεδομένων σε έτοιμα και ήδη ενσωματωμένα σε αυτά σώματα κειμένων. Ανοιχτά συστήματα, που επιτρέπουν στον χρήστη να ενσωματώσει σε αυτά είτε έτοιμα σώματα κειμένων, εφόσον είναι διαθέσιμα, είτε δικά του σώματα κειμένων. Συστήματα που επιτρέπουν την αναζήτηση σε κείμενα του διαδικτύου σε πραγματικό χρόνο. Τα αποτελέσματα παρουσιάζονται με τη μορφή συμφραστικών πινάκων. Συστήματα που επιτρέπουν μέσω συγκεκριμένων εργαλείων τη δημιουργία σωμάτων κειμένων από το διαδίκτυο.

11 Εργαλεία: Κατάλογοι συχνότητας (word lists)
Τι είναι σημαντικό και κεντρικό στη γλώσσα και τι όχι. 100 πιο συχνές λέξεις ΕΘΕΓ 100 πιο συχνά λήμματα ΕΘΕΓ

12 Εργαλεία: Κατάλογοι συχνότητας (word lists)
Στις πρώτες θέσεις του καταλόγου συχνότητας απαντούν αποκλειστικά γραμματικά ή λειτουργικά στοιχεία («κενοί» τύποι). Νόμος του Zipf: η συχνότητα μιας λέξης είναι αντιστρόφως ανάλογη με τη σειρά της στον κατάλογο συχνότητας. Το μεγαλύτερο μέρος των τύπων ενός σώματος κειμένων αποτελείται από άπαξ λεγόμενα (hapax legomena).

13 Εργαλεία: Κατάλογοι συχνότητας (word lists)
Με βάση τους καταλόγους συχνότητας μπορούμε να διακρίνουμε διάφορα επίπεδα στο λεξιλόγιο μιας γλώσσας: οι λέξεις πολύ υψηλής συχνότητας είναι λίγες σε αριθμό, καλύπτουν μεγάλο όγκο κειμένων και απαρτίζουν το βασικό λεξιλόγιο. οι λέξεις υψηλής συχνότητας είναι λίγο περισσότερες και καλύπτουν λίγο περισσότερα κείμενα, όσο μειώνεται η συχνότητα, το λεξιλόγιο είναι πιο εξειδικευμένο και απαιτητικό και καλύπτει όλο και εύρος κειμένων.

14 Εργαλεία: αντίστροφος κατάλογος συχνότητας (σε: Γούτσος & Φραγκάκη 2015:65)

15 Εργαλεία: Συμφραστικοί πίνακες (concordances)
Πίνακας που περιλαμβάνει σε αριθμημένες γραμμές όλες τις εμφανίσεις ενός γλωσσικού στοιχείου, όπως χρησιμοποιείται σε αυθεντικά κείμενα, μαζί με τμήμα από το αριστερό και το δεξί συγκείμενο (co-text), δηλαδή το κειμενικό του περιβάλλον. Το συγκείμενο ανάλογα με το σύστημα αναζήτησης μπορεί να αποτελείται από συγκεκριμένο αριθμό λέξεων αριστερά και δεξιά που ονομάζεται εύρος (span). Το συνηθέστερο μορφότυπο παράστασης συμφραστικών πινάκων είναι το KWIC (Key Word in Context), στο οποίο η υπό εξέταση λέξη, που ονομάζεται κόμβος (node) ή κομβική λέξη (node word), παρουσιάζεται στο κέντρο κάθε γραμμής. Ανάλυση των δεδομένων σε δύο άξονες: τον οριζόντιο (συνταγματικό), που δείχνει το άμεσο ή ευρύτερο συγκείμενο της κομβικής λέξης, και τον κάθετο (παραδειγματικό), που αναδεικνύει τις ομοιότητες και τις διαφορές μεταξύ των διαφορετικών χρήσεων της ίδιας της λέξης.

16

17 Συμφραστικοί πίνακες (concordances) (ΜcEnery & Baker 2012:36)

18 Αναζήτηση με λεξικές εκφράσεις
Μια λεξική έκφραση μπορεί να είναι ένας μονολεκτικός λεκτικός τύπος (word-form), ένα λήμμα (lemma) ή μία ακολουθία λεκτικών τύπων ή λημμάτων. Η αναζήτηση με βάση έναν λεκτικό τύπο μπορεί να προσφέρει πληροφορίες για τις σημασίες, τη μορφολογική του δομή ή τη συντακτική του συμπεριφορά. Η αναζήτηση με λήμμα, δηλαδή με την ουδέτερη μορφή στην οποία ανάγονται όλοι οι κλιτικοί τύποι μιας λέξης (π.χ. τραπέζι, τραπεζιού, τραπέζια → λήμμα «τραπέζι»), προϋποθέτει ότι το σώμα κειμένων είναι λημματοποιημένο.

19 Συμφραστικοί πίνακες (concordances): πολυλεκτικοί σχηματισμοί

20 Αναζήτηση με λήμμα

21 Αναζήτηση με τελεστές ή μπαλαντέρ
Οι συνηθέστεροι χαρακτήρες μπαλαντέρ είναι ο αστερίσκος (*), που αντικαθιστά έναν ή περισσότερους χαρακτήρες, και το ερωτηματικό (?), που αντικαθιστά έναν μόνο χαρακτήρα. Είναι ιδιαίτερα χρήσιμοι όταν ψάχνουμε για λέξεις που αρχίζουν, περιέχουν ή τελειώνουν σε μια ορισμένη ακολουθία χαρακτήρων, π.χ.: υπερ* *ώδης *χρωμ*

22 Αναζήτηση με «μπαλαντέρ»
Οι χαρακτήρες μπαλαντέρ μπορούν να χρησιμοποιηθούν και σε σώματα κειμένων που δεν είναι λημματοποιημένα (π.χ. το ΣΕΚ), προκειμένου να ανασύρουμε αποτελέσματα για όσον το δυνατόν περισσότερους κλιτικούς τύπους με τις λιγότερες δυνατές αναζητήσεις Π.χ. η δήλωση κρού* θα ανασύρει προτάσεις που περιλαμβάνουν όλους τους κλιτικούς τύπους του λήμματος κρούσμα και κρούω. Ωστόσο, θα πρέπει να θυμάστε ότι η αναζήτηση με χαρακτήρες μπαλαντέρ συχνά παράγει και μη επιθυμητά αποτελέσματα (κρούστα).

23 Αναζήτηση με * (ΣΕΚ: ασθεν*)

24 Αναζήτηση με τελεστές (ΣΕΚ: ξεχν*)

25 Αναζήτηση πολυλεκτικών συνδυασμών: λήμμα και λεκτικός τύπος
Αναζήτηση πολυλεκτικών συνδυασμών: λήμμα και λεκτικός τύπος

26 Αναζήτηση με γραμματικές εκφράσεις
Οι γραμματικές εκφράσεις είναι δομές που περιλαμβάνουν μία γραμματική κατηγορία ή και ακολουθία γραμματικών κατηγοριών. Η αναζήτηση με γραμματικές εκφράσεις προϋποθέτει ότι το σώμα κειμένων περιλαμβάνει επισημειώσεις με τις γραμματικές κατηγορίες των λέξεων όλων των κειμένων. Για παράδειγμα, στον ΕΘΕΓ η αναζήτηση με βάση τη γραμματική κατηγορία «κύριο ουσιαστικό» επιστρέφει έναν συμφραστικό πίνακα με τις εμφανίσεις των κύριων ουσιαστικών.

27 Αναζήτηση με γραμματικές εκφράσεις

28 Αναζήτηση με γραμματικές εκφράσεις
Ο χρήστης μπορεί να αναζητήσει λεκτικούς τύπους ή λήμματα που ανήκουν σε συγκεκριμένη γραμματική κατηγορία (π.χ. αναζήτηση του λήμματος “ηλίθια” όταν χρησιμοποιείται ως επίθετο). Χωρίς το φίλτρο αυτό το σύστημα θα παρήγαγε συμφραστικό πίνακα με εμφανίσεις των τύπων του “ηλίθια”και ως επιθέτου και ως επιρρήματος. Η εφαρμογή αυτού του φίλτρου είναι ιδιαίτερα χρήσιμη στις αναζητήσεις με ομόγραφες λέξεις που ανήκουν σε διαφορετικές γραμματικές κατηγορίες: π.χ. αντιδράσεις < αντιδρώ (ρήμα) – αντιδράσεις < αντίδραση (ουσιαστικό)).

29 Αναζήτηση με υβριδικές εκφράσεις
Οι υβριδικές εκφράσεις συνδυάζουν λεξικές με γραμματικές εκφράσεις. Είναι χρήσιμες όταν αναζητούμε δομές για τις οποίες γνωρίζουμε τον λεξικό τύπο ή το λήμμα κάποιων λέξεων και τη γραμματική κατηγορία για άλλα τμήματα της υπό εξέταση δομής. «τρελός + ουσιαστικό» «ρήμα + ότι» Κάποια συστήματα προσφέρουν στον χρήστη τη δυνατότητα να αναζητήσει ταυτόχρονα περισσότερους από έναν λεκτικούς τύπους της ίδιας λέξης (π.χ. τους τύπους «διδάσκοντα» και «διδάσκοντος», βλ. επόμενη διαφάνεια). Για να διατυπώσει τέτοιες σύνθετες εκφράσεις ο χρήστης πρέπει να γνωρίζει τις βασικές συμβάσεις της γλώσσας Corpus Query Processor (CPQ).

30 τρελός + ουσιαστικό

31 Αναζητήσεις με ασυνεχείς συνδυασμούς λεξικών και γραμματικών εκφράσεων
Συχνά η ακολουθία των στοιχείων μιας φράσης δεν είναι συνεχής, αφού μεταξύ των συστατικών της μπορεί να μεσολαβούν και άλλοι λεκτικοί τύποι. Η αναζήτηση γίνεται πιο ευέλικτη, προσδιορίζοντας την απόσταση που μπορεί να μεσολαβεί μεταξύ της κομβικής λέξης και των αναζητούμενων λεξικών ή γραμματικών στοιχείων που βρίσκονται στο αριστερό και στο δεξί της συγκείμενο. Η απόσταση μπορεί να ρυθμίζεται με βάση τις λέξεις ή γενικότερα τα τεμάχια (tokens), στα οποία, ανάλογα με την επεξεργασία και τον σχολιασμό των κειμένων, μπορεί να αντιστοιχούν όχι μόνο λέξεις αλλά σε σημεία στίξης.

32 Αναζητήσεις με ασυνεχείς συνδυασμούς λεξικών και γραμματικών εκφράσεων
Π.χ., αν διερευνούμε τις ρηματικές εκφράσεις στις οποίες συμμετέχει το ουσιαστικό «καρδιά», μπορούμε να συνδυάσουμε στο ερώτημά μας το λήμμα «καρδιά» με τη γραμματική κατηγορία «ρήμα» να προηγείται σε απόσταση 3 λέξεων.

33

34 Αναζητήσεις με ασυνεχείς συνδυασμούς λεξικών και γραμματικών εκφράσεων
Ο χρήστης, ανάλογα με το ερευνητικό του ερώτημα, μπορεί να πειραματίζεται με τη δυνατότητα ρύθμισης της απόστασης μεταξύ των συστατικών της δομής που τον/την ενδιαφέρει.

35 Χρήση άλλων φίλτρων Κειμενικό είδος και υπο-είδος, τρόπος επικοινωνίας (προφορικός/γραπτός λόγος), μέσο, η ημερομηνία, ο συγγραφέας ή η δομική ενότητα του κειμένου. Γεωγραφική ποικιλία (ΣΕΚ) Συγκεκριμένοι συγγραφείς (ΕΘΕΓ). Στο BNC με το σύστημα αναζήτησης Corpus BYU, ο χρήστης μπορεί να επιλέξει δύο ενότητες κριτηρίων επιλογής κειμένων όταν θέλει να διενεργήσει αυτόματα συγκρίσεις σε δύο διαφορετικά κειμενικά είδη (π.χ. σύγκριση των ουσιαστικών με επίθημα *ment σε ακαδημαϊκά συγγράμματα και σε λογοτεχνικά κείμενα).

36 Eφαρμογή Πώς θα αναζητήσετε στη διεπαφή του ΣΕΚ όλους τους λεξικούς τύπους που συνδέονται με τα λήμματα επιλέγω και εφικτός; Η αναζήτηση του λήμματος επιλέγω είναι πιο πολύπλοκη, καθώς εμπλέκεται ποικιλία τύπων του ρήματος (π.χ. σε όλους τους χρόνους, τις εγκλίσεις, τις φωνές).

37 Ταξινόμηση των αποτελεσμάτων
Πρώτο βήμα κατά την επεξεργασία των αποτελεσμάτων αποτελεί η ταξινόμηση των δεδομένων των συμφραστικών πινάκων με τρόπο τέτοιο ώστε οι όμοιοι λεξικοί τύποι ή οι όμοιες γραμματικές δομές να συγκεντρώνονται μαζί. Τρεις είναι οι βασικοί τρόποι ταξινόμησης που προσφέρονται από την πλειονότητα των συστημάτων: με βάση την κομβική λέξη, με βάση το αριστερό συγκείμενο και με βάση το δεξί συγκείμενο. Καθεμία από τις τρεις αυτές δυνατότητες μπορεί να εφαρμοστεί αυτόνομα ή και σε συνδυασμό με τις υπόλοιπες δύο. Η ταξινόμηση γίνεται επίσης είτε κατ’ αύξουσα είτε κατά φθίνουσα αλφαβητική σειρά, ενώ ανάλογα με το σύστημα αναζήτησης μπορεί να εκτείνεται σε μία, δύο, τρεις ή περισσότερες λέξεις δεξιά ή αριστερά της κομβικής λέξης.

38 Συμφραστικά πλαίσια (patterns)
Αν οι συμφραστικοί πίνακες στηρίζονται στην παρατηρητικότητα του ερευνητή, τα συμφραστικά πλαίσια αποτελούν αυτοματοποιημένα εργαλεία για την επισήμανση των διαφόρων συνάψεων ή δομικών σχημάτων → αφαίρεση από τους αντίστοιχους συμφραστικούς πίνακες με διάταξη των συνεμφανιζόμενων λέξεων γύρω από την κομβική λέξη με σειρά συχνότητας. Βασίζονται στη μέτρηση και τον υπολογισμό της στατιστικής συχνότητας. Προσφέρουν εικόνα με τις συχνότερες λέξεις που εμφανίζονται αριστερά και δεξιά της κομβικής λέξης χωρίς άλλες πληροφορίες.

39 Συμφραστικά πλαίσια (patterns)

40 Λεξικά συμπλέγματα (lexical bundles/clusters)
Βασίζονται στην αυτοματοποιημένη ανάλυση των συμφραστικών πλαισίων. Πρόκειται για ακολουθίες περισσότερων από δύο λέξεις με στατιστικά σημαντική συνεμφάνιση σε ένα κείμενο ή σε ένα σώμα κειμένων. μη διακοπτόμενες ακολουθίες περισσότερων των δύο λέξεων.

41 Λεξικά συμπλέγματα (lexical bundles/clusters)
(σε Γούτσος & Φραγκάκη 2015:70)

42 Λεξικά συμπλέγματα (lexical bundles/clusters)
O υπολογιστής “σπάει” το κείμενο σε ακολουθίες 3, 4, 5 κ.λπ. λέξεων, ανάλογα με το συγκεκριμένο μήκος της αναζήτησής μας, και υπολογίζει ποιες ακολουθίες από αυτές επαναλαμβάνονται με στατιστικά σημαντικό τρόπο. Π.χ.: λεξικά συμπλέγματα με μήκος 3 στον στίχο «Άκρα του τάφου σιωπή στον κάμπο βασιλεύει». Άκρα του τάφου του τάφου σιωπή τάφου σιωπή στον σιωπή στον κάμπο στον κάμπο βασιλεύει.

43 Ν-grams Συναφής είναι και η ευρύτερη έννοια των ν-γράφων(n-grams), που αφορά τις ακολουθίες οποιωνδήποτε στοιχείων της γλώσσας με στατιστικά σημαντική συνεμφάνιση. Τα στοιχεία αυτά είναι πιο στενά συνδεδεμένα από τις απλές συνάψεις και αποτελούν πολυλεκτικά σύνολα.

44 Ν-grams (σε: Biber & Reppen 2015:45)

45 Ο χρήστης μπορεί να αναζητήσει όλα τα συμπλέγματα ενός σώματος κειμένων ή ενός κειμένου προσδιορίζοντας τον αριθμό N των συνδυαζόμενων λέξεων (π.χ. n2, n3, n4 κτλ.). Οι κατάλογοι λεξικών συμπλεγμάτων μπορούν να προσφέρουν χρήσιμες πληροφορίες για λεξικούς συνδυασμούς που μπορούν να αποτελούν συνάψεις ή πολυλεκτικούς όρους σε ένα θεματικό πεδίο. Καταλόγους συμπλεγμάτων παράγουν επίσης τα διαδιακτυακά εργαλεία: ΝgramViewer της Google και το WebCorpLive.

46 Λέξεις-κλειδιά (keywords)
Μεθοδολογικό εργαλείο που εκμεταλλεύεται τη σύγκριση καταλόγων συχνότητας με στατιστικό τρόπο. Η σύγκριση λαμβάνει υπόψη το μέγεθος των δύο σωμάτων κειμένων και αξιοποιεί στατιστικά τεστ όπως το χ2. Εντοπίζονται λέξεις που, όταν η συχνότητά τους σε ένα σώμα κειμένων Α συγκρίνεται με τη συχνότητά τους σε ένα άλλο σώμα κειμένων Β, το οποίο χρησιμοποιείται ως σώμα κειμένων αναφοράς, εμφανίζεται στατιστικά σημαντική.

47 Λέξεις-κλειδιά (keywords) (σε: Φραγκάκη 2012)
Όσο μεγαλύτερος είναι ο αριθμός στη στήλη «Σημαντικότητα» τόσο πιο σημαντική είναι η λέξη-κλειδί. Ρ value: ο βαθμός στον οποίο η σημαντικότητα κάθε λέξης-κλειδιού μπορεί να μην υπολογίζεται σωστά. Η πιθανότητα αυτή είναι πάρα πολύ χαμηλή στα δεδομένα που μελετήθηκαν, αν ληφθεί υπόψη ότι έως και 0,05 (δηλαδή 5% πιθανότητα να γίνεται λανθασμένος υπολογισμός) θεωρείται αποδεκτό για τις κοινωνικές επιστήμες.

48 Λέξεις-κλειδιά (keywords) (σε: Γούτσος & Φραγκάκη 2015: 74)

49 Λογισμικά επεξεργασίας ΗΣΚ

50 Συστήματα αναζήτησης σε ΣΚ

51 Λογισμικά επεξεργασίας ΗΣΚ
Προκειμένου τα διάφορα λογισμικά να επεξεργαστούν ελληνικά δεδομένα πρέπει αυτά να είναι αποθηκευμένα σε μορφή txt («Απλό κείμενο»). Η αποθήκευση μπορεί να γίνει στο Word από την επιλογή Αρχείο > Αποθήκευση ως > Απλό κείμενο. Η τάση να επικρατήσει η κωδικοποίηση UTF-8 για όλα τα κείμενα προσφέρει επιπλέον τη δυνατότητα για επεξεργασία πολυτονικών κειμένων. Στο Antconc (version 3.4.3), αν τα δεδομένα δεν είναι σε μορφή UTF-8, θα πρέπει να γίνει η επιλογή Global Settings > Character Encoding > Edit > ISO Encodings > Greek (iso ) > Apply.

52 Web-as-corpus (Κilgarriff & Grefenstette 2003)
Ιδιαίτερη περίπτωση αποτελεί ο παγκόσμιος ιστός, ο οποίος προσφέρει τεράστιο όγκο γλωσσικών δεδομένων, είναι σαφές όμως ότι δεν πληροί κριτήρια σχεδιασμού, δεν είναι πεπερασμένος και δεν μπορεί να θεωρηθεί αντιπροσωπευτικός μιας γλωσσικής ποικιλίας και —πολύ περισσότερο— μιας γλώσσας στο σύνολό της. Μπορεί να προσφέρει πολύτιμη βοήθεια στους μελετητές της γλώσσας, με την προϋπόθεση ότι λαμβάνονται υπόψη οι εγγενείς περιορισμοί του.

53 Sketch Engine Tο λογισμικό Sketch Engine (Kilgarriff et al. 2014) αναπτύχθηκε κυρίως για λεξικογραφικούς σκοπούς, αλλά χρησιμοποιείται ευρέως στην επεξεργασία των σωμάτων κειμένων. Το πρόγραμμα, εκτός από την πρόσβαση σε έτοιμα σώματα κειμένων (περιλαμβάνει ένα εκτεταμένο σώμα κειμένων στα ελληνικά, το GkWaC), επιτρέπει και τη δημιουργία των δικών σας κειμένων από το διαδίκτυο με τη χρήση του εργαλείου WebBootCamp. Η συγκεκριμένη εφαρμογή μπορεί να χρησιμοποιηθεί για τη δημιουργία μικρών σε μέγεθος και εξειδικευμένων σε περιεχόμενο σωμάτων κειμένων, ως πηγών δεδομένων για εστιασμένες έρευνες. Η αλίευση των κειμένων βασίζεται σε συγκεκριμένες λέξεις ή φράσεις-κλειδιά (seed words) ανάλογα με το αντικείμενο της έρευνας (π.χ. ιατρική ορολογία, λεξιλόγιο μαγειρικής, βασικοί όροι πληροφορικής)

54 Λεξιλογικό προφίλ Εκτός των γνωστών μεθοδολογικών εργαλείων, το Sketch Engine προσφέρει και το λεξιλογικό προφίλ μιας λέξης. Πρόκειται για ένα είδος στατιστικής περίληψης που παρουσιάζει τις συντακτικές σχέσεις της αναζητούμενης λέξης. Αντίδοτο στα μειονεκτήματα του «παραδοσιακού» τρόπου παρουσίασης και της λεξικής πληροφορίας μέσω των συμφραστικών πινάκων, που κατέληξε δύσχρηστος και αναποτελεσματικός, λόγω όγκου της σχετικής πληροφορίας.

55 Λεξιλογικό προφίλ

56 Σύγκριση λεξιλογικών προφίλ (Sketch Diff)

57 Βιβλιογραφικές αναφορές
Anthony, L. (2014). AntConc (Version 3.4.3). Tokyo: Waseda University. Baroni, M. & Evert, S. (2009). Statistical methods for corpus exploitation. In A. Lüdeling & M. Kytö (eds), Corpus Linguistics: An International Handbook. Vol. 2. Berlin: de Gruyter, Βiber, D. & R. Reppen The Cambridge Handbook of English Corpus Linguistics. Cambridge: CUP. Bondi, M. & Scott, M. (eds) (2010). Keyness in Texts. Amsterdam/Philadelphia: Benjamins. Γούτσος, Δ. & Φραγκάκη, Γ. (2015). Εισαγωγή στη Γλωσσολογία Σωμάτων Κειμένων. Ελληνικά ακαδημαϊκά ηλεκτρονικά συγγράμματα και βοηθήματα. Cheng, W., Greaves, C. & Warren, M. (2006). From n-gram to skipgram to concgram. International Journal of Corpus Linguistics 11(4), Kilgarriff, A., Baisa, V., Bušta, J., Jakubíček, M., Kovář, V., Michelfeit, J., Rychlý, P. & Suchomel, V. (2014). The Sketch Engine: Ten Years on. Lexicography 1(1), 7-36. McEnery, T. & Hardie, A. (2012). Corpus Linguistics: Method, Theory and Practice. Cambridge: Cambridge University Press. Oakes, M. (1998). Statistics for Corpus Linguistics. Edinburgh: Edinburgh University Press. Scott, M. (2008). WordSmith Tools (Version 6). Liverpool: Lexical Analysis Software. Φραγκάκη, Γ. (2012). Η ιδιόλεκτος των κυβερνητικών εκπροσώπων: Προκαταρκτικές παρατηρήσεις στο κειμενικό είδος της ενημέρωσης συντακτών. Στο Z. Gavriilidou, A. Efthymiou, E. Thomadaki & P.


Κατέβασμα ppt "Δρ Μαρία Καμηλάκη, Πανεπιστημιακή υπότροφος Φιλοσοφική Σχολή"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google