Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων Eνότητα 7: Στοιχεία επαγωγικής στατιστικής Ενότητα 8: Λεξικά σχήματα Δρ Μαρία Καμηλάκη, Πανεπιστημιακή υπότροφος.

Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων Eνότητα 7: Στοιχεία επαγωγικής στατιστικής Ενότητα 8: Λεξικά σχήματα Δρ Μαρία Καμηλάκη, Πανεπιστημιακή υπότροφος Φιλοσοφική Σχολή Τμήμα Ιταλικής Γλώσσας & Φιλολογίας Δ΄ Εξάμηνο, 2018

Ας συνδεθούμε με την προηγούμενη εβδομάδα…
Εξοικειωθήκαμε με εργαλεία της περιγραφικής στατιστικής, όπως είναι: η συχνότητα, οι δείκτες κεντρικής τάσης (μέσος όρος, δεσπόζουσα τιμή, διάμεσος) και οι δείκτες διασποράς (εύρος, διακύμανση, τυπική απόκλιση).

Η σημερινή μας «ατζέντα»
Μέρος 1ο: να διεξέλθουμε βασικά στοιχεία επαγωγικής στατιστικής ανάλυσης. Μέρος 2ο: να εξετάσουμε τη συμβολή των ΗΣΚ στη μελέτη των λεξικών σχημάτων.

ΣΤΟΙΧΕΙΑ ΕΠΑΓΩΓΙΚΗΣ ΣΤΑΤΙΣΤΙΚΗΣ

Επαγωγική στατιστική Ασχολείται με τους τρόπους γενίκευσης σε όλο τον πληθυσμό των συμπερασμάτων που εξάγονται από το δείγμα (Παρασκευόπουλος 1990:10). Διαφοροποιείται από την περιγραφική στατιστική, που αποσκοπεί στη συνθετική παρουσίαση συγκεκριμένων ομάδων ποσοτικών πληροφοριών. Συνήθως σε μια γλωσσολογική έρευνα χρησιμοποιείται αρχικά περιγραφική στατιστική για την έκθεση των αποτελεσμάτων που συλλέχθηκαν από τη δειγματοληπτική έρευνα και στη συνέχεια επαγωγική, για να γενικευτούν τα αποτελέσματα της έρευνας και να αναχθούν σε ευρύτερες ομοειδείς ομάδες.

Στόχοι της επαγωγικής στατιστικής
Εκτίμηση (estimation): διαδικασίες που επιτρέπουν την εκτίμηση των χαρακτηριστικών του πληθυσμού μέσω των παρατηρηθέντων χαρακτηριστικών του δείγματος Έλεγχος Σημαντικότητας (significance testing): αξιολόγηση του κατά πόσο οι διαφορές που εμφανίζονται σε διαφορετικές ομάδες ή μεταβλητές είναι πραγματικές ή προκύπτουν τυχαία.

Έλεγχος εμπιστοσύνης Το επίπεδο εμπιστοσύνης δηλώνει το ποσοστό της πιθανότητας ένα δεδομένο να είναι αληθές, να ανήκει δηλαδή στο διάστημα εμπιστοσύνης που έχει καθοριστεί. Για παράδειγμα, το επίπεδο εμπιστοσύνης 95% δηλώνει ότι υπάρχουν 95% πιθανότητες το αποτέλεσμα που έχει προκύψει από το δείγμα να είναι αξιόπιστο.

Έλεγχος στατιστικής σημαντικότητας
Το επίπεδο σημαντικότητας δηλώνει το ύψος της πιθανότητας το αποτέλεσμα να αποδειχθεί εσφαλμένο στο απώτερο μέλλον. Στόχος είναι το επίπεδο στατιστικής σημαντικότητας να είναι «αυστηρό», ώστε να είναι δύσκολο να απορριφθεί η μηδενική υπόθεση και από την άλλη να γίνεται αποδεκτή με όσο πιο ισχυρά «τεκμήρια» γίνεται η εναλλακτική υπόθεση εργασίας. Αν το επίπεδο σημαντικότητας έχει οριστεί 5%, αυτό θα είναι και το ποσοστό του κινδύνου σφάλματος του αποτελέσματος.

Έλεγχος στατιστικής σημαντικότητας
Όταν ελέγχουμε την στατιστική σημαντικότητα στην ουσία ελέγχουμε την πιθανότητα μια υπόθεση που έχουμε διαμορφώσει για τα δεδομένα μας να βγει αληθινή ή να διαψευσθεί. Η υπόθεση που κάνουμε για τα δεδομένα μας λέγεται «ερευνητική υπόθεση» και συμβολίζεται με το Η1. Στην υπόθεση αυτή θεωρούμε ότι υπάρχει μια διαφορετική συμπεριφορά ομάδων ή μεταβλητών. Η εναλλακτική υπόθεση που θα ισχύσει για τα δεδομένα μας αν η ερευνητική δεν αποδειχθεί λέγεται «μηδενική υπόθεση» και συμβολίζεται με το Η0. Σε αυτήν την περίπτωση θεωρούμε ότι οι ομάδες που εξετάζουμε ή οι μεταβλητές δεν εμφανίζουν διαφορές.

Επίπεδο σημαντικότητας
Η πιθανότητα (p) που ο ερευνητής θέτει ως όριο για να απορρίψει την μηδενική υπόθεση ονομάζεται «επίπεδο σημαντικότητας» (significance level). Παραδοσιακά στις κοινωνικές και τις ανθρωπιστικές επιστήμες το επίπεδο σημαντικότητας τίθεται στο 0,05. Το επίπεδο σημαντικότητας σε άλλες επιστήμες μπορεί να διαφέρει σημαντικά αφού υπάρχουν επιστήμες (Ιατρική, Αστρονομία), όπου αβεβαιότητες της τάξης του 5% μεταφράζονται σε χαμένες ανθρώπινες ζωές. Έτσι τίθενται επίπεδα σημαντικότητας αρκετά μικρότερα (π.χ. 0,01 και 0,001).

Επίπεδο σημαντικότητας

Παραδείγματα υποθέσεων
Διαφορές Ομάδων Η1: Οι γυναίκες χρησιμοποιούν περισσότερα υποκοριστικά από τους άνδρες. Η0: Οι γυναίκες και οι άνδρες δεν εμφανίζουν διαφορές στη συχνότητα χρήσης υποκοριστικών. Σχέση μεταβλητών Η1: Το μέσο μήκος των λέξεων ενός κειμένου σχετίζεται με τη δυσκολία κατανόησής του. Η0: Το μέσο μήκος των λέξεων ενός κειμένου δεν σχετίζεται με την δυσκολία κατανόησής του.

Η βασική δομή της ερευνητικής διαδικασίας
Διατυπώνουμε την ερευνητική υπόθεση και την μηδενική υπόθεση. Διεξάγουμε την έρευνα. Ελέγχουμε την μηδενική υπόθεση: Θέτουμε το επίπεδο σημαντικότητας Επιλέγουμε στατιστικό τεστ και υπολογίζουμε την στατιστική τιμή Συγκρίνουμε την στατιστική τιμή με την κρίσιμη τιμή ενός τεστ

Διατυπώστε τη δική σας ερευνητική υπόθεση!!!

Είδη στατιστικού λάθους
Τύπου Ι (α λάθος): Συμβαίνει όταν ο ερευνητής απορρίπτει τη μηδενική υπόθεση και αποδέχεται την ερευνητική, όταν στην ουσία η μηδενική είναι ορθή και θα έπρεπε να γίνει αποδεκτή. Τύπου ΙΙ (β λάθος) ή λάθος αποδοχής: Αποτελεί το αντίθετο του α λάθους και συνίσταται στην αποδοχή της μηδενικής υπόθεσης όταν αυτή στην πραγματικότητα δεν ισχύει. Η0 ορθή Η0 λανθασμένη Αποδοχή Η0 Σωστό β λάθος Απόρριψη Η0 α λάθος

Ας θυμηθούμε… εξαρτημένες και ανεξάρτητες μεταβλητές
Οι ερευνητικές μεταβλητές στην ανάλυση της κοινωνιογλωσσικής ποικιλότητας

Ας θυμηθούμε… τα είδη στατιστικών δεδομένων
Αριθμητικά δεδομένα Μετρήσεις που οι τιμές τους είναι αριθμοί, π.χ. «αριθμός μη πρότυπων (non-standard) τύπων», «μήκος πρότασης», «λεξιλογική πυκνότητα», «διάρκεια άρθρωσης ενός φωνήεντος» κ.ά. Ποιοτικά δεδομένα Μετρήσεις που οι τιμές τους είναι ποιοτικές διαβαθμίσεις, π.χ. τιμές όπως «ελλιπής», «ικανοποιητική», «επαρκής» ως απαντήσεις για γλωσσική επάρκεια σε γλώσσα-στόχο, «αρνητική»/«θετική» για στάσεις προς τη χρήση λέξεων-ταμπού. Κατηγορικά δεδομένα Μετρήσεις που οι τιμές τους είναι ονοματικοί χαρακτηρισμοί που διαφέρουν σε είδος π.χ. τιμές όπως «άνδρας, γυναίκα», «κείμενα δημοσιογραφικού λόγου, λογοτεχνίας, επιστήμης», μέρος του λόγου: «άρθρο», «ουσιαστικό», «ρήμα» κ.ο.κ.

Στατιστικά τεστ Κατηγορικά δεδομένα: Ποιοτικά δεδομένα:
χ2 Ποιοτικά δεδομένα: Median test Mann-Whitney U test Kruskal-Wallis test Αριθμητικά δεδομένα T-test ANOVA

Κατηγορικά δεδομένα: χ2
Το χ2 εξετάζει διαφορές μεταξύ των κατηγοριών μιας ανεξάρτητης μεταβλητής σε σχέση με τις κατηγορίες μιας εξαρτημένης. Πληροφορεί τον ερευνητή για την ένταση της συσχέτισης μεταξύ των μεταβλητών, αλλά δεν δίνει καμία ένδειξη για την κατεύθυνση της συσχέτισης. Υπάρχουν δύο είδη: χ2 με μια μεταβλητή: εξετάζει διαφορές στις κατηγορίες μιας κατηγορικής μεταβλητής χ2 με δύο μεταβλητές: εξετάζει διαφορές στις κατηγορίες που εμφανίζονται σε δύο κατηγορικές εξαρτημένες ή ανεξάρτητες μεταβλητές

χ2 με μια μεταβλητή Το τεστ μετράει τη συχνότητα σε κάθε κατηγορία της μεταβλητής (ονομάζονται παρατηρημένες συχνότητες – observed frequencies). Στη συνέχεια υπολογίζεται η αναμενόμενη συχνότητα (expected frequency) στις σχετικές κατηγορίες. Αυτή είναι η συχνότητα που θα εμφανιζόταν αν ίσχυε η μηδενική υπόθεση. Το χ2 προκύπτει από τον ακόλουθο τύπο:

Παράδειγμα Διερεύνηση της χρήσης επιθέτων σε 5 θεματικά είδη κειμένων
Επιστήμη Ιστορία Πολιτική Οικονομία Σύνολο Παρατηρημένες συχνότητες (Ο) 48 41 27 13 129 Αναμενόμενες συχνότητες (Ε) 32,25

χ2 με δύο μεταβλητές Αποτελεί επέκταση της χρήσης του χ2 με μια μεταβλητή. Το μόνο που αλλάζει είναι ο υπολογισμός των αναμενόμενων συχνοτήτων. Αυτός προκύπτει από το γινόμενο του συνόλου της στήλης και του συνόλου της σειράς το οποίο διαιρείται από το συνολικό άθροισμα των συχνοτήτων του πίνακα:

Παράδειγμα εφαρμογής του χ2 με δύο μεταβλητές
Παράδειγμα εφαρμογής του χ2 με δύο μεταβλητές Διερεύνηση της χρήσης των επιθέτων και των ουσιαστικών σε διαφορετικά είδη κειμένων. Επίθετα Ουσιαστικά Άθροισμα σειράς Επιστήμη Ο 48 7 55 Ε 36,39 18,61 Οικονομικά 27 16 43 28,45 14,55 Ιστορία 13 22 35 23,16 11,84 Άθροισμα στήλης 88 45 133 Συνολικό άθροισμα

Αριθμητικά δεδομένα – t-test

Αριθμητικά δεδομένα: t-test
Παραμετρική στατιστική διαδικασία που ελέγχει τη στατιστική σημαντικότητα των διαφορών των μέσων όρων: α) δύο δειγμάτων στην ίδια περίσταση (ανεξάρτητα δείγματα-independent sample t-test) ή β) ενός δείγματος σε δύο διαφορετικές περιπτώσεις (εξαρτημένα δείγματα-related measures t-test)

t-test με ανεξάρτητα δείγματα
Ας υποθέσουμε ότι θέλουμε να μελετήσουμε τη χρήση λέξεων-ταμπού ως προς τη μεταβλητή φύλο, καθορίζοντας ως αρχική (μηδενική) υπόθεση (Η0) ότι δεν υπάρχει διαφορά μεταξύ μέσων όρων αγοριών και κοριτσιών. Αντιστοίχως καθορίζεται και η εναλλακτική υπόθεση (Η1) ότι τα αγόρια χρησιμοποιούν κατά μέσο όρο περισσότερες λέξεις-ταμπού από τα κορίτσια. Η ερευνητική υπόθεση μπορεί να είναι μονόδρομη (one-tailed) ή δίδρομη (two-tailed), δηλ. μπορεί να υποθέσει ότι τα αγόρια χρησιμοποιούν μεγαλύτερο ποσοστό από τις γυναίκες (μονόδρομη υπόθεση) ή να υποθέσει γενικά ότι άνδρες και γυναίκες χρησιμοποιούν διαφορετικά ποσοστά δίχως όμως να έχει συγκεκριμένη ιδέα για το ποιο φύλο χρησιμοποιεί περισσότερο το λεξιλόγιο ταμπού (δίδρομη υπόθεση).

t-test με ανεξάρτητα δείγματα
Στη συνέχεια, ορίζουμε το «επίπεδο στατιστικής σημαντικότητας» (statistical significance level). Η πιο συνηθισμένη τιμή είναι 5%. Με τη βοήθεια του κριτηρίου ελέγχου υπολογίζουμε την «τιμή p» (p-value), την πιθανότητα δηλαδή η διαφορά των μέσων όρων της βαθμολογίας αγοριών κοριτσιών, για παράδειγμα, να οφείλεται σε τυχαίους παράγοντες ή όχι. Αν η τιμή p που θα προκύψει είναι μικρότερη ή ίση από το καθορισμένο επίπεδο σημαντικότητας, τότε απορρίπτουμε την αρχική υπόθεση και θεωρούμε ότι υπάρχει «στατιστικώς σημαντική διαφορά» μεταξύ των μέσων όρων.

t-test με εξαρτημένα δείγματα
Ο έλεγχος Τ ενδείκνυται και στην περίπτωση σύγκρισης της στατιστικής σημαντικότητας των διαφορών των μέσων όρων ενός δείγματος σε δύο διαφορετικές χρονικές στιγμές (εξαρτημένα δείγματα). Π.χ. σύγκριση της αναγνωστικής ικανότητας των μαθητών μιας τάξης Α΄ Δημοτικού στην αρχή και στο τέλος της σχολικής χρονιάς. Πιο συγκεκριμένα, ας υποθέσουμε ότι οι ερευνητικές υποθέσεις είναι: (1) H0: Δεν υπάρχει διαφορά κατά μέσο όρο στην αναγνωστική ικανότητα των μαθητών στην αρχή και στο τέλος της σχολικής χρονιάς. (2) Η1: Στο τέλος της σχολικής χρονιάς η αναγνωστική ικανότητα των μαθητών έχει βελτιωθεί κατά μέσο όρο. Ο έλεγχος αυτός εξετάζει τις διαφορές μεταξύ των μέσων όρων δύο διαφορετικών χρονικών στιγμών. Αν η διαφορά που θα προκύψει είναι αρκετά κοντά στο 0, τότε θα θεωρήσουμε ότι δεν υπάρχει στατιστική διαφορά μεταξύ των μέσων όρων για τις δύο διαφορετικές χρονικές στιγμές.

Αριθμητικά δεδομένα – Ανάλυση Διακύμανσης (Analysis of Variance – ANOVA)
H ΑΔ είναι η πλέον χρησιμοποιημένη μέθοδος στις κοινωνικές επιστήμες. Συνδέεται εννοιολογικά με το t-test, με τη διαφορά ότι, ενώ το t-test εξετάζει τις διαφορές μεταξύ των μέσων δύο ομάδων, η ανάλυση διακύμανσης κατά ένα παράγοντα μπορεί να εξετάζει διαφορές στους μέσους όρους περισσότερων από δύο ομάδων. Προϋπόθεση για να εφαρμόσουμε την ANOVA είναι η ύπαρξη μιας εξαρτημένης αριθμητικής μεταβλητής και η ύπαρξη μιας ή περισσότερων ανεξάρτητων κατηγορικών μεταβλητών. Η ΑΔ επιτρέπει την σύγκριση πολλών μέσων όρων και λειτουργεί συγκρίνοντας την διακύμανση εντός της ομάδας και κατά μήκους των ομάδων. Ο λόγος των δύο διακυμάνσεων είναι η τιμή F η οποία έχει συγκεκριμένους βαθμούς ελευθερίας και η στατιστική σημαντικότητάς της ελέγχεται με βάσει σχετικούς πίνακες.

Αριθμητικά δεδομένα – Ανάλυση Διακύμανσης (Analysis of Variance – ANOVA)
Η ΑΔ εμφανίζει δύο γενικές μορφές: ΑΔ μιας μεταβλητής ΑΔ πολλών μεταβλητών

ANOVA μιας μεταβλητής Ο έλεγχος one–way ANOVA αναφέρεται στην επίδραση μιας κατηγορικής μεταβλητής επί μιας ποσοτικής μεταβλητής. Με άλλα λόγια αναφέρεται στην σύγκριση μέσων τιμών μιας ποσοτικής μεταβλητής που ανήκουν σε τρείς ή περισσότερες διαφορετικές ομάδες. Έστω ότι θέλουμε να εξετάσουμε αν το μορφωτικό επίπεδο των γονέων (με κατηγορίες «1=βασική εκπαίδευση», «2=μέση εκπαίδευση» και «3=ανώτατη εκπαίδευση») επηρεάζει τη χρήση λόγιων στοιχείων εκ μέρους των μαθητών/μαθητριών. Η προηγούμενη υπόθεση θα μπορούσε να διατυπωθεί εναλλακτικά: Διαφοροποιείται ο μέσος όρος χρήσης λόγιων στοιχείων από τους μαθητές/τις μαθήτριες, ανάλογα με το μορφωτικό επίπεδο των γονέων; Στην περίπτωση αυτή θα χρησιμοποιήσουμε μια ANOVA για να δούμε ποιες κατηγορίες εμφανίζουν διαφορετικούς μέσους όρους. Η τιμή F ωστόσο δε μας λέει ποιες κατηγορίες διαφέρουν από ποιες. Ειδικότερα χρειαζόμαστε να ξέρουμε ποιοι μέσοι όροι διαφέρουν στατιστικά σημαντικά από ποιους. Γι’ αυτό χρησιμοποιούμε τα τεστ πολλαπλής σύγκρισης (multiple comparison test), όπως π.χ.: Scheffe test Tukey HSD test Least Significant Difference (LSD) test

Το τεστ του Levene Μία από τις βασικές προϋποθέσεις για την εφαρμογή τόσο του t-test όσο και της ANOVA είναι η διεξαγωγή του ελέγχου ισότητας των πληθυσμιακών διακυμάνσεων των διαφόρων ομάδων με το τεστ του Levene (Levene’s test) • Το τεστ αυτό πρέπει να διεξάγεται πριν από τον κεντρικό έλεγχο των μέσων τιμών, προκειμένου να διασφαλίζεται η ακεραιότητα της ανάλυσης.

Σχέσεις μεταβλητών Εκτός από διαφορές ομάδων μπορούμε να μελετήσουμε τις σχέσεις διαφόρων μεταβλητών. Μπορούμε δηλ.να μελετήσουμε τη συμπεριφορά μιας μεταβλητής όταν μια άλλη μεταβλητή αλλάζει. Οι πιθανές σχέσεις δύο μεταβλητών μπορεί να είναι οι ακόλουθες: Σχέση Γραμμική Μη γραμμική Μη σχέση

Γραμμική σχέση δύο μεταβλητών
Η γραμμική σχέση εμφανίζεται γραφηματικά ως μια ευθεία γραμμή. Υπάρχουν δύο είδη γραμμικής συσχέτισης: Θετική γραμμική σχέση: Όταν μεγαλώνει η μία μεταβλητή μεγαλώνει και η άλλη. Αρνητική γραμμική σχέση: Όταν μεγαλώνει η μία μεταβλητή μικραίνει η άλλη. Ηλικία Μέγεθος πρότασης Ηλικία Χρόνος σύνταξης παραγράφου

Μη γραμμική σχέση δύο μεταβλητών
Όταν η σχέση δύο μεταβλητών δεν μπορεί να αναπαρασταθεί με μια ευθεία γραμμή τότε ονομάζεται μη γραμμική σχέση. Τα σημαντικότερα είδη μη γραμμικής σχέσης είναι: Καμπυλόγραμμη σχέση μορφής U Ανάστροφη καμπυλόγραμμη σχέση μορφής U Κύρος Ηλικία Απόδοση Άγχος

Συσχέτιση (correlation)
Η στατιστική έκφραση της σχέσης δύο μεταβλητών ονομάζεται συσχέτιση. Σκοπός της η διερεύνηση της σχέσης μεταξύ δύο συνεχών μεταβλητών.

Συντελεστής συσχέτισης - ΣΣ
Ο ΣΣ αποτελεί την αριθμητική έκφραση του τύπου και της ισχύος της σχέσης δύο μεταβλητών. Ισχύς: Ο ΣΣ παίρνει τιμές από 0 έως 1: Το 0 υποδηλώνει ότι δεν υπάρχει καμία σχέση μεταξύ των δύο μεταβλητών Το 1 υποδηλώνει ότι υπάρχει τέλεια σχέση μεταξύ των δύο μεταβλητών Τύπος: Ο τύπος εμφανίζεται ως πρόσημο στον συντελεστή: Το + υποδηλώνει θετική σχέση μεταξύ των μεταβλητών Το – υποδηλώνει αρνητική σχέση μεταξύ των μεταβλητών

Ερμηνεία των ΣΣ Δεν υπάρχει αντικειμενικός προσδιορισμός της ισχύος ενός ΣΣ. Ως γενικό οδηγό ωστόσο μπορούμε να ακολουθήσουμε τον παρακάτω πίνακα: < 0,20: Μικρή, σχεδόν ασήμαντη σχέση 0,20 – 0,40: Χαμηλή συσχέτιση, σίγουρη, αλλά μικρή σχέση 0,40 – 0,70: Μέτρια συσχέτιση, σημαντική σχέση 0,70 – 0,90: Υψηλή συσχέτιση, έντονη σχέση > 0,90: Πολύ υψηλή συσχέτιση, άμεσα εξαρτώμενη σχέση

Είδη ΣΣ Για αριθμητικές μεταβλητές: Για μεταβλητές ποιοτικών δεδομένων
Pearson product moment correlation ή Pearson’s r Για μεταβλητές ποιοτικών δεδομένων Spearman rho (rs): Διαδεδομένος ΣΣ όταν οι μεταβλητές που συγκρίνονται είναι κατατάξεις ως προς κάποιο χαρακτηριστικό. Συνήθως προτιμάται όταν οι κατατάξεις αυτές έχουν προκύψει από αριθμητικά δεδομένα. Kendall’s tau (τ): Όταν δύο κριτές έχουν κατατάξει την ίδια σειρά αντικειμένων. Για κατηγορικές μεταβλητές Phi (Φ) & Cramer’s V : Για πίνακες με κατηγορικά δεδομένα

Συντελεστής Καθορισμού - ΣΚ
Ο ΣΣ μας λέει αν και πόσο δυνατά σχετίζονται δύο μεταβλητές. Ωστόσο, δεν μας προσδιορίζει το ποσοστό της διακύμανσης μιας μεταβλητής που οφείλεται στην ύπαρξη της άλλης. Ο ΣΚ (ή r2) παίρνει τιμές από 0 – 1 και προκύπτει από το τετράγωνο του ΣΣ. Π.χ. αν ο ΣΣ της σχέσης του μεγέθους μιας πρότασης και της ταχύτητας με την οποία αυτή κατανοείται είναι 0,91, τότε ο ΣΚ είναι 0,83 Μέγεθος πρότασης r= 0,91 Ταχύτητα κατανόησης της πρότασης r2= 0,83

Μέρος 2ο: Λεξικά σχήματα

Λεξικές συνάψεις (collocations)
Εναλλακτικά: σύμπλοκα Π.χ. εμφυσώ (συνήθως αξίες, ιδανικά), ουσιαστικά που συνδέονται με το επίθετο απτός (συνήθως, αποδείξεις, τεκμήρια). Συνδυασμοί που δεν προβλέπονται από τις σημασιολογικές ιδιότητες των λέξεων (π.χ. γιατί πλατύ χαμόγελο, αλλά όχι φαρδύ χαμόγελο, φαρδύ φόρεμα αλλά όχι πλατύ φόρεμα;;;). Γνώση που προκύπτει από την έκθεσή μας στα δεδομένα μιας γλώσσας.

Συμφραστικό εύρος (collocational range)
Με πόσες άλλες λέξεις μπορεί να συνάπτεται μια λέξη: π.χ. το επίθετο σχιζοφρενής έχει μικρότερο συμφραστικό εύρος από το επίθετο τρελός. Κάθε μορφολογικός τύπος ενός λήμματος μπορεί να έχει διαφορετικές συνάψεις π.χ. κεκτημένη ταχύτητα vs κεκτημένα δικαιώματα. Τυπικοί συνδυασμοί λέξεων π.χ. δυώνυμα (binomials): ψωμί κι αλάτι, πάνω-κάτω, βλέποντας και κάνοντας, τελεία και παύλα κ.ο.κ.

Οι συνάψεις ως σχέση συχνότητας
Ο Sinclair ορίζει ως σύναψη τη «συνεμφάνιση δύο ή περισσοτέρων λέξεων σε ένα μικρό διάστημα μέσα στο κείμενο» (1991: 170). Συμφραστικό διάστημα συνάψεων (collocation span). Όσο πιο μεγάλο είναι το συμφραστικό διάστημα, τόσο μικρότερη είναι η σημασία της σύναψης (Sinclair et al. 2004: xxvii).

Aναθεωρημένη θέαση… «η τάση των λέξεων να συνεμφανίζονται με ορισμένη στατιστική πιθανότητα» (bias) (Hunston 2002: 68) «η σχέση ενός λεξικού τύπου με άλλους που εμφανίζονται με μεγαλύτερη από τυχαία πιθανότητα στο συγκείμενό του» (Hoey 1991: 6-7).

Συνάψεις του λήμματος απτός στο ΣΕΚ (σε Γούτσος & Φραγκάκη 2014:84)
Συνάψεις του λήμματος απτός στο ΣΕΚ (σε Γούτσος & Φραγκάκη 2014:84)

Στατιστικοί δείκτες για συναπτική ισχύ (collocation strength)
ΜΙ, αμοιβαία πληροφορία (mutual information): προκύπτει από τη σύγκριση της πραγματικής συνεμφάνισης δύο λέξεων με την αναμενόμενη συνεμφάνισή τους αν απαντούσαν σε τυχαία σειρά. Αποτελεί μέτρο της αμοιβαίας έλξης μεταξύ των λέξεων και της σύνδεσής τους, αλλά όχι της βεβαιότητας για τη σύνδεση. Δίνει έμφαση σε λέξεις χαμηλής συχνότητας (λ.χ. λεξικά στοιχεία, τεχνικούς όρους, στερεότυπες φράσεις), αλλά είναι προβληματικός με τις πολύ σπάνιες λέξεις. t-score (δείκτης t): αποτελεί μέτρο των λέξεων που είναι πιθανό να εμφανιστούν ως συνάψεις μιας λέξης αντί μιας άλλης. Χρησιμοποιεί ως βάση την ποσότητα των διαθέσιμων στοιχείων και δίνει έμφαση σε λέξεις υψηλής συχνότητας (π.χ. γραμματικά στοιχεία, σημαντικές συνάψεις με μεγάλη συχνότητα). Είναι σημαντικός όταν είναι πάνω από 2. z-score (δείκτης z): συνυπολογίζει τη συχνότητα συνεμφάνισης στο συμφραστικό διάστημα και τις συχνότητες κάθε λέξης σε σχέση με το σύνολο των δειγμάτων στο σώμα κειμένων. Δίνει έμφαση σε λέξεις χαμηλής συχνότητας (λεξικά στοιχεία) και είναι σημαντικός όταν είναι πάνω από 3. ΜΙ3: πρόκειται για λογαριθμικό δείκτη, που υπολογίζει τις συχνότητες των δύο λέξεων που συνάπτονται στο σύνολο των δειγμάτων. Log-Likelihood (λογαριθμική πιθανότητα): συνυπολογίζει τη συχνότητα συνεμφάνισης, τη συχνότητα κάθε λέξης χωριστά και τη συχνότητα ζευγών που δεν περιλαμβάνουν ούτε τη μία ούτε την άλλη λέξη, σε σχέση με ένα φυσικό λογάριθμο.

Συμφραστικά πλαίσια συνωνύμων στο ΣΕΚ (σε Γούτσος & Φραγκάκη 2014:85)
Συμφραστικά πλαίσια συνωνύμων στο ΣΕΚ (σε Γούτσος & Φραγκάκη 2014:85) προσωπικός ατομικός

Λεξικά συμπλέγματα Η έννοια των συνάψεων ταλαντεύεται ανάμεσα στον διαισθητικό συνδυασμό λεξικών μονάδων που έχουν στενή σχέση μεταξύ τους και στη στατιστικά σημαντική ακολουθία λέξεων. Αντίθετα, η έννοια των λεξικών συμπλεγμάτων ορίζεται με αυστηρά στατιστικά κριτήρια. Μη διακοπτόμενες ακολουθίες περισσότερων των δύο λέξεων με στατιστικά σημαντική συνεμφάνιση σε ένα σώμα κειμένων (Φέρλας 2011). Λ.χ. οι φράσεις θα πρέπει να, κατά τη γνώμη μου, από την άλλη πλευρά, κατά τη διάρκεια, ο ένας στον άλλο κ.ά. Τα λεξικά συμπλέγματα αποτελούν δείγματα προκατασκευασμένου λόγου, δηλαδή λόγου που, σύμφωνα με τη Wray (2002: 9), «χρησιμοποιείται ως έτοιμο σύνολο, χωρίς να υπόκειται σε παραγωγή ή ανάλυση με βάση τους κανόνες της γλώσσας».

Λεξικά συμπλέγματα Ποικιλία μεταγλωσσικών όρων: αλληλουχία (chain), ν-γράμματα (n-grams), σύμπλεγμα (cluster), λεξική δέσμη (lexical bundle) κ.ά. Στα ελληνικά ο Φέρλας (2011) έχει προτείνει τον όρο λεξικό σύμπλεγμα, που συνδυάζει το σύμπλεγμα του Scott με τη λεξική δέσμη των Biber et al.

Λεξικά συμπλέγματα

Σημασιολογική προτίμηση
Με την καταγραφή των συνάψεων μιας λέξης μπορούμε να εντοπίσουμε ακριβώς τη σημασιολογική προτίμηση (semantic preference) που αυτή εμφανίζει, δηλαδή την τάση της να συνεμφανίζεται με λέξεις από ένα συγκεκριμένο σημασιολογικό πεδίο (βλ. λ.χ. Sinclair 2004: 32, Baker 2006: 86-87). Π.χ. έντονος: σημασιολογική προτίμηση στα σημασιολογικά πεδία της «δυσαρέσκειας» ή «αντίδρασης» (Φραγκάκη 2010). Για παράδειγμα, στις 50 πρώτες συνάψεις της λέξης στο ΣΕΚ περιλαμβάνονται λέξεις όπως: αντίδραση, κριτική, ανησυχία, πιέσεις, ανησυχίες, προβληματισμός, διακυμάνσεις, διαμαρτυρία, ανταγωνισμός, πρόβλημα, διαμαρτυρίες, αντιπαράθεση, δυσαρέσκεια, αντίθεση.

Σημασιολογική προσωδία
Ο όρος αφορά την εξάπλωση μιας συνδήλωσης πέρα από τα όρια μιας μόνης λέξης και έχει αναπτυχθεί για να καλύψει τη μη περιγραφική ή εκφραστική σημασία των λέξεων. Η σημασία αυτή έχει συνδεθεί στη βιβλιογραφία ιδιαίτερα με τον όρο συνυποδήλωση, δηλαδή τα ποικίλα δευτερεύοντα υπονοήματα που μπορεί να έχει μία λέξη. Ο Louw (1993) χρησιμοποίησε τον όρο για να αναφερθεί στο σημασιολογικό φαινόμενο που προκύπτει από τον αρνητικό ή θετικό χρωματισμό μιας λέξης ή φράσης από τις συνήθεις συνάψεις της. Tognini-Bonelli (2001: 111): «εάν μία λέξη τείνει να χρησιμοποιείται σε περιβάλλοντα θετικών ή αρνητικών νέων ή κρίσεων … φέρει μαζί της αυτό το είδος της σημασίας».

Σημασιολογική προσωδία

Φρασεολογία Περιπτώσεις προκατασκευασμένου λόγου όπως:
εκτεταμένες λεξικές μονάδες, συμφραστικά πλαίσια (collocation frameworks/frames: Renouf & Sinclair 1991), τα οποία αποτελούνται από δύο σταθερά στοιχεία και ένα μεταβλητό (π.χ. στα αγγλικά a/an + ? + of, too + ? + to), ή σχήματα (patterns), που αναφέρονται στους πιθανούς συνδυασμούς γραμματικών κατηγοριών με συγκεκριμένα λεξικά στοιχεία (π.χ. V over/across + n, run over a text). συνάψεις, δυώνυμα και λεξικά συμπλέγματα, ιδιωτισμοί (idioms), π.χ. τα κάνω θάλασσα, τα κάνω λίμπα, παίρνω στροφές, στις οποίες η σημασία προκύπτει από το σύνολο της φράσης και όχι από τη σύνθεση της σημασίας των επιμέρους λέξεων. παροιμίες, φόρμουλες κ.ά.

Φρασεολογισμοί Οι διάφορες πολυλεκτικές μονάδες μπορούν να τοποθετηθούν σε ένα συνεχές που διαβαθμίζεται από την απόλυτη ελευθερία του συνδυασμού λέξεων στον ένα πόλο έως την απόλυτη στερεοτυπία στον άλλο. Ο Sinclair (1991) αντιλαμβάνεται αυτό το συνεχές ως μια διαρκή αντιπαράθεση στο επίπεδο του κειμένου ανάμεσα στην αρχή της ανοιχτής επιλογής (open choice principle) και την αρχή του ιδιωτισμού (idiom principle). Σύμφωνα με την αρχή της ανοιχτής επιλογής, «ένα γλωσσικό κείμενο είναι το αποτέλεσμα μεγάλου αριθμού σύνθετων επιλογών» (Sinclair 1991: 109) που οδηγούν σε ελεύθερους συνδυασμούς στοιχείων. Αντίθετα, η αρχή του ιδιωτισμού προβλέπει ότι «οι χρήστες της γλώσσας έχουν στη διάθεσή τους μεγάλο αριθμό από ημιπροκατασκευασμένες φράσεις που αποτελούν μία και μόνη επιλογή, έστω κι αν φαίνεται ότι μπορούν να αναλυθούν σε τεμάχια» (1991: 110).

Φρασεολογισμοί

Άσκηση 1: αγγίζω αγγίζω [anízo] -ομαι Ρ2.3 : 1.ακουμπώ κτ. ή κπ. με το χέρι: Mην αγγίζετε τα αρχαία. Άγγιξε το χέρι του παιδιού. Ό,τι άγγιζε ο Mίδας γινόταν χρυσάφι. || (παθ.): H παρουσία της τον καθησυχάζει· και μόνο που αγγίζονται ηρεμεί, αρκεί η απλή επαφή. || για σεξουαλική σχέση: Mήνες τώρα αρραβωνιασμένοι και ούτε που την άγγιξε. 2α. δοκιμάζω: Έφυγε, χωρίς ούτε ν΄ αγγίξει το ωραίο φαγητό που του έφτιαξα. β.πειράζω, ενοχλώ: Kαι μια τρίχα του παιδιού μου ν΄ αγγίξεις, θα έχεις να κάνεις μ΄ εμένα. Tα πικρά του λόγια / οι προσβολές του δε με αγγίζουν. || Mονάχα εκείνο το σημείο άγγιξε ο σίφουνας, κατέστρεψε. γ.(σε αρνητ. πρότ.) οικειοποιούμαι κτ.: Mέσα στα χρυσάφια να τον βάλεις, δεν αγγίζει τίποτε. 3. (μτφ.) α.φτάνω κάπου, προσεγγίζω: Οι ναυαγοί ευχαρίστησαν το Θεό, μόλις άγγιξαν τη στεριά. (έκφρ.) ~ / εγγίζω τα όρια*. β. (συνήθ. στο γ' πρόσ.) αφορώ: H νέα νομοθεσία αγγίζει και τη δική σας περίπτωση. 4. συγκινώ: H τέχνη του αγγίζει βαθιά τη λαϊκή ψυχή. Πώς γίνεται και δε σ΄ αγγίζουν τα βάσανα των δυστυχισμένων;

Άσκηση 1: αγγίζω

Άσκηση 2: άνδρας

Βιβλιογραφικές αναφορές: Επαγωγική στατιστική
Baroni, M. & Evert, S. (2009). Statistical methods for corpus exploitation. In A. Lüdeling & M. Kytö (eds), Corpus Linguistics: An International Handbook. Vol. 2. Berlin: de Gruyter, Γούτσος, Δ. & Φραγκάκη, Γ. (2015). Εισαγωγή στη Γλωσσολογία Σωμάτων Κειμένων. Ελληνικά ακαδημαϊκά ηλεκτρονικά συγγράμματα και βοηθήματα. Ζαχαροπούλου Χ. (1986). Στατιστική για οικονομολόγους. Τ. Α'. Θεσσαλονίκη. Mικρός, Γ. Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων. Ενότητα 3: Επαγωγική στατιστική. Παρασκευόπουλος Ι. Ν. (1990). Στατιστική εφαρμοσμένη στις επιστήμες της συμπεριφοράς. Τ.2. Αθήνα: Βιβλιοπωλείο Γρηγόρη. Τσοπάνογλου Α. (20102). Μεθοδολογία της επιστημονικής έρευνας και εφαρμογές της στην αξιολόγηση της γλωσσικής κατάρτιση. Θεσσαλονίκη: Εκδ. Ζήτη. Thorndike R. L., Thorndike-Crist T. (2010). Measurement and Evaluation in Education and Psychology. Boston: Pearson.

Βιβλιογραφικές αναφορές: Επαγωγική στατιστική
Mικρός, Γ. Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων. Ενότητα 2: Περιγραφική στατιστική. Τσάντας Ν., Μωυσιάδης Χ., Μπαγιάτης Ν., Χατζηπαντελής Θ. (1999). Ανάλυση δεδομένων με τη βοήθεια στατιστικών πακέτων. Θεσσαλονίκη: Εκδ. Ζήτη. Ψωινός Δ. (1999). Στατιστική. Θεσσαλονίκη: Εκδ. Ζήτη. Guilford J. P., Fruchter B. (19816). Fundamental Statistics in Psychology and Education. Singapore: McGraw-Hill. Hatch E., Farhady H. (1982). Research Design and Statistics for Applied Linguistics. Rowley-London-Tokyo: Newbery House. Hays W. L. (19762). Statistics for the Social Sciences. London: Holt International. Wright D. B. (1997). Understanding Statistics. An Introduction for the Social Sciences. London: SAGE.

Βιβλιογραφικές αναφορές: Λεξικά σχήματα
Baker, P. (2006). Using Corpora in Discourse Analysis. London/New York: Continuum. Barnbrook, G., Mason, O. & Krishnamurthy, R. (2013). Collocation. Applications and Implications. Houndmills, Basingstoke: Palgrave Macmillan. Γούτσος, Δ. & Φραγκάκη, Γ Εισαγωγή στη Γλωσσολογία Σωμάτων Κειμένων. Ελληνικά ακαδημαϊκά ηλεκτρονικά συγγράμματα και βοηθήματα. Θώμου, Π. (2002). Λεξιλογικές συνάψεις (lexical collocations) σε ονοματικές φράσεις στο λόγο φυσικών και μη φυσικών ομιλητών της ελληνικής. Μελέτες για την Ελληνική Γλώσσα 22, Hoey, M. (1991). Patterns of Lexis in Text. Oxford: Oxford University Press. Hunston, S. (2002). Corpora in Applied Linguistics. Cambridge: Cambridge University Press. Hunston, S. (2007). Semantic prosody revisited. International Journal of Corpus Linguistics 12(2), Louw, B. (1993). Irony in the text or insincerity in the writer? The diagnostic potential of semantic prosodies. In M. Baker, G. Francis & E. Tognini-Bonelli (eds), Text and Technology: In Honour of John Sinclair. Amsterdam/Philadelphia: Benjamins, Louw, B. (2000). Contextual prosodic theory: Bringing semantic prosodies to life. In C. Heffer & H. Sauntson (eds) Words in Context: A Tribute to John Sinclair on his Retirement. CD-Rom publication,

Βιβλιογραφικές αναφορές: Λεξικά σχήματα
Lyons, J. (1977). Semantics. Cambridge: Cambridge University Press. Μπακάκου-Ορφανού, Α. (2005). Η λέξη της Νέας Ελληνικής στο γλωσσικό σύστημα και στο κείμενο. Αθήνα: Παρουσία. Renouf, A. & Sinclair, J. (1991). Collocational frameworks in English. In K. Aijmer & B. Altenberg (eds), English Corpus Linguistics: Studies in the Honour of Jan Svartvik. London: Longman, Sinclair, J. (1991). Corpus, Concordance, Collocation. Oxford: Oxford University Press. Sinclair, J. (2004). Trust the Text: Language, Corpus and Discourse. London/New York: Routledge. Tognini-Bonelli, Ε. (2001). Corpus Linguistics at Work. Amsterdam/Philadelphia: Benjamins. Φέρλας, Α.-Έ. (2011). Ο προκατασκευασμένος λόγος στα Ελληνικά και Αγγλικά. Μια μελέτη βασισμένη σε σώματα κειμένων με προεκτάσεις στη διδασκαλία της γλώσσας. Διδακτορική διατριβή, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών. Φραγκάκη, Γ. (2010). Ο αξιολογικός ρόλος του επιθέτου και η χρήση του ως δείκτη ιδεολογίας: Μελέτη βασισμένη σε σώματα κειμένων δημοσιογραφικού λόγου. Διδακτορική διατριβή, Εθνικό και Καποδιστριακό Πανεπιστήμιο Αθηνών. Wray, A. (2002). Formulaic Language and the Lexicon. Cambridge: Cambridge University Press.

Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων Eνότητα 7: Στοιχεία επαγωγικής στατιστικής Ενότητα 8: Λεξικά σχήματα Δρ Μαρία Καμηλάκη, Πανεπιστημιακή υπότροφος.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων Eνότητα 7: Στοιχεία επαγωγικής στατιστικής Ενότητα 8: Λεξικά σχήματα Δρ Μαρία Καμηλάκη, Πανεπιστημιακή υπότροφος.

Παρόμοιες παρουσιάσεις

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια