Δρ Μαρία Καμηλάκη, Διδάσκουσα Π.Δ. 407/80 Φιλοσοφική Σχολή

Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων Eνότητα 5: Στοιχεία περιγραφικής στατιστικής
Δρ Μαρία Καμηλάκη, Διδάσκουσα Π.Δ. 407/80 Φιλοσοφική Σχολή Τμήμα Ιταλικής Γλώσσας & Φιλολογίας Εαρινό Εξάμηνο 2019

Ας συνδεθούμε με την προηγούμενη εβδομάδα… ΕΘΕΓ: %δημ%
Ας συνδεθούμε με την προηγούμενη εβδομάδα… ΕΘΕΓ: %δημ%

Aς ξαναπιάσουμε το νήμα…

(σε Γούτσος & Φραγκάκη 2015:185)
ΛΝΕΓ χαρακτηρίζει τη λέξη τύπισσα ως «αργκό», ενώ το ΛΚΝ ως «λαϊκή». Τα ΗΣΚ;;; (σε Γούτσος & Φραγκάκη 2015:185)

Video McEnery

Η σημερινή μας «ατζέντα»
Να διεξέλθουμε βασικά στοιχεία περιγραφικής στατιστικής ανάλυσης. Να εξοικειωθούμε (επιλεκτικά) με εργαλεία και εφαρμογές περιγραφικής στατιστικής.

Η ποσοτική ανάλυση των γλωσσικών δεδομένων περιλαμβάνει:
Ένα σύνολο μεθόδων στις οποίες μια λέξη ή ένα δομικό σχήμα αποσπάται από το συγκείμενό του και εκφράζεται ποσοτικά: π.χ. ποιος από τους κλιτικούς τύπους του δίνω είναι πιο συχνός; Ένα σύνολο μεθόδων στις οποίες μια λέξη ή ένα δομικό σχήμα μελετάται λεπτομερώς στο συγκείμενό του (συμφραστικοί πίνακες).

ΣΤΟΙΧΕΙΑ ΠΕΡΙΓΡΑΦΙΚΗΣ ΣΤΑΤΙΣΤΙΚΗΣ

Είδη στατιστικών δεδομένων
Αριθμητικά δεδομένα Μετρήσεις που οι τιμές τους είναι αριθμοί, π.χ. «αριθμός μη πρότυπων (non-standard) τύπων», «μήκος πρότασης», «λεξιλογική πυκνότητα», «διάρκεια άρθρωσης ενός φωνήεντος» κ.ά. Ποιοτικά δεδομένα Μετρήσεις που οι τιμές τους είναι ποιοτικές διαβαθμίσεις, π.χ. τιμές όπως «ελλιπής», «ικανοποιητική», «επαρκής» ως απαντήσεις για γλωσσική επάρκεια σε γλώσσα-στόχο, «αρνητική»/«θετική» για στάσεις προς τη χρήση λέξεων-ταμπού. Κατηγορικά δεδομένα Μετρήσεις που οι τιμές τους είναι ονοματικοί χαρακτηρισμοί που διαφέρουν σε είδος π.χ. τιμές όπως «άνδρας, γυναίκα», «Κείμενα δημοσιογραφικού λόγου, λογοτεχνίας, επιστήμης».

Στατιστικός Πληθυσμός
Οι εμφανίσεις των γλωσσικών φαινομένων γίνονται σε ένα περιβάλλον που στη στατιστική το αποκαλούμε πληθυσμό (population). Η έννοια του πληθυσμού στην ΠΓ μπορεί να συλληφθεί δισυπόστατα: Όλα τα κείμενα (προφορικά ή γραπτά) που έχουν παραχθεί κατά τη διάρκεια ανάπτυξης της γλώσσας. Το σύνολο της γλώσσας ως δομή (π.χ. όλες οι λέξεις στο λεξικό μιας γλώσσας, το σύνολο των επιτρεπτών συντακτικών δομών μιας γλώσσας κ.ά.).

Μονάδα πληθυσμού (population unit)
Η βασική μονάδα του πληθυσμού (ΜΠ) διαφέρει ανάλογα με τον κλάδο της ΠΓ. Μερικά παραδείγματα: στην λεξικοστατιστική η βασική ΜΠ είναι η λέξη, στην ανάλυση της γλωσσικής ποικιλίας η βασική ΜΠ είναι οποιοδήποτε γλωσσικό χαρακτηριστικό το οποίο εμφανίζει ποικιλία χρήσης (από εναλλαγή φωνημάτων έως και διαφοροποίηση χρήσης συντακτικών δομών).

Δείγμα (sample) Επειδή η μελέτη του πληθυσμού τις περισσότερες φορές είναι δύσκολη έως αδύνατη (λόγω του μεγέθους του, του είδους του κ.ά.) συνήθως αποσπούμε για μελέτη ένα υποσύνολο το οποίο αποκαλούμε δείγμα (sample). Αν διατηρηθούν ορισμένες προϋποθέσεις, τότε τα ποσοτικά χαρακτηριστικά του δείγματος είναι ίδια με του πληθυσμού και τα συμπεράσματα που θα εξαγάγουμε για το δείγμα θα ισχύουν και για τον πληθυσμό. Η σημαντικότερη από αυτές τις προϋποθέσεις είναι η τυχαιότητα.

Υπολογισμός των χαρακτηριστικών του πληθυσμού
Ο στόχος του τυχαίου δείγματος είναι ο υπολογισμός κάποιων χαρακτηριστικών του πληθυσμού. Τα χαρακτηριστικά αυτά μπορεί να είναι: Ο μέσος όρος κάποιας μεταβλητής (Π.χ. ο μέσος όρος χρήσης τριτοπρόσωπων εκφράσεων σε ακαδημαϊκά κείμενα). Η αναλογία σε κάποια κατηγορία (π.χ. η αναλογία λέξεων-ταμπού σε κάποιο κείμενο). Τα χαρακτηριστικά του πληθυσμού είναι άγνωστα, αλλά οι τιμές που μετράμε στο δείγμα μπορούν να χρησιμοποιηθούν για να τις εκτιμήσουμε. Όταν τα χαρακτηριστικά του πληθυσμού εκτιμώνται από αυτά του δείγματος τότε αναμένεται η ύπαρξη ενός δειγματοληπτικού λάθους.

Επίδραση του μεγέθους του δείγματος στο δειγματοληπτικό λάθος
Όσο μεγαλύτερο είναι το μέγεθος του δείγματος, τόσο μικρότερο είναι το δειγματοληπτικό λάθος. Ωστόσο, όταν ο πληθυσμός είναι μεγάλος, η δειγματοληψία ενός μικρού ποσοστού του δείγματος μπορεί να δώσει εξίσου αξιόπιστες εκτιμήσεις. Το δειγματοληπτικό λάθος εξαρτάται πολύ περισσότερο από το μέγεθος του δείγματος παρά από το ποσοστό του πληθυσμού από τον οποίο παίρνουμε το δείγμα. Για παράδειγμα, ένα δείγμα 10 ατόμων από ένα πληθυσμό θα εκτιμήσει την αναλογία ανδρών / γυναικών στον πληθυσμό με την ίδια περίπου ακρίβεια, όσο και ένα δείγμα 10 ατόμων για ένα πληθυσμό 100.

Είδη δειγματοληψίας Τυχαία Μη τυχαία Απλή τυχαία Διαστρωματωμένη
Με αντικατάσταση Χωρίς αντικατάσταση Συστηματική Διαστρωματωμένη Συστάδων Μη τυχαία Ευκολίας Κρίσης Κρίσιμων περιπτώσεων Προκαθορισμένης ποσόστωσης Εθελοντών «Χιονοστιβάδας»

Κατανομή του δειγματικού μέσου όρου
Όλες οι τιμές που περιγράφουν ένα δείγμα ποικίλλουν από δείγμα σε δείγμα. Η ευρύτερα χρησιμοποιούμενη τιμή είναι ο μέσος όρος. Όταν ένα τυχαίο δείγμα τιμών δειγματοληπτείται, ο μέσος όρος του δείγματος είναι επίσης τυχαίος, αλλά παρουσιάζει μια κατανομή που έχει πολύ μικρότερη ποικιλία από την συνολική ποικιλία του πληθυσμού. Οι μέσοι όροι των δειγμάτων «κανονικοποιούν» τις ακραίες τιμές στο δείγμα και έτσι οι μέσοι όροι των δειγμάτων τείνουν να «κλείνουν» εγγύτερα στο κέντρο της κατανομής του πληθυσμού.

Ιδιότητες του δειγματοληπτικού μέσου όρου
Ο μέσος όρος του δείγματος έχει μια κατανομή με τις ακόλουθες ιδιότητες: Έχει κατανομή που επικεντρώνεται στον μέσο όρο του πληθυσμού. Η ποικιλία του μειώνεται καθώς το μέγεθος του δείγματος μεγαλώνει. Όταν η κατανομή του πληθυσμού είναι κανονική, ο μέσος όρος του δείγματος έχει επίσης κανονική κατανομή. Όταν η κατανομή του πληθυσμού δεν είναι κανονική τότε και η κατανομή των μέσων όρων δεν είναι κανονική, αλλά... Το θεώρημα του κεντρικού ορίου μας λέει ότι: Για τις περισσότερες άλλες κατανομές, η κατανομή του μέσου όρου ενός δείγματος τείνει στην κανονική όσο το μέγεθος του δείγματος μεγαλώνει.

Το σχήμα της κανονικής κατανομής (= συμμετρία και ομαλότητα στην κατανομή των τιμών)

Κανονική Κατανομή Η οικογένεια των κανονικών κατανομών αποτελείται από συμμετρικές, κωδωνοειδείς κατανομές που καθορίζεται από δύο παραμέτρους, τον μέσο όρο (μ) και την τυπική απόκλιση (σ). Η κανονική κατανομή χρησιμοποιείται ως πληθυσμός-μοντέλο για να εξηγήσει την ποικιλία σε δεδομένα. Ωστόσο, πολλά δεδομένα δεν μπορούν να μοντελοποιηθούν με τη κανονική κατανομή. Μια κανονική κατανομή δεν είναι κατάλληλο μοντέλο για ... Δεδομένα που είναι διακριτά Δεδομένα που έχουν μια στρεβλή κατανομή (με μακριά «ουρά» στα αριστερά ή τα δεξιά) Δεδομένα που έχουν πολύ μακριές «ουρές» (με τις περισσότερες τιμές κοντά στο κέντρο, αλλά μικρό ποσοστό των τιμών πολύ μακριά από τον μέσο όρο) Δεδομένα που περιέχουν δύο ή περισσότερες συσπειρώσεις τιμών Δεδομένα με στρεβλές κατανομές μπορούν να μετασχηματιστούν σε συμμετρική μορφή και να πλησιάσουν την κανονική κατανομή.

Οικογένειες κατανομών

Τυπική Κανονική Κατανομή
Όλες οι κανονικές κατανομές έχουν το ίδιο σχήμα ανεξαρτήτως της κλίμακας των δεδομένων. Πώς μπορούμε να καταλήξουμε σε μια κανονική κατανομή που να έχει έναν κοινό οριζόντιο άξονα; Η λύση δίνεται με την τυποποίηση (standardising) των τιμών: Η τυπική τιμή z έχει την τυπική κανονική κατανομή (standard normal distribution) με μέσο όρο = 0 και τυπική απόκλιση = 1.

Ιδιότητες της Τυπικής Κανονικής Κατανομής
Η P (τιμή μέσα σε διάστημα 1 τ.α. του μ.ό.) είναι περίπου 0,68 Η P (τιμή μέσα σε διάστημα 2 τ.α. του μ.ό.) είναι περίπου 0,95 Η P (τιμή μέσα σε διάστημα 3 τ.α. του μ.ό.) είναι περίπου 0,997 Είναι σημαντικό να θυμάστε ότι περίπου το 95% των τιμών σε έναν πληθυσμό που ακολουθεί την κανονική κατανομή βρίσκεται μέσα σε διάστημα 2 τ.α. της κατανομής του μέσου όρου. Για να είμαστε ακριβέστεροι, το 95% των τιμών σε έναν πληθυσμό κανονικής κατανομής είναι μέσα σε ένα διάστημα 1,96 τυπικών αποκλίσεων από τον μέσο όρο.

Περιγραφικές τιμές της κατανομής Κλίση
Κλίση (skewness): Μας λέει πόσο «στραβή» είναι η κατανομή. Αρνητικά κεκλιμένη κατανομή Κανονική κατανομή Θετικά κεκλιμένη κατανομή Κλίση < Κλίση = 0 Κλίση > 0

Περιγραφικές τιμές της κατανομής Κύρτωση
Κύρτωση (kyrtosis): Μας λέει πόσο «οξύ» είναι το σχήμα της κατανομής. Κατανομή πλατύκυρτη Κανονική κατανομή Κατανομή λεπτόκυρτη Κύρτωση < Κύρτωση = 0 Κύρτωση > 0

Συχνότητα Συχνότητα: ο λεξικός τύπος νυκτός εμφανίζεται 68 φορές στον ΕΘΕΓ (ποσοστό 0,0014‰). Σχετική συχνότητα (normalized/relative frequency): «πόσο συχνά αναμένουμε να εντοπίσουμε έναν λεξικό τύπο σε x λέξεις ρέοντος κειμένου;» nf = (δείγματα λεξικού τύπου στο σύνολο του corpus ÷ μέγεθος του corpus) × (βάση κανονικοποίησης, π.χ. ανά 1000 λέξεις ή ανά λέξεις) Π.χ. λέξη Lancaster στο BNC nf = (1,103 ÷ 87,903,571)×1,000,000 = 12.55 Ποσοστό: σχετική συχνότητα × 100 Πολλά ΗΣΚ παράγουν αυτόματα αυτού του είδους την πληροφορία περί συχνότητας.

Συχνότητα Σύγκριση συχνοτήτων σε δύο διαφορετικά ΗΣΚ, π.χ.
Η λέξη Lancaster, που στο BNC (87,903,571 λέξεις) απαντά 1,103 φορές, στο BE06 corpus, 1,146,597 λέξεων, απαντά στο 10 φορές. Πώς μπορώ να συγκρίνω τις δύο συχνότητες; Σχετική συχνότητα: ανά εκατομμύριο λέξεις στο BNC και 8.72 στο ΒΕ06. Κατάλογοι συχνότητας σε ΗΣΚ.

Συχνότητα

Δείκτες κεντρικής τάσης
Κάθε κατανομή δεδομένων συγκεντρώνει δεδομένα (τιμές) γύρω από μια «κεντρική» τιμή. Οι δείκτες κεντρικής τάσης δεν έχουν νόημα για τα κατηγορικά δεδομένα.

Μέσος όρος (mean) Δεσπόζουσα τιμή (mode) Είναι η τιμή που εμφανίζεται συχνότερα σε κάποια δεδομένα (τόσο ποιοτικά, όσο και ποσοτικά). Δεν επηρεάζεται από ακραίες τιμές και μπορεί να υπολογιστεί ακόμη κι όταν έχουμε ελλιπή δεδομένα. Π.χ Διάμεσος (median) Είναι η τιμή που βρίσκεται στο μέσο της κατανομής των δεδομένων. Οι μισές τιμές της κατανομής βρίσκονται κάτω από τη διάμεσο και οι άλλες μισές πάνω από αυτήν Π.χ

Ποσοστό μη πρότυπης (non-standard) προφοράς του συμπλέγματος (-ing) ως -/in/ (π.χ. I’m goin) ανά κοινωνική τάξη στο Norwich.

Δείκτες Διασποράς (Variation) ή Διασκόρπισης (Dispersion)
Οι δείκτες κεντρικής τάσης δε μας δίνουν πληροφορία για το πώς κατανέμονται τα δεδομένα. Γι’ αυτό χρειαζόμαστε τους δείκτες διασποράς, οι οποίοι δείχνουν κατά πόσο «απλώνεται» μια κατανομή δεδομένων, κατά πόσο δηλαδή διασπείρονται οι τιμές της.

Iδιότητες της διασποράς
Η διασπορά είναι ένα μέτρο που μας δείχνει πόσο πολύ απέχουν, δηλαδή, συγκεντρώνονται ή απομακρύνονται, οι τιμές μιας κατανομής από τη μέση τιμή. Αν οι τιμές δε διαφέρουν πολύ από τη μέση τιμή, τότε η διασπορά είναι μικρή. Αν απλώνονται σε μεγάλη απόσταση εκατέρωθεν της μέσης τιμής, τότε η διασπορά είναι μεγάλη. Η διασπορά είναι μια αξιόπιστη παράμετρος μεταβλητότητας των δεδομένων.

Δείκτες Διασποράς Χ Χ-ΜΟ (Χ-ΜΟ)2 ΜΟ s2 s 11,4 18,64 4,32 5 -6,4 40,96
Εύρος (range): διαφορά ανάμεσα στη μεγαλύτερη και τη μικρότερη τιμή (αφαιρούμε τη μικρότερη τιμή από τη μεγαλύτερη) Διακύμανση (variance) Είναι ο μέσος όρος των τετράγωνων των αποκλίσεων των τιμών μιας κατανομής από τον μέσο όρο της. Μας πληροφορεί σε τι βαθμό τα δεδομένα μας διαφοροποιούνται από τον μέσο όρο. Τυπική απόκλιση (standard deviation) Είναι η τετραγωνική ρίζα των τιμών της διακύμανσης Χ Χ-ΜΟ (Χ-ΜΟ)2 5 -6,4 40,96 8 -3,4 11,56 13 1,6 2,56 14 2,6 6,76 17 5,6 31,36 ΜΟ s2 s 11,4 18,64 4,32

Iδιότητες της τυπικής απόκλισης
Η τυπική απόκλιση είναι το πιο αξιόπιστο και χρήσιμο μέτρο μεταβλητότητας. Έστω ότι τρία δείγματα s1, s2, s3 με ίδια μέση τιμή, ίδια διάμεσο, αλλά διαφορετική τυπική απόκλιση.

Tυπική απόκλιση: παράδειγμα
Δύο μαθητές τελειώνουν την Α΄ Λυκείου με κοινό μέσο όρο 16. Εκ πρώτης όψεως μπορεί κάποιος να ισχυριστεί ότι οι δύο μαθητές είναι ισοδύναμοι. Στην πραγματικότητα όμως, για να καταλήξουμε σε ασφαλέστερα συμπεράσματα σχετικά με τις ικανότητες των δύο μαθητών, θα πρέπει να απαντήσουμε στο ερώτημα πόσο δεξιά και αριστερά του μέσου όρου διασπείρονται οι βαθμοί που συμψηφίζονται. Ας υποθέσουμε ότι οι βαθμολογίες των δύο μαθητών είναι οι εξής: A: Β: Η επίδοση του πρώτου ήταν λιγότερο ομοιογενής από την επίδοση του δεύτερου.

Η τυπική απόκλιση υπολογίζεται από τον τύπο: Σύμφωνα με αυτόν, για να υπολογίσουμε τη διασπορά των βαθμολογιών γύρω από τον αριθμητικό μέσο όρο, θα πρέπει να αφαιρέσουμε το μέσο όρο του συνόλου των βαθμών από τον επιμέρους βαθμό (Xi) κάθε μαθητή, να υψώσουμε στο τετράγωνο τις διαφορές τους, να αθροίσουμε τα αποτελέσματα (Σ) και τέλος να διαιρέσουμε διά του συνόλου των μαθητών. Όσο μικρότερη είναι η τιμή που θα προκύψει, τόσο πιο συγκεντρωμένες είναι οι τιμές γύρω από το μέσο όρο της κατανομής και, κατά συνέπεια, τόσο πιο αντιπροσωπευτικό στατιστικό μέτρο είναι ο μέσος όρος.

Για να οδηγηθούμε σε ακόμη πιο ασφαλή συμπεράσματα σχετικά με την ομοιογένεια της κατανομής, θα πρέπει να υπολογίσουμε ένα βοηθητικό δείκτη, το «συντελεστή μεταβλητότητας» (CV), αν διαιρέσουμε την τυπική απόκλιση με τον μέσο όρο και στη συνέχεια πολλαπλασιάσουμε με το εκατό., Αν το αποτέλεσμα που θα προκύψει είναι πάνω από δέκα τοις εκατό, η επίδοση των μαθητών είναι ανομοιογενής, ενώ αν είναι κάτω από δέκα τοις εκατό, είναι ομοιογενής.

Ζ-score ή standard score
Επιτρέπει να συγκρίνουμε τιμές από διαφορετικές ομάδες δεδομένων. Charles Ian

Βιβλιογραφικές αναφορές
Anthony, L. (2014). AntConc (Version 3.4.3). Tokyo: Waseda University. Baroni, M. & Bernardini, S BootCaT: Bootstrapping corpora and terms from the web. Proceedings of LREC 2004. Baroni, M. & Evert, S. (2009). Statistical methods for corpus exploitation. In A. Lüdeling & M. Kytö (eds), Corpus Linguistics: An International Handbook. Vol. 2. Berlin: de Gruyter, Γούτσος, Δ. & Φραγκάκη, Γ. (2015). Εισαγωγή στη Γλωσσολογία Σωμάτων Κειμένων. Ελληνικά ακαδημαϊκά ηλεκτρονικά συγγράμματα και βοηθήματα. Kilgarriff, A., Baisa, V., Bušta, J., Jakubíček, M., Kovář, V., Michelfeit, J., Rychlý, P. & Suchomel, V. (2014). The Sketch Engine: Ten Years on. Lexicography 1(1):7-36. Leech, G New resources, or just better old ones? The holy grail of representativeness. In M. Hundt, N. Nesselhauf, and C. Biewer (eds.), Corpus linguistics and the Web, 133–151. Amsterdam: Rodopi. Mικρός, Γ. Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων. Ενότητα 2: Περιγραφική στατιστική. Oakes, M. (1998). Statistics for Corpus Linguistics. Edinburgh: Edinburgh University Press. Τσάντας Ν., Μωυσιάδης Χ., Μπαγιάτης Ν., Χατζηπαντελής Θ. (1999). Ανάλυση δεδομένων με τη βοήθεια στατιστικών πακέτων. Θεσσαλονίκη: Εκδόσεις Ζήτη. Ψωινός Δ. (1999). Στατιστική. Θεσσαλονίκη: Εκδόσεις Ζήτη.

Δρ Μαρία Καμηλάκη, Διδάσκουσα Π.Δ. 407/80 Φιλοσοφική Σχολή

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Δρ Μαρία Καμηλάκη, Διδάσκουσα Π.Δ. 407/80 Φιλοσοφική Σχολή"— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια

Είσοδος

Σύνδεση μέσω των κοινωνικών δικτύων:

Δρ Μαρία Καμηλάκη, Διδάσκουσα Π.Δ. 407/80 Φιλοσοφική Σχολή

Παρόμοιες παρουσιάσεις

Παρουσίαση με θέμα: "Δρ Μαρία Καμηλάκη, Διδάσκουσα Π.Δ. 407/80 Φιλοσοφική Σχολή"— Μεταγράφημα παρουσίασης:

Παρόμοιες παρουσιάσεις

Σχετικά με το έργο

Σχόλια