Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων Eνότητα 5: Στοιχεία περιγραφικής στατιστικής Ενότητα 6: Το διαδίκτυο ως σώμα κειμένων Δρ Μαρία Καμηλάκη, Πανεπιστημιακή.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Περιγραφική Στατιστική
Advertisements

Άλλες Στατιστικές Παλινδρόμησης
Στατιστική Ι Παράδοση 5 Οι Δείκτες Διασποράς Διασπορά ή σκεδασμός.
Στατιστική Ι Παράδοση 6 Η Κανονική Κατανομή
Εισαγωγή στην Κοινωνιογλωσσολογία
Είδη δειγμάτων Τυχαίο/ μη τυχαίο
ΚΕΦΑΛΑΙΟ 5 ΧΩΡΙΚΗ ΔΕΙΓΜΑΤΟΛΗΨΙΑ
Βασικές Αρχές Μέτρησης
Στατιστική I Χειμερινό Γ. Παπαγεωργίου
ΚΕΦΑΛΑΙΟ 6 ΓΕΩΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΙ ΚΑΙ ΤΕΧΝΙΚΕΣ: ΣΗΜΕΙΑ
Ανάλυση Ποσοτικών Δεδομένων Στατιστική
Μάρτιος 2011 Πίσω στα βασικά: Βασικές αρχές στατιστικής για κοινωνιολογικές έρευνες Σπύρος Βερονίκης Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Σχετικές πληροφορίες:
Πηγή: Βιοστατιστική [Β.Γ. Σταυρινός, Δ.Β. Παναγιωτάκος]
ΣΤΑΤΙΣΤΙΚΗ Η επιστήμη που ασχολείται με την συλλογή δεδομένων,ανάλυση και ερμηνεία αυτών Η επιστήμη με τη χρήση της οποίας λαμβάνουμε αποφάσεις κάτω από.
Εισαγωγή Στατιστική είναι η επιστήμη που με τη βοήθεια επιστημινκών μεθόδων ασχολείται με τη συλλογή, οργάνωση, παρουσίαση και ανάλυση αριθμητικών στοιχείων.
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
ΔΙΑΣΤΗΜΑΤΑ ΕΜΠΙΣΤΟΣΥΝΗΣ
Τι είναι η Κατανομή (Distribution)
Διάλεξη  Μέτρηση: Είναι μια διαδικασία κατά την οποία προσδίδουμε αριθμητικά δεδομένα σε κάποιο αντικείμενο, σύμφωνα με κάποια προκαθορισμένα.
Στατιστική – Πειραματικός Σχεδιασμός Βασικά. Πληθυσμός – ένα μεγάλο σετ από Ν παρατηρήσεις (πιθανά δεδομένα) από το οποίο το δείγμα λαμβάνεται. Δείγμα.
Στατιστικά περιγραφικά μέτρα Παναγιώταρου Αλίκη Τμήμα Νοσηλευτικής 5η Διάλεξη.
Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική Ενότητα 1: Περιγραφική Στατιστική Βασίλης Γιαλαμάς Σχολή Επιστημών της Αγωγής Τμήμα Εκπαίδευσης και.
Σχεδιασμός των Μεταφορών Ενότητα #5: Δειγματοληψία – Sampling. Δρ. Ναθαναήλ Ευτυχία Πολυτεχνική Σχολή Τμήμα Πολιτικών Μηχανικών.
Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων Ενότητα 2: Περιγραφική Στατιστική Γεώργιος Κ. Μικρός Φιλοσοφική Σχολή Τμήμα Ιταλικής Γλώσσας και Φιλολογίας.
Σε ένας τεστ ένας φοιτητής βαθμολογήθηκε με 640. Να βρεθεί το ποσοστό των φοιτητών που είχαν χειρότερες επιδόσεις από αυτόν δεδομένου ότι η κατανομή της.
Εισαγωγή στις βασικές στατιστικές έννοιες Γιώργος Μικρός.
ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ Γ. Σιδερίδης. ΕΝΝΟΙΕΣ ΣΤΑΤΙΣΤΙΚΗΣ- ΜΕΘΟΔΟΛΟΓΙΑΣ Η στατιστική ως επιστήμη.....γιατί ακριβώς τη χρειαζόμαστε; Η στατιστική ως επιστήμη.....γιατί.
Αρχές επαγωγικής στατιστικής Τμήμα :Νοσηλευτικής Πατρών Διδάσκουσα: Παναγιώταρου Αλίκη Διάλεξη 9.
Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική Ενότητα 2: Επαγωγική Στατιστική Βασίλης Γιαλαμάς Σχολή Επιστημών της Αγωγής Τμήμα Εκπαίδευσης και Αγωγής.
ΕΛΕΓΧΟΙ ΣΤΑΤΙΣΤΙΚΩΝ ΥΠΟΘΕΣΕΩΝ Η πιο συνηθισμένη στατιστική υπόθεση είναι η λεγόμενη Υπόθεση Μηδέν H 0. –Υποθέτουμε ότι η εμφανιζόμενη διαφορά μεταξύ μιας.
Δραματική Τέχνη στην εκπαίδευση: Ερευνητικό Σχέδιο Ι Στις ανθρωπιστικές επιστήμες επικράτησαν δύο ερευνητικές κατευθύνσεις: Η στατιστική ανάλυση (συνυπολογίζει.
ΒΑΣΙΚΕΣ ΓΝΩΣΕΙΣ ΣΤΑΤΙΣΤΙΚΗΣ για επεξεργασία δεδομένων έρευνας Εμμανουήλ Κακάρογλου Σχολικός Σύμβουλος ΠΕ12.
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΠΙΝΑΚΕΣ ΚΑΙ ΔΙΑΓΡΑΜΜΑΤΑ Πηγή: Βιοστατιστική [Σταυρινός / Παναγιωτάκος] Βιοστατιστική [Τριχόπουλος / Τζώνου / Κατσουγιάννη]
ΔΙΑΛΕΞΗ 11η Ποσοτική έρευνα υγείας
ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΔΙΑΣΠΟΡΑΣ - ΑΣΥΜΜΕΤΡΙΑΣ - ΚΥΡΤΩΣΕΩΣ
Επικρατούσα τιμή. Σε περιπτώσεις, που διαφορετικές τιμές μιας μεταβλητής επαναλαμβάνονται περισσότερο από μια φορά, η επικρατούσα τιμή είναι η συχνότερη.
Στατιστική Επαγωγή Ένα τεράστιο μέρος της έρευνας διενεργείται μέσω της ανάλυσης δειγμάτων προκειμένου να εξάγουμε συμπεράσματα για τον πληθυσμό. Αυτό.
Ανάλυση- Επεξεργασία των Δεδομένων
Μέτρα Διασποράς Η μεταβλητότητα, ή αλλιώς η ποικιλομορφία, στις τιμές μιας μεταβλητής θα πρέπει πάντοτε να λαμβάνεται υπόψη σε οποιαδήποτε στατιστική ανάλυση!
Στατιστικές Υποθέσεις
Διαδικασία συλλογής των δεδομένων – Δειγματοληψία Απώτερος στόχος η διερεύνηση των σχέσεων μεταξύ μεταβλητών και παραγωγή γνώσης με το σχήμα «αίτιο – αποτέλεσμα».
Μεθοδολογία έρευνας και στατιστική – Δείγμα –Κατανομές
Δειγματοληψία Στην Επαγωγική στατιστική οδηγούμαστε σε συμπεράσματα και αποφάσεις για τις παραμέτρους ενός πληθυσμού με τη βοήθεια ενός τυχαίου δείγματος.
Μέτρα μεταβλητότητας ή διασποράς
Επαγωγική Στατιστική Εκτίμηση και Έλεγχος μέσων τιμών Χαράλαμπος Γναρδέλλης Τμήμα Τεχνολογίας Αλιείας και Υδατοκαλλιεργειών.
Έλεγχος Υπόθεσης για το μέσο ενός πληθυσμού
ΙΕΚ Γαλατσίου Στατιστική Ι
Μεθοδολογία Έρευνας Διάλεξη 5η: Δειγματοληψία
Ερμηνεία Σχετικού λόγου ( Odds ratio ) -1
Στατιστικές Υποθέσεις II
Έλεγχος για τη διαφορά μέσων τιμών μ1 και μ2 δύο πληθυσμών
Βιομετρία - Γεωργικός Πειραματισμός
Πού χρησιμοποιείται ο συντελεστής συσχέτισης (r) pearson
Άσκηση 2-Περιγραφικής Στατιστικής
Η ανάγκη χρήσης μεταβλητών
Έλεγχος υποθέσεων με την χ2 «χι -τετράγωνο» κατανομή
Εισαγωγή στην Στατιστική
Μεθοδολογία Έρευνας Διάλεξη 5η: Δειγματοληψία
ΚΑΤΑΝΟΜΕΣ Δ. Τσιπλακίδης
Επαγωγική Στατιστική Συσχέτιση – Συντελεστής συσχέτισης Χαράλαμπος Γναρδέλλης Τμήμα Τεχνολογίας Αλιείας και Υδατοκαλλιεργειών.
Στατιστικές Υποθέσεις
Μεθοδολογία Έρευνας Διάλεξη 5η: Δειγματοληψία
Στατιστικά Περιγραφικά Μέτρα
Παναγιώταρου Αλίκη Τμήμα Νοσηλευτικής
Βαςικα Στατιςτικα Μετρα
Βιοστατιστική (Θ) ΤΕΙ Αθήνας Ενότητα 3: Περιγραφική στατιστική
Δρ Μαρία Καμηλάκη, Πανεπιστημιακή υπότροφος Φιλοσοφική Σχολή
Επαγωγική Στατιστική Συσχέτιση – Συντελεστές συσχέτισης Χαράλαμπος Γναρδέλλης Εφαρμογές Πληροφορικής στην Αλιεία και τις Υδατοκαλλιέργειες.
Δρ Μαρία Καμηλάκη, Διδάσκουσα Π.Δ. 407/80 Φιλοσοφική Σχολή
Δρ Μαρία Καμηλάκη, Διδάσκουσα Π.Δ. 407/80 Φιλοσοφική Σχολή
Μεταγράφημα παρουσίασης:

Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων Eνότητα 5: Στοιχεία περιγραφικής στατιστικής Ενότητα 6: Το διαδίκτυο ως σώμα κειμένων Δρ Μαρία Καμηλάκη, Πανεπιστημιακή υπότροφος Φιλοσοφική Σχολή Τμήμα Ιταλικής Γλώσσας & Φιλολογίας Δ΄ Εξάμηνο, 2018

Ας συνδεθούμε με την προηγούμενη εβδομάδα… ΕΘΕΓ: %δημ% Ας συνδεθούμε με την προηγούμενη εβδομάδα… ΕΘΕΓ: %δημ%

Aς ξαναπιάσουμε το νήμα…

(σε Γούτσος & Φραγκάκη 2015:185) ΛΝΕΓ χαρακτηρίζει τη λέξη τύπισσα ως «αργκό», ενώ το ΛΚΝ ως «λαϊκή». Τα ΗΣΚ;;; (σε Γούτσος & Φραγκάκη 2015:185)

Video McEnery

Η σημερινή μας «ατζέντα» Να διεξέλθουμε βασικά στοιχεία περιγραφικής στατιστικής ανάλυσης. Να εξετάσουμε τη χρήση του διαδικτύου ως σώματος κειμένων (web as corpus).

Η ποσοτική ανάλυση των γλωσσικών δεδομένων περιλαμβάνει: Ένα σύνολο μεθόδων στις οποίες μια λέξη ή ένα δομικό σχήμα αποσπάται από το συγκείμενό του και εκφράζεται ποσοτικά: π.χ. ποιος από τους κλιτικούς τύπους του δίνω είναι πιο συχνός; Ένα σύνολο μεθόδων στις οποίες μια λέξη ή ένα δομικό σχήμα μελετάται λεπτομερώς στο συγκείμενό του (συμφραστικοί πίνακες).

ΣΤΟΙΧΕΙΑ ΠΕΡΙΓΡΑΦΙΚΗΣ ΣΤΑΤΙΣΤΙΚΗΣ

Είδη στατιστικών δεδομένων Αριθμητικά δεδομένα Μετρήσεις που οι τιμές τους είναι αριθμοί, π.χ. «αριθμός μη πρότυπων (non-standard) τύπων», «μήκος πρότασης», «λεξιλογική πυκνότητα», «διάρκεια άρθρωσης ενός φωνήεντος» κ.ά. Ποιοτικά δεδομένα Μετρήσεις που οι τιμές τους είναι ποιοτικές διαβαθμίσεις, π.χ. τιμές όπως «ελλιπής», «ικανοποιητική», «επαρκής» ως απαντήσεις για γλωσσική επάρκεια σε γλώσσα-στόχο, «αρνητική»/«θετική» για στάσεις προς τη χρήση λέξεων-ταμπού. Κατηγορικά δεδομένα Μετρήσεις που οι τιμές τους είναι ονοματικοί χαρακτηρισμοί που διαφέρουν σε είδος π.χ. τιμές όπως «άνδρας, γυναίκα», «Κείμενα δημοσιογραφικού λόγου, λογοτεχνίας, επιστήμης».

Στατιστικός Πληθυσμός Οι εμφανίσεις των γλωσσικών φαινομένων γίνονται σε ένα περιβάλλον που στη στατιστική το αποκαλούμε πληθυσμό (population). Η έννοια του πληθυσμού στην ΠΓ μπορεί να συλληφθεί δισυπόστατα: Όλα τα κείμενα (προφορικά ή γραπτά) που έχουν παραχθεί κατά τη διάρκεια ανάπτυξης της γλώσσας. Το σύνολο της γλώσσας ως δομή (π.χ. όλες οι λέξεις στο λεξικό μιας γλώσσας, το σύνολο των επιτρεπτών συντακτικών δομών μιας γλώσσας κ.ά.).

Μονάδα πληθυσμού (population unit) Η βασική μονάδα του πληθυσμού (ΜΠ) διαφέρει ανάλογα με τον κλάδο της ΠΓ. Μερικά παραδείγματα: στην λεξικοστατιστική η βασική ΜΠ είναι η λέξη, στην ανάλυση της γλωσσικής ποικιλίας η βασική ΜΠ είναι οποιοδήποτε γλωσσικό χαρακτηριστικό το οποίο εμφανίζει ποικιλία χρήσης (από εναλλαγή φωνημάτων έως και διαφοροποίηση χρήσης συντακτικών δομών).

Δείγμα (sample) Επειδή η μελέτη του πληθυσμού τις περισσότερες φορές είναι δύσκολη έως αδύνατη (λόγω του μεγέθους του, του είδους του κ.ά.) συνήθως αποσπούμε για μελέτη ένα υποσύνολο το οποίο αποκαλούμε δείγμα (sample). Αν διατηρηθούν ορισμένες προϋποθέσεις, τότε τα ποσοτικά χαρακτηριστικά του δείγματος είναι ίδια με του πληθυσμού και τα συμπεράσματα που θα εξαγάγουμε για το δείγμα θα ισχύουν και για τον πληθυσμό. Η σημαντικότερη από αυτές τις προϋποθέσεις είναι η τυχαιότητα.

Υπολογισμός των χαρακτηριστικών του πληθυσμού Ο στόχος του τυχαίου δείγματος είναι ο υπολογισμός κάποιων χαρακτηριστικών του πληθυσμού. Τα χαρακτηριστικά αυτά μπορεί να είναι: Ο μέσος όρος κάποιας μεταβλητής (Π.χ. ο μέσος όρος χρήσης τριτοπρόσωπων εκφράσεων σε ακαδημαϊκά κείμενα). Η αναλογία σε κάποια κατηγορία (π.χ. η αναλογία λέξεων-ταμπού σε κάποιο κείμενο). Τα χαρακτηριστικά του πληθυσμού είναι άγνωστα, αλλά οι τιμές που μετράμε στο δείγμα μπορούν να χρησιμοποιηθούν για να τις εκτιμήσουμε. Όταν τα χαρακτηριστικά του πληθυσμού εκτιμώνται από αυτά του δείγματος τότε αναμένεται η ύπαρξη ενός δειγματοληπτικού λάθους.

Επίδραση του μεγέθους του δείγματος στο δειγματοληπτικό λάθος Όσο μεγαλύτερο είναι το μέγεθος του δείγματος, τόσο μικρότερο είναι το δειγματοληπτικό λάθος. Ωστόσο, όταν ο πληθυσμός είναι μεγάλος, η δειγματοληψία ενός μικρού ποσοστού του δείγματος μπορεί να δώσει εξίσου αξιόπιστες εκτιμήσεις. Το δειγματοληπτικό λάθος εξαρτάται πολύ περισσότερο από το μέγεθος του δείγματος παρά από το ποσοστό του πληθυσμού από τον οποίο παίρνουμε το δείγμα. Για παράδειγμα, ένα δείγμα 10 ατόμων από ένα πληθυσμό 10.000 θα εκτιμήσει την αναλογία ανδρών / γυναικών στον πληθυσμό με την ίδια περίπου ακρίβεια, όσο και ένα δείγμα 10 ατόμων για ένα πληθυσμό 100.

Είδη δειγματοληψίας Τυχαία Μη τυχαία Απλή τυχαία Διαστρωματωμένη Με αντικατάσταση Χωρίς αντικατάσταση Συστηματική Διαστρωματωμένη Συστάδων Μη τυχαία Ευκολίας Κρίσης Κρίσιμων περιπτώσεων Προκαθορισμένης ποσόστωσης Εθελοντών «Χιονοστιβάδας»

Κατανομή του δειγματικού μέσου όρου Όλες οι τιμές που περιγράφουν ένα δείγμα ποικίλλουν από δείγμα σε δείγμα. Η ευρύτερα χρησιμοποιούμενη τιμή είναι ο μέσος όρος. Όταν ένα τυχαίο δείγμα τιμών δειγματοληπτείται, ο μέσος όρος του δείγματος είναι επίσης τυχαίος, αλλά παρουσιάζει μια κατανομή που έχει πολύ μικρότερη ποικιλία από την συνολική ποικιλία του πληθυσμού. Οι μέσοι όροι των δειγμάτων «κανονικοποιούν» τις ακραίες τιμές στο δείγμα και έτσι οι μέσοι όροι των δειγμάτων τείνουν να «κλείνουν» εγγύτερα στο κέντρο της κατανομής του πληθυσμού.

Ιδιότητες του δειγματοληπτικού μέσου όρου Ο μέσος όρος του δείγματος έχει μια κατανομή με τις ακόλουθες ιδιότητες: Έχει κατανομή που επικεντρώνεται στον μέσο όρο του πληθυσμού. Η ποικιλία του μειώνεται καθώς το μέγεθος του δείγματος μεγαλώνει. Όταν η κατανομή του πληθυσμού είναι κανονική, ο μέσος όρος του δείγματος έχει επίσης κανονική κατανομή. Όταν η κατανομή του πληθυσμού δεν είναι κανονική τότε και η κατανομή των μέσων όρων δεν είναι κανονική, αλλά... Το θεώρημα του κεντρικού ορίου μας λέει ότι: Για τις περισσότερες άλλες κατανομές, η κατανομή του μέσου όρου ενός δείγματος τείνει στην κανονική όσο το μέγεθος του δείγματος μεγαλώνει.

Το σχήμα της κανονικής κατανομής (= συμμετρία και ομαλότητα στην κατανομή των τιμών)

Κανονική Κατανομή Η οικογένεια των κανονικών κατανομών αποτελείται από συμμετρικές, κωδωνοειδείς κατανομές που καθορίζεται από δύο παραμέτρους, τον μέσο όρο (μ) και την τυπική απόκλιση (σ). Η κανονική κατανομή χρησιμοποιείται ως πληθυσμός-μοντέλο για να εξηγήσει την ποικιλία σε δεδομένα. Ωστόσο, πολλά δεδομένα δεν μπορούν να μοντελοποιηθούν με τη κανονική κατανομή. Μια κανονική κατανομή δεν είναι κατάλληλο μοντέλο για ... Δεδομένα που είναι διακριτά Δεδομένα που έχουν μια στρεβλή κατανομή (με μακριά «ουρά» στα αριστερά ή τα δεξιά) Δεδομένα που έχουν πολύ μακριές «ουρές» (με τις περισσότερες τιμές κοντά στο κέντρο, αλλά μικρό ποσοστό των τιμών πολύ μακριά από τον μέσο όρο) Δεδομένα που περιέχουν δύο ή περισσότερες συσπειρώσεις τιμών Δεδομένα με στρεβλές κατανομές μπορούν να μετασχηματιστούν σε συμμετρική μορφή και να πλησιάσουν την κανονική κατανομή.

Οικογένειες κατανομών

Τυπική Κανονική Κατανομή Όλες οι κανονικές κατανομές έχουν το ίδιο σχήμα ανεξαρτήτως της κλίμακας των δεδομένων. Πώς μπορούμε να καταλήξουμε σε μια κανονική κατανομή που να έχει έναν κοινό οριζόντιο άξονα; Η λύση δίνεται με την τυποποίηση (standardising) των τιμών: Η τυπική τιμή z έχει την τυπική κανονική κατανομή (standard normal distribution) με μέσο όρο = 0 και τυπική απόκλιση = 1.

Ιδιότητες της Τυπικής Κανονικής Κατανομής Η P (τιμή μέσα σε διάστημα 1 τ.α. του μ.ό.) είναι περίπου 0,68 Η P (τιμή μέσα σε διάστημα 2 τ.α. του μ.ό.) είναι περίπου 0,95 Η P (τιμή μέσα σε διάστημα 3 τ.α. του μ.ό.) είναι περίπου 0,997 Είναι σημαντικό να θυμάστε ότι περίπου το 95% των τιμών σε έναν πληθυσμό που ακολουθεί την κανονική κατανομή βρίσκεται μέσα σε διάστημα 2 τ.α. της κατανομής του μέσου όρου. Για να είμαστε ακριβέστεροι, το 95% των τιμών σε έναν πληθυσμό κανονικής κατανομής είναι μέσα σε ένα διάστημα 1,96 τυπικών αποκλίσεων από τον μέσο όρο.

Περιγραφικές τιμές της κατανομής Κλίση Κλίση (skewness): Μας λέει πόσο «στραβή» είναι η κατανομή. Αρνητικά κεκλιμένη κατανομή Κανονική κατανομή Θετικά κεκλιμένη κατανομή Κλίση < 0 Κλίση = 0 Κλίση > 0

Περιγραφικές τιμές της κατανομής Κύρτωση Κύρτωση (kyrtosis): Μας λέει πόσο «οξύ» είναι το σχήμα της κατανομής. Κατανομή πλατύκυρτη Κανονική κατανομή Κατανομή λεπτόκυρτη Κύρτωση < 0 Κύρτωση = 0 Κύρτωση > 0

Συχνότητα Συχνότητα: ο λεξικός τύπος νυκτός εμφανίζεται 68 φορές στον ΕΘΕΓ (ποσοστό 0,0014‰). Σχετική συχνότητα (normalized/relative frequency): «πόσο συχνά αναμένουμε να εντοπίσουμε έναν λεξικό τύπο σε x λέξεις ρέοντος κειμένου;» nf = (δείγματα λεξικού τύπου στο σύνολο του corpus ÷ μέγεθος του corpus) × (βάση κανονικοποίησης, π.χ. ανά 1000 λέξεις ή ανά 1.000.000 λέξεις) Π.χ. λέξη Lancaster στο BNC nf = (1,103 ÷ 87,903,571)×1,000,000 = 12.55 Ποσοστό: σχετική συχνότητα × 100 Πολλά ΗΣΚ παράγουν αυτόματα αυτού του είδους την πληροφορία περί συχνότητας.

Συχνότητα Σύγκριση συχνοτήτων σε δύο διαφορετικά ΗΣΚ, π.χ. Η λέξη Lancaster, που στο BNC (87,903,571 λέξεις) απαντά 1,103 φορές, στο BE06 corpus, 1,146,597 λέξεων, απαντά στο 10 φορές. Πώς μπορώ να συγκρίνω τις δύο συχνότητες; Σχετική συχνότητα: 12.55 ανά εκατομμύριο λέξεις στο BNC και 8.72 στο ΒΕ06. Κατάλογοι συχνότητας σε ΗΣΚ.

Συχνότητα

Δείκτες κεντρικής τάσης Κάθε κατανομή δεδομένων συγκεντρώνει δεδομένα (τιμές) γύρω από μια «κεντρική» τιμή. Οι δείκτες κεντρικής τάσης δεν έχουν νόημα για τα κατηγορικά δεδομένα.

Δείκτες κεντρικής τάσης Μέσος όρος (mean) Δεσπόζουσα τιμή (mode) Είναι η τιμή που εμφανίζεται συχνότερα σε κάποια δεδομένα (τόσο ποιοτικά, όσο και ποσοτικά). Δεν επηρεάζεται από ακραίες τιμές και μπορεί να υπολογιστεί ακόμη κι όταν έχουμε ελλιπή δεδομένα. Π.χ. 8 12 15 17 19 19 19 27 56 56 89 Διάμεσος (median) Είναι η τιμή που βρίσκεται στο μέσο της κατανομής των δεδομένων. Οι μισές τιμές της κατανομής βρίσκονται κάτω από τη διάμεσο και οι άλλες μισές πάνω από αυτήν Π.χ. 17 23 45 46 83 84 96

Δείκτες κεντρικής τάσης Ποσοστό μη πρότυπης (non-standard) προφοράς του συμπλέγματος (-ing) ως -/in/ (π.χ. I’m goin) ανά κοινωνική τάξη στο Norwich.

Δείκτες Διασποράς (Variation) ή Διασκόρπισης (Dispersion) Οι δείκτες κεντρικής τάσης δε μας δίνουν πληροφορία για το πώς κατανέμονται τα δεδομένα. Γι’ αυτό χρειαζόμαστε τους δείκτες διασποράς, οι οποίοι δείχνουν κατά πόσο «απλώνεται» μια κατανομή δεδομένων, κατά πόσο δηλαδή διασπείρονται οι τιμές της.

Iδιότητες της διασποράς Η διασπορά είναι ένα μέτρο που μας δείχνει πόσο πολύ απέχουν, δηλαδή, συγκεντρώνονται ή απομακρύνονται, οι τιμές μιας κατανομής από τη μέση τιμή. Αν οι τιμές δε διαφέρουν πολύ από τη μέση τιμή, τότε η διασπορά είναι μικρή. Αν απλώνονται σε μεγάλη απόσταση εκατέρωθεν της μέσης τιμής, τότε η διασπορά είναι μεγάλη. Η διασπορά είναι μια αξιόπιστη παράμετρος μεταβλητότητας των δεδομένων.

Δείκτες Διασποράς Χ Χ-ΜΟ (Χ-ΜΟ)2 ΜΟ s2 s 11,4 18,64 4,32 5 -6,4 40,96 Εύρος (range): διαφορά ανάμεσα στη μεγαλύτερη και τη μικρότερη τιμή (αφαιρούμε τη μικρότερη τιμή από τη μεγαλύτερη) Διακύμανση (variance) Είναι ο μέσος όρος των τετράγωνων των αποκλίσεων των τιμών μιας κατανομής από τον μέσο όρο της. Μας πληροφορεί σε τι βαθμό τα δεδομένα μας διαφοροποιούνται από τον μέσο όρο. Τυπική απόκλιση (standard deviation) Είναι η τετραγωνική ρίζα των τιμών της διακύμανσης Χ Χ-ΜΟ (Χ-ΜΟ)2 5 -6,4 40,96 8 -3,4 11,56 13 1,6 2,56 14 2,6 6,76 17 5,6 31,36 ΜΟ s2 s 11,4 18,64 4,32

Iδιότητες της τυπικής απόκλισης Η τυπική απόκλιση είναι το πιο αξιόπιστο και χρήσιμο μέτρο μεταβλητότητας. Έστω ότι τρία δείγματα s1, s2, s3 με ίδια μέση τιμή, ίδια διάμεσο, αλλά διαφορετική τυπική απόκλιση.

Tυπική απόκλιση: παράδειγμα Δύο μαθητές τελειώνουν την Α΄ Λυκείου με κοινό μέσο όρο 16. Εκ πρώτης όψεως μπορεί κάποιος να ισχυριστεί ότι οι δύο μαθητές είναι ισοδύναμοι. Στην πραγματικότητα όμως, για να καταλήξουμε σε ασφαλέστερα συμπεράσματα σχετικά με τις ικανότητες των δύο μαθητών, θα πρέπει να απαντήσουμε στο ερώτημα πόσο δεξιά και αριστερά του μέσου όρου διασπείρονται οι βαθμοί που συμψηφίζονται. Ας υποθέσουμε ότι οι βαθμολογίες των δύο μαθητών είναι οι εξής: A: 12 12 13 13 19 19 20 20 Β: 15 15 16 16 16 16 17 17. Η επίδοση του πρώτου ήταν λιγότερο ομοιογενής από την επίδοση του δεύτερου.

Tυπική απόκλιση: παράδειγμα Η τυπική απόκλιση υπολογίζεται από τον τύπο: Σύμφωνα με αυτόν, για να υπολογίσουμε τη διασπορά των βαθμολογιών γύρω από τον αριθμητικό μέσο όρο, θα πρέπει να αφαιρέσουμε το μέσο όρο του συνόλου των βαθμών από τον επιμέρους βαθμό (Xi) κάθε μαθητή, να υψώσουμε στο τετράγωνο τις διαφορές τους, να αθροίσουμε τα αποτελέσματα (Σ) και τέλος να διαιρέσουμε διά του συνόλου των μαθητών. Όσο μικρότερη είναι η τιμή που θα προκύψει, τόσο πιο συγκεντρωμένες είναι οι τιμές γύρω από το μέσο όρο της κατανομής και, κατά συνέπεια, τόσο πιο αντιπροσωπευτικό στατιστικό μέτρο είναι ο μέσος όρος.

Tυπική απόκλιση: παράδειγμα Για να οδηγηθούμε σε ακόμη πιο ασφαλή συμπεράσματα σχετικά με την ομοιογένεια της κατανομής, θα πρέπει να υπολογίσουμε ένα βοηθητικό δείκτη, το «συντελεστή μεταβλητότητας» (CV), αν διαιρέσουμε την τυπική απόκλιση με τον μέσο όρο και στη συνέχεια πολλαπλασιάσουμε με το εκατό., Αν το αποτέλεσμα που θα προκύψει είναι πάνω από δέκα τοις εκατό, η επίδοση των μαθητών είναι ανομοιογενής, ενώ αν είναι κάτω από δέκα τοις εκατό, είναι ομοιογενής.

Ζ-score ή standard score Επιτρέπει να συγκρίνουμε τιμές από διαφορετικές ομάδες δεδομένων. Charles Ian

Web-as-corpus (Κilgarriff & Grefenstette 2003) Ιδιαίτερη περίπτωση αποτελεί ο παγκόσμιος ιστός, ο οποίος προσφέρει τεράστιο όγκο γλωσσικών δεδομένων, είναι σαφές όμως ότι δεν πληροί κριτήρια σχεδιασμού, δεν είναι πεπερασμένος και δεν μπορεί να θεωρηθεί αντιπροσωπευτικός μιας γλωσσικής ποικιλίας και —πολύ περισσότερο— μιας γλώσσας στο σύνολό της. Μπορεί να προσφέρει πολύτιμη βοήθεια στους μελετητές της γλώσσας, με την προϋπόθεση ότι λαμβάνονται υπόψη οι εγγενείς περιορισμοί του.

Web-as-corpus Προ της εποχής του διαδικτύου, η συλλογή κειμένων σε ηλεκτρονική μορφή απαιτούσε είτε την εξασφάλιση ψηφιακού αρχείου από τον συντάκτη/εκδότη, είτε την πληκτρολόγηση, είτε την οπτική αναγνώριση-σάρωση (λογισμικό OCR) με εγγενείς περιορισμούς και τάση για σφάλματα.

Web crawler BootCat (Baroni & Bernadini 2004). Sketch Engine: λίστα με seed words, που παραπέμπουν θεματικά στο ερευνητικό ζήτημα. Eμπλουτισμός των υπό εξέταση κειμενικών ειδών με διαδικτυακό λόγο (chat rooms, blogs κ.ά.). «Καταπληκτικός παιδότοπος για γλωσσολόγους (Kilgarriff & Grefenstette 2003:333). McEnery videos

Web as corpus: οι «επιφυλακτικοί» «Σε καμία περίπτωση δε μπορεί να θεωρηθεί αντιπροσωπευτικό δείγμα της γλώσσας συνολικά» (Leech 2007:145). Aν και το διαδίκτυο μπορεί ασφαλώς να λειτουργήσει συμπληρωματικά και επικουρικά στη γλωσσολογική έρευνα, οι σύνθετες και εκλεπτυσμένες ερευνητικές υποθέσεις των γλωσσολόγων μπορούν να διερευνηθούν καλύτερα μέσω των παραδοσιακών, συμβατικών σωμάτων κειμένων.

Web as corpus: οι «επιφυλακτικοί» Δυσκολίες στον καθορισμό του κειμενικού είδους, ελλιπή μεταδεδομένα. Ηθικά ζητήματα που σχετίζονται με την πνευματική ιδιοκτησία και το δικαίωμα αναπαραγωγής ή/και διανομής ψηφιακού υλικού.

Βιβλιογραφικές αναφορές Anthony, L. (2014). AntConc (Version 3.4.3). Tokyo: Waseda University. Baroni, M. & Bernardini, S. 2004. BootCaT: Bootstrapping corpora and terms from the web. Proceedings of LREC 2004. Baroni, M. & Evert, S. (2009). Statistical methods for corpus exploitation. In A. Lüdeling & M. Kytö (eds), Corpus Linguistics: An International Handbook. Vol. 2. Berlin: de Gruyter, 777-803. Γούτσος, Δ. & Φραγκάκη, Γ. (2015). Εισαγωγή στη Γλωσσολογία Σωμάτων Κειμένων. Ελληνικά ακαδημαϊκά ηλεκτρονικά συγγράμματα και βοηθήματα. Kilgarriff, A., Baisa, V., Bušta, J., Jakubíček, M., Kovář, V., Michelfeit, J., Rychlý, P. & Suchomel, V. (2014). The Sketch Engine: Ten Years on. Lexicography 1(1):7-36. Kilgarriff, Α. & G. Grefenstette. 2003. Introduction to the special issue on the Web as corpus. Computational Linguistics 29(3):333–347. Leech, G. 2007. New resources, or just better old ones? The holy grail of representativeness. In M. Hundt, N. Nesselhauf, and C. Biewer (eds.), Corpus linguistics and the Web, 133–151. Amsterdam: Rodopi. Mικρός, Γ. Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων. Ενότητα 2: Περιγραφική στατιστική. http://slideplayer.gr/slide/11311549/. Oakes, M. (1998). Statistics for Corpus Linguistics. Edinburgh: Edinburgh University Press. Τσάντας Ν., Μωυσιάδης Χ., Μπαγιάτης Ν., Χατζηπαντελής Θ. (1999). Ανάλυση δεδομένων με τη βοήθεια στατιστικών πακέτων. Θεσσαλονίκη: Εκδόσεις Ζήτη. Ψωινός Δ. (1999). Στατιστική. Θεσσαλονίκη: Εκδόσεις Ζήτη.