Δρ Μαρία Καμηλάκη, Διδάσκουσα Π.Δ. 407/80 Φιλοσοφική Σχολή

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Εισαγωγή στην Κοινωνιογλωσσολογία
Advertisements

Περιγραφικά μέτρα κεντρικής τάσης και διασποράς μιας Ποσοτικής μεταβλητής σε σχέση με μία Ποιοτική μεταβλητή (εντολή By variable) π.χ. Να συγκριθούν οι.
Τομέας Πληροφορικής. Υποστήριξης Υπολογιστικών Συστημάτων Εφαρμογών & Δικτύων Η/Υ.
1 ΔΗΜΟΠΑΘΟΛΟΓΙΑ ΤΗΣ ΔΙΑΤΡΟΦΗΣ ΠΑΡΑΔΟΣΗ 1Οη (Θ) Στοιχεία Επαγωγικής Στατιστικής.
ΤΕΙ ΚΕΝΤΡΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΠΑΡΑΡΤΗΜΑ ΚΑΤΕΡΙΝΗΣ ΤΜΗΜΑ ΔΙΟΙΚΗΣΗΣ ΣΥΣΤΗΜΑΤΩΝ ΕΦΟΔΙΑΣΜΟΥ (LOGISTICS) ΕΠΙΒΛΕΠΟΥΣΑ ΚΑΘΗΓΗΤΡΙΑ: ΣΤΑΦΥΛΑ ΑΜΑΛΙΑ ΤΡΥΦΩΝΟΠΟΥΛΟΥ ΙΩΑΝΝΑ.
Κεφάλαιο 23 Η ζωή στις εύκρατες περιοχές. Εύκρατες περιοχές Εύκρατες ονομάζονται οι περιοχές που βρίσκονται ανάμεσα στην τροπική ζώνη και τις πολικές.
«Κοινωνιογλωσσολογία των μέσων» Τμήμα Μέσων Μαζικής Ενημέρωσης και Επικοινωνίας Παρασκευή Σαββίδου 13 Απριλίου 2016.
Κεφάλαιο 33 Οι σχέσεις των κρατών της Ευρώπης και η Ευρωπαϊκή Ένωση.
ΕΝΕΡΓΟΙ ΠΟΛΙΤΕΣ Β1-Β2 (Σχ.έτος ) ΕΚΠΑΙΔΕΥΤΙΚΟΙ : ΝΕΟΚΟΣΜΙΔΟΥ ΠΑΝΑΓΙΩΤΑ ΣΑΝΤΟΡΙΝΗ ΜΑΡΙΑ.
Τομέας Εφαρμοσμένων Τεχνών. Ο επαγγελματικός τομέας Εφαρμοσμένων Τεχνών ανήκει στον κύκλο Εφαρμογών του 10ου ΕΠΑ.Λ. και περιέχει την ειδικότητα: Γραφικών.
Κεφάλαιο 28 Η χλωρίδα και η πανίδα – Η βλάστηση της Ευρώπης.
Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων Ενότητα 1: Η ελληνική γλώσσα μέσα από αριθμούς: Μετρήσεις και στατιστική στην υπηρεσία της γλωσσολογίας Γεώργιος.
ΧΟΡΕΥΟΥΜΕ ΠΑΡΑΔΟΣΙΑΚΑ ;. TAΞΕΙΔΙ ΣΤΗΝ ΠΑΡΑΔΟΣΗ.. Οι παραδοσιακοί χοροί της χώρας μας παρουσιάζουν μεγάλη ποικιλία. Κάθε περιοχή, χωριό έχει τους δικούς.
Η ΠΕΡΙΠΤΩΣΗ ΤΗΣ ΚΙΝΕΖΙΚΗΣ Νοήματα που «χάνονται» στη μετάφραση Αλίκη Αναγνώστη, Μεταφράστρια 22 Μαΐου, 5 η Συνάντηση Ελληνόφωνων Μεταφρασεολόγων, ΑΠΘ.
Καλώς ήλθατε, μαθητές! Όνομα δασκάλου. Πρόγραμμα τάξης 8:15 - 9:00Το σχολείο ξεκινά, παίρνουμε παρουσίες 9: :00Ανάγνωση και έκθεση 10: :00Ορθογραφία.
ΠΕΡΙΓΡΑΦΙΚΗ ΒΙΟΣΤΑΤΙΣΤΙΚΗ – Ποσοτικές μεταβλητές
Τι είναι η Κατανομή (Distribution)
Στατιστική ανάλυση των πειραματικών μετρήσεων
ΠΟΣΟΤΙΚΑ ΔΕΔΟΜΕΝΑ.
Μέτρα μεταβλητότητας ή διασποράς
Διαχείριση και ανάλυση δεδομένων
Εκτιμητική: σημειακές εκτιμήσεις παραμέτρων
Η ένταξη των μαθητών με αναπηρία στη φυσική αγωγή
ΣΤΑΤΙΣΤΙΚΗ ΚΟΙΝΩΝΙΚΩΝ ΕΠΙΣΤΗΜΩΝ
ΕΡΕΥΝΗΤΙΚΗ ΕΡΓΑΣΙΑ Β4 Σχ. Έτος:
Εισαγωγή στις Πιθανότητες
ΣΤΑΤΙΣΤΙΚΗ ΕΠΙΧ/ΣΕΩΝ ΕΡΓΑΣΤΗΡΙΟ 3 ΔΔΕ
Μέτρα κεντρικής τάσης και διασποράς
ΔΙΔΑΚΤΙΚΗ ΜΕΘΟΔΟΛΟΓΙΑ – ΑΝΑΛΥΤΙΚΑ ΠΡΟΓΡΑΜΜΑΤΑ ΦΥΣΙΚΩΝ ΕΠΙΣΤΗΜΩΝ
Αγάθη Σταθοπούλου Δρ. Ειδικής Αγωγής EKΠA
Ποιοί είναι οι δικαστικοί σχηματισμοί του Δικαστηρίου;
Στην εργαστηριακή αυτή άσκηση θα γίνει προσδιορισμός της φυσικής ιδιότητας του χαρτιού, μάζα χαρτιού ανά μονάδα επιφανείας (g/m2). Πρόκειται για βασική.
ΤΕΧΝΟΛΟΓΙΑ ΛΟΓΙΣΜΙΚΟΥ
ΗΦΑΙΣΤΕΙΑ ΒΗΣΣΑΡΙΑ & ΜΑΡΙΑ ΣΤ2.
1η Νοσηλευτική Ημερίδα Ελληνικής Εταιρείας Παιδιατρικής Νοσηλευτικής
Στισ γειτονιεσ των Αστεγων
ΤΑ ΕΛΛΗΝΙΚΑ ΒΟΤΑΝΑ ΚΑΙ Η ΧΡΗΣΗ ΤΟΥΣ
Εισαγωγή στην Βιοστατιστική
Κεφάλαιο 22 Η ζωή στα τροπικά δάση.
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ «ΦΙΛΟΣΟΦΙΑ»
ΕΙΣΑΓΩΓΗ - ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ
Καρέκλη Ελένη Βοσινάκης Παντελής Ευαγγελακάκης Κωνσταντίνος
Όνομα σχολείου Ημερομηνία
Ποσοτικές Μέθοδοι Δρ. Χάϊδω Δριτσάκη MSc Τραπεζική & Χρηματοοικονομική
7ο Γυμνάσιο Ηρακλείου Κρήτης
Η Ένταξη παιδιών με απώλεια ακοής στη γενική εκπαίδευση
ΛΙΠΙΔΙΑ.
Μέτρα μεταβλητότητας ή διασποράς
Η Ροή του Κόστους Παραγωγής
Η θέση και το φυσικό περιβάλλον της Νότιας Αμερικής
ΑΝΑΝΕΩΣΙΜΕΣ ΠΗΓΕΣ ΕΝΕΡΓΕΙΑΣ & ΟΙΚΟΝΟΜΙΚΗ ΑΥΤΑΡΚΕΙΑ ΤΗΣ ΠΕΡΙΟΧΗΣ
Bài giảng tin ứng dụng Gv: Trần Trung Hiếu Bộ môn CNPM – Khoa CNTT
Η ζωή στις πολικές περιοχές
Επιστημονική Υπεύθυνη: Αλεξάνδρα Ανδρούσου Επόπτης: Σταύρος Σταύρου
ΣΤΑΤΙΣΤΙΚΗ ΚΑΙ ΕΙΣΑΓΩΓΗ ΣΤΗ ΒΙΟΣΤΑΤΙΣΤΙΚΗ
ΚΑΘΟΔΟΣ ΤΩΝ ΠΕΛΟΠΟΝΝΗΣΟΣ ΕΙΛΩΤΕΣ-ΠΕΡΙΟΙΚΟΙ ΓΕΩΜΕΤΡΙΚΑ ΧΡΟΝΙΑ
מדדי מרכזיות שכיח Mo – (Mode) חציון (Median) Md –
الإحصاء الحيوي Biostatistics
ΤΙΤΛΟΣ ΤΗΣ ΕΚΔΗΛΩΣΗΣ ΣΑΣ
Στατιστικές Υποθέσεις
Καλώς ήλθατε, μαθητές! Όνομα δασκάλου.
Στατιστικά Στοιχεία Συνεδριάσεων
Δρ Μαρία Καμηλάκη, Πανεπιστημιακή υπότροφος Φιλοσοφική Σχολή
Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων Eνότητα 5: Στοιχεία περιγραφικής στατιστικής Ενότητα 6: Το διαδίκτυο ως σώμα κειμένων Δρ Μαρία Καμηλάκη, Πανεπιστημιακή.
ΣΤΑΣΕΙΣ ΚΑΙ ΣΥΜΠΕΡΙΦΟΡΑ
Κεφάλαιο 3 Αριθμητικά Περιγραφικά Μέτρα.
«Το επείγον στην Παιδιατρική»
Ελεάνα Αρμάο Αναπτυξιακή Ψυχολόγος Υποψήφια Διδάκτορας
Παράδειγμα στόχος Έμπνευση Ενέργειες/εργασίες Πόροι Σκέψεις
Μεταγράφημα παρουσίασης:

Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων Eνότητα 5: Στοιχεία περιγραφικής στατιστικής Δρ Μαρία Καμηλάκη, Διδάσκουσα Π.Δ. 407/80 Φιλοσοφική Σχολή Τμήμα Ιταλικής Γλώσσας & Φιλολογίας Εαρινό Εξάμηνο 2019

Ας συνδεθούμε με την προηγούμενη εβδομάδα… ΕΘΕΓ: %δημ% Ας συνδεθούμε με την προηγούμενη εβδομάδα… ΕΘΕΓ: %δημ%

Aς ξαναπιάσουμε το νήμα…

(σε Γούτσος & Φραγκάκη 2015:185) ΛΝΕΓ χαρακτηρίζει τη λέξη τύπισσα ως «αργκό», ενώ το ΛΚΝ ως «λαϊκή». Τα ΗΣΚ;;; (σε Γούτσος & Φραγκάκη 2015:185)

Video McEnery

Η σημερινή μας «ατζέντα» Να διεξέλθουμε βασικά στοιχεία περιγραφικής στατιστικής ανάλυσης. Να εξοικειωθούμε (επιλεκτικά) με εργαλεία και εφαρμογές περιγραφικής στατιστικής.

Η ποσοτική ανάλυση των γλωσσικών δεδομένων περιλαμβάνει: Ένα σύνολο μεθόδων στις οποίες μια λέξη ή ένα δομικό σχήμα αποσπάται από το συγκείμενό του και εκφράζεται ποσοτικά: π.χ. ποιος από τους κλιτικούς τύπους του δίνω είναι πιο συχνός; Ένα σύνολο μεθόδων στις οποίες μια λέξη ή ένα δομικό σχήμα μελετάται λεπτομερώς στο συγκείμενό του (συμφραστικοί πίνακες).

ΣΤΟΙΧΕΙΑ ΠΕΡΙΓΡΑΦΙΚΗΣ ΣΤΑΤΙΣΤΙΚΗΣ

Είδη στατιστικών δεδομένων Αριθμητικά δεδομένα Μετρήσεις που οι τιμές τους είναι αριθμοί, π.χ. «αριθμός μη πρότυπων (non-standard) τύπων», «μήκος πρότασης», «λεξιλογική πυκνότητα», «διάρκεια άρθρωσης ενός φωνήεντος» κ.ά. Ποιοτικά δεδομένα Μετρήσεις που οι τιμές τους είναι ποιοτικές διαβαθμίσεις, π.χ. τιμές όπως «ελλιπής», «ικανοποιητική», «επαρκής» ως απαντήσεις για γλωσσική επάρκεια σε γλώσσα-στόχο, «αρνητική»/«θετική» για στάσεις προς τη χρήση λέξεων-ταμπού. Κατηγορικά δεδομένα Μετρήσεις που οι τιμές τους είναι ονοματικοί χαρακτηρισμοί που διαφέρουν σε είδος π.χ. τιμές όπως «άνδρας, γυναίκα», «Κείμενα δημοσιογραφικού λόγου, λογοτεχνίας, επιστήμης».

Στατιστικός Πληθυσμός Οι εμφανίσεις των γλωσσικών φαινομένων γίνονται σε ένα περιβάλλον που στη στατιστική το αποκαλούμε πληθυσμό (population). Η έννοια του πληθυσμού στην ΠΓ μπορεί να συλληφθεί δισυπόστατα: Όλα τα κείμενα (προφορικά ή γραπτά) που έχουν παραχθεί κατά τη διάρκεια ανάπτυξης της γλώσσας. Το σύνολο της γλώσσας ως δομή (π.χ. όλες οι λέξεις στο λεξικό μιας γλώσσας, το σύνολο των επιτρεπτών συντακτικών δομών μιας γλώσσας κ.ά.).

Μονάδα πληθυσμού (population unit) Η βασική μονάδα του πληθυσμού (ΜΠ) διαφέρει ανάλογα με τον κλάδο της ΠΓ. Μερικά παραδείγματα: στην λεξικοστατιστική η βασική ΜΠ είναι η λέξη, στην ανάλυση της γλωσσικής ποικιλίας η βασική ΜΠ είναι οποιοδήποτε γλωσσικό χαρακτηριστικό το οποίο εμφανίζει ποικιλία χρήσης (από εναλλαγή φωνημάτων έως και διαφοροποίηση χρήσης συντακτικών δομών).

Δείγμα (sample) Επειδή η μελέτη του πληθυσμού τις περισσότερες φορές είναι δύσκολη έως αδύνατη (λόγω του μεγέθους του, του είδους του κ.ά.) συνήθως αποσπούμε για μελέτη ένα υποσύνολο το οποίο αποκαλούμε δείγμα (sample). Αν διατηρηθούν ορισμένες προϋποθέσεις, τότε τα ποσοτικά χαρακτηριστικά του δείγματος είναι ίδια με του πληθυσμού και τα συμπεράσματα που θα εξαγάγουμε για το δείγμα θα ισχύουν και για τον πληθυσμό. Η σημαντικότερη από αυτές τις προϋποθέσεις είναι η τυχαιότητα.

Υπολογισμός των χαρακτηριστικών του πληθυσμού Ο στόχος του τυχαίου δείγματος είναι ο υπολογισμός κάποιων χαρακτηριστικών του πληθυσμού. Τα χαρακτηριστικά αυτά μπορεί να είναι: Ο μέσος όρος κάποιας μεταβλητής (Π.χ. ο μέσος όρος χρήσης τριτοπρόσωπων εκφράσεων σε ακαδημαϊκά κείμενα). Η αναλογία σε κάποια κατηγορία (π.χ. η αναλογία λέξεων-ταμπού σε κάποιο κείμενο). Τα χαρακτηριστικά του πληθυσμού είναι άγνωστα, αλλά οι τιμές που μετράμε στο δείγμα μπορούν να χρησιμοποιηθούν για να τις εκτιμήσουμε. Όταν τα χαρακτηριστικά του πληθυσμού εκτιμώνται από αυτά του δείγματος τότε αναμένεται η ύπαρξη ενός δειγματοληπτικού λάθους.

Επίδραση του μεγέθους του δείγματος στο δειγματοληπτικό λάθος Όσο μεγαλύτερο είναι το μέγεθος του δείγματος, τόσο μικρότερο είναι το δειγματοληπτικό λάθος. Ωστόσο, όταν ο πληθυσμός είναι μεγάλος, η δειγματοληψία ενός μικρού ποσοστού του δείγματος μπορεί να δώσει εξίσου αξιόπιστες εκτιμήσεις. Το δειγματοληπτικό λάθος εξαρτάται πολύ περισσότερο από το μέγεθος του δείγματος παρά από το ποσοστό του πληθυσμού από τον οποίο παίρνουμε το δείγμα. Για παράδειγμα, ένα δείγμα 10 ατόμων από ένα πληθυσμό 10.000 θα εκτιμήσει την αναλογία ανδρών / γυναικών στον πληθυσμό με την ίδια περίπου ακρίβεια, όσο και ένα δείγμα 10 ατόμων για ένα πληθυσμό 100.

Είδη δειγματοληψίας Τυχαία Μη τυχαία Απλή τυχαία Διαστρωματωμένη Με αντικατάσταση Χωρίς αντικατάσταση Συστηματική Διαστρωματωμένη Συστάδων Μη τυχαία Ευκολίας Κρίσης Κρίσιμων περιπτώσεων Προκαθορισμένης ποσόστωσης Εθελοντών «Χιονοστιβάδας»

Κατανομή του δειγματικού μέσου όρου Όλες οι τιμές που περιγράφουν ένα δείγμα ποικίλλουν από δείγμα σε δείγμα. Η ευρύτερα χρησιμοποιούμενη τιμή είναι ο μέσος όρος. Όταν ένα τυχαίο δείγμα τιμών δειγματοληπτείται, ο μέσος όρος του δείγματος είναι επίσης τυχαίος, αλλά παρουσιάζει μια κατανομή που έχει πολύ μικρότερη ποικιλία από την συνολική ποικιλία του πληθυσμού. Οι μέσοι όροι των δειγμάτων «κανονικοποιούν» τις ακραίες τιμές στο δείγμα και έτσι οι μέσοι όροι των δειγμάτων τείνουν να «κλείνουν» εγγύτερα στο κέντρο της κατανομής του πληθυσμού.

Ιδιότητες του δειγματοληπτικού μέσου όρου Ο μέσος όρος του δείγματος έχει μια κατανομή με τις ακόλουθες ιδιότητες: Έχει κατανομή που επικεντρώνεται στον μέσο όρο του πληθυσμού. Η ποικιλία του μειώνεται καθώς το μέγεθος του δείγματος μεγαλώνει. Όταν η κατανομή του πληθυσμού είναι κανονική, ο μέσος όρος του δείγματος έχει επίσης κανονική κατανομή. Όταν η κατανομή του πληθυσμού δεν είναι κανονική τότε και η κατανομή των μέσων όρων δεν είναι κανονική, αλλά... Το θεώρημα του κεντρικού ορίου μας λέει ότι: Για τις περισσότερες άλλες κατανομές, η κατανομή του μέσου όρου ενός δείγματος τείνει στην κανονική όσο το μέγεθος του δείγματος μεγαλώνει.

Το σχήμα της κανονικής κατανομής (= συμμετρία και ομαλότητα στην κατανομή των τιμών)

Κανονική Κατανομή Η οικογένεια των κανονικών κατανομών αποτελείται από συμμετρικές, κωδωνοειδείς κατανομές που καθορίζεται από δύο παραμέτρους, τον μέσο όρο (μ) και την τυπική απόκλιση (σ). Η κανονική κατανομή χρησιμοποιείται ως πληθυσμός-μοντέλο για να εξηγήσει την ποικιλία σε δεδομένα. Ωστόσο, πολλά δεδομένα δεν μπορούν να μοντελοποιηθούν με τη κανονική κατανομή. Μια κανονική κατανομή δεν είναι κατάλληλο μοντέλο για ... Δεδομένα που είναι διακριτά Δεδομένα που έχουν μια στρεβλή κατανομή (με μακριά «ουρά» στα αριστερά ή τα δεξιά) Δεδομένα που έχουν πολύ μακριές «ουρές» (με τις περισσότερες τιμές κοντά στο κέντρο, αλλά μικρό ποσοστό των τιμών πολύ μακριά από τον μέσο όρο) Δεδομένα που περιέχουν δύο ή περισσότερες συσπειρώσεις τιμών Δεδομένα με στρεβλές κατανομές μπορούν να μετασχηματιστούν σε συμμετρική μορφή και να πλησιάσουν την κανονική κατανομή.

Οικογένειες κατανομών

Τυπική Κανονική Κατανομή Όλες οι κανονικές κατανομές έχουν το ίδιο σχήμα ανεξαρτήτως της κλίμακας των δεδομένων. Πώς μπορούμε να καταλήξουμε σε μια κανονική κατανομή που να έχει έναν κοινό οριζόντιο άξονα; Η λύση δίνεται με την τυποποίηση (standardising) των τιμών: Η τυπική τιμή z έχει την τυπική κανονική κατανομή (standard normal distribution) με μέσο όρο = 0 και τυπική απόκλιση = 1.

Ιδιότητες της Τυπικής Κανονικής Κατανομής Η P (τιμή μέσα σε διάστημα 1 τ.α. του μ.ό.) είναι περίπου 0,68 Η P (τιμή μέσα σε διάστημα 2 τ.α. του μ.ό.) είναι περίπου 0,95 Η P (τιμή μέσα σε διάστημα 3 τ.α. του μ.ό.) είναι περίπου 0,997 Είναι σημαντικό να θυμάστε ότι περίπου το 95% των τιμών σε έναν πληθυσμό που ακολουθεί την κανονική κατανομή βρίσκεται μέσα σε διάστημα 2 τ.α. της κατανομής του μέσου όρου. Για να είμαστε ακριβέστεροι, το 95% των τιμών σε έναν πληθυσμό κανονικής κατανομής είναι μέσα σε ένα διάστημα 1,96 τυπικών αποκλίσεων από τον μέσο όρο.

Περιγραφικές τιμές της κατανομής Κλίση Κλίση (skewness): Μας λέει πόσο «στραβή» είναι η κατανομή. Αρνητικά κεκλιμένη κατανομή Κανονική κατανομή Θετικά κεκλιμένη κατανομή Κλίση < 0 Κλίση = 0 Κλίση > 0

Περιγραφικές τιμές της κατανομής Κύρτωση Κύρτωση (kyrtosis): Μας λέει πόσο «οξύ» είναι το σχήμα της κατανομής. Κατανομή πλατύκυρτη Κανονική κατανομή Κατανομή λεπτόκυρτη Κύρτωση < 0 Κύρτωση = 0 Κύρτωση > 0

Συχνότητα Συχνότητα: ο λεξικός τύπος νυκτός εμφανίζεται 68 φορές στον ΕΘΕΓ (ποσοστό 0,0014‰). Σχετική συχνότητα (normalized/relative frequency): «πόσο συχνά αναμένουμε να εντοπίσουμε έναν λεξικό τύπο σε x λέξεις ρέοντος κειμένου;» nf = (δείγματα λεξικού τύπου στο σύνολο του corpus ÷ μέγεθος του corpus) × (βάση κανονικοποίησης, π.χ. ανά 1000 λέξεις ή ανά 1.000.000 λέξεις) Π.χ. λέξη Lancaster στο BNC nf = (1,103 ÷ 87,903,571)×1,000,000 = 12.55 Ποσοστό: σχετική συχνότητα × 100 Πολλά ΗΣΚ παράγουν αυτόματα αυτού του είδους την πληροφορία περί συχνότητας.

Συχνότητα Σύγκριση συχνοτήτων σε δύο διαφορετικά ΗΣΚ, π.χ. Η λέξη Lancaster, που στο BNC (87,903,571 λέξεις) απαντά 1,103 φορές, στο BE06 corpus, 1,146,597 λέξεων, απαντά στο 10 φορές. Πώς μπορώ να συγκρίνω τις δύο συχνότητες; Σχετική συχνότητα: 12.55 ανά εκατομμύριο λέξεις στο BNC και 8.72 στο ΒΕ06. Κατάλογοι συχνότητας σε ΗΣΚ.

Συχνότητα

Δείκτες κεντρικής τάσης Κάθε κατανομή δεδομένων συγκεντρώνει δεδομένα (τιμές) γύρω από μια «κεντρική» τιμή. Οι δείκτες κεντρικής τάσης δεν έχουν νόημα για τα κατηγορικά δεδομένα.

Δείκτες κεντρικής τάσης Μέσος όρος (mean) Δεσπόζουσα τιμή (mode) Είναι η τιμή που εμφανίζεται συχνότερα σε κάποια δεδομένα (τόσο ποιοτικά, όσο και ποσοτικά). Δεν επηρεάζεται από ακραίες τιμές και μπορεί να υπολογιστεί ακόμη κι όταν έχουμε ελλιπή δεδομένα. Π.χ. 8 12 15 17 19 19 19 27 56 56 89 Διάμεσος (median) Είναι η τιμή που βρίσκεται στο μέσο της κατανομής των δεδομένων. Οι μισές τιμές της κατανομής βρίσκονται κάτω από τη διάμεσο και οι άλλες μισές πάνω από αυτήν Π.χ. 17 23 45 46 83 84 96

Δείκτες κεντρικής τάσης Ποσοστό μη πρότυπης (non-standard) προφοράς του συμπλέγματος (-ing) ως -/in/ (π.χ. I’m goin) ανά κοινωνική τάξη στο Norwich.

Δείκτες Διασποράς (Variation) ή Διασκόρπισης (Dispersion) Οι δείκτες κεντρικής τάσης δε μας δίνουν πληροφορία για το πώς κατανέμονται τα δεδομένα. Γι’ αυτό χρειαζόμαστε τους δείκτες διασποράς, οι οποίοι δείχνουν κατά πόσο «απλώνεται» μια κατανομή δεδομένων, κατά πόσο δηλαδή διασπείρονται οι τιμές της.

Iδιότητες της διασποράς Η διασπορά είναι ένα μέτρο που μας δείχνει πόσο πολύ απέχουν, δηλαδή, συγκεντρώνονται ή απομακρύνονται, οι τιμές μιας κατανομής από τη μέση τιμή. Αν οι τιμές δε διαφέρουν πολύ από τη μέση τιμή, τότε η διασπορά είναι μικρή. Αν απλώνονται σε μεγάλη απόσταση εκατέρωθεν της μέσης τιμής, τότε η διασπορά είναι μεγάλη. Η διασπορά είναι μια αξιόπιστη παράμετρος μεταβλητότητας των δεδομένων.

Δείκτες Διασποράς Χ Χ-ΜΟ (Χ-ΜΟ)2 ΜΟ s2 s 11,4 18,64 4,32 5 -6,4 40,96 Εύρος (range): διαφορά ανάμεσα στη μεγαλύτερη και τη μικρότερη τιμή (αφαιρούμε τη μικρότερη τιμή από τη μεγαλύτερη) Διακύμανση (variance) Είναι ο μέσος όρος των τετράγωνων των αποκλίσεων των τιμών μιας κατανομής από τον μέσο όρο της. Μας πληροφορεί σε τι βαθμό τα δεδομένα μας διαφοροποιούνται από τον μέσο όρο. Τυπική απόκλιση (standard deviation) Είναι η τετραγωνική ρίζα των τιμών της διακύμανσης Χ Χ-ΜΟ (Χ-ΜΟ)2 5 -6,4 40,96 8 -3,4 11,56 13 1,6 2,56 14 2,6 6,76 17 5,6 31,36 ΜΟ s2 s 11,4 18,64 4,32

Iδιότητες της τυπικής απόκλισης Η τυπική απόκλιση είναι το πιο αξιόπιστο και χρήσιμο μέτρο μεταβλητότητας. Έστω ότι τρία δείγματα s1, s2, s3 με ίδια μέση τιμή, ίδια διάμεσο, αλλά διαφορετική τυπική απόκλιση.

Tυπική απόκλιση: παράδειγμα Δύο μαθητές τελειώνουν την Α΄ Λυκείου με κοινό μέσο όρο 16. Εκ πρώτης όψεως μπορεί κάποιος να ισχυριστεί ότι οι δύο μαθητές είναι ισοδύναμοι. Στην πραγματικότητα όμως, για να καταλήξουμε σε ασφαλέστερα συμπεράσματα σχετικά με τις ικανότητες των δύο μαθητών, θα πρέπει να απαντήσουμε στο ερώτημα πόσο δεξιά και αριστερά του μέσου όρου διασπείρονται οι βαθμοί που συμψηφίζονται. Ας υποθέσουμε ότι οι βαθμολογίες των δύο μαθητών είναι οι εξής: A: 12 12 13 13 19 19 20 20 Β: 15 15 16 16 16 16 17 17. Η επίδοση του πρώτου ήταν λιγότερο ομοιογενής από την επίδοση του δεύτερου.

Tυπική απόκλιση: παράδειγμα Η τυπική απόκλιση υπολογίζεται από τον τύπο: Σύμφωνα με αυτόν, για να υπολογίσουμε τη διασπορά των βαθμολογιών γύρω από τον αριθμητικό μέσο όρο, θα πρέπει να αφαιρέσουμε το μέσο όρο του συνόλου των βαθμών από τον επιμέρους βαθμό (Xi) κάθε μαθητή, να υψώσουμε στο τετράγωνο τις διαφορές τους, να αθροίσουμε τα αποτελέσματα (Σ) και τέλος να διαιρέσουμε διά του συνόλου των μαθητών. Όσο μικρότερη είναι η τιμή που θα προκύψει, τόσο πιο συγκεντρωμένες είναι οι τιμές γύρω από το μέσο όρο της κατανομής και, κατά συνέπεια, τόσο πιο αντιπροσωπευτικό στατιστικό μέτρο είναι ο μέσος όρος.

Tυπική απόκλιση: παράδειγμα Για να οδηγηθούμε σε ακόμη πιο ασφαλή συμπεράσματα σχετικά με την ομοιογένεια της κατανομής, θα πρέπει να υπολογίσουμε ένα βοηθητικό δείκτη, το «συντελεστή μεταβλητότητας» (CV), αν διαιρέσουμε την τυπική απόκλιση με τον μέσο όρο και στη συνέχεια πολλαπλασιάσουμε με το εκατό., Αν το αποτέλεσμα που θα προκύψει είναι πάνω από δέκα τοις εκατό, η επίδοση των μαθητών είναι ανομοιογενής, ενώ αν είναι κάτω από δέκα τοις εκατό, είναι ομοιογενής.

Ζ-score ή standard score Επιτρέπει να συγκρίνουμε τιμές από διαφορετικές ομάδες δεδομένων. Charles Ian

Βιβλιογραφικές αναφορές Anthony, L. (2014). AntConc (Version 3.4.3). Tokyo: Waseda University. Baroni, M. & Bernardini, S. 2004. BootCaT: Bootstrapping corpora and terms from the web. Proceedings of LREC 2004. Baroni, M. & Evert, S. (2009). Statistical methods for corpus exploitation. In A. Lüdeling & M. Kytö (eds), Corpus Linguistics: An International Handbook. Vol. 2. Berlin: de Gruyter, 777-803. Γούτσος, Δ. & Φραγκάκη, Γ. (2015). Εισαγωγή στη Γλωσσολογία Σωμάτων Κειμένων. Ελληνικά ακαδημαϊκά ηλεκτρονικά συγγράμματα και βοηθήματα. Kilgarriff, A., Baisa, V., Bušta, J., Jakubíček, M., Kovář, V., Michelfeit, J., Rychlý, P. & Suchomel, V. (2014). The Sketch Engine: Ten Years on. Lexicography 1(1):7-36. Leech, G. 2007. New resources, or just better old ones? The holy grail of representativeness. In M. Hundt, N. Nesselhauf, and C. Biewer (eds.), Corpus linguistics and the Web, 133–151. Amsterdam: Rodopi. Mικρός, Γ. Εισαγωγή στην Ανάλυση Γλωσσικών Δεδομένων. Ενότητα 2: Περιγραφική στατιστική. http://slideplayer.gr/slide/11311549/. Oakes, M. (1998). Statistics for Corpus Linguistics. Edinburgh: Edinburgh University Press. Τσάντας Ν., Μωυσιάδης Χ., Μπαγιάτης Ν., Χατζηπαντελής Θ. (1999). Ανάλυση δεδομένων με τη βοήθεια στατιστικών πακέτων. Θεσσαλονίκη: Εκδόσεις Ζήτη. Ψωινός Δ. (1999). Στατιστική. Θεσσαλονίκη: Εκδόσεις Ζήτη.