Μάρτιος 2011 Πίσω στα βασικά: Βασικές αρχές στατιστικής για κοινωνιολογικές έρευνες Σπύρος Βερονίκης Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Σχετικές πληροφορίες:
Μάρτιος 2011 Θεματικές ενότητες 1.Βασικές έννοιες 2.Διερεύνηση δεδομένων 3.Συσχέτιση μεγεθών 4.Σύγκριση δύο μέσων τιμών 5.Σύγκριση περισσότερων μέσων τιμών (ANOVA) 6.Μη-παραμετρικοί έλεγχοι 7.Ονομαστικά δεδομένα
Μάρτιος 2011 Βασικές έννοιες: Πραγματικότητα, μοντέλα και έλεγχος προσαρμογής Δημιουργία μοντέλων Περιγραφή και πρόβλεψη Έλεγχος προσαρμογής Για εύστοχες προβλέψεις πρέπει το μοντέλο μας να είναι μια ακριβής αναπαράσταση της πραγματικότητας. Πραγματικό μοντέλο Καλή προσαρμογή Μέτρια προσαρμογή Κακή προσαρμογή
Μάρτιος 2011 Βασικές έννοιες: Πληθυσμός και δείγματα Πληθυσμός (population) Δείγμα (sample) Σφάλμα δειγματοληψίας (standard error, SE) Κατανομή μέσων τιμών δειγματοληψίας (sampling distribution) Εκτίμηση του SE από το δείγμα (SE= s/sqrt(N)) Γενίκευση συμπερασμάτων στον πληθυσμό
Μάρτιος 2011 Μεταβλητές (variables) Μεταβλητές: είναι μαθηματικά μεγέθη τα οποία αναπαριστούν μεγέθη παραγόντων του περιβάλλοντος που διερευνούμε (π.χ. φύλο, ηλικία, χρόνος, κ.α). Διακρίνονται σε ανεξάρτητες (είναι αυτές τις οποίες επηρεάζουμε (αίτιο)) και εξαρτημένες (είναι αυτές που επηρεάζονται (αποτέλεσμα)). Ονομαστικές (nominal) μεταβλητές: χρησιμοποιούνται για διαχωρισμό κατηγοριών. Οι τιμές τους αναπαριστούν διαφορετικές κατηγορίες (π.χ. άνδρας/γυναίκα, ναι/όχι, εργαζόμενος/ημιαπασχολούμενος/άνεργος). Τακτικές (ordinal) μεταβλητές: οι τιμές τους αναπαριστούν μια διαβάθμιση μεταξύ των μετρούμενων μεγεθών, κατά την έννοια της περισσότερης ή λιγότερης ποσότητας του μεγέθους που αναπαριστούν (π.χ. λίγο, περισσότερο, πολύ). Ωστόσο, η διαβάθμιση αυτή δεν μπορεί να ποσοτικοποιηθεί. Οι παραπάνω κατηγορίες μεταβλητών μπορούν να είναι αλφαριθμητικές. Ποσοτικές (interval) μεταβλητές: οι τιμές τους αναπαριστούν όχι μόνον μια τακτική παράθεση των μετρούμενων αντικειμένων αλλά επιπλέον περιγράφουν και ποσοτικά τις διαφοροποιήσεις μεταξύ των αντικειμένων. Έχουν αριθμητικές τιμές (ακέραιες ή δεκαδικές).
Μάρτιος 2011 Βασικές έννοιες: Η μέση τιμή Ορισμός Μαθηματική περιγραφή: y= 2.6 Απόσταση (deviance) Άθροισμα τετραγώνων (Sum of Squares, SS= 5.20) Διακύμανση ή διασπορά (variance, s 2 ). s 2 = SS/(N-1)= 1.3 Τυπική απόκλιση (standard deviation, s). s= sqrt(SS/(N-1))= 1.14 Η τυπική απόκλιση πρέπει να είναι κατά το δυνατόν μηδενική. Αναγράφεται πάντα δίπλα στην μέση τιμή, π.χ. μ= 2.6 (STD= 1.14) y= {1,2,3,3,4} (Εκτίμηση) = (Μοντέλο) + (σφάλμα) Παράδειγμα: y i = error i Απόκλιση (deviation) = Σ (μέτρηση – μοντέλο) 2
Μάρτιος 2011 Βασικές έννοιες: Κατανομές συχνοτήτων Ιστόγραμμα (histogram) Ρυθμός (mode) Ιδιότητες κατανομών Συμμετρία (skewness) Οξύτητα (kurtosis) Κανονική κατανομή (normal distribution) – Skewness= 0 – Kurtosis= 0
Μάρτιος 2011 Γιατί πρέπει να γνωρίζουμε την κατανομή της μεταβλητής; Μέση τιμή, μ= 36 Τυπική απόκλιση, s= 13 Η κατανομή παρουσιάζει συνοπτικά καταγεγραμμένη γνώση από προηγούμενες μετρήσεις Επιτρέπει την εκτίμηση πιθανοτήτων εμφάνισης ορισμένων τιμών (ή εύρους τιμών) Οι κανονικές κατανομές συχνοτήτων μετασχηματίζονται σε τυπικές κανονικές κατανομές Μέση τιμή 0, τυπική απόκλιση 1 Z= (X-μ)/s Παράδειγμα: Ποιά είναι η πιθανότητα να επισκευθούν τη βιβλιοθήκη κατά την τρέχουσα εβδομάδα άτομα ηλικίας άνω των 60 ετών; Απάντηση: z= (Χ-μ)/s= (60-36)/13= Από πίνακες βρίσκουμε πως η πιθανότητα εμφάνισης αριθμών με τιμή μεγαλύτερη από 1.84 είναι = ή 3.29%
Μάρτιος 2011 Υπολογισμός πιθανότητας εμφάνισης αριθμών Το εμβαδόν κάθε μισού τμήματος της καμπάνας αντιστοιχεί σε τιμή 0.5 ή 50%. Αυτό εκφράζει την πιθανότητα εμφάνισης μιας τιμής στο αντίστοιχο διάστημα. Η πιθανότητα εμφάνισης μιας τιμής στο διάστημα 0 έως και z δίνεται από τον διπλανό πίνακα. Π.χ. Η πιθανότητα εμφάνισης ενός αριθμού στο διάστημα 0 έως 1.84 για ένα σύνολο αριθμων των οποίων η κατανομή συχνοτήτων (εμφάνισης) είναι κανονική, αναγράφεται στην προτελευταία γραμμή και 5η στήλη: ή 46.71%
Μάρτιος 2011 Γραμμικά και μη γραμμικά μοντέλα Στα γραμμικά μοντέλα, οι εξαρτήσεις μεταξύ δύο μεγεθών αναπαριστώνται με μια γραμμή Η μέση τιμή αποτελεί το απλούστερο γραμμικό μοντέλο. Ωστόσο είναι μη αντιπροσωπευτικό των καταγεγραμμένων μετρήσεων (το μοντέλο είναι ανακριβές) Ένα δεύτερο μοντέλο (μπλε διακεκκομένη γραμμή) προσεγγίζει καλύτερα τις καταγεγραμμένες τιμές περιγράφοντας μια αρνητική συσχέτιση. Ένα σύνολο μετρήσεων μπορεί να προσεγγιστεί από διάφορα μοντέλα. Είναι σημαντικό να μπορούμε να αποτιμήσουμε την ακρίβεια προσαρμογής του μοντέλου στα δεδομένα.
Μάρτιος 2011 Παράδειγμα μη-γραμμικού μοντέλου Ορισμένες εξαρτήσεις μπορούν να χαρακτηριστούν κατά προσέγγιση ως γραμμικές υπό προϋποθέσεις (π.χ. σ' ένα περιορισμένο εύρος τιμών). Στις κοινωνικές/ανθρωπιστικές επιστήμες δημοσιεύονται κατά κύριο λόγο γραμμικά μοντέλα. Ενώ ένα γραμμικό μοντέλο μπορεί να μην αναπαριστά επαρκώς ένα σύνολο δεδομένων, ένα μη γραμμικό μοντέλο ενδέχεται να εμφανίζει καλύτερη προσαρμογή.
Μάρτιος 2011 Παράδειγμα μη-γραμμικού μοντέλου Εξετάζεται η συσχέτιση μεταξύ δύο μεταβλητών Διαφαίνεται κάποιου είδους εξάρτηση Τα συλλεχθέντα δεδομένα δεν φαίνεται να ακολουθούν τη μορφή μιας ευθείας γραμμής. Κατόπιν ανάλυσης, προκύπτει πως το παραβολικό μοντέλο (y= αx 2 +βx+γ) με τιμές α= 3, β= 5 και γ= 2 περιγράφει ικανοποιητικά τα δεδομένα. Μπορούν να προβλεφθούν του αποτελέσματος (y) ακόμη και για τις τιμές της μεταβλητής x οι οποίες δεν καταγράφηκαν. xy (predicted) 03*0 2 +5*0+2= 2 13*1 2 +5*1+2= 10 23*2 2 +5*2+2= 24
Μάρτιος 2011 Μεθοδολογία συμπερασματικής στατιστικής Διατύπωση υπόθεσης: “Σχετίζεται το διάβασμα με την εκδήλωση πονοκεφάλου;” Πειραματική υπόθεση: “ Όσο περισσότερο διαβάζει κανείς με τόσο εντονότερο πονοκέφαλο θα καταλήξει” Μηδενική υπόθεση: “Το διάβασμα δεν έχει καμιά επίδραση στην εκδήλωση του πονοκεφάλου” Συλλογή μετρήσεων Προσαρμογή μοντέλου στις μετρήσεις Αποτίμηση του μοντέλου και έλεγχος υποθέσεων
Μάρτιος 2011 Παραπομπές Field, A. (2005) Discovering Statistics Using SPSS: and sex, drugs and rock 'n roll, 2 nd ed., Sage Publication StatSoft, Inc. (2011). Electronic Statistics Textbook. Tulsa, OK: StatSoft. WEB: Spiegel, M. (1975). Πιθανότητες και Στατιστική. Schaum's Outline Series, McGraw-Hill.