Ποσοτική Ανάλυση Κειμένου 12η Εβδομάδα
Ύλη Εξετάσεων - όλες τις διαφάνειες του μαθήματος που βρίσκονται στο e-class, -καθώς και τις ακόλουθες ενότητες από το βιβλίο του Earl Babbie με τίτλο: Εισαγωγή στην Κοινωνική Έρευνα: • Κεφάλαιο 1 – Βασικές Αρχές, σελ. 31-74 • Κεφάλαιο 2 – Έρευνα και Θεωρία, σελ. 75-121 • Κεφάλαιο 4 – Κοινωνική Μέτρηση, σελ. 179-234 • Κεφάλαιο 5 – Σύνθετα Μέτρα, σελ. 235-282 • Κεφάλαιο 6 – Δειγματοληψία, σελ. 283-382 • Κεφάλαιο 8 – Δειγματοληπτική Έρευνα, σελ. 383-451 • Κεφάλαιο 10 – Μη Αντιδραστικές Μέθοδοι, σελ. 515-562 • Κεφάλαιο 13 – Ανάλυση Ποσοτικών Δεδομένων, σελ. 651-687
Ανάλυση Περιεχομένου Ανάλυση περιεχομένου είναι η μελέτη καταγεγραμμένων ανθρώπινων επικοινωνιών, όπως τα βιβλία, τα περιοδικά, οι ιστοσελίδες, τα ποιήματα, οι εφημερίδες, τα τραγούδια, οι πίνακες ζωγραφικής, οι δημόσιοι λόγοι, οι επιστολές, τα μηνύματα ηλεκτρονικού ταχυδρομείου, οι αναρτήσεις σε φόρουμ, οι νόμοι κλπ.
Τι μετράμε σε σχέση με τους οργανισμούς; Δημόσια Εικόνα (οργανισμών, θεσμών, ατόμων, ομάδων, κλπ) Αλλαγές στη Δημόσια Εικόνα Αξιολόγηση Επικοινωνιακών Ενεργειών (Διαφήμιση, δημόσιες σχέσεις, Εκστρατείες) Διαχείριση Κρίσεων Καταγραφή τάσεων και κυρίαρχων συμβόλων Ανάλυση Κοινωνικής Δικτύωσης
Το Παράδειγμα της Washington Post
Το Παράδειγμα της Washington Post
Δειγματοληψία Ισχύουν οι ίδιες αρχές όπως και στις δημοσκοπήσεις. Διαφοροποιήσεις μεταξύ πιθανοτικών και μη πιθανοτικών δειγμάτων. Επιλογές Μεταβλητών Στατιστική Ανάλυση
Κωδικοποίηση Πρόδηλο και λανθάνον περιεχόμενο. Πρόδηλο – ορατό, επιφανειακό Λανθάνον – νοήματα, υπαινιγμοί.
Σχεδιασμός Μεταβλητών Εάν όλες οι μεταβλητές είναι ονομαστικές, υπάρχουν περιορισμοί στα στατιστικά εργαλεία που μπορώ να χρησιμοποιήσω. Κυρίως περιγραφική στατιστική και διασταυρώσεις.
Ποσοστά κύριων οπτικών χαρακτήρων σε σχέση με το φύλο στις τηλεοπτικές διαφημίσεις κατά τη διάρκεια τριών διαστημάτων της ημέρας Πηγή: Stephen Craig (1992): Gender Portrayals in Television Commercials Εργάσιμες Ώρες Απόγευμα Σαββατοκύριακο Ενήλικοι Άνδρες Ενήλικες Γυναίκες 40 60 52 48 80 20
Γραμμική Διμεταβλητή Συσχέτιση Οι τιμές μιας μεταβλητής «παρακολουθούν» τις τιμές μιας άλλης μεταβλητής. Θετική Συσχέτιση – αυξάνεται η μια μεταβλητή, αυξάνεται και η άλλη. Αρνητική Συσχέτιση – αυξάνεται η μια, μειώνεται η άλλη. Δεν υπάρχει συσχέτιση όταν οι τιμές της μιας μεταβλητής δεν παρακολουθούν την άλλη.
Γραφική Απεικόνιση
Παραδείγματα Οι βαθμοί της τελευταίας τάξης του Λυκείου ίσως συσχετίζονται με την εισαγωγή στο πανεπιστήμιο. Ο αριθμός των απουσιών στο σχολείο ίσως συσχετίζεται με την οικογενειακή κατάσταση. Το ποσοστό ανεργίας συσχετίζεται με την εγκληματικότητα. Ο αριθμός τροχαίων συσχετίζεται με την ολισθηρότητα του οδοστρώματος.
Παραδοχές Για κάθε μεταβλητή Χ, υπάρχει ένας υποπληθυσμός της μεταβλητής Υ ο οποίος είναι κανονικά κατανεμημένος. Για κάθε μεταβλητή Υ, υπάρχει ένας υποπληθυσμός της μεταβλητής Χ ο οποίος είναι κανονικά κατανεμημένος. Οι υποπληθυσμοί των Χ τιμών έχουν όλοι την ίδια διασπορά. Οι υποπληθυσμοί των Υ τιμών έχουν όλοι την ίδια διασπορά. Η από κοινού κατανομή των Χ και Υ είναι μια κανονική κατανομή που ονομάζεται Bivariate Normal Distribution.
Παραδοχές Τα παραπάνω είναι δύσκολο να ελεγχθούν. Τι προτείνεται: Τα παραπάνω είναι δύσκολο να ελεγχθούν. Τι προτείνεται: Κλίμακα Μέτρησης – Interval, Ratio. Ζευγαρωτές παρατηρήσεις – Για κάθε τιμή της Χ πρέπει να υπάρχει τιμή της Υ. Κανονικότητα – Οι τιμές κάθε μεταβλητής πρέπει να είναι κανονικά κατανεμημένες. Γραμμικότητα – Η σχέση που συνδέει τις δυο μεταβλητές θα πρέπει να είναι γραμμική. Ομοσκεδαστικότητα – Ο τρόπος που μεταβάλλονται πρέπει να είναι περίπου ο ίδιος.
Παρατηρήσεις Ορισμένες φορές πρέπει να διερευνήσουμε τη δράση των ακραίων τιμών. Οι υποπληθυσμοί ίσως αποκρύπτουν σχέσεις. Η γραμμικότητα και ομοσκεδαστικότητα διερευνώνται με τη βοήθεια διαγραμμάτων διασποράς (scatterplots). Η συσχέτιση δεν συνεπάγεται απαραίτητα αιτιότητα. Προσοχή στις μονάδες συσχέτισης.
Ο συντελεστής συσχέτισης Pearson
Εάν είχαμε τέλειους συσχετισμούς είτε 1, είτε -1 …
Τιμή: 0
Πρώτο Παράδειγμα
Εμβολιάστηκαν 10 πειραματόζωα με παθογενές εμβόλιο. Εξετάζεται η πορεία του πυρετού τις πρώτες 60 ώρες. Έλεγχος συσχέτισης μεταξύ του χρόνου και της πορείας του πυρετού. Εντολή: Analyze – Correlate - Bivariate
Λύση με το SPSS
Λύση με το SPSS
Επιλέγουμε τον συντελεστή Pearson (αριθμητικά δεδομένα). Έλεγχος σε μονή κατεύθυνση (One-Tailed) με βάση τη θεωρία μας. Έλεγχος Στατιστικής Σημαντικότητας.
Συμπέρασμα Η πορεία του πυρετού είναι αυξητική με βάση το χρόνο.
Έλεγχος Κανονικότητας Με βάση τον πίνακα 12.3 παρατηρούμε ότι καμία από τις δυο μεταβλητές δεν έχουν πρόβλημα κανονικότητας σε επίπεδο στατ. Σημαντικότητας 5%. Στην πρώτη: 89,2% > 5% Στην δεύτερη: 10,4% > 5%
Έλεγχος Κανονικότητας
Συντελεστής Spearman Όταν οι παραπάνω προυποθέσεις δεν ικανοποιούνται για να χρησιμοποιήσουμε τον συντελεστή Pearson, υπάρχει η επιλογή του συντελεστή Spearman. Είναι κατάλληλος όταν έχουμε ακραίες τιμές. Επίσης είναι κατάλληλος για διατακτικές μεταβλητές (ordinal).
Απλή Γραμμική Παλινδρόμηση Στις συσχετίσεις εξετάζουμε σχέσεις μεταξύ δυο μεταβλητών X και Y χωρίς να ξέρουμε ποια μεταβλητή επηρεάζει την άλλη. Με τις παλινδρομήσεις προσπαθούμε να δούμε εάν μπορούμε να προβλέψουμε την επιρροή μιας μεταβλητής από κάποια άλλη. Μοντέλα πρόβλεψης. Εξίσωση παλινδρόμησης (Regression Equation).
Ευθεία Παλινδρόμησης (Regression Line) H Μέθοδος των Ελάχιστων Τετραγώνων Αναπαρίσταται με μια γραμμή, η οποία ταιριάζει καλύτερα στα δεδομένα μας (Best-fitting line). Εκφράζεται με την εξίσωση: Y=α + βΧ Η «καλύτερη» γραμμή είναι εκείνη που ελαχιστοποιεί το άθροισμα των τετραγώνων των κατακόρυφων αποστάσεων των δεδομένων μας από την εν λόγω γραμμή.
Γραφική Αναπαράσταση της Παλινδρόμησης
Χρήσιμες παρατηρήσεις: Ο συντελεστής α (intercept) θα μας βοηθήσει να εκτιμήσουμε το σημείο στο οποίο η γραμμή παλινδρόμησης τέμνει το άξονα Y. Ο συντελεστής β θα μας βοηθήσει να εκτιμήσουμε την κλίση της ευθείας παλινδρόμησης. (Μεταβολή της εξαρτημένης μεταβλητής όταν η ανεξάρτητη μεταβάλλεται κατά μια μονάδα). Το μοντέλο δεν μπορεί να ερμηνεύσει το σύνολο της πληροφορίας.
Γραμμική Παλινδρόμηση
Βασικές Παραδοχές Το είδος των δεδομένων Τουλάχιστον 20 παρατηρήσεις. Ανεξαρτησία των παρατηρήσεων. Κανονικότητα. Ισότητα των διασπορών. Γραμμικότητα Ακραίες τιμές.
Παράδειγμα: Η πορεία των κερδών σε διάστημα 15 μηνών
Τρέχοντας μια απλή παλινδρόμηση: Analyze – regression - linear
Στατιστικές Παράμετροι
Goodness-of-Fit Ο παραπάνω πίνακας μας δίνει τρεις δείκτες καλής προσαρμογής. Ο συντελεστής R μας δείχνει τη συσχέτιση μεταξύ των δυο μεταβλητών. O Adjusted R2 διορθώνει τον προηγούμενο δείκτη. Το τυπικό σφάλμα (Standard Error of Estimate) μας πληροφορεί πόσο διασκορπισμένα είναι τα residuals γύρω από τη γραμμή παλινδρόμησης. Το Test Durbin-Watson εξετάζει την παραδοχή της ανεξαρτησίας.
Αποτελέσματα
Η στατιστική σημαντικότητα του μοντέλου ελέγχεται μέσω του πίνακα με την ANOVA.
Η Εξίσωση της Παλινδρόμησης
Η Εξίσωση της Παλινδρόμησης
Η Εξίσωση της Παλινδρόμησης
Durbin-Watson και η παραδοχή της ανεξαρτησίας Το τεστ λειτουργεί σε μια κλίμακα από 1 έως 4. Η αρχή της ανεξαρτησίας πληρείται όταν κυμαίνεται από 1,5 έως 2,5.
Η Παραδοχή της Κανονικότητας