Ποσοτική Ανάλυση Κειμένου

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Applied Econometrics Second edition
Advertisements

Γεώργιος Σιδερίδης Πανεπιστήμιο Κρήτης
Άλλες Στατιστικές Παλινδρόμησης
ΠΕΡΙΓΡΑΦΗ ΚΑΙ ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ
Applied Econometrics Second edition
Ανάλυση Πολλαπλής Παλινδρόμησης
EDUC 612 Ανωτερες μορφες στατιστικης αναλυσησ
Γεώργιος Σιδερίδης Πανεπιστήμιο Κρήτης
Στατιστική Ι Παράδοση 5 Οι Δείκτες Διασποράς Διασπορά ή σκεδασμός.
Μπουντζιούκα Βασιλική, MSc Βιοστατιστικός Εξωτ. Συνεργάτης ΕΣΔΥ
Εισαγωγή στην Κοινωνιογλωσσολογία
Ανάλυση Πολλαπλής Παλινδρόμησης
ΚΕΦΑΛΑΙΟ 5 ΧΩΡΙΚΗ ΔΕΙΓΜΑΤΟΛΗΨΙΑ
Βασικές Αρχές Μέτρησης
Στατιστική I Χειμερινό Γ. Παπαγεωργίου
Στατιστική IΙ (ΨΥΧ-122) Διάλεξη 3 Απλή γραμμική παλινδρόμηση
Στατιστική I Γ. Παπαγεωργίου XEIM Επιλογή μεθόδου Εξαρτάται από τον ερευνητή/τρια Ποιοτικά/ ποσοτικά όταν τα data αριθμοποιούνται. εδώ – Έμφαση.
Στατιστική IΙ (ΨΥΧ-122) Διάλεξη 4 Πολλαπλή γραμμική παλινδρόμηση
ΚΕΦΑΛΑΙΟ 10 ΠΑΛΙΝΔΡΟΜΗΣΗ
Μάρτιος 2011 Πίσω στα βασικά: Βασικές αρχές στατιστικής για κοινωνιολογικές έρευνες Σπύρος Βερονίκης Τμήμα Αρχειονομίας - Βιβλιοθηκονομίας Σχετικές πληροφορίες:
Πηγή: Βιοστατιστική [Β.Γ. Σταυρινός, Δ.Β. Παναγιωτάκος]
ΑΣΚΗΣΗ 19η Έστω οι ακόλουθες παρατηρήσεις για τις μεταβλητές Υ, Χ1 και Χ
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
Τι είναι η Κατανομή (Distribution)
Διάλεξη  Μέτρηση: Είναι μια διαδικασία κατά την οποία προσδίδουμε αριθμητικά δεδομένα σε κάποιο αντικείμενο, σύμφωνα με κάποια προκαθορισμένα.
ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΜΑΘΗΜΑ ΠΡΩΤΟ ΘΕΩΡΙΑΣ - ΑΠΛΟ ΓΡΑΜΜΙΚΟ ΥΠΟΔΕΙΓΜΑ Δρ. Κουνετάς Η Κωνσταντίνος.
Εισαγωγή στη διαχείριση χαρτοφυλακίου Ως επενδυτικό χαρτοφυλάκιο ορίζουμε Μ ια περιουσία που αποτελείται από μία ή περισσότερες κατηγορίες επενδυτικών.
Σπύρος Αβδημιώτης MBA PhD Τμήμα Διοίκησης Επιχειρήσεων Κατεύθυνση Διοίκησης Τουριστικών Επιχειρήσεων & Επιχειρήσεων Φιλοξενίας Εαρινό Εξάμηνο 2016.
Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική Ενότητα 2: Επαγωγική Στατιστική Βασίλης Γιαλαμάς Σχολή Επιστημών της Αγωγής Τμήμα Εκπαίδευσης και Αγωγής.
Εργαστήριο Στατιστικής (8 ο Εργαστήριο) Συσχετίσεις μεταξύ μεταβλητών (ερωτήσεων)
Γραμμική Συσχέτιση, Απλή και Πολλαπλή Γραμμική Παλινδρόμηση (Εργαστήριο Σχολής Κοινωνικών Επιστημών)
Οικονομετρία Οικονομετρία ποσοτικοποιεί τις σχέσεις μεταξύ μεταβλητών με βάση και αιτιολόγηση τη σχετική οικονομική θεωρία έχει στόχο – όχι μόνο την.
ΤΕΙ Αθήνας: Σχολή ΤΕΦ: Τμήμα Ναυπηγικής Εφαρμογές Η/Υ στην Ναυπηγική ΙΙ ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ NA0703C39 Εξάμηνο Ζ’ Διδάσκων Κωνσταντίνος Β. Κώστας Παρουσίαση.
Βιοστατιστική (Θ) Ενότητα 8: Συσχέτιση - Παλινδρόμηση Δρ.Ευσταθία Παπαγεωργίου, Αναπληρώτρια Καθηγήτρια Τμήμα Φυσικοθεραπείας Ανοικτά Ακαδημαϊκά Μαθήματα.
ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΠΙΝΑΚΕΣ ΚΑΙ ΔΙΑΓΡΑΜΜΑΤΑ Πηγή: Βιοστατιστική [Σταυρινός / Παναγιωτάκος] Βιοστατιστική [Τριχόπουλος / Τζώνου / Κατσουγιάννη]
ΔΙΑΛΕΞΗ 11η Ποσοτική έρευνα υγείας
ΣΤΑΤΙΣΤΙΚΑ ΜΕΤΡΑ ΔΙΑΣΠΟΡΑΣ - ΑΣΥΜΜΕΤΡΙΑΣ - ΚΥΡΤΩΣΕΩΣ
Ανάλυση- Επεξεργασία των Δεδομένων
Στατιστικές Υποθέσεις
Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική
Συντελεστής συσχέτισης
Συσχέτιση 1/6 Συντελεστής Συσχέτισης Pearson
Εισαγωγή στο Γραμμικό Προγραμματισμό
Συσχέτιση 1/6 Συντελεστής Συσχέτισης Pearson
ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ 1η Διάλεξη
Εισαγωγή στην Στατιστική
Μέθοδος ελαχίστων τετραγώνων – Μεθοδολογία παλινδρόμησης
Μεθοδολογία των Επιστημών του Ανθρώπου: Στατιστική
Πού χρησιμοποιείται ο συντελεστής συσχέτισης (r) pearson
Άσκηση 2-Περιγραφικής Στατιστικής
5o Μάθημα: Το τεστ χ2 Κέρκυρα.
Πολυσυγγραμμικότητα Εξειδίκευση
Βασική Στατιστική Επεξεργασία. Ερμηνεία Δεδομένων - 2.
Έλεγχος υποθέσεων με την χ2 «χι -τετράγωνο» κατανομή
Εισαγωγή στην Στατιστική
Μορφές κατανομών Αθανάσιος Βέρδης.
Πολυπαραγοντική γραμμική εξάρτηση
Σχέση μεταξύ δυο ποσοτικών μεταβλητών & Μονοπαραγοντική γραμμική εξάρτηση 2017.
Επαγωγική Στατιστική Συσχέτιση – Συντελεστής συσχέτισης Χαράλαμπος Γναρδέλλης Τμήμα Τεχνολογίας Αλιείας και Υδατοκαλλιεργειών.
Απλή γραμμική παλινδρόμηση
Είδη Ερωτήσεων-Μεταβλητές-Κλιμακες Μέτρησης
Εισαγωγή στη Συγκριτική Πολιτική
Μέθοδοι Έρευνας Στις Επιχειρήσεις και την Οικονομία
Ορισμός Με τον όρο Χρονοσειρές εννοούμε μια σειρά από παρατηρήσεις που παίρνονται σε ορισμένες χρονικές στιγμές ή περιόδους που ισαπέχουν μεταξύ τους.
Τ. Ε. Ι. Αθήνας Τμήμα Ιατρικών Εργαστηρίων ΒΙΟΣΤΑΤΙΣΤΙΚΗ
Μεθοδολογία Έρευνας Διάλεξη 9η: Ανάλυση Ποσοτικών Δεδομένων
Βιοστατιστική (Θ) ΤΕΙ Αθήνας Ενότητα 3: Περιγραφική στατιστική
Επαγωγική Στατιστική Συσχέτιση – Συντελεστές συσχέτισης Χαράλαμπος Γναρδέλλης Εφαρμογές Πληροφορικής στην Αλιεία και τις Υδατοκαλλιέργειες.
Επαγωγική Στατιστική Γραμμική παλινδρόμηση-Linear Regression Χαράλαμπος Γναρδέλλης Εφαρμογές Πληροφορικής στην Αλιεία και τις Υδατοκαλλιέργειες.
Ανάλυση διακύμανσης Τι είναι η ανάλυση διακύμανσης
Μεταγράφημα παρουσίασης:

Ποσοτική Ανάλυση Κειμένου 12η Εβδομάδα

Ύλη Εξετάσεων - όλες τις διαφάνειες του μαθήματος που βρίσκονται στο e-class, -καθώς και τις ακόλουθες ενότητες από το βιβλίο του Earl Babbie με τίτλο: Εισαγωγή στην Κοινωνική Έρευνα: • Κεφάλαιο 1 – Βασικές Αρχές, σελ. 31-74 • Κεφάλαιο 2 – Έρευνα και Θεωρία, σελ. 75-121 • Κεφάλαιο 4 – Κοινωνική Μέτρηση, σελ. 179-234 • Κεφάλαιο 5 – Σύνθετα Μέτρα, σελ. 235-282 • Κεφάλαιο 6 – Δειγματοληψία, σελ. 283-382 • Κεφάλαιο 8 – Δειγματοληπτική Έρευνα, σελ. 383-451 • Κεφάλαιο 10 – Μη Αντιδραστικές Μέθοδοι, σελ. 515-562 • Κεφάλαιο 13 – Ανάλυση Ποσοτικών Δεδομένων, σελ. 651-687

Ανάλυση Περιεχομένου Ανάλυση περιεχομένου είναι η μελέτη καταγεγραμμένων ανθρώπινων επικοινωνιών, όπως τα βιβλία, τα περιοδικά, οι ιστοσελίδες, τα ποιήματα, οι εφημερίδες, τα τραγούδια, οι πίνακες ζωγραφικής, οι δημόσιοι λόγοι, οι επιστολές, τα μηνύματα ηλεκτρονικού ταχυδρομείου, οι αναρτήσεις σε φόρουμ, οι νόμοι κλπ.

Τι μετράμε σε σχέση με τους οργανισμούς; Δημόσια Εικόνα (οργανισμών, θεσμών, ατόμων, ομάδων, κλπ) Αλλαγές στη Δημόσια Εικόνα Αξιολόγηση Επικοινωνιακών Ενεργειών (Διαφήμιση, δημόσιες σχέσεις, Εκστρατείες) Διαχείριση Κρίσεων Καταγραφή τάσεων και κυρίαρχων συμβόλων Ανάλυση Κοινωνικής Δικτύωσης

Το Παράδειγμα της Washington Post

Το Παράδειγμα της Washington Post

Δειγματοληψία Ισχύουν οι ίδιες αρχές όπως και στις δημοσκοπήσεις. Διαφοροποιήσεις μεταξύ πιθανοτικών και μη πιθανοτικών δειγμάτων. Επιλογές Μεταβλητών Στατιστική Ανάλυση

Κωδικοποίηση Πρόδηλο και λανθάνον περιεχόμενο. Πρόδηλο – ορατό, επιφανειακό Λανθάνον – νοήματα, υπαινιγμοί.

Σχεδιασμός Μεταβλητών Εάν όλες οι μεταβλητές είναι ονομαστικές, υπάρχουν περιορισμοί στα στατιστικά εργαλεία που μπορώ να χρησιμοποιήσω. Κυρίως περιγραφική στατιστική και διασταυρώσεις.

Ποσοστά κύριων οπτικών χαρακτήρων σε σχέση με το φύλο στις τηλεοπτικές διαφημίσεις κατά τη διάρκεια τριών διαστημάτων της ημέρας Πηγή: Stephen Craig (1992): Gender Portrayals in Television Commercials Εργάσιμες Ώρες Απόγευμα Σαββατοκύριακο Ενήλικοι Άνδρες Ενήλικες Γυναίκες 40 60 52 48 80 20

Γραμμική Διμεταβλητή Συσχέτιση Οι τιμές μιας μεταβλητής «παρακολουθούν» τις τιμές μιας άλλης μεταβλητής. Θετική Συσχέτιση – αυξάνεται η μια μεταβλητή, αυξάνεται και η άλλη. Αρνητική Συσχέτιση – αυξάνεται η μια, μειώνεται η άλλη. Δεν υπάρχει συσχέτιση όταν οι τιμές της μιας μεταβλητής δεν παρακολουθούν την άλλη.

Γραφική Απεικόνιση

Παραδείγματα Οι βαθμοί της τελευταίας τάξης του Λυκείου ίσως συσχετίζονται με την εισαγωγή στο πανεπιστήμιο. Ο αριθμός των απουσιών στο σχολείο ίσως συσχετίζεται με την οικογενειακή κατάσταση. Το ποσοστό ανεργίας συσχετίζεται με την εγκληματικότητα. Ο αριθμός τροχαίων συσχετίζεται με την ολισθηρότητα του οδοστρώματος.

Παραδοχές Για κάθε μεταβλητή Χ, υπάρχει ένας υποπληθυσμός της μεταβλητής Υ ο οποίος είναι κανονικά κατανεμημένος. Για κάθε μεταβλητή Υ, υπάρχει ένας υποπληθυσμός της μεταβλητής Χ ο οποίος είναι κανονικά κατανεμημένος. Οι υποπληθυσμοί των Χ τιμών έχουν όλοι την ίδια διασπορά. Οι υποπληθυσμοί των Υ τιμών έχουν όλοι την ίδια διασπορά. Η από κοινού κατανομή των Χ και Υ είναι μια κανονική κατανομή που ονομάζεται Bivariate Normal Distribution.

Παραδοχές Τα παραπάνω είναι δύσκολο να ελεγχθούν. Τι προτείνεται: Τα παραπάνω είναι δύσκολο να ελεγχθούν. Τι προτείνεται: Κλίμακα Μέτρησης – Interval, Ratio. Ζευγαρωτές παρατηρήσεις – Για κάθε τιμή της Χ πρέπει να υπάρχει τιμή της Υ. Κανονικότητα – Οι τιμές κάθε μεταβλητής πρέπει να είναι κανονικά κατανεμημένες. Γραμμικότητα – Η σχέση που συνδέει τις δυο μεταβλητές θα πρέπει να είναι γραμμική. Ομοσκεδαστικότητα – Ο τρόπος που μεταβάλλονται πρέπει να είναι περίπου ο ίδιος.

Παρατηρήσεις Ορισμένες φορές πρέπει να διερευνήσουμε τη δράση των ακραίων τιμών. Οι υποπληθυσμοί ίσως αποκρύπτουν σχέσεις. Η γραμμικότητα και ομοσκεδαστικότητα διερευνώνται με τη βοήθεια διαγραμμάτων διασποράς (scatterplots). Η συσχέτιση δεν συνεπάγεται απαραίτητα αιτιότητα. Προσοχή στις μονάδες συσχέτισης.

Ο συντελεστής συσχέτισης Pearson

Εάν είχαμε τέλειους συσχετισμούς είτε 1, είτε -1 …

Τιμή: 0

Πρώτο Παράδειγμα

Εμβολιάστηκαν 10 πειραματόζωα με παθογενές εμβόλιο. Εξετάζεται η πορεία του πυρετού τις πρώτες 60 ώρες. Έλεγχος συσχέτισης μεταξύ του χρόνου και της πορείας του πυρετού. Εντολή: Analyze – Correlate - Bivariate

Λύση με το SPSS

Λύση με το SPSS

Επιλέγουμε τον συντελεστή Pearson (αριθμητικά δεδομένα). Έλεγχος σε μονή κατεύθυνση (One-Tailed) με βάση τη θεωρία μας. Έλεγχος Στατιστικής Σημαντικότητας.

Συμπέρασμα Η πορεία του πυρετού είναι αυξητική με βάση το χρόνο.

Έλεγχος Κανονικότητας Με βάση τον πίνακα 12.3 παρατηρούμε ότι καμία από τις δυο μεταβλητές δεν έχουν πρόβλημα κανονικότητας σε επίπεδο στατ. Σημαντικότητας 5%. Στην πρώτη: 89,2% > 5% Στην δεύτερη: 10,4% > 5%

Έλεγχος Κανονικότητας

Συντελεστής Spearman Όταν οι παραπάνω προυποθέσεις δεν ικανοποιούνται για να χρησιμοποιήσουμε τον συντελεστή Pearson, υπάρχει η επιλογή του συντελεστή Spearman. Είναι κατάλληλος όταν έχουμε ακραίες τιμές. Επίσης είναι κατάλληλος για διατακτικές μεταβλητές (ordinal).

Απλή Γραμμική Παλινδρόμηση Στις συσχετίσεις εξετάζουμε σχέσεις μεταξύ δυο μεταβλητών X και Y χωρίς να ξέρουμε ποια μεταβλητή επηρεάζει την άλλη. Με τις παλινδρομήσεις προσπαθούμε να δούμε εάν μπορούμε να προβλέψουμε την επιρροή μιας μεταβλητής από κάποια άλλη. Μοντέλα πρόβλεψης. Εξίσωση παλινδρόμησης (Regression Equation).

Ευθεία Παλινδρόμησης (Regression Line) H Μέθοδος των Ελάχιστων Τετραγώνων Αναπαρίσταται με μια γραμμή, η οποία ταιριάζει καλύτερα στα δεδομένα μας (Best-fitting line). Εκφράζεται με την εξίσωση: Y=α + βΧ Η «καλύτερη» γραμμή είναι εκείνη που ελαχιστοποιεί το άθροισμα των τετραγώνων των κατακόρυφων αποστάσεων των δεδομένων μας από την εν λόγω γραμμή.

Γραφική Αναπαράσταση της Παλινδρόμησης

Χρήσιμες παρατηρήσεις: Ο συντελεστής α (intercept) θα μας βοηθήσει να εκτιμήσουμε το σημείο στο οποίο η γραμμή παλινδρόμησης τέμνει το άξονα Y. Ο συντελεστής β θα μας βοηθήσει να εκτιμήσουμε την κλίση της ευθείας παλινδρόμησης. (Μεταβολή της εξαρτημένης μεταβλητής όταν η ανεξάρτητη μεταβάλλεται κατά μια μονάδα). Το μοντέλο δεν μπορεί να ερμηνεύσει το σύνολο της πληροφορίας.

Γραμμική Παλινδρόμηση

Βασικές Παραδοχές Το είδος των δεδομένων Τουλάχιστον 20 παρατηρήσεις. Ανεξαρτησία των παρατηρήσεων. Κανονικότητα. Ισότητα των διασπορών. Γραμμικότητα Ακραίες τιμές.

Παράδειγμα: Η πορεία των κερδών σε διάστημα 15 μηνών

Τρέχοντας μια απλή παλινδρόμηση: Analyze – regression - linear

Στατιστικές Παράμετροι

Goodness-of-Fit Ο παραπάνω πίνακας μας δίνει τρεις δείκτες καλής προσαρμογής. Ο συντελεστής R μας δείχνει τη συσχέτιση μεταξύ των δυο μεταβλητών. O Adjusted R2 διορθώνει τον προηγούμενο δείκτη. Το τυπικό σφάλμα (Standard Error of Estimate) μας πληροφορεί πόσο διασκορπισμένα είναι τα residuals γύρω από τη γραμμή παλινδρόμησης. Το Test Durbin-Watson εξετάζει την παραδοχή της ανεξαρτησίας.

Αποτελέσματα

Η στατιστική σημαντικότητα του μοντέλου ελέγχεται μέσω του πίνακα με την ANOVA.

Η Εξίσωση της Παλινδρόμησης

Η Εξίσωση της Παλινδρόμησης

Η Εξίσωση της Παλινδρόμησης

Durbin-Watson και η παραδοχή της ανεξαρτησίας Το τεστ λειτουργεί σε μια κλίμακα από 1 έως 4. Η αρχή της ανεξαρτησίας πληρείται όταν κυμαίνεται από 1,5 έως 2,5.

Η Παραδοχή της Κανονικότητας