Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες"— Μεταγράφημα παρουσίασης:

1 Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες
Γιάννης Παπαδημητρίου Τμήμα Εφαρμοσμένης Πληροφορικής Πανεπιστήμιο Μακεδονίας Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα

2 Περιεχόμενο Εισήγησης
Μέθοδοι της Ανάλυσης Δεδομένων: Αρχές, Χαρακτηριστικά, Χρησιμότητα Ποιοτικοποίηση Ποσοτικών Μεταβλητών Ποσοτικοποίηση Ποιοτικών Μεταβλητών Η Παραγοντική Ανάλυση των Αντιστοιχιών και Η Ανιούσα Ιεραρχική Ταξινόμηση Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 1

3 Η Ανάλυση Δεδομένων Η Ανάλυση Δεδομένων (ΑΔ) είναι ένας σχετικά νέος κλάδος της Στατιστικής ενταγμένη μέσα στον ευρύτερο χώρο της Πολυμεταβλητής Στατιστικής Ανάλυσης και γνώρισε ραγδαία εξέλιξη, κυρίως στη Γαλλία μετά το Σήμερα η ΑΔ μελετάται, διδάσκεται και παρακολουθείται σ’ όλους σχεδόν τους επιστημονικούς κλάδους. Η μεγάλη ανάγκη που υπάρχει σε πολλές επιστήμες για πλήρη επεξεργασία μεγάλου όγκου δεδομένων και η κατάληξη σε χρήσιμα συμπεράσματα, οδήγησε στην εξέλιξη και διάδοση των μεθόδων της ΑΔ. Πίνακες δεδομένων μεγάλων διαστάσεων είναι διαθέσιμοι για άμεση στατιστική επεξεργασία. Τα δεδομένα των πινάκων αυτών είναι συνήθως ετερογενή και πολύ συχνά δεν ακολουθούν κάποια από τις γνωστές κατανομές πιθανοτήτων. Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 2

4 Μέθοδοι της Ανάλυσης Δεδομένων (1)
Οι πιο γνωστές και διαδεδομένες μέθοδοι της ΑΔ είναι: Διερευνητική Ανάλυση Παραγόντων (Exploratory Factor Analysis) Ανάλυση σε Κύριες Συνιστώσες (Principal Component Analysis) Παραγοντική Ανάλυση των Αντιστοιχιών (Correspondence Analysis) Ιεραρχική Ταξινόμηση ή Ανάλυση Συστάδων (Hierarchical Cluster Analysis) Πολυδιάστατη Κλιμακοποίηση (Multidimensional Scaling) Χρησιμοποιούνται όταν το ενδιαφέρον του ερευνητή είναι η ανάδειξη της κρυφής δομής ενός συνόλου δεδομένων, χωρίς τη διάκριση των μεταβλητών σε εξαρτημένες και ανεξάρτητες και χωρίς αυστηρές a priori υποθέσεις ή προϋποθέσεις. Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 3

5 Μέθοδοι της Ανάλυσης Δεδομένων (2)
Η ΑΔ έχει να προσφέρει αρκετά πλεονεκτήματα, τα οποία μπορούν να συμβάλλουν στην επιτυχημένη διεξαγωγή πολλών φάσεων της επιστημονικής έρευνας: Ο μη παραμετρικός χαρακτήρας των μεθόδων, οι οποίες έχουν ελάχιστες τεχνικές προϋποθέσεις και δεν απαιτούν τα διαθέσιμα δεδομένα να χαρακτηρίζονται από συγκεκριμένες στατιστικές ιδιότητες. Η δυνατότητα των μεθόδων να χειριστούν και ποιοτικά χαρακτηριστικά. Η δυνατότητα ανάδειξης τόσο γραμμικών όσο και μη γραμμικών σχέσεων μεταξύ των μεταβλητών, ανάλογα με τα δεδομένα. Τα παραγόμενα στατιστικά αποτελέσματα έχουν απτή φυσική ερμηνεία και είναι δυνατό να αναδείξουν φανερές ή όχι σχέσεις των ιδιοτήτων που περιγράφουν το υπό μελέτη φαινόμενο. Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 4

6 Στάδια Εφαρμογής των Μεθόδων
1.Ομογενοποίηση των δεδομένων (ποιοτικοποίηση των ποσοτικών δεδομένων) 2.Κωδικοποίηση των δεδομένων (μετατροπή πινάκων δεδομένων σε κατάλληλους πίνακες με στοιχεία σε κοινή μονάδα μέτρησης) 3.Ερμηνεία των Αριθμητικών και Γραφικών Αποτελεσμάτων (ποσοτικοποίηση των ποιοτικών δεδομένων) Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 5

7 Ομογενοποίηση των Δεδομένων (1)
Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 6

8 Ομογενοποίηση των Δεδομένων (2)
Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 7

9 Κωδικοποίηση των Δεδομένων Μεταβλητή Β (επάγγελμα πατέρα)
Έστω ο αρχικός πίνακας δεδομένων που περιγράφει το φαινόμενο των διακοπών 138 φοιτητών με 3 μεταβλητές, με την παρακάτω κωδικοποίηση: Μεταβλητή Α (είδος διακοπών) Μεταβλητή Β (επάγγελμα πατέρα) Μεταβλητή Γ (φύλο) Α1: Ξενοδοχείο (1) Α2: Οργανωμένη εκδρομή (2) Α3: Ενοικιαζόμενο δωμάτιο (3) Α4: Κάμπινγκ οργανωμένο (4) Α5: Ελεύθερο κάμπινγκ (5) Α6: Δεν πήγα διακοπές (6) Α7:Στο εξοχικό της οικογένειας (7) Β1: Μισθωτός (1) Β2: Ελ.επ. επιστήμονας (2) Β3: Συνταξιούχος (3) Β4: Εργάτης, τεχνίτης, αγρότης (4) Β5: Εισοδηματίας (5) Β6: Ελεύθερος επαγγελματίας (6) Γ1: Αγόρι (1) Γ2: Κορίτσι (2) Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 8

10 Αρχικός Πίνακας Δεδομένων
Ο αρχικός πίνακας δεδομένων που περιγράφει το φαινόμενο των διακοπών 138 φοιτητών με 3 μεταβλητές. Α/Α Α Β Γ 1 2 3 4 5 6 . 136 137 138 Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 9

11 Κατασκευή Λογικού Πίνακα 0-1 (1)
1. Δημιουργούμε μία στήλη – κλάση – ιδιότητα για κάθε μεταβλητή Μετ. Α 7 κλάσεις Μετ. Β 6 κλάσεις Μετ. Γ 2 κλάσεις 2. Μεταφορά κάθε γραμμής δεδομένων του αρχικού πίνακα στον πίνακα 0-1. Κάθε αριθμός γίνεται σχετική θέση στον 0-1. Α/Α 1 Α 1 Β 2 Γ 1 1 2 1 A1 A2 A3 A4 A5 A6 A7 B1 B2 B3 B4 B5 B6 Γ1 Γ2 1 1 1 1 Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 10

12 Κατασκευή Λογικού Πίνακα 0-1 (2)
A1 A2 A3 A4 A5 A6 A7 B1 B2 B3 B4 B5 B6 Γ1 Γ2 1 2 3 4 . 136 137 138 Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 11

13 Κατασκευή Γενικευμένου Πίνακα Συμπτώσεων (Burt)
A1 A2 A3 A4 A5 A6 A7 B1 B2 B3 B4 B5 B6 Γ1 Γ2 1 1 1 1 Α1 Α2 Α3 Α4 Α5 Α6 Α7 Β1 Β2 Β3 Β4 Β5 Β6 Γ1 Γ2 12 8 4 9 3 6 2 38 16 10 21 17 34 14 18 24 48 26 20 11 15 76 62 Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 12

14 Απλός Πίνακας Συμπτώσεων Δύο Μεταβλητών
«Είδος Διακοπών» ως προς «Επάγγελμα Πατέρα» Μισθωτός Ελ.Επαγγ. Επιστημ. Συνταξ. Εργ.Τεχ. Αγρ. Εισοδημ. B1 B2 B3 B4 B5 B6 Ξενοδοχ. Α1 8 4 Οργ.Εκδρ Α2 2 Δωμάτια Α3 16 10 6 Κάμπινγκ Α4 14 Ελ.Κάμπ Α5 ΟΧΙ Α6 12 Εξοχικό Α7 12 6 38 34 10 24 14 48 16 26 6 Περιθώρια γραμμή Περιθώρια στήλη Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 13

15 Κωδικοποίηση Δεδομένων (συνοπτικά)
Αρχικός Πίνακας Δεδομένων «αντικείμενα x μεταβλητές» Λογικός Πίνακας (0-1) Πίνακας Burt Απλός Πίνακας Συμπτώσεων Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 14

16 Η Παραγοντική Ανάλυση των Αντιστοιχιών
Η Παραγοντική Ανάλυση των Αντιστοιχιών (Correspondence Analysis, Analyse Factorielle des Corespondances) θεωρείται ως μία περιγραφική μέθοδος για τη διερεύνηση της σχέσης μεταξύ δύο ή περισσότερων κατηγορικών μεταβλητών χωρίς αυστηρές a priori υποθέσεις ή προϋποθέσεις. Πρωταρχικός σκοπός της μεθόδου είναι η ανάδειξη και οπτικοποίηση της ενδογενούς δομής των δεδομένων η οποία δεν είναι άμεσα αντιληπτή, αλλά βρίσκεται σε λανθάνουσα μορφή και μάλιστα χωρίς τη χρήση στατιστικών ελέγχων σημαντικότητας για την απόρριψη ή όχι υποθέσεων σχετικά με αυτά. Η μέθοδος χρησιμοποιείται για την ανάλυση ποιοτικών δεδομένων, τα οποία μπορούν να οργανωθούν σε απλούς και σύνθετους πίνακες συνάφειας ή διπλής εισόδου. Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 15

17 Ο πρώτος παραγοντικός άξονας
* Εφαρμογή της ΠΑΑ στον Πίνακα Burt Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 16

18 Ο δεύτερος παραγοντικός άξονας
* Εφαρμογή της ΠΑΑ στον Πίνακα Burt Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 17

19 Το παραγοντικό επίπεδο 1x2
* Εφαρμογή της ΠΑΑ στον Πίνακα Burt Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 18

20 Το παραγοντικό επίπεδο 1x2
Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 19

21 Ιστόγραμμα χαρακτ. ριζών
Πίνακας Ιδιοτιμών * Εφαρμογή της ΠΑΑ στον Πίνακα Burt Άξονας Χαρακτ. τιμή % Ερμηνείας Αθρ. % Ιστόγραμμα χαρακτ. ριζών e1 λ1= 0.417 0.259 **************************************** e2 λ2= 0.237 0.146 0.406 *********************** e3 λ3= 0.194 0.120 0.526 **************** e4 λ4= 0.158 0.097 0.624 *************** e5 λ5= 0.139 0.086 0.710 *********** e6 λ6= 0.112 0.069 0.780 e7 λ7= 0.110 0.068 0.849 e8 λ8= 0.091 0.051 0.905 ******** e9 λ9= 0.067 0.045 0.947 ******* e10 λ10= 0.051 0.022 0.979 **** e11 λ11= 0.033 0.002 0.999 * e12 λ12= 0.000 1.00 Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 20

22 Συντεταγμένες και δείκτες ερμηνείας γραμμών/στηλών
* Εφαρμογή της ΠΑΑ στον Πίνακα Burt #F1 COR CTR #F2 #F3 #F4 ΞΕΝΟΔ -2393 720 262 132 2 1 -430 23 21 118 ΟΡΓ.ΕΚ 417 128 13 10 ΔΩΜΑΤ 454 144 30 232 37 14 -159 17 9 -188 57 33 ΚΑΜΠ 453 124 26 55 -305 56 -554 186 110 ΕΛ.ΚΑΜ -646 60 15 -502 36 2018 588 392 -572 47 34 ΟΧΙ 424 65 16 -1219 535 242 -111 4 762 209 146 ΕΞΟΧΙΚΟ 474 44 11 1512 217 467 43 29 1073 228 168 ΜΙΣΘ 384 145 27 83 6 300 89 41 -259 ΕΛ.ΕΠ.ΕΠ -2087 737 264 -58 824 115 103 -321 ΣΥΝΤ 481 99 87 3 -717 221 129 -731 230 ΕΡ.ΤΕΧ.ΑΓ 492 1480 499 237 179 7 925 195 142 ΕΙΣΟΔ -2553 294 -1934 260 210 700 ΕΛ.ΕΠ 379 -1185 558 250 -11 673 180 Στατιστική Ανάλυση Δεδομένων Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 21

23 Η Ανιούσα Ιεραρχική Ταξινόμηση
Με την εφαρμογή της Αυτόματης ή Ανιούσας Ιεραρχικής Ταξινόμησης (ΑΙΤ) σ’ έναν πίνακα δεδομένων καταφέρνουμε να διαμελίσουμε τον πληθυσμό σ’ έναν αριθμό ομάδων, τάξεων ή κλάσεων που είναι ομοιογενείς ως προς τις μεταβλητές που επιλέχθηκαν να τον περιγράφουν. Ο διαμελισμός ενός πληθυσμού με την Ταξινόμηση διασφαλίζει μια συνοπτική και δομημένη εικόνα του φαινομένου που περιγράφει ο πίνακας δεδομένων που αναλύεται. Το αποτέλεσμα της ΑΙΤ είναι το δενδρόγραμμα ιεράρχησης. Ως μετρική της απόστασης μεταξύ των αντικειμένων χρησιμοποιείται η χ2 και ως κριτήριο συνένωσης των κλάσεων αυτό του Ward. Η Ανιούσα Ιεραρχική Ταξινόμηση συμπληρώνει τα αποτελέσματα της Παραγοντικής Ανάλυσης των Αντιστοιχιών. Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 22

24 Το δενδρόγραμμα ιεράρχησης
Το δενδρόγραμμα δημιουργείται με τις διαδοχικές συνενώσεις, αρχικά των δύο πιο όμοιων αντικειμένων και στη συνέχεια των κλάσεων, μέχρι να φτάσουμε στον αρχικό κόμβο, δηλαδή το μέσο αντικείμενο του κόμβου – κλάσης που περιλαμβάνει το σύνολο των αρχικών αντικειμένων. Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 23

25 Το δενδρόγραμμα ιεράρχησης
Στόχος της μεθόδου είναι να δημιουργήσει όσο το δυνατό πιο εσωτερικά συμπαγείς ομάδες και ταυτόχρονα ανομοιογενείς μεταξύ τους ομάδες. Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 24

26 Περιγραφή των Κόμβων της Ταξινόμησης
* Εφαρμογή στον Απλό Πίνακα Συμπτώσεων 7x6 Κόμβος A B Επίπεδο εi Εσωταξική αδράνεια Διαταξική % μεταβολής 8 1 2 1,1599 9 3 4 0,0027 1,1571 0,0024 10 7 0,0822 0,085 1,0749 0,0709 11 5 6 0,1032 0,1882 0,9717 0,089 12 0,1633 0,3515 0,8083 0,1408 13 0,6969 Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 25

27 Δείκτες ερμηνείας των αποτελεσμάτων
* Εφαρμογή στον Απλό Πίνακα Συμπτώσεων 7x6 Συμβολή των ιδιοτήτων – μεταβλητών στο χαρακτηρισμό των κόμβων Κόμβος 13 12 11 A 8 10 5 B 6 Βάρος 1000 870 246 Ιδιότητες X(13) COR(13) CTR(13) X(12) COR(12) CTR(12) X(11) COR(11) Μισθωτός 348 400 65 124 353 Ελ.Επαγγ.Επ. 116 33 485 106 118 Συνταξιούχος 188 217 35 59 Εργ.Τεχ.Αγρ. 133 22 17 257 Εισοδημ. 43 359 130 96 Ελ.Επαγγ. 27 412 587 Συμβολή των ιδιοτήτων – μεταβλητών στη διάσπαση των κόμβων Κόμβος 13 12 11 A 8 10 5 B 6 Βάρος 1000 870 246 Ιδιότητες DX(13) COD(13) CTD(13) DX(12) COD(12) CTD(12) DX(11) COD(11) Μισθωτός -400 65 947 66 35 67 Ελ.Επαγγ.Επιστήμ. 633 485 811 -118 129 38 400 684 Συνταξιούχος -217 452 138 110 249 -167 73 Εργ.Τεχ.Αγρ. -133 22 130 186 323 344 Εισοδημ. 333 359 Ελ.Επαγγ. 209 -272 425 448 -300 237 Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 26

28 Ενδεικτική Βιβλιογραφία (1)
Ξενόγλωσση Blasius, J. & Greenacre, M.J. (2006). Multiple Correspondence Analysis and Related Methods, London: Chapman and Hall. Clausen, S.-E. (1998). Applied Correspondence Analysis: An Introduction. Sage University Papers Series on Quantitative Applications in the Social Sciences, , Thousand Oakes, CA: Sage. Gifi, A. (1996). Non-Linear Multivariate Analysis. Chichester: John Willey & Sons Ltd. Greenacre, M.J. (1984). Theory and Applications of Correspondence Analysis. London: Academic Press. Greenacre, M.J. (1993, 2007). Correspondence Analysis in Practice. London: Academic Press. Le Roux. B. & Rouanet, H. (2004). Geometric Data Analysis: From Correspondence Analysis to Structured Data Analysis. Dordrecht: Kluwer Academic Publishers. Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 27

29 Ενδεικτική Βιβλιογραφία (2)
Ελληνόγλωσση Αθανασιάδης, Η. (1995). Παραγοντική Ανάλυση Αντιστοιχιών και Ιεραρχική Ταξινόμηση. Εκδόσεις Νέων Τεχνολογιών, Αθήνα. Δρόσος, Γ. (2006). Στατιστική & Ανάλυση Δεδομένων. Εκδόσεις Ανικούλα, Θεσσαλονίκη. Καραπιστόλης, Δ. (1999). Ανάλυση Δεδομένων και Έρευνα Αγοράς. Εκδόσεις Ανικούλα, Θεσσαλονίκη. Μαυρομάτης, Γ. (1999). Στατιστικά Μοντέλα και Μέθοδοι Ανάλυσης Δεδομένων. University Studio Press, Θεσσαλονίκη. Μπεχράκης, Θ. (1999). Πολυδιάστατη Ανάλυση Δεδομένων: Μέθοδοι και Εφαρμογές. Εκδόσεις Νέα Σύνορα – Α.Α. Λιβάνης, Αθήνα. Παπαδημητρίου, Γ. (2007). Η Ανάλυση Δεδομένων. Εκδόσεις τυπωθήτω. Αθήνα. Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 28

30 Ευχαριστώ για την προσοχή σας
#fin


Κατέβασμα ppt "Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google