Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες Γιάννης Παπαδημητρίου Τμήμα Εφαρμοσμένης Πληροφορικής Πανεπιστήμιο Μακεδονίας Γιάννης Παπαδημητρίου Τμήμα.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες Γιάννης Παπαδημητρίου Τμήμα Εφαρμοσμένης Πληροφορικής Πανεπιστήμιο Μακεδονίας Γιάννης Παπαδημητρίου Τμήμα."— Μεταγράφημα παρουσίασης:

1 Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες Γιάννης Παπαδημητρίου Τμήμα Εφαρμοσμένης Πληροφορικής Πανεπιστήμιο Μακεδονίας Γιάννης Παπαδημητρίου Τμήμα Εφαρμοσμένης Πληροφορικής Πανεπιστήμιο Μακεδονίας Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα

2  Μέθοδοι της Ανάλυσης Δεδομένων: Αρχές, Χαρακτηριστικά, Χρησιμότητα  Ποιοτικοποίηση Ποσοτικών Μεταβλητών  Ποσοτικοποίηση Ποιοτικών Μεταβλητών  Η Παραγοντική Ανάλυση των Αντιστοιχιών και  Η Ανιούσα Ιεραρχική Ταξινόμηση Περιεχόμενο Εισήγησης Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 1

3  Η Ανάλυση Δεδομένων (ΑΔ) είναι ένας σχετικά νέος κλάδος της Στατιστικής ενταγμένη μέσα στον ευρύτερο χώρο της Πολυμεταβλητής Στατιστικής Ανάλυσης και γνώρισε ραγδαία εξέλιξη, κυρίως στη Γαλλία μετά το Σήμερα η ΑΔ μελετάται, διδάσκεται και παρακολουθείται σ’ όλους σχεδόν τους επιστημονικούς κλάδους.  Η μεγάλη ανάγκη που υπάρχει σε πολλές επιστήμες για πλήρη επεξεργασία μεγάλου όγκου δεδομένων και η κατάληξη σε χρήσιμα συμπεράσματα, οδήγησε στην εξέλιξη και διάδοση των μεθόδων της ΑΔ.  Πίνακες δεδομένων μεγάλων διαστάσεων είναι διαθέσιμοι για άμεση στατιστική επεξεργασία. Τα δεδομένα των πινάκων αυτών είναι συνήθως ετερογενή και πολύ συχνά δεν ακολουθούν κάποια από τις γνωστές κατανομές πιθανοτήτων. Η Ανάλυση Δεδομένων 2 Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα

4 Οι πιο γνωστές και διαδεδομένες μέθοδοι της ΑΔ είναι: • Διερευνητική Ανάλυση Παραγόντων (Exploratory Factor Analysis) • Ανάλυση σε Κύριες Συνιστώσες (Principal Component Analysis) • Παραγοντική Ανάλυση των Αντιστοιχιών (Correspondence Analysis) • Ιεραρχική Ταξινόμηση ή Ανάλυση Συστάδων (Hierarchical Cluster Analysis) • Πολυδιάστατη Κλιμακοποίηση (Multidimensional Scaling) Μέθοδοι της Ανάλυσης Δεδομένων (1) 3  Χρησιμοποιούνται όταν το ενδιαφέρον του ερευνητή είναι η ανάδειξη της κρυφής δομής ενός συνόλου δεδομένων, χωρίς τη διάκριση των μεταβλητών σε εξαρτημένες και ανεξάρτητες και χωρίς αυστηρές a priori υποθέσεις ή προϋποθέσεις. Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα

5 Η ΑΔ έχει να προσφέρει αρκετά πλεονεκτήματα, τα οποία μπορούν να συμβάλλουν στην επιτυχημένη διεξαγωγή πολλών φάσεων της επιστημονικής έρευνας:  Ο μη παραμετρικός χαρακτήρας των μεθόδων, οι οποίες έχουν ελάχιστες τεχνικές προϋποθέσεις και δεν απαιτούν τα διαθέσιμα δεδομένα να χαρακτηρίζονται από συγκεκριμένες στατιστικές ιδιότητες.  Η δυνατότητα των μεθόδων να χειριστούν και ποιοτικά χαρακτηριστικά.  Η δυνατότητα ανάδειξης τόσο γραμμικών όσο και μη γραμμικών σχέσεων μεταξύ των μεταβλητών, ανάλογα με τα δεδομένα.  Τα παραγόμενα στατιστικά αποτελέσματα έχουν απτή φυσική ερμηνεία και είναι δυνατό να αναδείξουν φανερές ή όχι σχέσεις των ιδιοτήτων που περιγράφουν το υπό μελέτη φαινόμενο. 4 Μέθοδοι της Ανάλυσης Δεδομένων (2) Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα

6 Στάδια Εφαρμογής των Μεθόδων 1.Ομογενοποίηση των δεδομένων (ποιοτικοποίηση των ποσοτικών δεδομένων) 2.Κωδικοποίηση των δεδομένων (μετατροπή πινάκων δεδομένων σε κατάλληλους πίνακες με στοιχεία σε κοινή μονάδα μέτρησης) 3.Ερμηνεία των Αριθμητικών και Γραφικών Αποτελεσμάτων (ποσοτικοποίηση των ποιοτικών δεδομένων) Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 5

7 Ομογενοποίηση των Δεδομένων (1) Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 6

8 Ομογενοποίηση των Δεδομένων (2) Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 7

9 Μεταβλητή Α (είδος διακοπών) Μεταβλητή Β (επάγγελμα πατέρα) Μεταβλητή Γ (φύλο) Α1: Ξενοδοχείο (1) Α2: Οργανωμένη εκδρομή (2) Α3: Ενοικιαζόμενο δωμάτιο (3) Α4: Κάμπινγκ οργανωμένο (4) Α5: Ελεύθερο κάμπινγκ (5) Α6: Δεν πήγα διακοπές (6) Α7:Στο εξοχικό της οικογένειας (7) Β1: Μισθωτός (1) Β2: Ελ.επ. επιστήμονας (2) Β3: Συνταξιούχος (3) Β4: Εργάτης, τεχνίτης, αγρότης (4) Β5: Εισοδηματίας (5) Β6: Ελεύθερος επαγγελματίας (6) Γ1: Αγόρι (1) Γ2: Κορίτσι (2) Κωδικοποίηση των Δεδομένων  Έστω ο αρχικός πίνακας δεδομένων που περιγράφει το φαινόμενο των διακοπών 138 φοιτητών με 3 μεταβλητές, με την παρακάτω κωδικοποίηση: Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 8

10 Αρχικός Πίνακας Δεδομένων Α/ΑΑΒΓ  Ο αρχικός πίνακας δεδομένων που περιγράφει το φαινόμενο των διακοπών 138 φοιτητών με 3 μεταβλητές. Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 9

11 Κατασκευή Λογικού Πίνακα 0-1 (1) Α 1 1. Δημιουργούμε μία στήλη – κλάση – ιδιότητα για κάθε μεταβλητή Μετ. Α  7 κλάσεις 0000 A1A2A3A4A5A6A7B1B2B3B4B5B6Γ1Γ1Γ2Γ2 Μετ. Γ  2 κλάσεις Μετ. Β  6 κλάσεις 2. Μεταφορά κάθε γραμμής δεδομένων του αρχικού πίνακα στον πίνακα 0-1. Κάθε αριθμός γίνεται σχετική θέση στον Γ 1 Β 2 Α/Α Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 1010

12 Κατασκευή Λογικού Πίνακα 0-1 (2) A1A2A3A4A5A6A7B1B2B3B4B5B6Γ1Γ1Γ2Γ Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 1

13 0000 A2A3A4A5A6A7B3B4B5B6Γ2Γ A1Γ1Γ1B1B2 Α1Α2Α3Α4Α5Α6Α7Β1Β2Β3Β4Β5Β6Γ1Γ2 Α Α Α Α Α Α Α Β Β Β Β Β Β Γ Γ Κατασκευή Γενικευμένου Πίνακα Συμπτώσεων (Burt) Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 1212

14 Απλός Πίνακας Συμπτώσεων Δύο Μεταβλητών Μισθωτός Ελ.Επαγγ. Επιστημ. Συνταξ. Εργ.Τεχ. Αγρ. Εισοδημ.Ελ.Επαγγ. B1B1B2B2B3B3B4B4B5B5B6B6 Ξενοδοχ. Α Οργ.Εκδρ Α Δωμάτια Α Κάμπινγκ Α Ελ.Κάμπ Α ΟΧΙ Α Εξοχικό Α Περιθώρια γραμμή Περιθώρια στήλη «Είδος Διακοπών» ως προς «Επάγγελμα Πατέρα» Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 1313

15 Κωδικοποίηση Δεδομένων (συνοπτικά) Αρχικός Πίνακας Δεδομένων Πίνακας Burt Λογικός Πίνακας (0-1) «αντικείμενα x μεταβλητές» Απλός Πίνακας Συμπτώσεων Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 1414

16 Η Παραγοντική Ανάλυση των Αντιστοιχιών  Η Παραγοντική Ανάλυση των Αντιστοιχιών (Correspondence Analysis, Analyse Factorielle des Corespondances) θεωρείται ως μία περιγραφική μέθοδος για τη διερεύνηση της σχέσης μεταξύ δύο ή περισσότερων κατηγορικών μεταβλητών χωρίς αυστηρές a priori υποθέσεις ή προϋποθέσεις.  Πρωταρχικός σκοπός της μεθόδου είναι η ανάδειξη και οπτικοποίηση της ενδογενούς δομής των δεδομένων η οποία δεν είναι άμεσα αντιληπτή, αλλά βρίσκεται σε λανθάνουσα μορφή και μάλιστα χωρίς τη χρήση στατιστικών ελέγχων σημαντικότητας για την απόρριψη ή όχι υποθέσεων σχετικά με αυτά.  Η μέθοδος χρησιμοποιείται για την ανάλυση ποιοτικών δεδομένων, τα οποία μπορούν να οργανωθούν σε απλούς και σύνθετους πίνακες συνάφειας ή διπλής εισόδου. Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 1515

17 Ο πρώτος παραγοντικός άξονας * Εφαρμογή της ΠΑΑ στον Πίνακα Burt Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 1616

18 Ο δεύτερος παραγοντικός άξονας * Εφαρμογή της ΠΑΑ στον Πίνακα Burt Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 1717

19 Το παραγοντικό επίπεδο 1x2 * Εφαρμογή της ΠΑΑ στον Πίνακα Burt Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 1818

20 Το παραγοντικό επίπεδο 1x2 * Εφαρμογή της ΠΑΑ στον Απλό Πίνακα Συμπτώσεων 7x6 Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 1919

21 ΆξοναςΧαρακτ. τιμή % Ερμηνείας Αθρ. % Ερμηνείας Ιστόγραμμα χαρακτ. ριζών e1e1 λ 1 = **************************************** e2e2 λ 2 = *********************** e3e3 λ 3 = **************** e4e4 λ 4 = *************** e5e5 λ 5 = *********** e6e6 λ 6 = *********** e7e7 λ 7 = *********** e8e8 λ 8 = ******** e9e9 λ 9 = ******* e 10 λ 10 = **** e 11 λ 11 = * e 12 λ 12 = * Πίνακας Ιδιοτιμών * Εφαρμογή της ΠΑΑ στον Πίνακα Burt Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 20

22 #F1CORCTR#F2CORCTR#F3CORCTR#F4CORCTR ΞΕΝΟΔ ΟΡΓ.ΕΚ ΔΩΜΑΤ ΚΑΜΠ ΕΛ.ΚΑΜ ΟΧΙ ΕΞΟΧΙΚΟ ΜΙΣΘ ΕΛ.ΕΠ.ΕΠ ΣΥΝΤ ΕΡ.ΤΕΧ.ΑΓ ΕΙΣΟΔ ΕΛ.ΕΠ Στατιστική Ανάλυση Δεδομένων Συντεταγμένες και δείκτες ερμηνείας γραμμών/στηλών * Εφαρμογή της ΠΑΑ στον Πίνακα Burt Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 2121

23  Με την εφαρμογή της Αυτόματης ή Ανιούσας Ιεραρχικής Ταξινόμησης (ΑΙΤ) σ’ έναν πίνακα δεδομένων καταφέρνουμε να διαμελίσουμε τον πληθυσμό σ’ έναν αριθμό ομάδων, τάξεων ή κλάσεων που είναι ομοιογενείς ως προς τις μεταβλητές που επιλέχθηκαν να τον περιγράφουν.  Ο διαμελισμός ενός πληθυσμού με την Ταξινόμηση διασφαλίζει μια συνοπτική και δομημένη εικόνα του φαινομένου που περιγράφει ο πίνακας δεδομένων που αναλύεται.  Το αποτέλεσμα της ΑΙΤ είναι το δενδρόγραμμα ιεράρχησης.  Ως μετρική της απόστασης μεταξύ των αντικειμένων χρησιμοποιείται η χ 2 και ως κριτήριο συνένωσης των κλάσεων αυτό του Ward.  Η Ανιούσα Ιεραρχική Ταξινόμηση συμπληρώνει τα αποτελέσματα της Παραγοντικής Ανάλυσης των Αντιστοιχιών. Η Ανιούσα Ιεραρχική Ταξινόμηση Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 22

24 Το δενδρόγραμμα ιεράρχησης  Το δενδρόγραμμα δημιουργείται με τις διαδοχικές συνενώσεις, αρχικά των δύο πιο όμοιων αντικειμένων και στη συνέχεια των κλάσεων, μέχρι να φτάσουμε στον αρχικό κόμβο, δηλαδή το μέσο αντικείμενο του κόμβου – κλάσης που περιλαμβάνει το σύνολο των αρχικών αντικειμένων. Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 23

25 Το δενδρόγραμμα ιεράρχησης  Στόχος της μεθόδου είναι να δημιουργήσει όσο το δυνατό πιο εσωτερικά συμπαγείς ομάδες και ταυτόχρονα ανομοιογενείς μεταξύ τους ομάδες. Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 24

26 ΚόμβοςABΕπίπεδο εi Εσωταξική αδράνεια Διαταξική αδράνεια% μεταβολής , ,0027 1,15710, ,08220,0851,07490, ,10320,18820,97170, ,16330,35150,80830, ,80831,159900,6969 Περιγραφή των Κόμβων της Ταξινόμησης * Εφαρμογή στον Απλό Πίνακα Συμπτώσεων 7x6 Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 25

27 Δείκτες ερμηνείας των αποτελεσμάτων Κόμβος A B Βάρος ΙδιότητεςX(13)COR(13)CTR(13)X(12)COR(12)CTR(12)X(11)COR(11) Μισθωτός Ελ.Επαγγ.Επ Συνταξιούχος Εργ.Τεχ.Αγρ Εισοδημ Ελ.Επαγγ Κόμβος A B Βάρος ΙδιότητεςDX(13)COD(13)CTD(13)DX(12)COD(12)CTD(12)DX(11)COD(11) Μισθωτός Ελ.Επαγγ.Επιστήμ Συνταξιούχος Εργ.Τεχ.Αγρ Εισοδημ Ελ.Επαγγ Συμβολή των ιδιοτήτων – μεταβλητών στο χαρακτηρισμό των κόμβων Συμβολή των ιδιοτήτων – μεταβλητών στη διάσπαση των κόμβων * Εφαρμογή στον Απλό Πίνακα Συμπτώσεων 7x6 Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 26

28 Ενδεικτική Βιβλιογραφία (1) Ξενόγλωσση - Blasius, J. & Greenacre, M.J. (2006). Multiple Correspondence Analysis and Related Methods, London: Chapman and Hall. - Clausen, S.-E. (1998). Applied Correspondence Analysis: An Introduction. Sage University Papers Series on Quantitative Applications in the Social Sciences, , Thousand Oakes, CA: Sage. - Gifi, A. (1996). Non-Linear Multivariate Analysis. Chichester: John Willey & Sons Ltd. - Greenacre, M.J. (1984). Theory and Applications of Correspondence Analysis. London: Academic Press. - Greenacre, M.J. (1993, 2007). Correspondence Analysis in Practice. London: Academic Press. - Le Roux. B. & Rouanet, H. (2004). Geometric Data Analysis: From Correspondence Analysis to Structured Data Analysis. Dordrecht: Kluwer Academic Publishers. Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 27

29 Ενδεικτική Βιβλιογραφία (2) Ελληνόγλωσση -Αθανασιάδης, Η. (1995). Παραγοντική Ανάλυση Αντιστοιχιών και Ιεραρχική Ταξινόμηση. Εκδόσεις Νέων Τεχνολογιών, Αθήνα. -Δρόσος, Γ. (2006). Στατιστική & Ανάλυση Δεδομένων. Εκδόσεις Ανικούλα, Θεσσαλονίκη. -Καραπιστόλης, Δ. (1999). Ανάλυση Δεδομένων και Έρευνα Αγοράς. Εκδόσεις Ανικούλα, Θεσσαλονίκη. -Μαυρομάτης, Γ. (1999). Στατιστικά Μοντέλα και Μέθοδοι Ανάλυσης Δεδομένων. University Studio Press, Θεσσαλονίκη. -Μπεχράκης, Θ. (1999). Πολυδιάστατη Ανάλυση Δεδομένων: Μέθοδοι και Εφαρμογές. Εκδόσεις Νέα Σύνορα – Α.Α. Λιβάνης, Αθήνα. -Παπαδημητρίου, Γ. (2007). Η Ανάλυση Δεδομένων. Εκδόσεις τυπωθήτω. Αθήνα. Σεμινάριο Συνεχιζόμενης Εκπαίδευσης στην Έρευνα και την Ανάλυση Δεδομένων με χρήση ΝΤ – 20-21/06/ Ιωάννινα 28

30 Ευχαριστώ για την προσοχή σας #fin


Κατέβασμα ppt "Η Ανάλυση Δεδομένων στις Κοινωνικές Επιστήμες Γιάννης Παπαδημητρίου Τμήμα Εφαρμοσμένης Πληροφορικής Πανεπιστήμιο Μακεδονίας Γιάννης Παπαδημητρίου Τμήμα."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google