Γιατί χρησιμοποιήται η ανάλυση παραγόντων (Factor Analysis) Η ανάλυση παραγόντων είναι ένα χρήσιμο εργαλείο για τη διερεύνηση των σχέσεων μεταξύ μεταβλητών για σύνθετες έννοιες όπως η κοινωνικοοικονομική κατάσταση, τα διατροφικά πρότυπα ή οι ψυχολογικές κλίμακες Επιτρέπει στους ερευνητές να διερευνήσουν έννοιες, οι οποίες δεν μπορούν εύκολα να μετρηθούν άμεσα, με την συρρίκνωση ενός μεγάλου αριθμού μεταβλητών σε λίγους ερμηνεύσιμους υποκρυπτόμενους παράγοντες.
Τι είναι ο παράγοντας; Η βασική ιδέα της ανάλυσης παραγόντων είναι ότι οι ερωτώμενοι απαντούν με παρόμοια πρότυπα απόκρισης σε ένα πλήθος ερωτήσεων (πχ. ο απαντών έχει παραπλήσιες τιμές σε ένα πλήθος παρατηρούμενων μεταβλητών), επειδή όλες αυτές συνδέονται με μια λανθάνουσα μεταβλητή (δηλαδή όχι άμεσα μετρούμενη μεταβλητή) Για παράδειγμα, οι άνθρωποι μπορούν να απαντήσουν ομοίως σε ερωτήσεις σχετικά με το εισόδημα, την εκπαίδευση και τη απασχόληση, οι οποίες συνδέονται όλες με την λανθάνουσα μεταβλητή κοινωνικοοικονομική κατάσταση.
Τι είναι ο παράγοντας; Σε κάθε ανάλυση παραγόντων, ο αριθμός παραγόντων που εξάγονται είναι ίδιος με τον αριθμό των παρατηρούμενων μεταβλητών. Κάθε παράγοντας καταλαμβάνει ένα ορισμένο ποσό της συνολικής διακύμανσης των παρατηρούμενων μεταβλητών. Οι παράγοντες παρατίθενται πάντα με βάση τη διακύμανση που εξηγούν.
Τι είναι ο παράγοντας; Η ιδιοτιμή (eigenvalue) είναι ένα μέτρο της συνολικής διακύμανσης των παρατηρούμενων μεταβλητών που εξηγεί ένας παράγοντας. Οποιοσδήποτε παράγοντας με ιδιοτιμή ≥1 εξηγεί μεγαλύτερη διακύμανση από μία μόνο παρατηρούμενη μεταβλητή. Έτσι εάν ο παράγοντας για την κοινωνικοοικονομική κατάσταση είχε μια ιδιοτιμή 2,3, θα εξηγούσε τόσο μεγάλη διακύμανση όσο και οι 2,3 από τις τρεις μεταβλητές (το 2,3/3 =77% της συνολικής διακύμανσης). Αυτός ο παράγοντας, ο οποίος συλλαμβάνει το μεγαλύτερο μέρος της διακύμανσης στις τρεις αυτές μεταβλητές, θα μπορούσε στη συνέχεια να χρησιμοποιηθεί σε άλλες αναλύσεις.
Εισαγωγή στην παραγοντική ανάλυση Παραγοντική ανάλυση Ανάλυση σε κύριες συνιστώσες Ανάλυση κοινών παραγόντων Διερευνητική Επιβεβαιωτική
Στόχοι - Στάδια Διερευνητικής παραγοντικής Ανάλυσης Μελέτη συσχετίσεων μεγάλου αριθμού ποσοτικών μεταβλητών με ομαδοποίηση σε λίγους παράγοντες. Μετά την ομαδοποίηση, οι μεταβλητές που ανήκουν στον παράγοντα έχουν μεγαλύτερη συσχέτιση με μεταβλητές του ίδιου παράγοντα από ότι με μεταβλητές άλλων παραγόντων. Ερμηνεία του παράγοντα σύμφωνα με το νόημα των μεταβλητών που αντιστοιχούν σ΄ αυτόν. Για παράδειγμα οι απαντήσεις σε ένα σύνολο 12 ερωτήσεων που ομαδοποιούνται σε ένα παράγοντα, μπορεί εκφράζουν και να μετρούν τη στάση του μαθητή σχετικά με την χρησιμότητα των Μαθηματικών. Η παραγοντική Ανάλυση περιγράφει πολλές μεταβλητές με τη βοήθεια λίγων παραγόντων. Το SPSS και άλλα λογισμικά μπορούν να υπολογίσουν τις τιμές των υποκειμένων για κάθε παράγοντα που μπορεί στη συνέχεια να χρησιμοποιηθεί για την εκτέλεση ελέγχων t, ανάλυσης διακύμανσης, ανάλυση παλινδρόμησης κ.λπ.
Υπολογισμός του πίνακα συσχετίσεων ή συνδιακυμάνσεων . Βήματα της Π.Α. Υπολογισμός του πίνακα συσχετίσεων ή συνδιακυμάνσεων . Αν μια μεταβλητή σχετίζεται ελάχιστα με τις υπόλοιπες μπορεί να μη χρησιμοποιηθεί. Πρέπει να ελεγχθούν ωστόσο ο βαθμός κοινής χρήσης (communality) και τα φορτία (factor loading) της μεταβλητής. Εκτίμηση παραγοντικών φορτίων. Εδώ αποφασίζουμε αν θα χρησιμοποιηθεί η PCA ή μια από τις μεθόδους της FA. Συνήθως αρχίζουμε με PCA Περιστροφή των παραγόντων και αλλαγή των φορτίων για να προκύψουν φορτία με ευκολότερη ερμηνεία. Οι μέθοδοι περιστροφής έχουν την τάση να δίνουν φορτία είτε μεγάλα είτε μικρά, όχι ενδιάμεσα. Μετά από αυτό το αποτέλεσμα μπορεί να ερμηνευτεί μικρότερος αριθμός παραγόντων Για κάθε υποκείμενο μπορεί να υπολογιστούν τιμές για κάθε παράγοντα και να αποθηκευτούν ως μεταβλητές που θα χρησιμοποιηθούν σε άλλες αναλύσεις. Οι αποθηκευμένες τιμές μπορεί να χρησιμοποιηθούν για ανίχνευση ακραίων τιμών.
Προϋποθέσεις της Factor Analysis (Παραγοντικής Ανάλυσης) Το πηλίκο [μέγεθος δείγματος / αριθμός μεταβλητών] πρέπει να ξεπερνά οπωσδήποτε το 5 και στην περίπτωση που οι μεταβλητές αποκλίνουν σοβαρά από την κανονική κατανομή πρέπει να ξεπερνά το 10. Πριν εκτελεστούν τα παραπάνω βήματα πρέπει ελεγχθούν οι μεταβλητές, μια προς μια, για πιθανή παρουσία ακραίων τιμών και σοβαρών αποκλίσεων από την κανονικότητα. Αν παρουσιασθούν προβλήματα μπορεί να χρειαστεί μετασχηματισμός μιας ή περισσότερων μεταβλητών. Έλεγχος για ελλείπουσες τιμές. Μια σύγχρονη προσέγγιση είναι η εκτίμηση των ελλειπουσών τιμών με τη βοήθεια των συσχετίσεων όλων των μεταβλητών που εμπλέκονται στην Παραγοντική Ανάλυση. Παράδειγμα τέτοιας προσέγγισης είναι αλγόριθμος EM που υπάρχει στο πακέτο «Missing Values Analysis” του SPSS.
Ανάλυση σε κύριες συνιστώσες Στη ανάλυση σε κύριες συνιστώσες υπολογίζεται ο γραμμικός συνδυασμός των μεταβλητών για τον οποίο πραγματοποιείται η μεγαλύτερη διακύμανση στο δείγμα. Ο δεύτερος έχει το μεγαλύτερο ποσό διακύμανσης σε μια διάσταση ανεξάρτητη από την πρώτη κ.λ.π. Οι διαδοχικές συνιστώσες εξηγούν όλο και λιγότερο ποσοστό της συνολικής διακύμανσης και είναι ανεξάρτητες μεταξύ τους. Σε κάθε επίλυση υπάρχουν τελικά τόσες συνιστώσες όσες και μεταβλητές. Το ιδανικό είναι οι πρώτες λίγες συνιστώσες να αθροίζουν ένα μεγάλο ποσοστό της διακύμανσης.
Η εξισώσεις του υποδείγματος της Ανάλυση σε κύριες συνιστώσες C = w1(Y1) + w2(Y2) + w3(Y3) + w4(Y4) Ο παράγοντας είναι γραμμικός συνδυασμός των παρατηρούμενων μεταβλητών
Οι εξισώσεις του υποδείγματος της Factor Aanalysis Ενώ η συνιστώσες (της PCA) είναι γραμμικοί συνδυασμοί των παρατηρούμενων μεταβλητών στην FA, οι μεταβλητές είναι γραμμικοί συνδυασμοί λανθανουσών μεταβλητών. Στην FA εκφράζει κάθε μεταβλητή ως συνάρτηση κοινών παραγόντων για όλες τις μεταβλητές και ενός ατομικού παράγοντα. Υj = bj1*F1+ bj2*F2+…..+ bjm*Fm + UJ Όπου Yj = η j τυποποιημένη μεταβλητή Fi = κοινός παράγοντας Uj = ο μοναδικός παράγοντας της Μεταβλητής j Ο κοινός παράγοντας F είναι η αιτία των απαντήσεων στις Υ
Παράδειγμα Factor Analysis: Μελέτη παραγόντων νοημοσύνης Αρχείο: grant.sav
Factor Analysis: 1. Η καταλληλότητα δεδομένων για την παραγοντική Ανάλυση Συσχετίσεις μεταξύ των μεταβλητών δείγμα κατάλληλο για Παραγοντική Ανάλυση αν KMO >0,6 και Bartlett’s test σημαντικό (p<0,05)
Factor Analysis: 1. Η καταλληλότητα δεδομένων για την παραγοντική Ανάλυση KMO >0,6 και Η μηδενική υπόθεση στο Bartlett’s test είναι ότι όλες οι συσχετίσεις μεταξύ των 6 μεταβλητών είναι 0. Στην περίπτωσή μας απορρίπτεται (p<0,05) Συνεπώς το δείγμα είναι κατάλληλο για την Παραγοντική Ανάλυση Η διαγώνιος περιέχει τις τιμές καταλληλότητας δείγματος (MSA) για κάθε μία από τις μεταβλητές ξεχωριστά. Τιμές MSA μεγαλύτερες του 0.60 δηλώνουν καταλληλότητα της μεταβλητής
Factor Analysis: 2. Ο αριθμός των παραγόντων που λανθάνουν πίσω από τις παρατηρούμενες μεταβλητές Μέθοδοι Ερμηνεύονται οι παράγοντες με Ιδιοτιμές μεγαλύτερες του 1. Η λογική πίσω από αυτή την προσέγγιση είναι ότι επειδή όλες οι παρατηρούμενες μεταβλητές είναι τυποποιημένες και άρα έχουν διακύμανση=1 κάθε παράγοντας με ιδιοτιμή δηλαδή διακύμανση >1 έχει περισσότερα να πει από μια απλή μεταβλητή. Η μέθοδος του γραφήματος ιδιοτιμών (scree plot) που παρουσιάζεται στην επόμενη διαφάνεια οδηγεί στην επιλογή των πρώτων παραγόντων που φαίνεται να μην προκύπτουν στην τύχη.
Factor Analysis: 2. Ο αριθμός των παραγόντων που λανθάνουν πίσω από τις παρατηρούμενες μεταβλητές Η επιλογή «Scree plot» θα δώσει το γράφημα των ιδιοτιμών ή διακυμάνσεων των εξαγόμενων παραγόντων. Η μελέτη του γραφήματος οδηγεί στον αριθμό των παραγόντων που θα ερμηνευτούν στη συνέχεια Ο αριθμός των ιδιοτιμών που βρίσκονται σαφώς πάνω από την πράσινη γραμμή δίνει και τον αριθμό των παραγόντων που θα ερμηνευτούν. Στην περίπτωσή μας θα ερμηνευτούν οι δύο πρώτοι παράγοντες με ιδιοτιμές 3 και 1,2
Factor Analysis: 2. Ο αριθμός των παραγόντων που λανθάνουν πίσω από τις παρατηρούμενες μεταβλητές Η παράλληλη ανάλυση (parallel analysis) είναι η πιο σύγχρονη μέθοδος που ελέγχει πόσοι από τους πρώτους στην τάξη παράγοντες διαφέρουν σημαντικά από αυτούς που θα προκύπταν “στην τύχη” από δεδομένα ίδιων διαστάσεων στα οποία όμως οι συσχετίσεις μεταξύ των μεταβλητών είναι 0. Παρακάτω δίνεται το output από το πρόγραμμα Monte Carlo PCA (Marley W. Watkins, 2000) με τις οι μέσες τιμές και η τυπικές από κλίσεις ιδιοτιμών από τις αναλύσεις 500 τυχαίων δειγμάτων από κανονικό πληθυσμό αριστερά και το output του SPSS με τις ιδιοτιμές των 6 παραγόντων για το δείγμα μας. H πρώτη και δεύτερη ιδιοτιμή των δεδομένων μας είναι 3 και 1,225 και αντίστοιχα μεγαλύτερες των τιμών του πίνακα. Δεν συμβαίνει το ίδιο με την 3η ιδιοτιμή των δεδομένων μας 0,656. Συνεπώς προτείνονται δυο παράγοντες
Factor Analysis: 3. Επιλογή Μεθόδου εξαγωγής παραγόντων, αριθμού παραγόντων και μεθόδου περιστροφής Στην περιστροφή των παραγόντων, που είναι απαραίτητη επειδή διευκολύνει την ερμηνεία των παραγόντων προτείνεται η “Direct Oblimin” που θεωρεί ότι οι εξαγόμενοι παράγοντες συσχετίζονται Η επικρατέστερη ιστορικά επιλογή “Varimax” ορίζει την συσχέτιση μεταξύ των παραγόντων ίση με 0 Υπάρχει μια μεγάλη γκάμα μεθόδων εξαγωγής Παραγόντων. Οι διαφορές του οφείλονται κυρίως στο τρόπο υπολογισμού της διαγώνιου του πίνακα συσχετίσεων. Επικρατέστερη (βιβλιογραφικά) επιλογή: Principal axis factoring Εξ ορισμού εξάγονται οι παράγοντες με ιδιοτιμή >1 Βάζουμε τον αριθμό παραγόντων που θέλουμε να ερμηνεύσουμε σύμφωνα με αναζήτηση στο στάδιο 2 που ήταν 2 παράγοντες
Factor Analysis: 4. Χειρισμός των ελλειπουσών τιμών και επιλογές βέλτιστης παρουσίασης των αποτελεσμάτων Η επιλογή “Exclude cases listwise” δηλαδή εξαίρεση από την ανάλυση όσων περιπτώσεων έχουν έστω και μια ελλείπουσα τιμή. Είναι η καλύτερη ίσως προσέγγιση όταν ο αριθμός των ελλειπουσών τιμών είναι περιορισμένος σε λίγα σχετικά άτομα του δείγματος. Αν όμως το 40% πχ. των ατόμων έχουν τουλάχιστον μια ελλείπουσα τιμή, έχουμε μεγάλη απώλεια δεδομένων και θα προτιμηθεί άλλη προσέγγιση Η επιλογή “Exclude cases listwise” υπολογίζει τις συσχετίσεις με όλα τα διαθέσιμα δεδομένα άρα με διαφορετικό μέγεθος δείγματος κάθε φορά. Επιλογή «Replace with mean” υποκαθιστά μια ελλείπουσα τιμή με τη μέση τιμή της μεταβλητής στην οποία ανήκει. Δεν προτείνεται πλεον, Οι επιλογές αυτές δεν επηρεάζουν καθόλου το αποτέλεσμα της ανάλυσης αλλά διευκολύνουν την ανάγνωση των πινάκων αποτελεσμάτων. Στη θέση absolute value below συνήθης τιμή είναι πχ. το 0,5 σε μικρά δείγματα και 0,35 σε μεγάλα
Factor Analysis: {Αποτελέσματα} Communality Initial είναι το ποσοστό της διακύμανσης μιας μεταβλητής που ερμηνεύεται από το σύνολο των υπόλοιπων μεταβλητών. Πχ. Το 26,6 της διακύμανσης της visperc ερμηνεύεται από τις υπόλοιπες μεταβλητές Extraction είναι το ποσοστό της διακύμανσης μιας μεταβλητής που ερμηνεύεται από τους παράγοντες επιλέχτηκαν (εδώ 2. Πχ. Το 36,4 της διακύμανσης της visperc ερμηνεύεται από τους δύο παράγοντες. Τιμές >0,5 είναι επιθυμητές. Τιμές <0,2 θα οδηγούσαν στην εξαίρεση της μεταβλητής
Factor Analysis: {Αποτελέσματα} Συνολική διακύμανση που ερμηνεύεται Οι παράγοντες παρουσιάζονται με φθίνουσα σειρά ιδιοτιμής ( διακύμανσης από τη συνολική διακύμανση που καταλαμβάνουν) Η συνολική διακύμανση είναι ίση με 6 όσες και οι μεταβλητές της ανάλυσης. Οι δύο πρώτοι παράγοντες ερμηνεύουν το 70,55 % της συνολικής διακύμανσης
Factor Analysis: {Αποτελέσματα} Φορτίσεις στους παράγοντες χωρίς περιστροφή παραγόντων(αριστερα) και με στροφή παραγόντων (δεξιά)
Factor Analysis: {Αποτελέσματα} Γραφήματα Φορτίσεων στους παράγοντες χωρίς περιστροφή παραγόντων(αριστερα) και με στροφή παραγόντων (δεξιά) Στο γράφημα δεξιά κάθε ομάδα μεταβλητών βρίσκεται πάνω σε ένα παράγοντα (υψηλές φορτίσεις στον παράγοντα) και μηδενικές σχεδόν φορτίσεις στον άλλο παράγοντα. Έτσι η ερμηνεία είναι άμεση. Ο πρώτος παράγοντας συνδέεται με την πρώτη ομάδα μεταβλητών και δεύτερος με την άλλη. Στο αριστερό γράφημα η διαδικασία αυτή είναι ιδιαίτερα δύσκολη
Factor Analysis: {Αποτελέσματα} Φορτίσεις στους παράγοντες με περιστροφή παραγόντων (φορτίσεις <0,45 δεν εμφανίζονται) Παράγοντας Χωρικής νοημοσύνης Οι συντελεστές αυτοί ονομάζονται φορτία ή φορτίσεις (loadings) πάιρνουν τιμές στο διάστημα [-1 1] και εκφράζουν τη συσχέτιση (γραμμική) της μεταβλητής με τον παράγοντα. Αυτός ο πίνακας των φορτίσεων σχολιάζεται απαραίτητα στις εργασίες
Factor Analysis: {Αποτελέσματα} Πίνακας των συσχετίσεων μεταξύ των παραγόντων που ερμηνεύονται Η ύπαρξη τουλάχιστον ενός μεσαίου μεγέθους (>0,3) και σημαντικού συντελεστή συσχέτισης, δικαιολογεί την επιλογή μας για μη ορθογώνια περιστροφή παραγόντων. Σε αντίθετη περίπτωση μπορούμε να εκτελέσουμε ξανά την ανάλυση επιλέγοντας την ορθογώνια varimax περιστροφή. Εδώ η συσχέτιση είναι σχεδόν υψηλή (0,49) και δικαιολογείται η επιλογή μας. Άτομα με υψηλές χωρικές δεξιότητές εμφανίζουν συνήθως υψηλές τιμές και στις λεξικές δεξιότητες και αντίστροφα. Και Αυτός ο πίνακας των φορτίσεων σχολιάζεται απαραίτητα στις εργασίες
Factor Analysis: Παραγοντική εγκυρότητα Στην βιβλιογραφία αναφέρονται : Συγκλίνουσα εγκυρότητα παράγοντα. Οι μεταβλητές που συνδέονται ισχυρά με τον παράγοντα οφείλουν να μοιράζονται μεγάλο μέρος της διακύμανσης του. Οι φορτίσεις των παρατηρούμενων μεταβλητών που συνδέονται με τον παράγοντα πρέπει να είναι μεγαλύτερες του 0,7. Δηλαδή η διακύμανσή τους που οφείλεται στον παράγοντα πρέπει είναι μεγαλύτερη του 0,72=0,49 δηλαδή περίπου το 50% της μεταβλητότητάς της. Αυτή είναι πολύ αυστηρή συνθήκη που μπορεί να χαλαρώσει (0,5) Για κάθε παράγοντα, υπολογίζεται ο δείκτης Average Variance Extracted (AVE) που είναι η μέση τιμή τετραγώνων των φορτίσεων των μεταβλητών που συνδέονται με ένα παράγοντα. Η συγκλίνουσα εγκυρότητα του παράγοντα είναι αποδεκτή αν AVE ≥ 0,5 Ο παράγοντας των “λεκτικής νοημοσύνης” παρουσιάζει πολύ καλή συγκλίνουσα εγκυρότητα (AVE (0,8582 + 0,8472 + 0,8052)/3=0,7 >0,5) όχι όμως και ο παράγοντας 2 των “χωρικής νοημοσύνης” (AVE=0,4<0,5)
Factor Analysis: Παραγοντική εγκυρότητα Διακρίνουσα εγκυρότητα παράγοντα. Σε γενικές γραμμές αυτή υφίσταται όταν οι συσχετίσεις μεταξύ του παράγοντα και των μεταβλητών είναι ισχυρότερες των συσχετίσεων του παράγοντα με άλλους παράγοντες. Την αρχή αυτή εκφράζει το κριτήριο με το Fornell-Larcker Criterion (Fornell & Larcker, 1981), σύμφωνα με το οποίο η διακρίνουσα εγκυρότητα ενός παράγοντα j είναι αποδεκτή όταν ισχύει: AVE( ξ j )> max |r ij | ∀i≠j , Όπου rij ο συντελεστή συσχέτισης μεταξύ των παραγόντων ξi και ξj . Η διακρίνουσα εγκυρότητα και των δύο παραγόντων της ανάλυσής μας ικανοποιείται σύμφωνα με το κριτήριο Fornell-Larcker αφού Για τον παράγοντα Χωρικής νοημοσύνης έχουμε 𝟎,𝟒 =𝟎,𝟔𝟐>𝟎,𝟒𝟗 και κατά μείζονα λόγο και για τον παράγοντα της Λεκτικής νοημοσύνης
Βιβλιογραφία Gorsuch, R. L. 1983. Factor Analysis, 2nd ed. Hillsdale, New Jersey: Lawrence Erlbaum Associates. Harman, H. H. 1976. Modern Factor Analysis, 3rd ed. Chicago: University of Chicago Press. Kim, J., and C. W. Mueller. 1978. Factor Analysis : What It Is and How To Do It. Beverly Hills and London: Sage Publications. Kim, J., and C. W. Mueller. 1978. Factor Analysis : Statistical Methods and Practical Issues. Beverly Hills and London: Sage Publications. Kline, P. 1994. An Easy Guide to Factor Analysis. London: Routledge. Norusis, M. 2004. SPSS 13.0 Statistical Procedures Companion. Upper Saddle-River, N.J.: Prentice Hall, Inc.. Tabachnick, B. G., & Fidell, L. S. (2007). Using multivariate statistics (5th ed.). Boston, MA, : Allyn & Bacon/Pearson Education.