Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
ΔημοσίευσεΣωκράτης Λούλης Τροποποιήθηκε πριν 6 χρόνια
1
ΑΝΑΛΥΣΗ ΔΙΑΣΠΟΡΑΣ (β’ μέρος) – ΑΝΑΛΥΣΗ ΚΥΡΙΩΝ ΣΥΝΙΣΤΩΣΩΝ
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΤΕΧΝΟΛΟΓΙΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗΝ ΙΑΤΡΙΚΗ ΚΑΙ ΤΗ ΒΙΟΛΟΓΙΑ ΜΑΘΗΜΑ : ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΑΝΑΛΥΣΗ ΔΙΑΣΠΟΡΑΣ (β’ μέρος) – ΑΝΑΛΥΣΗ ΚΥΡΙΩΝ ΣΥΝΙΣΤΩΣΩΝ ΔΙΟΝΥΣΗΣ ΛΙΝΑΡΔΑΤΟΣ 21 ΔΕΚΕΜΒΡΙΟΥ 2017
2
Ανάλυση Διασποράς Επανάληψη της N-way ANOVA
Πολυμεταβλητή ANOVA (MANOVA) Μη παραμετρική 2-way ANOVA Ανάλυση Κυρίων Συνιστωσών (PCA)
3
1. Επανάληψη της N-way ANOVA
Για προτιμούμε να χρησιμοποιούμε την N-way ANOVA αντί για N One-way ANOVA? Με την N-way ANOVA μπορούμε να διερευνήσουμε αλληλεπιδράσεις ενώ οι πολλαπλές One-way ANOVA δεν επιτρέπουν τη διερεύνηση των αλληλεπιδράσεων. Με την N-way ANOVA, οι πόροι μπορούν να χρησιμοποιηθούν περισσότερο αποτελεσματικά. Η μεταβλητότητα του σφάλματος μειώνεται εισάγοντας νέους παράγοντες και υπολογίζοντας την αλληλεπίδραση.
4
1. Επανάληψη της N-way ANOVA
Έστω ότι ένας ερευνητής μελετά τα αποτελέσματα δύο διαφορετικών φαρμακευτικών αγωγών της μόλυνσης από HIV. Τα επίπεδα της δόσης για καθένα από τα δύο αυτά φάρμακα είναι «υψηλή», «κανονική» και «χαμηλή» δόση. Συνεπώς για τη μελέτη απαιτείται μια 3x3 2-way ANOVA. Επομένως, ο ερευνητής πρέπει να έχει 9(=3x3) διακριτές ομάδες. Έστω ότι 8 άνθρωποι αντιστοιχούνται σε καθεμία από τις 9 ομάδες. Ο ερευνητής χρειάζεται 72 ανθρώπους για την έρευνα. Καθένας από τους δύο παράγοντες έχει 24 ανθρώπους που αντιστοιχούνται σε καθένα από τα επίπεδα αυτού. Εάν ο ερευνητής αποφάσιζε να διεξάγει δύο ξεχωριστές one-way ANOVA και αντιστοιχούσε 24 ανθρώπους σε κάθε επίπεδο, θα χρειαζόταν 144(=2x3x24) ανθρώπους αντί για 72 στην περίπτωση αυτή.
5
1. Επανάληψη της N-way ANOVA
Εάν πραγματοποιείτο μία One-way ANOVA για το πρώτο φάρμακο (στη μελέτη HIV) καθένα από τα τρία επίπεδα του πρώτου φαρμάκου θα περιείχε και τα τρία επίπεδα του δεύτερου φαρμάκου. Εάν είχαμε μία επίδραση λόγω του δεύτερου φαρμάκου, αυτή η μεταβλητότητα θα περιλαμβανόταν στο άθροισμα τετραγώνων του σφάλματος. Στην 2-way ANOVA, το δεύτερο φάρμακο εισάγεται ως ένας παράγοντας. Επομένως, η μεταβλητότητά του απομακρύνεται από το άθροισμα τετραγώνων του σφάλματος, μειώνοντας γενικά τα μέσα τετράγωνα του σφάλματος και αυξάνοντας έτσι την F στατιστική για το πρώτο φάρμακο. Γενικά, όταν έχουμε ένα δεύτερο, ένα τρίτο, κλπ παράγοντα στο σχεδιασμό του πειράματος, αυξάνουμε την ισχύ των στατιστικών ελέγχων.
6
1. Επανάληψη της N-way ANOVA
X=[2 6;2 6; 2 2;2 2]; [p2,table2]=anova2(X,2); [p1,table1]=anova1(X);
7
1. Επανάληψη της N-way ANOVA
Πώς ερμηνεύουμε τη σημαντικότητα μιας αλληλεπίδρασης; Η αλληλεπίδραση συμβαίνει όταν η επίδραση ενός παράγοντα στην εξαρτημένη μεταβλητή δεν είναι η ίδια για όλα τα επίπεδα ενός άλλου παράγοντα. Εάν τα αποτελέσματα της N-way ANOVA δείχνουν ότι δεν έχουμε σημαντική αλληλεπίδραση μεταξύ δύο παραγόντων, τότε τα επίπεδα του πρώτου παράγοντα δεν αλληλεπιδρούν με τα επίπεδα του δεύτερου. Με άλλα λόγια, μια μεταβολή του πρώτου παράγοντα δεν μεταβάλει την απόκριση του δεύτερου παράγοντα και αντίστροφα. Εάν η N-way ANOVA έχει ως αποτέλεσμα τη σημαντική αλληλεπίδραση μεταξύ δύο παραγόντων, τότε τα επίπεδα του πρώτου παράγοντα αλληλεπιδρούν με τα επίπεδα του δεύτερου παράγοντα. Με άλλα λόγια, η απόκριση του πρώτου παράγοντα εξαρτάται από το δεύτερο παράγοντα και αντίστροφα. Τις περισσότερες φορές, ο σκοπός της πραγματοποίησης ενός πειράματος είναι η διερεύνηση αυτής καθεαυτής της αλληλεπίδρασης (π.χ. η έρευνα του τρόπου που ο ανθρώπινος οργανισμός συμπεριφέρεται όταν υπόκειται σε συνδυασμό φαρμάκων).
8
1. Επανάληψη της N-way ANOVA
Ανεξαρτησία Οι παρατηρήσεις είναι ανεξάρτητες. Κανονικότητα Οι παρατηρήσεις σε κάθε κελί ακολουθούν την κανονική κατανομή. Ισότητα διασπορών Οι παρατηρήσεις σε κάθε κελί έχουν ίσες διασπορές.
9
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.1 Έστω ότι πραγματοποιούμε μια 2-way ANOVA. Πόσα και ποια είναι τα πιθανά εξαγόμενα που θα μπορούσαν να προκύψουν από την ανάλυση; Υπάρχουν οκτώ δυνατά αποτελέσματα που θα μπορούσαν να προκύψουν ως στατιστικώς σημαντικά στην ανάλυση. Αυτά είναι : Κανένα Κύρια επίδραση του παράγοντα A Κύρια επίδραση του παράγοντα B Κύριες επιδράσεις και των δύο παραγόντων (A και B) AxB αλληλεπίδραση AxB αλληλεπίδραση και κύρια επίδραση του παράγοντα A AxB αλληλεπίδραση και κύρια επίδραση του παράγοντα B AxB αλληλεπίδραση και κύριες επιδράσεις και των δύο παραγόντων (A και B)
10
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.2 Έστω ότι όλες οι παραδοχές που είναι απαραίτητες για την πραγματοποίηση της 2x2 2-way ANOVA για τους παράγοντες A και B ισχύουν. Ποιο είναι το αποτέλεσμα της ανάλυσης σε κάθε μία από τις ακόλουθες περιπτώσεις για τους παράγοντες A και B; (Επίπεδο σημαντικότητας : 0.05) 1η περίπτωση Παράγοντας A Επίπεδο A1 Επίπεδο A2 Παράγοντας B Επίπεδο B1 4 Επίπεδο B2 2η περίπτωση Παράγοντας A Επίπεδο A1 Επίπεδο A2 Παράγοντας B Επίπεδο B1 3 5 Επίπεδο B2
11
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.2 (συν.) 3η περίπτωση Παράγοντας A Επίπεδο A1 Επίπεδο A2 Παράγοντας B Επίπεδο B1 4 Επίπεδο B2 2 4η περίπτωση Παράγοντας A Επίπεδο A1 Επίπεδο A2 Παράγοντας B Επίπεδο B1 4 6 Επίπεδο B2 2 5η περίπτωση Παράγοντας A Επίπεδο A1 Επίπεδο A2 Παράγοντας B Επίπεδο B1 3 5 Επίπεδο B2
12
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.2 (συν.) 6η περίπτωση Παράγοντας A Επίπεδο A1 Επίπεδο A2 Παράγοντας B Επίπεδο B1 2 6 Επίπεδο B2 4 7η περίπτωση Παράγοντας A Επίπεδο A1 Επίπεδο A2 Παράγοντας B Επίπεδο B1 5 3 Επίπεδο B2 1
13
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.2 (συν.) 8η περίπτωση Παράγοντας A Επίπεδο A1 Επίπεδο A2 Παράγοντας B Επίπεδο B1 2 6 Επίπεδο B2
14
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.2 (συν.) Σε όλες τις περιπτώσεις, ελέγχουμε τις ακόλουθες μηδενικές υποθέσεις εφαρμόζοντας την 2-way ANOVA: H0A : μA1=μA2, H1A : όχι η H0A H0B : μB1=μB2, H1B : όχι η H0B Επιπροσθέτως, στις περιπτώσεις που έχουμε επαναλήψεις ελέγχουμε την ακόλουθη μηδενική υπόθεση : H0AxB : Καμία αλληλεπίδραση μεταξύ των παραγόντων A και B, H1AxB : όχι η H0AxB
15
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.2 (συν.) 1η περίπτωση : X=[ 4 4; 4 4]; [p,table]=anova2(X); p =[ ] Επομένως, καμία επίδραση δεν είναι σημαντική. 1η περίπτωση Παράγοντας A Επίπεδο A1 Επίπεδο A2 Παράγοντας B Επίπεδο B1 4 Επίπεδο B2
16
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.2 (συν.) 2η περίπτωση : X=[3 5; 3 5]; [p,table]=anova2(X); p =[0 1] Επομένως, η κύρια επίδραση του παράγοντα A είναι σημαντική. 2η περίπτωση Παράγοντας A Επίπεδο A1 Επίπεδο A2 Παράγοντας B Επίπεδο B1 3 5 Επίπεδο B2
17
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.2 (συν.) 3η περίπτωση : X=[4 4 ; 2 2]; [p,table]=anova2(X); p =[1 0] Επομένως, η κύρια επίδραση του παράγοντα B είναι σημαντική. 3η περίπτωση Παράγοντας A Επίπεδο A1 Επίπεδο A2 Παράγοντας B Επίπεδο B1 4 Επίπεδο B2 2
18
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.2 (συν.) 4η περίπτωση : X=[4 6 ; 2 4]; [p,table]=anova2(X); p =[0 0] Επομένως, οι κύριες επιδράσεις και των δύο παραγόντων A και B είναι σημαντικές. 4η περίπτωση Παράγοντας A Επίπεδο A1 Επίπεδο A2 Παράγοντας B Επίπεδο B1 4 6 Επίπεδο B2 2
19
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.2 (συν.) 5η περίπτωση : X=[3 5; 3 5; 5 3; 5 3]; [p,table]=anova2(X,2); p =[1 1 0] Επομένως, η αλληλεπίδραση μεταξύ των παραγόντων A και B είναι σημαντική. 5η περίπτωση Παράγοντας A Επίπεδο A1 Επίπεδο A2 Παράγοντας B Επίπεδο B1 3 5 Επίπεδο B2
20
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.2 (συν.) 6η περίπτωση : X=[2 6; 2 6; 4 4; 4 4]; [p,table]=anova2(X,2); p =[0 1 0] Επομένως, η κύρια επίδραση του παράγοντα A και η αλληλεπίδραση μεταξύ των παραγόντων A και B είναι σημαντικές. 6η περίπτωση Παράγοντας A Επίπεδο A1 Επίπεδο A2 Παράγοντας B Επίπεδο B1 2 6 Επίπεδο B2 4
21
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.2 (συν.) 7η περίπτωση : X=[5 3;5 3;1 3;1 3]; [p,table]=anova2(X,2); p =[1 0 0] Επομένως, η κύρια επίδραση του παράγοντα B και η αλληλεπίδραση μεταξύ των παραγόντων A και B είναι σημαντικές. 7η περίπτωση Παράγοντας A Επίπεδο A1 Επίπεδο A2 Παράγοντας B Επίπεδο B1 5 3 Επίπεδο B2 1
22
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.2 (συν.) 8η περίπτωση : X=[2 6;2 6; 2 2;2 2]; [p,table]=anova2(X,2); p =[0 0 0] Επομένως, η κύρια επίδραση και των δύο παραγόντων A και B και η αλληλεπίδραση μεταξύ των παραγόντων A και B είναι σημαντικές. 8η περίπτωση Παράγοντας A Επίπεδο A1 Επίπεδο A2 Παράγοντας B Επίπεδο B1 2 6 Επίπεδο B2
23
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.3 Ένας κλινικός ψυχολόγος ερευνά την επίδραση ενός νέου φαρμάκου σε συνδυασμό με ακολουθούμενη θεραπεία σχιζοφρενών ασθενών (ανδρών και γυναικών). Το φάρμακο χορηγείται σε τρεις δόσεις (absent, low, high). Η θεραπεία είναι τεσσάρων τύπων : Behavior Modification (BMod), Psychodynamic (Psycho), Group Counseling (Group) και Nondirective Counseling (Nondir). Οι μετρήσεις παρουσιάζονται στον Πίνακα 1. Η εξαρτημένη μεταβλητή είναι η συμπεριφορά. Θέτοντας το φύλο ως τον παράγοντα A (2 επίπεδα), τη δόση του φαρμάκου ως τον παράγοντα B (3 επίπεδα) και τη θεραπεία ως τον παράγοντα C (4 επίπεδα) πραγματοποιούμε μια 2x3x4 3-way ANOVA (δεδομένου ότι όλες οι απαιτούμενες παραδοχές ισχύουν). Ποια είναι τα συμπεράσματα για τις κύριες επιδράσεις και τις αλληλεπιδράσεις των παραγόντων A, B και C ; Επίπεδο σημαντικότητας = 0.05.
24
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.3 (συν.) Πίνακας 1 Φύλο Δόση Θεραπεία Συμπεριφορά male absent Bmod 25 22 23 female 24 Psycho 27 26 Φύλο Δόση Θεραπεία Συμπεριφορά male absent Group 20 25 19 female 21 18 Nondir 22 17 Φύλο Δόση Θεραπεία Συμπεριφορά male low Bmod 25 20 21 female 22 24 Psycho 19 23
25
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.3 (συν.) Πίνακας 1 (συν.) Φύλο Δόση Θεραπεία Συμπεριφορά male low Group 22 25 female 21 26 Nondir 23 28 27 Φύλο Δόση Θεραπεία Συμπεριφορά male high Bmod 22 28 20 female 30 26 21 Psycho 24 27 25 Φύλο Δόση Θεραπεία Συμπεριφορά male high Group 27 25 28 female 29 24 26 Nondir 20 21
26
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.3 (συν.) Μπορούμε να διαμορφώσουμε τον ακόλουθο πίνακα για τα διάφορα επίπεδα των τριών παραγόντων : Male Female Absent Low High Bmod 25 22 23 20 21 28 24 30 26 Psycho 27 19 Group 18 29 Nondir 17
27
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.3 (συν.) Οι μηδενικές υποθέσεις που ελέγχουμε με την 3-way ANOVA είναι οι ακόλουθες: H0A : μmale=μfemale, H1A : όχι η H0A H0B : μabsent=μlow=μhigh, H1B : όχι η H0B H0C : μBMOD=μPsycho=μGroup=μNondir, H1C : όχι η H0C H0AxB : Καμία αλληλεπίδραση μεταξύ φύλου – φαρμάκου, H1AxB : όχι η H0AxB H0AxC : Καμία αλληλεπίδραση μεταξύ φύλου – θεραπείας, H1AxC : όχι η H0AxC H0BxC : Καμία αλληλεπίδραση μεταξύ φαρμάκου – θεραπείας, H1BxC : όχι η H0BxC H0AxBxC : Καμία αλληλεπίδραση μεταξύ φύλου – φαρμάκου – θεραπείας , H1AxBxC : όχι η H0AxBxC
28
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.3 (συν.) y=[ ……..]; g1=[‘male’; ‘male’; ‘male’; ‘female’; ‘female’; ‘female’; ‘male’; …]; g2=[‘absent’; ‘absent’; ‘absent’; ‘absent’; ‘absent’; ‘absent’;…]; g3=[‘Bmod’; ‘Bmod’; ‘Bmod’; ‘Bmod’; ‘Bmod’;…]; p = anovan(y, {g1 g2 g3}, 'model', ‘full') Φύλο Δόση Θεραπεία Συμπεριφορά male absent Bmod 25 22 23 female 24 Psycho 27 26 Ας θυμηθούμε ότι στη συνάρτηση anovan : Το όρισμα modeltype μπορεί να είναι κάποιο από τα εξής: 'linear' : Υπολογισμός μόνο των p-τιμών για τις μηδενικές υποθέσεις των N κύριων επιδράσεων. 'interaction' : Υπολογισμός των p-τιμών για τις μηδενικές υποθέσεις των N κύριων επιδράσεων και των αλληλεπιδράσεων για δύο παράγοντες. 'full’ : Υπολογισμός των p-τιμών για τις μηδενικές υποθέσεις των N κύριων επιδράσεων και των αλληλεπιδράσεων σε όλα τα επίπεδα. An integer : Υπολογισμός όλων των αλληλεπιδράσεων μέχρι το k-στό επίπεδο. Ένας πίνακας με τους ορισμούς των όρων (όλα τα στοιχεία του πρέπει να είναι 0 ή 1).
29
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.3 (συν.) y=[ ]; y=[y ]; g1=['male '; 'male '; 'male '; 'female'; 'female'; 'female'; 'male '; 'male '; 'male '; 'female'; 'female'; 'female']; g1=[g1;'male '; 'male '; 'male '; 'female'; 'female'; 'female'; 'male '; 'male '; 'male '; 'female'; 'female'; 'female']; g2=['absent'; 'absent'; 'absent'; 'absent'; 'absent'; 'absent';'absent'; 'absent'; 'absent'; 'absent'; 'absent'; 'absent']; g2=[g2;'absent'; 'absent'; 'absent'; 'absent'; 'absent'; 'absent';'absent'; 'absent'; 'absent'; 'absent'; 'absent'; 'absent'];
30
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.3 (συν.) g2=[g2;'low '; 'low '; 'low '; 'low '; 'low '; 'low ';'low '; 'low '; 'low '; 'low '; 'low '; 'low ']; g2=[g2;'high '; 'high '; 'high '; 'high '; 'high '; 'high ';'high '; 'high '; 'high '; 'high '; 'high '; 'high ']; g3=['Bmod '; 'Bmod '; 'Bmod '; 'Bmod '; 'Bmod ';'Bmod ';'Psycho';'Psycho';'Psycho'; 'Psycho';'Psycho';'Psycho']; g3=[g3;'Group '; 'Group '; 'Group '; 'Group '; 'Group ';'Group ';'Nondir';'Nondir';'Nondir'; 'Nondir';'Nondir';'Nondir']; g3=[g3;'Bmod '; 'Bmod '; 'Bmod '; 'Bmod '; 'Bmod ';'Bmod ';'Psycho';'Psycho'; ‘Psycho'; 'Psycho';'Psycho';'Psycho']; g3=[g3;'Bmod '; 'Bmod '; 'Bmod '; 'Bmod '; 'Bmod ';'Bmod ';'Psycho';'Psycho'; 'Psycho'; 'Psycho';'Psycho';'Psycho'];
31
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.3 (συν.) [p,table,stats] = anovan(y, {g1 g2 g3}, 'model', 'full') p =[ ] stats = source: 'anovan' resid: [72x1 double] coeffs: [60x1 double] Rtr: [24x24 double] rowbasis: [24x60 double] dfe: 48 mse: nullproject: [60x24 double] terms: [7x3 double] nlevels: [3x1 double] termcols: [8x1 double] coeffnames: {60x1 cell} vars: [60x3 double] varnames: {3x1 cell} grpnames: {3x1 cell} ems: [] denom: [] dfdenom: [] msdenom: [] varest: [] varci: [] txtdenom: [] txtems: [] rtnames: []
32
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.3 (συν.) Οι μηδενικές υποθέσεις που ελέγχουμε με την 3-way ANOVA είναι οι ακόλουθες: H0A : μmale=μfemale, H1A : όχι η H0A H0B : μabsent=μlow=μhigh, H1B : όχι η H0B H0C : μBMOD=μPsycho=μGroup=μNondir, H1C : όχι η H0C H0AxB : Καμία αλληλεπίδραση μεταξύ φύλου – φαρμάκου, H1AxB : όχι η H0AxB H0AxC : Καμία αλληλεπίδραση μεταξύ φύλου – θεραπείας, H1AxC : όχι η H0AxC H0BxC : Καμία αλληλεπίδραση μεταξύ φαρμάκου – θεραπείας, H1BxC : όχι η H0BxC H0AxBxC : Καμία αλληλεπίδραση μεταξύ φύλου – φαρμάκου – θεραπείας , H1AxBxC : όχι η H0AxBxC
33
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.3 (συν.) Επομένως, η κύρια επίδραση του παράγοντα B (το φάρμακο) είναι σημαντική. Επομένως, η αλληλεπίδραση μεταξύ των παραγόντων B (το φάρμακο) και C (η θεραπεία) είναι σημαντική.
34
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.3 (συν.) [p,table,stats] = anovan(y, {g1 g2 g3}, 'model', 'full'); c = multcompare(stats); c =
35
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.3 (συν.) [p,table,stats] = anovan(y, {g1 g2 g3}, 'model', 'full'); c = multcompare(stats,0.05,'on','tukey-kramer','anovan',[2]) c =
36
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.3 (συν.) [p,table,stats] = anovan(y, {g1 g2 g3}, 'model', 'full'); c = multcompare(stats,0.05,'on','tukey-kramer','anovan',[2 3])
37
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.3 (συν.)
38
1. Επανάληψη της N-way ANOVA
Παράδειγμα 1.3 (συν.) [p,table,stats] = anovan(y, {g1 g2 g3}, 'model', 'full'); c = multcompare(stats,0.05,'on','tukey-kramer','anovan',[ 1 2 3])
39
Ανάλυση Διασποράς Επανάληψη της N-way ANOVA
Πολυμεταβλητή ANOVA (MANOVA) Μη παραμετρική 2-way ANOVA Ανάλυση Κυρίων Συνιστωσών (PCA)
40
2. Πολυμεταβλητή ANOVA (MANOVA)
Μέχρι τώρα έχουμε συζητήσει την περίπτωση της N-way ANOVA όπου έχουμε μία μόνο εξαρτημένη μεταβλητή. Ωστόσο, υπάρχουν περιπτώσεις όπου έχουμε περισσότερες από μία εξαρτημένες μεταβλητές. Για παράδειγμα, μπορεί να έχουμε μία μελέτη στην οποία δοκιμάζουμε δύο διαφορετικά φάρμακα και ενδιαφερόμαστε για τη βελτίωση των ασθενών σε δύο ασθένειες. Στην περίπτωση αυτή, οι βελτιώσεις στις δύο ασθένειες είναι οι δύο εξαρτημένες μεταβλητές και η υπόθεσή μας είναι ότι και οι δύο επηρεάζονται από τα δύο φάρμακα. Η ανάλυση που χρησιμοποιούμε για την αντιμετώπιση του ανωτέρω παραδείγματος είναι η Πολυμεταβλητή Ανάλυση Διασποράς (MANOVA - Multivariate Analysis Of Variance). Σε αντιδιαστολή με τη MANOVA, η N-way ANOVA ονομάζεται Μονομεταβλητή ANOVA (Univariate ANOVA).
41
2. Πολυμεταβλητή ANOVA (MANOVA)
Η φιλοσοφία της Πολυμεταβλητής ANOVA είναι ανάλογη με αυτή της Μονομεταβλητής N-way ANOVA. Ωστόσο, αντί για μονομεταβλητή F τιμή, στη MANOVA έχουμε πολυμεταβλητή F τιμή. Απαιτείται προσοχή για την ερμηνεία των αποτελεσμάτων της MANOVA. Υπάρχουν πολλοί τύποι ερωτημάτων που μπορούν να απαντηθούν από τη MANOVA: Ποιες είναι οι κύριες επιδράσεις των ανεξάρτητων μεταβλητών; Ποιες είναι οι αλληλεπιδράσεις μεταξύ των ανεξάρτητων μεταβλητών; Ποια είναι η σπουδαιότητα των εξαρτημένων μεταβλητών; Ποια είναι η ισχύς της συσχέτισης μεταξύ των εξαρτημένων μεταβλητών;
42
2. Πολυμεταβλητή ANOVA (MANOVA)
Η MANOVA αποτελεί γενίκευση της ANOVA και καλύπτει περιπτώσεις όπου υπάρχουν περισσότερες από μία εξαρτημένες μεταβλητές και οι εξαρτημένες μεταβλητές δεν μπορούν με απλό τρόπο να συνδυαστούν. Η MANOVA αποτελεί ισχυρό στατιστικό εργαλείο. Είναι μια ANOVA με πολλές εξαρτημένες μεταβλητές. Εκτός από τον προσδιορισμό του εάν οι μεταβολές στις ανεξάρτητες μεταβλητές έχουν σημαντική επίδραση στις εξαρτημένες μεταβλητές, η MANOVA προσδιορίζει τις αλληλεπιδράσεις μεταξύ των ανεξάρτητων μεταβλητών και τη σχέση μεταξύ των εξαρτημένων μεταβλητών (εάν υπάρχει). Αν και η κατανόηση των επιδράσεων τέτοιων συσχετίσεων μπορεί να είναι ένα δύσκολο και πολύπλοκο έργο, είναι αλήθεια ότι στον πραγματικό κόσμο πολλές μεταβλητές συσχετίζονται η μία με την άλλη.
43
2. Πολυμεταβλητή ANOVA (MANOVA)
Ανεξαρτησία : Όλες οι παρατηρήσεις είναι ανεξάρτητες. Κανονικότητα : Οι πληθυσμοί κάθε ομάδας ακολουθούν την (πολυμεταβλητή) κανονική κατανομή. Ισότητα πίνακα διασποράς-συνδιασποράς : Ο πίνακας διασποράς-συνδιασποράς (variance-covariance) είναι ο ίδιος για κάθε πληθυσμό. Παρατήρηση : Ο πίνακας διασποράς-συνδιασποράς έχει ως στοιχεία της κυρίας διαγωνίου του τις διασπορές των μεταβλητών, τα δε υπόλοιπα στοιχεία του είναι οι συνδιασπορές των ζευγών των μεταβλητών.
44
2. Πολυμεταβλητή ANOVA (MANOVA)
Matlab Το Statistics Toolbox διαθέτει την ακόλουθη συνάρτηση για την πραγματοποίηση της One-way MANOVA για τη σύγκριση πολυμεταβλητών μέσων τιμών έχοντας μία ανεξάρτητη μεταβλητή (παράγοντα) : Συνάρτηση Matlab Έλεγχος υποθέσεων manova1 Πολυμεταβλητή Ανάλυση Διασποράς (MANOVA) κατά ένα παράγοντα
45
2. Πολυμεταβλητή ANOVA (MANOVA)
Πραγματοποιεί την one-way MANOVA για τη σύγκριση των πολυμεταβλητών μέσων τιμών των στηλών του διανύσματος X. Η συνάρτηση επιστρέφει την εκτίμηση d της διάστασης του χώρου που περιέχει τις μέσες τιμές των ομάδων. Η manova1 ελέγχει τις μηδενικές υποθέσεις ότι οι μέσες τιμές κάθε ομάδας βρίσκονται σε χώρο διάστασης 0 (δηλαδή είναι το ίδιο n-διάστατο πολυμεταβλητό διάνυσμα), 1 (δηλαδή βρίσκονται πάνω στην ίδια ευθεία), 2, … Εάν d = 0, δεν υπάρχει ένδειξη απόρριψης της μηδενικής υπόθεσης. Εάν d = 1, απορρίπτεται η μηδενική υπόθεση σε επίπεδο σημαντικότητας a, αλλά δεν μπορεί να απορριφθεί η υπόθεση ότι οι πολυμεταβλητές μέσες τιμές βρίσκονται πάνω στην ίδια ευθεία. Παρομοίως, εάν d = 2 δεν μπορεί να απορριφθεί η υπόθεση ότι οι πολυμεταβλητές μέσες τιμές βρίσκονται πάνω στο ίδιο επίπεδο στον n-διάστατο χώρο (απορρίπτεται ότι βρίσκονται στην ίδια γραμμή). κ.ο.κ.
46
2. Πολυμεταβλητή ANOVA (MANOVA)
[d,p,stats] = manova1(X,group,alpha) Μεταβλητή Περιγραφή Εξορισμού X X είναι ένας m×n πίνακας των τιμών των δεδομένων. Κάθε γραμμή αποτελεί ένα διάνυσμα μετρήσεων n εξαρτημένων μεταβλητών που αντιστοιχεί σε μία παρατήρηση. group Είναι μια μεταβλητή ομαδοποίησης που ορίζεται ως διάνυσμα ή ως πίνακας από strings. Δύο παρατηρήσεις βρίσκονται στην ίδια ομάδα εάν έχουν την ίδια τιμή της μεταβλητής group. Οι παρατηρήσεις σε κάθε ομάδα αναπαριστούν ένα δείγμα από ένα πληθυσμό. alpha Επίπεδο σημαντικότητας 0.05 d Η εκτίμηση της διάστασης του χώρου που περιέχει τις μέσες τιμές των ομάδων (η μικρότερη τιμή διάστασης με p-value>alpha) p Ένα διάνυσμα p-τιμών για τον έλεγχο της υπόθεσης ότι οι μέσες τιμές βρίσκονται σε χώρο διάστασης 0, 1, κ.ο.κ. Η μεγαλύτερη πιθανή διάσταση είναι είτε η διάσταση του χώρου είτε το πλήθος των ομάδων μείον ένα. Το διάνυσμα των p-τιμών περιλαμβάνει ένα στοιχείο για κάθε διάσταση μέχρι τη μεγαλύτερη (μη συμπεριλαμβανομένης της μεγαλύτερης). Εάν η i-οστή p-τιμή είναι μικρότερη του alpha, τότε απορρίπτεται η υπόθεση ότι οι μέσες τιμές των ομάδων βρίσκονται σε χώρο διαστάσεων i-1. stats Η δομή που περιέχει επιπρόσθετα αποτελέσματα της MANOVA (δηλαδή το εντός των ομάδων άθροισμα τετραγώνων, το μεταξύ των ομάδων άθροισμα τετραγώνων, τους βαθμούς ελευθερίας, κλπ.)
47
2. Πολυμεταβλητή ANOVA (MANOVA)
Παράδειγμα 2.1 Ένα φάρμακο χρησιμοποιείται για τη θεραπεία δύο ασθενειών A και B. Σε μία μελέτη, σε 11 ασθενείς χορηγήθηκε το φάρμακο ενώ σε άλλους 10 ασθενείς χορηγήθηκε placebo. Μετά από δύο εβδομάδες, οι ερευνητές μέτρησαν τη μεταβολή ενός δείκτη κάθε ασθένειας. Οι μετρήσεις καταγράφονται στον εξής πίνακα: Ασθενής Φάρμακο/ Placebo Δείκτης ασθένειας A Δείκτης ασθένειας B 1 Drug 4.80 15.8 8 1.07 12.3 15 Placebo 1.56 15.2 2 1.92 13.7 9 4.29 16 1.81 17.0 3 3.43 16.8 10 2.78 13.1 17 1.79 4 2.94 14.5 11 3.46 14.8 18 3.41 5 4.57 16.0 12 2.41 12.1 19 2.09 6 4.04 14.0 13 4.25 15.9 20 1.80 17.3 7 2.83 14 1.03 13.6 21 1.06
48
2. Πολυμεταβλητή ANOVA (MANOVA)
Παράδειγμα 2.1 (συν.) Υποθέτοντας ότι ισχύουν όλες οι παραδοχές που απαιτούνται για την εφαρμογή της MANOVA, ελέγχουμε τη μηδενική υπόθεση ότι οι μέσες τιμές καθεμιάς από τις ομάδες (φάρμακο / placebo) είναι το ίδιο 2-διάστατο διάνυσμα (βρίσκονται σε χώρο διάστασης 0). xA=[ ]’; xB=[ ]’; X=[xA xB]; group=['Drug ';'Drug ';'Drug ';'Drug ';'Drug ';'Drug ';'Drug ';'Drug '; 'Drug ';'Drug ';'Drug ']; group=[group;'Placebo';'Placebo';'Placebo';'Placebo';'Placebo';'Placebo'; 'Placebo';'Placebo';'Placebo';'Placebo']; [d,p,stats] = manova1(X,group); d = 1 p =
49
2. Πολυμεταβλητή ANOVA (MANOVA)
Παράδειγμα 2.1 (συν.) Επειδή d = 1, απορρίπτουμε τη μηδενική υπόθεση σε επίπεδο σημαντικότητας 5%. Επομένως, οι μέσες τιμές καθεμίας από τις ομάδες (φάρμακο και placebo) δεν είναι το ίδιο 2-διάστατο διάνυσμα. Σημείωση : Η “stats” της manova1 δεν μπορεί να χρησιμοποιηθεί ως όρισμα της multcompare: c = multcompare(stats) ??? Error using ==> multcompare The first argument is not a STATS output structure from ANOVA1.
50
Ανάλυση Διασποράς Επανάληψη της N-way ANOVA
Πολυμεταβλητή ANOVA (MANOVA) Μη παραμετρική 2-way ANOVA Ανάλυση Κυρίων Συνιστωσών (PCA)
51
3. Μη παραμετρική 2-way ANOVA
Έχουμε ήδη δει ότι το Kruskal-Wallis τεστ είναι ο μη παραμετρικός έλεγχος που αντιστοιχεί στην One-Way ANOVA. Έχει η Two-way ANOVA έναν αντίστοιχο μη παραμετρικό έλεγχο; Το Friedman τεστ είναι μια μη-παραμετρική Two-way ANOVA. Το Friedman τεστ είναι παρόμοιο με την κλασική two-way ANOVA. Ωστόσο ελέγχει μόνο τις επιδράσεις στηλών μετά από τροποποίηση για πιθανές επιδράσεις των γραμμών. Ο έλεγχος βασίζεται σε ανάλυση διασποράς χρησιμοποιώντας τις τάξεις των δεδομένων στις κατηγορίες του παράγοντα των γραμμών. Το Friedman τεστ δεν ελέγχει τις επιδράσεις γραμμών ούτε τις αλληλεπιδράσεις. Για παράδειγμα, το Friedman τεστ είναι κατάλληλο όταν οι στήλες αναπαριστούν φαρμακευτικές αγωγές και οι γραμμές αναπαριστούν παράγοντες, οι οποίοι πρέπει να ληφθούν υπόψη αλλά δεν έχουν κάποιο ενδιαφέρον.
52
3. Μη παραμετρική 2-way ANOVA
Παραδοχές για την εφαρμογή του Friedman τεστ Ανεξαρτησία : Όλα οι παρατηρήσεις είναι ανεξάρτητες. Ίδια συνεχής κατανομή : Όλα τα δεδομένα προέρχονται από πληθυσμούς που έχουν την ίδια συνεχή κατανομή, εκτός ίσως από πιθανές διαφορετικές ολισθήσεις. Ισότητα διασπορών : Οι παρατηρήσεις εντός κάθε κελιού έχουν ίσες διασπορές.
53
3. Μη παραμετρική 2-way ANOVA
Matlab Το Statistics Toolbox διαθέτει την ακόλουθη συνάρτηση για την εκτέλεση του μη παραμετρικού Friedman τεστ για τη σύγκριση των επιδράσεων των στηλών σε ανάλυση κατά δύο παράγοντες: Matlab συνάρτηση Έλεγχος υποθέσεων friedman Μη παραμετρικός έλεγχος Friedman
54
3. Μη παραμετρική 2-way ANOVA
Η συνάρτηση friedman Πραγματοποιεί το Friedman τεστ της σύγκρισης των επιδράσεων των στηλών. Ελέγχει τη μηδενική υπόθεση ότι η επίδραση των στηλών είναι μηδενική έναντι της εναλλακτικής ότι η επίδραση των στηλών είναι μη μηδενική. Εάν η p-τιμή είναι μικρότερη του επιπέδου σημαντικότητας a, η μηδενική υπόθεση απορρίπτεται. Αυτό σημαίνει ότι τουλάχιστον μία διάμεσος δείγματος-στήλης είναι σημαντικά διαφορετική από τις υπόλοιπες, δηλαδή υπάρχει μια κύρια επίδραση λόγω του παράγοντα A.
55
3. Μη παραμετρική 2-way ANOVA
Η συνάρτηση friedman (συν.) [p,table,stats]= friedman(X,reps,'displayopt') Περιγραφή Τιμές Εξορισμού X Οι παρατηρήσεις. Τα δεδομένα στις διάφορες στήλες αναπαριστούν μεταβολές στον παράγοντα Α. Τα δεδομένα στις διάφορες γραμμές αναπαριστούν μεταβολές στον παράγοντα B. reps Το πλήθος των επαναλήψεων σε κάθε κελί, το οποίο πρέπει να είναι σταθερό. 1 ‘displayopt’ Ενεργοποιεί την παρουσίαση του πίνακα ANOVA ‘on’ ή ‘off’ ‘on’ p Η p-value του ελέγχου της μηδενικής υπόθεσης table Ο πίνακας ANOVA stats Δομή που χρησιμοποιείται για επακόλουθο έλεγχο πολλαπλών συγκρίσεων (συνάρτηση multcompare)
56
3. Μη παραμετρική 2-way ANOVA
Η συνάρτηση friedman (συν.) Ο ακόλουθος πίνακας δείχνει τη διαμόρφωση του πίνακα X των παρατηρήσεων όπου ο παράγοντας στηλών A έχει δύο επίπεδα, ο παράγοντας γραμμών B έχει τρία επίπεδα και υπάρχουν δύο επαναλήψεις (reps=2). Οι δείκτες δείχνουν γραμμή, στήλη και επανάληψη, αντίστοιχα.
57
3. Μη παραμετρική 2-way ANOVA
Η συνάρτηση friedman (συν.) Ο πίνακας ANOVA έχει έξι στήλες : Η πρώτη δείχνει την πηγή της μεταβλητότητας. Η δεύτερη δείχνει το άθροισμα τετραγώνων (SS) κάθε πηγής. Η τρίτη δείχνει τους βαθμούς ελευθερίας (df) που σχετίζονται με κάθε πηγή. Η τέταρτη δείχνει τα μέσα τετράγωνα (MS) κάθε πηγής, που υπολογίζονται ως ο λόγος SS/df. Η πέμπτη δείχνει τη χ-τετράγωνο στατιστική του Friedman. Η έκτη δείχνει τις p-τιμές για τη χ-τετράγωνο στατιστική.
58
3. Μη παραμετρική 2-way ANOVA
Παράδειγμα 3.1 Η διοίκηση ενός νοσοκομείου μετρά το χρόνο που κάνουν οι οδηγοί ασθενοφόρων για τη μετακίνηση μεταξύ δύο συγκεκριμένων σημείων στο κέντρο της πόλης. Οι χρόνοι σε λεπτά τεσσάρων οδηγών μετρούνται κατά τη διάρκεια μιας εβδομάδας και καταγράφονται στον ακόλουθο πίνακα : Υποθέτουμε ότι οι χρόνοι των οδηγών και των ημερών ακολουθούν ίδιες συμμετρικές (αλλά μη κανονικές) κατανομές με την ίδια διασπορά. Δευτέρα Τρίτη Τετάρτη Πέμπτη Παρασκευή Σάββατο Κυριακή Οδηγός 1 27 31 29 33 32 28 Οδηγός 2 25 23 30 26 Οδηγός 3 34 24 Οδηγός 4
59
3. Μη παραμετρική 2-way ANOVA
Παράδειγμα 3.1 (συν.) Θα χρησιμοποιήσουμε μια μη παραμετρική Two-way ANOVA (δηλαδή το Friedman τεστ) με επίπεδο σημαντικότητας 0,05 για την πραγματοποίηση των ακόλουθων ελέγχων : Εξαρτάται η διάμεσος των χρόνων από τον οδηγό; Εξαρτάται η διάμεσος των χρόνων από την ημέρα; Δευτέρα Τρίτη Τετάρτη Πέμπτη Παρασκευή Σάββατο Κυριακή Οδηγός 1 27 31 29 33 32 28 Οδηγός 2 25 23 30 26 Οδηγός 3 34 24 Οδηγός 4
60
3. Μη παραμετρική 2-way ANOVA
Παράδειγμα 3.1 (συν.) Οι υποθέσεις μας επιτρέπουν την πραγματοποίηση του Friedman τεστ. Αφού έχουμε μόνο μία παρατήρηση για κάθε συνδυασμό ανεξάρτητων μεταβλητών, πραγματοποιούμε το Friedman τεστ χωρίς επανάληψη (reps=1). Ο παράγοντας A είναι η ημέρα. Ο παράγοντας B είναι ο οδηγός. Δευτέρα Τρίτη Τετάρτη Πέμπτη Παρασκευή Σάββατο Κυριακή Οδηγός 1 27 31 29 33 32 28 Οδηγός 2 25 23 30 26 Οδηγός 3 34 24 Οδηγός 4
61
3. Μη παραμετρική 2-way ANOVA
Παράδειγμα 3.1 (συν.) Ωστόσο, επειδή το Friedman τεστ συγκρίνει μόνο τις επιδράσεις των στηλών, ελέγχουμε την ακόλουθη μηδενική υπόθεση : Οι διάμεσοι των παρατηρήσεων που ομαδοποιούνται από τον παράγοντα A είναι οι ίδιες, δηλαδή η διάμεσος των χρόνων είναι ανεξάρτητη της ημέρας. (Έναντι της εναλλακτικής ότι η διάμεσος των χρόνων εξαρτάται από την ημέρα.) X=[ ]; [p,table,stats]= friedman(X,1) p =0.0022 Η p-τιμή είναι μικρότερη από το a. Επομένως, απορρίπτουμε τη μηδενική υπόθεση. Άρα, η διάμεσος των χρόνων εξαρτάται από την ημέρα (παρόμοιο αποτέλεσμα όπως είδαμε στο παράδειγμα της 2-way ANOVA).
62
3. Μη παραμετρική 2-way ANOVA
Παράδειγμα 3.1 (συν.) table = 'Source' 'SS' 'df' 'MS' 'Chi-sq' 'Prob>Chi-sq' 'Columns' [ ] [ 6] [ ] [ ] [0.0022] 'Error' [ ] [18] [ ] [] [] 'Total' [ ] [27] [] [] [] stats = source: 'friedman' n: 4 meanranks: [ ] sigma:
63
3. Μη παραμετρική 2-way ANOVA
Παράδειγμα 3.1 (συν.) c = multcompare(stats)
64
3. Μη παραμετρική 2-way ANOVA
Παράδειγμα 3.1 (συν.) Ας σημειωθεί ότι τα αποτελέσματα των συγκρίσεων διαφέρουν από τα αντίστοιχα αποτελέσματα που βρήκαμε στο ίδιο παράδειγμα για την 2-way ANOVA.
65
3. Μη παραμετρική 2-way ANOVA
Παράδειγμα 3.1 (συν.) Αφού το Friedman τεστ συγκρίνει μόνο τις επιδράσεις στηλών, πρέπει να αναδιατάξουμε* τα δεδομένα εναλλάσσοντας τους ρόλους μεταξύ γραμμών και στηλών προκειμένου να ελέγξουμε τη μηδενική υπόθεση για τον άλλο παράγοντα. Η μηδενική υπόθεση είναι : Οι διάμεσοι των παρατηρήσεων που ομαδοποιούνται από τον παράγοντα B είναι ίσες, δηλαδή η διάμεσος των χρόνων είναι ανεξάρτητη του οδηγού. (Η εναλλακτική είναι ότι η διάμεσος των χρόνων εξαρτάται από τον οδηγό) X=[ ]; [p,table,stats]= friedman(X’,1) p =0.1966 * Για ένα πίνακα δεδομένων X χωρίς επαναλήψεις, αρκεί απλά η αναστροφή του. Με τις επαναλήψεις το πρόβλημα είναι ελαφρώς πιο σύνθετο.
66
3. Μη παραμετρική 2-way ANOVA
Παράδειγμα 3.1 (συν.) Η p-τιμή (για τις στήλες) είναι μεγαλύτερη από το επίπεδο σημαντικότητας. Επομένως, δεν απορρίπτουμε τη μηδενική υπόθεση. Η διάμεσος των χρόνων είναι ανεξάρτητη του οδηγού (παρόμοιο αποτέλεσμα όπως είδαμε στο παράδειγμα της 2-way ANOVA). table = 'Source' 'SS' 'df' 'MS' 'Chi-sq' 'Prob>Chi-sq' 'Columns' [ ] [ 3] [2.4524] [4.6818] [ ] 'Error' [ ] [18] [1.4246] [] [] 'Total' [ ] [27] [] [] [] stats = source: 'friedman' n: 7 meanranks: [ ] sigma:
67
Ανάλυση Κυρίων Συνιστωσών
Επανάληψη της N-way ANOVA Πολυμεταβλητή ANOVA (MANOVA) Μη παραμετρική 2-way ANOVA Ανάλυση Κυρίων Συνιστωσών (PCA)
68
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Είναι σύνηθες στα πολυμεταβλητά δεδομένα, τουλάχιστον μερικές από τις μεταβλητές να συσχετίζονται μεταξύ τους. Μια συνέπεια αυτών των συσχετίσεων είναι ότι υπάρχει πλεονασμός (redundancy) στην πληροφορία που παρέχεται από τις συσχετισμένες μεταβλητές. Για παράδειγμα, στην ακραία περίπτωση δύο τέλεια συσχετισμένων μεταβλητών x1 και x2, η μία από αυτές είναι πλεονάζουσα (π.χ. η x2) αφού, εάν γνωρίζουμε την τιμή της x1 μεταβλητής, η τιμή της x2 μεταβλητής δεν έχει ελευθερία μεταβολής (και το αντίστροφο). Η Ανάλυση Κυρίων Συνιστωσών (PCA -Principal Components Analysis) αποτελεί το στατιστικό εργαλείο που ανακαλύπτει τον πλεονασμό στα πολυμεταβλητά δεδομένα. Η PCA : εξάγει τα πρότυπα (σχέσεις) των μεταβλητών και μειώνει τη διάσταση του συνόλου των δεδομένων χωρίς σημαντική απώλεια πληροφορίας.
69
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Για παράδειγμα, έστω ότι έχουμε μία μελέτη στην οποία εμπλέκονται οι ακόλουθες μεταβλητές: Βάρος Ύψος Πίεση Αίματος Καρδιακός Ρυθμός Ηλικία Είναι πιθανό ότι οι μεταβλητές “Βάρος” και “Ύψος” είναι ισχυρά συσχετισμένες. Επιπλέον, είναι πιθανό ότι οι μεταβλητές “Πίεση αίματος”, “Καρδιακός Ρυθμός” και “Ηλικία” είναι επίσης συσχετισμένες.
70
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Μπορούμε να θεωρήσουμε δύο νέες μεταβλητές, π.χ. την pc1 και την pc2, όπου: Η μεταβλητή pc1 είναι ένας συνδυασμός των μεταβλητών “Βάρος” και “Ύψος” και Η μεταβλητή pc2 είναι ένας συνδυασμός των μεταβλητών “Αρτηριακή πίεση”, “Καρδιακός Ρυθμός” και “Ηλικία”. Χρησιμοποιώντας τις δύο μεταβλητές pc1 και pc2, μπορούμε να μειώσουμε το πλήθος των μεταβλητών από 5 σε 2 με μικρή απώλεια πληροφορίας. Οι νέες μεταβλητές pc1 και pc2 που παράγονται από τις αρχικές μεταβλητές ονομάζονται συνιστώσες (components). Ο κύριος σκοπός της PCA που είναι η μείωση της διάστασης με μια ελάχιστη απώλεια πληροφορίας επιτυγχάνεται με την προβολή των δεδομένων σε λιγότερες διαστάσεις, οι οποίες επιλέγονται ώστε να ανακαλύψουν τις σχέσεις μεταξύ των μεταβλητών.
71
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Σημειώνεται ότι τα δεδομένα ποτέ δεν μετακινούνται. Οι προβολές παράγονται από τη μετακίνηση των αξόνων. Μερικές προβολές διατηρούν πολλή από την πληροφορία σχετικά με τα δεδομένα ενώ άλλες όχι. Η PCA καθορίζει ποια, μεταξύ όλων των προβολών, είναι η καλύτερη για την αναπαράσταση της δομής των δεδομένων. Οι προβολές επιλέγονται έτσι ώστε η μέγιστη πληροφορία μετρούμενη ως προς τη μεταβλητότητα των δεδομένων να διατηρείται στο μικρότερο πλήθος διαστάσεων.
72
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Ιδιοδιανύσματα και ιδιοτιμές Η ανάλυση ιδιοτιμών είναι μια τεχνική που παρέχει μια σύνοψη της δομής των δεδομένων που αναπαρίστανται από ένα συμμετρικό πίνακα (όπως αυτός που λαμβάνουμε από τις συσχετίσεις και τις συνδιασπορές). Η ανάλυση ιδιοτιμών παίζει ένα πολύ σημαντικό ρόλο στην PCA (και σε πολλές από τις πολυμεταβλητές μεθόδους). Για να κατανοήσουμε την έννοια των ιδιοδιανυσμάτων και των ιδιοτιμών, ας θεωρήσουμε τον ακόλουθο 2x2 συμμετρικό πίνακα που αντιπροσωπεύει τα σημεία (1,0.2) και (0.2,1) :
73
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Ιδιοδιανύσματα και ιδιοτιμές (συν.) Ο 2x2 πίνακας έχει 2 ιδιοτιμές. Χρησιμοποιώντας τη συνάρτηση του Matlab eig(X), λαμβάνουμε τα εξής: ιδιοτιμές: 1.2 και 0.8 ιδιοδιανύσματα : [0.7071, ] και [ , 07071] Ας σημειωθεί ότι υπάρχει ένα ιδιοδιάνυσμα που σχετίζεται με καθεμία από τις ιδιοτιμές. Οι ιδιοτιμές είναι τα μήκη του κυρίου και του άλλου άξονα της έλλειψης, η οποία έχει ως κέντρο το σημείο (0,0) και τα δύο σημεία (1,0.2) και (0.2,1) βρίσκονται στην περίμετρό της. Τα ιδιοδιανύσματα είναι οι συντεταγμένες που ορίζουν τον προσανατολισμό των αξόνων των οποίων τα μήκη δίνονται από τις ιδιοτιμές.
74
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Ιδιοδιανύσματα και ιδιοτιμές (συν.) Ωστόσο, τα ιδιοδιανύσματα με κέντρο το σημείο (0,0) δεν έχουν μοναδικές τιμές. Κάθε ιδιοδιάνυσμα έχει ένα απεριόριστο πλήθος πιθανών τιμών. Οι επιλεγείσες συνιστώσες [0.7071, ] και [ , 07071] ικανοποιούν μία ειδική σχέση η οποία είναι ότι το άθροισμα των τετραγώνων των τιμών τους ισούται με 1 (δηλαδή έχουν μέτρο ίσο με 1).
75
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Ιδιοδιανύσματα και ιδιοτιμές (συν.) Η περίπτωση των 2x2 συμμετρικών πινάκων επεκτείνεται με παρόμοιο τρόπο για οποιονδήποτε συμμετρικό πίνακα. Για παράδειγμα, κάθε σημείο σε έναν 3x3 συμμετρικό πίνακα ορίζεται στον 3-διάστατο χώρο. Υπάρχει ένα ελλειψοειδές με κέντρο στο σημείο (0,0,0) τέτοιο ώστε τα σημεία αυτά να πέφτουν πάνω του. Οι 3 ιδιοτιμές είναι τα μήκη των τριών αξόνων του ελλειψοειδούς και τα αντίστοιχα ιδιοδιανύσματα ορίζουν τον προσανατολισμό των αξόνων.
76
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Ιδιοδιανύσματα και ιδιοτιμές (συν.) Γενικά, μπορούμε να βρούμε τις ιδιοτιμές ενός τετραγωνικού συμμετρικού πίνακα : Υπάρχουν τόσες ιδιοτιμές όσες είναι οι γραμμές του πίνακα. Υπάρχει ένα ιδιοδιάνυσμα που σχετίζεται με καθεμία από τις ιδοτιμές. Τα ιδιοδιανύσματα είναι οι συντεταγμένες που ορίζουν τον προσανατολισμό των αξόνων, των οποίων τα μήκη δίνονται από τις ιδιοτιμές. Τα ιδιοδιανύσματα με κέντρο το σημείο (0,0,…,0) δεν έχουν μοναδικές τιμές. Κάθε ιδιοδιάνυσμα έχει ένα άπειρο πλήθος πιθανών τιμών. Οι επιλεγείσες συνιστώσες των ιδιοδιανυσμάτων είναι τέτοιες ώστε το άθροισμα των τετραγώνων των τιμών τους ισούται με 1.
77
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Ιδιοδιανύσματα και ιδιοτιμές (συν.) Οι πίνακες συσχέτισης είναι συμμετρικοί. Οι πίνακες συσχέτισης* είναι της μορφής : ή Επομένως, μπορούμε να υπολογίσουμε τις ιδιοτιμές και τα ιδιοδιανύσματα. * Παράγονται από τη συνάρτηση corr(X) του Matlab που επιστρέφει ένα πίνακα που περιέχει τους συντελεστές συσχέτισης μεταξύ κάθε ζεύγους των στηλών του X.
78
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Ιδιοδιανύσματα και ιδιοτιμές (συν.) Για παράδειγμα, έστω οι ακόλουθοι 2x2 πίνακες συσχέτισης : Οι ιδιοτιμές καθενός από τους παραπάνω πίνακες είναι :
79
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Ιδιοδιανύσματα και ιδιοτιμές (συν.) Τα αντίστοιχα ιδιοδιανύσματα είναι : Καθώς οι μεταβλητές συσχετίζονται περισσότερο, ο κύριος άξονας της έλλειψης μεγαλώνει ενώ, ταυτοχρόνως, ο μικρότερος άξονας μικραίνει. Το όριο προσεγγίζεται όταν οι δύο μεταβλητές είναι τέλεια συσχετισμένες. Στην περίπτωση αυτή, ο κύριος άξονας έχει μήκος 2, ενώ ο μικρότερος έχει μήκος 0 (επομένως η έλλειψη ανάγεται σε ευθεία γραμμή).
80
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Ιδιοδιανύσματα και ιδιοτιμές (συν.) Τα ανωτέρω συμπεράσματα επεκτείνονται με παρόμοιο τρόπο στις περιπτώσεις των πινάκων 3x3, 4x4 κ.ο.κ. Καθώς οι μεταβλητές γίνονται περισσότερο συσχετισμένες, το μήκος του κύριου άξονα (πρώτη ιδιοτιμή) του ελλειψοειδούς αυξάνει. Επομένως, οι ιδιοτιμές και τα ιδιοανύσματα μας παρέχουν πληροφορίες για τη διάσταση των δεδομένων και τον τρόπο που οι μεταβλητές συσχετίζονται μεταξύ τους καθώς και για τους κύριους άξονες των δεδομένων. Με τη βοήθεια των αξόνων του ελλειψοειδούς, παράγουμε νέες μεταβλητές από τις υπάρχουσες. Επομένως, η ανάλυση ιδιοτιμών μας παρέχει τη δυνατότητα ορισμού νέων μεταβλητών στην Ανάλυση Κυρίων Συνιστωσών.
81
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
(a) (b) Μπορούμε να μετακινήσουμε τους άξονες έτσι ώστε η αρχή τους να βρίσκεται στο κέντρο του νέφους των σημείων [δηλαδή το (0,0) να βρίσκεται στη μέση τιμή του x1 και στη μέση τιμή του x2]. Το αποτέλεσμα παρουσιάζεται στο σχήμα (b).
82
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Σημειώνεται ότι έχουν σημασία οι σχέσεις μεταξύ των σημείων. Η σχέση μεταξύ ενός σημείου και ενός άξονα είναι θέμα μόνο ευκολίας για μας. Η μετακίνηση των αξόνων δε μεταβάλει το υποκείμενο πρότυπο στα δεδομένα. Στη συνέχεια περιστρέφουμε τους άξονες γύρω από τη νέα τους αρχή. Το αποτέλεσμα φαίνεται στο ακόλουθο σχήμα :
83
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Αυτή η περιστροφή γίνεται για τον εξής σκοπό : Η θέση ενός από τους άξονες είναι τέτοια ώστε να αντιστοιχεί στο μεγαλύτερο μέρος της διακύμανσης στα δεδομένα. Τα σημεία σχηματίζουν ένα ελλειψοειδές με το μεγαλύτερο άξονά του στην κατεύθυνση της μεγαλύτερης διακύμανσης. Αυτή είναι η θέση του νέου άξονα, δηλαδή κατά τον κύριο άξονα του ελλειψοειδούς. Αυτή είναι η πρώτη συνιστώσα.
84
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Ο κύριος άξονας είναι μια νέα μεταβλητή, η pc1. Στην απλούστερη μορφή της, η pc1 αποτελεί γραμμικό συνδυασμό της x1 και της x2 με ίσα βάρη : Στη γενική μορφή, η pc1 είναι ένα γραμμικός συνδυασμός των δύο μεταβλητών με άνισα βάρη : Η ερμηνεία των βαρών είναι πολύ σημαντική. Ένα κριτήριο για το δεύτερο άξονα είναι ότι θα πρέπει να αντιστοιχεί σε όσο το δυνατό μεγαλύτερη από την απομένουσα διακύμανση. Επιπλέον, πρέπει επίσης να είναι ασυσχέτιστος (ορθογώνιος) με τον πρώτο άξονα. Η θέση του νέου δεύτερου άξονα είναι ορθογώνια στον κύριο άξονα του ελλειψοειδούς. Ο άξονας αυτός είναι μία νέα μεταβλητή, η pc2. Αυτή αποτελεί τη δεύτερη συνιστώσα.
85
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Σημειώνεται ότι στο συγκεκριμένο παράδειγμα, εάν αγνοήσουμε το δεύτερο άξονα θα χάσουμε κάποια πληροφορία, η οποία ωστόσο δεν είναι σημαντική. Επομένως, στο συγκεκριμένο παράδειγμα μπορούμε να μειώσουμε τη διάσταση των δεδομένων από δύο (x1 και x2) σε μία (την pc1), με μικρή απώλεια πληροφορίας. Μπορούμε να ποσοτικοποιήσουμε την ποσότητα πληροφορία που χάνουμε. Οι ιδιοτιμές μας βοηθούν σε αυτό.
86
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Στο παράδειγμά μας, οι x1 και x2 είναι ισχυρά συσχετισμένες. Επομένως, θα περιμέναμε να βρούμε ότι μία από τις ιδιοτιμές του πίνακα συσχέτισης είναι κατά πολύ μεγαλύτερη από την άλλη. Για παράδειγμα, έστω ότι η συσχέτιση των x1 και x2 είναι Συνεπώς, έχουμε : Τα μήκη και οι προσανατολισμοί των νέων αξόνων δίνονται από τις ιδιοτιμές και τα ιδιοδιανύσματα του πίνακα συσχέτισης, αντίστοιχα. Εάν κρατήσουμε μόνο την pc1 τότε κρατάμε το 1.75/2.00=87,5% της αρχικής μεταβλητότητας.
87
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Εάν αγνοήσουμε το δεύτερο άξονα, τότε χάνουμε το 0.25/2.00=12,5% της αρχικής μεταβλητότητας. Εάν οι μεταβλητές x1 και x2 είχαν ένα σχετικά χαμηλό συντελεστή συσχέτισης, π.χ. ίσο με 0.25, τότε : Τα μήκη και οι προσανατολισμοί των νέων αξόνων δίνονται από τις ιδιοτιμές και τα ιδιοδιανύσματα του πίνακα συσχέτισης, αντίστοιχα. Εάν κρατήσουμε μόνο την pc1, τότε κρατάμε το 1.25/2.00=62,5% της αρχικής μεταβλητότητας. Εάν αγνοήσουμε το δεύτερο άξονα, τότε χάνουμε το 0.75/2.00=37,5% της αρχικής μεταβλητότητας.
88
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Η συνεισφορά των αρχικών μεταβλητών στις νέες μεταβλητές καθορίζονται από τα ιδιοδιανύσματα. Ας θυμηθούμε ότι τα ιδιοδιανύσματα περιγράφουν τον προσανατολισμό των νέων αξόνων σχετικά με τις αρχικές μεταβλητές. Οι νέες μεταβλητές (ελπίζουμε ότι) μας παρέχουν μια εμβάθυνση στην πληροφορία που περιέχεται στα δεδομένα.
89
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Τα ανωτέρω επεκτείνονται κατά παρόμοιο τρόπο στο χώρο n-διαστάσεων. Οι ιδιοτιμές έχουν άθροισμα ίσο με το πλήθος των μεταβλητών. Επειδή καθεμία από τις μεταβλητές τυποποιείται ώστε να έχει μέση τιμή ίση με 0 και διασπορά ίση με 1.0, η συνολική διασπορά που διαμοιράζεται μεταξύ των συνιστωσών ισούται με το πλήθος των μεταβλητών. Τα ιδιοδιανύσματα ονομάζονται συνιστώσες φόρτωσης (component loadings) και χρησιμοποιούνται για τον υπολογισμό των αποτελεσμάτων των συνιστωσών (component scores). Τα αποτελέσματα των συνιστωσών υπολογίζουν τις τιμές κάθε συνιστώσας ως το γραμμικό συνδυασμό των αρχικών μεταβλητών :
90
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Συνήθως, περιορίζουμε την ερμηνεία μας σε εκείνες τις συνιστώσες που έχουν ιδιοτιμές μεγαλύτερες από 1.0.
91
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Matlab Το Statistics Toolbox διαθέτει την ακόλουθη συνάρτηση για την πραγματοποίηση της Ανάλυσης Κυρίων Συνιστωσών: Συνάρτηση Matlab Ανάλυση princomp Ανάλυση Κυρίων Συνιστωσών
92
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Η συνάρτηση princomp (συν.) Πραγματοποιεί την Ανάλυση Κυρίων Συνιστωσών στον πίνακα δεδομένων X. [Coeff,Score,latent] = princomp(X) Περιγραφή Τιμές X Ο n×p πίνακας δεδομένων X. Οι γραμμές του X αντιστοιχούν σε παρατηρήσεις, οι στήλες σε μεταβλητές. Coeff Οι συντελεστές κυρίων συνιστωσών (δηλαδή οι φορτώσεις). Είναι ένας p×p πίνακας, κάθε στήλη του οποίου περιέχει τους συντελεστές μιας κύριας συνιστώσας. Οι στήλες τοποθετούνται κατά φθίνουσα διακύμανση των συνιστωσών. Score Τα αποτελέσματα (scores) των κύριων συνιστωσών (δηλαδή η αναπαράσταση του X στο χώρο των κύριων συνιστωσών). Οι γραμμές του Score αντιστοιχούν σε παρατηρήσεις, οι στήλες σε συνιστώσες. Τα αποτελέσματα αποτελούν τα δεδομένα που προκύπτουν από το μετασχηματισμό των αρχικών δεδομένων στο χώρο των κύριων συνιστωσών. latent Ένα διάνυσμα που περιέχει τις ιδιοτιμές του πίνακα συνδιασποράς του X
93
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Παράδειγμα 4.1 Έστω ότι μελετούμε ένα πρόβλημα 5 μεταβλητών (v1,v2,v3,v4 και v5) που ακολουθούν την πολυμεταβλητή κανονική κατανομή και οι σχέσεις τους ανά δύο είναι γραμμικές. Οι μετρήσεις τους είναι οι ακόλουθες :
94
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Παράδειγμα 4.1 (συν.) Τυποποιούμε τις μεταβλητές γιατί με αυτό τον τρόπο εξασφαλίζουμε ότι ελαχιστοποιούνται οι διαφορές κλίμακας μεταξύ των μεταβλητών. Τυποποιούμε τα δεδομένα διαιρώντας κάθε στήλη με την τυπική της απόκλιση: XX=[X(:,1)./std(X(:,1)) X(:,2)./std(X(:,2)) X(:,3)./std(X(:,3)) X(:,4)./std(X(:,4)) X(:,5)./std(X(:,5))];
95
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Παράδειγμα 4.1 (συν.) Ενδιαφερόμαστε για την εφαρμογή της PCA στα δεδομένα μας με σκοπό τη μείωση της διάστασής τους. Πρώτα, ας εξετάσουμε εάν υπάρχουν συσχετίσεις μεταξύ των πέντε μεταβλητών: Correlations=corr(XΧ) Correlations = Επομένως, οι πρώτες τρεις μεταβλητές (v1, v2 και v3) είναι αρκετά ισχυρά συσχετισμένες μεταξύ τους. Η τέταρτη και η πέμπτη μεταβλητή (v4 και v5) είναι αρκετά ισχυρά συσχετισμένες. Η μόνη άλλη μη μηδενική σχέση φαίνεται να είναι η αρνητική συσχέτιση μεταξύ των μεταβλητών v1 και v5.
96
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Παράδειγμα 4.1 (συν.) Στη συνέχεια ας υπολογίσουμε τις ιδιοτιμές και τα ιδιοδιανύσματα του πίνακα συσχέτισης : [V,D]=eig(Correlations) V = % the eigen vectors D = % the eigen values are the diagonal elements of D
97
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Παράδειγμα 4.1 (συν.) Οι ιδιοτιμές έχουν άθροισμα 5 (το πλήθος των μεταβλητών) : sum(diag(D)) = 5 Εάν διατηρήσουμε μόνο την πρώτη συνιστώσα, έχουμε διατηρήσει το 2.448/5.00=48,96% της αρχικής μεταβλητότητας. Εάν διατηρήσουμε τις δύο πρώτες συνιστώσες, έχουμε διατηρήσει το ( )/5.00=82% της αρχικής μεταβλητότητας. Εάν διατηρήσουμε τις πρώτες τρεις συνιστώσες, έχουμε διατηρήσει το ( )/5=92,22% της αρχικής μεταβλητότητας. ….. Επομένως, τα δεδομένα μπορούν να αναπαρασταθούν επαρκώς με μόλις 2 διαστάσεις.
98
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Παράδειγμα 4.1 (συν.) Τα ίδια ανωτέρω αποτελέσματα για τις ιδιοτιμές λαμβάνουμε εάν εφαρμόσουμε απευθείας την princomp (μεταβλητή latent): [Coeff,Score,latent] = princomp(XX); latent = [ ]; Άρα (με την ίδια ανάλυση όπως πριν) καταλήγουμε ότι τα δεδομένα μπορούν να αναπαρασταθούν επαρκώς με μόλις 2 διαστάσεις. Οι συντελεστές των κυρίων συνιστωσών (δηλαδή τα loadings) είναι : Coeff = Ο ανωτέρω είναι ένας 5×5 πίνακας, κάθε στήλη του οποίου περιέχει τους συντελεστές μιας κύριας συνιστώσας. Οι στήλες παρουσιάζονται κατά φθίνουσα διακύμανση των συνιστωσών.
99
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Παράδειγμα 4.1 (συν.) Επίσης, τα σκορ των κυρίων συνιστωσών (δηλαδή η αναπαράσταση του X στο χώρο των κυρίων συνιστωσών) είναι (Οι γραμμές του Score αντιστοιχούν σε παρατηρήσεις, οι στήλες σε συνιστώσες): Score =
100
4. Ανάλυση Κυρίων Συνιστωσών (PCA)
Παράδειγμα 4.1 (συν.) Score = % Συνέχεια
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.