Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ - ΔΙΑΚΡΙΤΙΚΗ ΑΝΑΛΥΣΗ

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ - ΔΙΑΚΡΙΤΙΚΗ ΑΝΑΛΥΣΗ"— Μεταγράφημα παρουσίασης:

1 ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ - ΔΙΑΚΡΙΤΙΚΗ ΑΝΑΛΥΣΗ
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΤΕΧΝΟΛΟΓΙΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗΝ ΙΑΤΡΙΚΗ ΚΑΙ ΤΗ ΒΙΟΛΟΓΙΑ ΜΑΘΗΜΑ : ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ - ΔΙΑΚΡΙΤΙΚΗ ΑΝΑΛΥΣΗ ΔΙΟΝΥΣΗΣ ΛΙΝΑΡΔΑΤΟΣ 11 ΙΑΝΟΥΑΡΙΟΥ 2018

2 Ανάλυση Κυρίων Συνιστωσών
Επανάληψη της PCA Παραγοντική Ανάλυση Γραμμική Διακριτική Ανάλυση

3 1. Ανάλυση Κυρίων Συνιστωσών
Η Ανάλυση Κυρίων Συνιστωσών (PCA - Principal Components Analysis) αποτελεί το πλέον γνωστό παράδειγμα μείωσης της διάστασης των δεδομένων. Η PCA αναζητά τις διευθύνσεις στα δεδομένα που παρουσιάζουν τη μεγαλύτερη διακύμανση και ακολούθως προβάλει τα δεδομένα πάνω σε αυτές. Με την PCA λαμβάνουμε μία αναπαράσταση των δεδομένων σε λιγότερες διαστάσεις, απομακρύνοντας μερικές από τις διαστάσεις διατηρώντας την περισσότερη από την αρχική πληροφορία. Η PCA αποτελεί μία χωρίς επίβλεψη τεχνική.

4 1. Ανάλυση Κυρίων Συνιστωσών
Η PCA ελαχιστοποιεί το άθροισμα τετραγώνων των αποστάσεων των αρχικών σημείων από τις προβολές τους στην κύρια συνιστώσα.

5 1. Ανάλυση Κυρίων Συνιστωσών
Προϋποθέσεις εφαρμογής της PCA Οι μεταβλητές που συμμετέχουν στην ανάλυση πρέπει να ακολουθούν την πολυμεταβλητή κανονική κατανομή. Η σχέση μεταξύ κάθε ζεύγους των μεταβλητών πρέπει να είναι γραμμική. Ο λόγος του πλήθους των παρατηρήσεων προς το πλήθος των μεταβλητών πρέπει να είναι μεγάλος. Η ύπαρξη αρκετών δειγμάτων παρέχει αξιόπιστους υπολογισμούς των συσχετίσεων μεταξύ των μεταβλητών. Προτιμούμε να εξαιρούμε από την ανάλυση, εφόσον υπάρχουν, τις ακραίες τιμές (outliers). Παρατήρηση : Οι έλεγχοι για την πολυμεταβλητή κανονικότητα είναι ιδιαίτερα πολύπλοκοι. Στην πράξη περιοριζόμαστε στον έλεγχο της κανονικότητας κάθε μεταβλητής. Εάν έχουμε πολυμεταβλητή κανονική κατανομή τότε κάθε μεταβλητή ακολουθεί κανονική κατανομή. Ωστόσο, το αντίστροφο δεν ισχύει.

6 1. Ανάλυση Κυρίων Συνιστωσών
Γραφική αναπαράσταση της PCA Ας θωρήσουμε το απλό παράδειγμα των δύο μεταβλητών που παρουσιάζονται στο ακόλουθο διάγραμμα (a) : (a) (b) Μπορούμε να μετακινήσουμε τους άξονες έτσι ώστε η αρχή τους να βρίσκεται στο κέντρο του νέφους των σημείων [δηλαδή το (0,0) να βρίσκεται στη μέση τιμή του x1 και στη μέση τιμή του x2]. Το αποτέλεσμα παρουσιάζεται στο σχήμα (b).

7 1. Ανάλυση Κυρίων Συνιστωσών
Γραφική αναπαράσταση της PCA (συν.) Στη συνέχεια περιστρέφουμε τους άξονες γύρω από τη νέα τους αρχή, ώστε η θέση ενός από τους άξονες να είναι τέτοια ώστε να αντιστοιχεί στο μεγαλύτερο μέρος της διακύμανσης στα δεδομένα. Τα σημεία σχηματίζουν ένα ελλειψοειδές με το μεγαλύτερο άξονά του στην κατεύθυνση της μεγαλύτερης διακύμανσης. Αυτή είναι η θέση του νέου πρώτου άξονα, δηλαδή κατά τον κύριο άξονα του ελλειψοειδούς. Αυτή είναι η πρώτη συνιστώσα.

8 1. Ανάλυση Κυρίων Συνιστωσών
Γραφική αναπαράσταση της PCA (συν.) Ο κύριος άξονας είναι μια νέα μεταβλητή, η pc1, που αποτελεί γραμμικό συνδυασμό της x1 και της x2 : O δεύτερος άξονας αντιστοιχεί σε όσο το δυνατό μεγαλύτερη από την απομένουσα διακύμανση. Η θέση του νέου δεύτερου άξονα είναι ορθογώνια στον κύριο άξονα του ελλειψοειδούς. Ο άξονας αυτός είναι μία νέα μεταβλητή, η pc2. Αυτή αποτελεί τη δεύτερη συνιστώσα και είναι γραμμικός συνδυασμός της x1 και της x2:

9 1. Ανάλυση Κυρίων Συνιστωσών
Γραφική αναπαράσταση της PCA (συν.) Στο συγκεκριμένο παράδειγμα, εάν αγνοήσουμε το δεύτερο άξονα θα χάσουμε κάποια πληροφορία, η οποία ωστόσο δεν είναι σημαντική. Επομένως, στο συγκεκριμένο παράδειγμα μπορούμε να μειώσουμε τη διάσταση των δεδομένων από δύο (x1 και x2) σε μία (την pc1), με μικρή απώλεια πληροφορίας. H ποσότητα πληροφορίας που χάνουμε υπολογίζεται με τη βοήθεια των ιδιοτιμών. Οι ιδιοτιμές είναι τα μήκη του κυρίου και των υπολοίπων αξόνων του ελλειψοειδούς των δεδομένων. Τα ιδιοδιανύσματα είναι οι συντεταγμένες που ορίζουν τον προσανατολισμό των εν λόγω αξόνων.

10 1. Ανάλυση Κυρίων Συνιστωσών
Οι Κύριες Συνιστώσες Η PCA δημιουργεί ένα νέο σύνολο μεταβλητών, οι οποίες ονομάζονται κύριες συνιστώσες (principal components). Κάθε κύρια συνιστώσα είναι ένας γραμμικός συνδυασμός των αρχικών μεταβλητών. Όλες οι κύριες συνιστώσες είναι ορθογώνιες η μία ως προς την άλλη, με αποτέλεσμα να μην υπάρχει πλεοναστική πληροφορία. Το σύνολο των κυρίων συνιστωσών σχηματίζουν μια ορθογώνια βάση του χώρου των δεδομένων. Η πρώτη κύρια συνιστώσα αποτελεί έναν άξονα στο χώρο. Η προβολή κάθε παρατήρησης στον άξονα αυτό, έχει ως αποτέλεσμα τη δημιουργία μιας μεταβλητής. Η διασπορά αυτής της μεταβλητής είναι η μέγιστη μεταξύ όλων των πιθανών επιλογών για τον πρώτο άξονα.

11 1. Ανάλυση Κυρίων Συνιστωσών
Οι Κύριες Συνιστώσες (συν.) Η δεύτερη κύρια συνιστώσα αποτελεί έναν άλλο άξονα στο χώρο, κάθετο στον πρώτο. Η προβολή των παρατηρήσεων στον άξονα αυτόν δημιουργεί άλλη μία μεταβλητή. Η διασπορά αυτής της μεταβλητής είναι η μέγιστη μεταξύ όλων των πιθανών επιλογών για το δεύτερο άξονα. κ.ο.κ. …. Το πλήρες σύνολο των κυρίων συνιστωσών είναι τόσο μεγάλο όσο το πλήθος του αρχικού συνόλου μεταβλητών. Ωστόσο είναι σύνηθες το άθροισμα των διασπορών μερικών εκ των πρώτων κυρίων συνιστωσών να υπερβαίνει το 80% της συνολικής διασποράς των αρχικών δεδομένων. Συνήθως διατηρούμε τις πρώτες αυτές κύριες συνιστώσες. Μάλιστα, εξετάζοντας τα γραφήματα αυτών των νέων μεταβλητών, συχνά επιτυγχάνεται μία βαθύτερη κατανόηση των αιτίων που παρήγαγαν τα αρχικά δεδομένα.

12 1. Ανάλυση Κυρίων Συνιστωσών
Ερώτηση 1 Ποια η σχέση μεταξύ του πίνακα συσχέτισης (correlation matrix) και του πίνακα συνδιασποράς (covariance matrix); Η συσχέτιση δεν έχει μονάδες ενώ η συνδιασπορά έχει τις μονάδες του γινομένου x·y. Η συσχέτιση λαμβάνει τιμές στο [-1 1] ενώ η συνδιασπορά δεν έχει τέτοιο περιορισμό. Εάν sx=sy=1 τότε η συσχέτιση και η συνδιασπορά λαμβάνουν την ίδια αριθμητική τιμή.

13 1. Ανάλυση Κυρίων Συνιστωσών
Ερώτηση 1(συν). Και οι δύο πίνακες είναι συμμετρικοί. Τα διαγώνια στοιχεία του πίνακα συσχέτισης είναι ίσα με 1. Τα διαγώνια στοιχεία του πίνακα συνδιασποράς είναι ίσα με τις διασπορές των μεταβλητών. Ερώτηση 2 Είναι στην PCA όλες οι ιδιοτιμές μεγαλύτερες του 1 αυτές που περιγράφουν τουλάχιστον το 80% της μεταβλητότητας; Όχι, απαραίτητα. Π.χ. Ας υποθέσουμε ότι σε ένα πρόβλημα 4 διαστάσεων λαμβάνουμε τις ιδιοτιμές : [ ]. Εάν διατηρήσουμε μόνο την πρώτη συνιστώσα, έχουμε διατηρήσει το 1.5/4=37,5% της αρχικής μεταβλητότητας. Εάν διατηρήσουμε τις δύο πρώτες συνιστώσες, έχουμε διατηρήσει το ( )/4=63,75% αυτής. Εάν διατηρήσουμε τις τρεις πρώτες συνιστώσες, έχουμε διατηρήσει το ( )/4=87,5% αυτής.

14 1. Ανάλυση Κυρίων Συνιστωσών
Η συνάρτηση princomp (στο MATLAB) Πραγματοποιεί την Ανάλυση Κυρίων Συνιστωσών στον πίνακα δεδομένων X. [Coeff,Score,latent,tsquare] = princomp(X) Περιγραφή Τιμές X Ο n×p πίνακας δεδομένων X. Οι γραμμές του X αντιστοιχούν σε παρατηρήσεις, οι στήλες σε μεταβλητές. Coeff Οι συντελεστές κυρίων συνιστωσών (δηλαδή οι φορτώσεις). Είναι ένας p×p πίνακας, κάθε στήλη του οποίου περιέχει τους συντελεστές μιας κύριας συνιστώσας. Οι στήλες τοποθετούνται κατά φθίνουσα διακύμανση των συνιστωσών. Score Τα αποτελέσματα (scores) των κύριων συνιστωσών (δηλαδή η αναπαράσταση του X στο χώρο των κύριων συνιστωσών). Οι γραμμές του Score αντιστοιχούν σε παρατηρήσεις, οι στήλες σε συνιστώσες. Τα αποτελέσματα αποτελούν τα δεδομένα που προκύπτουν από το μετασχηματισμό των αρχικών δεδομένων στο χώρο των κύριων συνιστωσών. latent Ένα διάνυσμα που περιέχει τις ιδιοτιμές του πίνακα συνδιασποράς του X tsquare Περιέχει τη στατιστική του Hotelling T2 για κάθε σημείο των δεδομένων. Η στατιστική του Hotelling T2 αποτελεί ένα μέτρο της πολυμεταβλητής απόστασης κάθε παρατήρησης από το κέντρο του συνόλου των δεδομένων.

15 1. Ανάλυση Κυρίων Συνιστωσών
Παράδειγμα 1.1 Ένας ερευνητής μέτρησε τις ακόλουθες τέσσερις μεταβλητές σε φορείς και μη-φορείς της Duschenne Muscular Dystrophy (DMM), οι οποίες προέρχονται από πολυμεταβλητή κανονική κατανομή και των οποίων οι σχέσεις τους ανά δύο είναι γραμμικές : Creatine kinase (x1) Hemopexin (x2) Lactate dehydrogenase (x3) Pyruvate kinase (x4) Ο ακόλουθος πίνακας παρουσιάζει ένα σύνολο μετρήσεων των τεσσάρων μεταβλητών. Να εξεταστεί η εφαρμογή της PCA για να μειωθεί η διάσταση των αρχικών δεδομένων (φορέας=1 σημαίνει φορέας της DMM ενώ φορέας=2 σημαίνει μη-φορέας της DMM).

16 1. Ανάλυση Κυρίων Συνιστωσών
Παράδειγμα 1.1 (συν.) Φορέας CreatKin Hemo Lact Pyruv 1 52 84 11 176 2 167 89 26 364 20 77 200 104 81 27 245 28 87 13 171 30 108 9 284 23 230 44 17 172 40 83 15 205 65 24 198 79 10 151 440 107 239 14 232 58 88 259 22 91 18 129 93 188 42 66 216 256 130 80 211 122 263 48 85 160 265 16 136 31 7 162 285 36 47 53 131 25 49 209 56 105 124 92 32 298

17 1. Ανάλυση Κυρίων Συνιστωσών
Παράδειγμα 1.1 (συν.) Για τα δεδομένα έχουμε : Data =[ ]; X=Data(:,2:5); Η τυποποίηση του Χ δίνει: XX =[ ]

18 1. Ανάλυση Κυρίων Συνιστωσών
Παράδειγμα 1.1 (συν.) Τυποποιούμε τις μεταβλητές γιατί με αυτό τον τρόπο εξασφαλίζουμε ότι ελαχιστοποιούνται οι διαφορές κλίμακας μεταξύ των μεταβλητών: XX=[(X(:,1))./std(X(:,1)) (X(:,2))./std(X(:,2)) (X(:,3))./std(X(:,3)) (X(:,4))./std(X(:,4))]; Στη συνέχεια εφαρμόζουμε την PCA (έχουμε πολλά δεδομένα και την ισχύ των υποθέσεων πολυμεταβλητής κανονικής κατανομής και γραμμικών σχέσεων): [Coeff,Score,latent,tsquare] = princomp(XX); Οι στήλες του πίνακα Coeff περιέχουν τις τέσσερις κύριες συνιστώσες. Αυτές είναι γραμμικοί συνδυασμοί των τεσσάρων αρχικών μεταβλητών, οι οποίοι παράγουν τις νέες μεταβλητές. Coeff =[ ]

19 1. Ανάλυση Κυρίων Συνιστωσών
Παράδειγμα 1.1 (συν.) Ας δούμε τις δύο πρώτες κύριες συνιστώσες: Coeff =[ ] Η πρώτη στήλη είναι η πρώτη κύρια συνιστώσα. Τα μεγαλύτερα βάρη στην πρώτη κύρια συνιστώσα έχουν το τέταρτο και το δεύτερο στοιχείο, τα οποία αντιστοιχούν στις μεταβλητές Pyruvate kinase και Hemopexin, αντίστοιχα. Η δεύτερη στήλη είναι η δεύτερη κύρια συνιστώσα. Τα μεγαλύτερα βάρη (απόλυτες τιμές) στη δεύτερη κύρια συνιστώσα είναι το τρίτο και το δεύτερο στοιχείο, τα οποία αντιστοιχούν στις μεταβλητές Lactate dehydrogenase και Hemopexin, αντίστοιχα.

20 1. Ανάλυση Κυρίων Συνιστωσών
Παράδειγμα 1.1 (συν.) Η μεταβλητή Score παρέχει τα δεδομένα στο νέο σύστημα συντεταγμένων που ορίζεται από τις κύριες συνιστώσες. Η μεταβλητή αυτή έχει το ίδιο μέγεθος με τον πίνακα των δεδομένων. Score = Το πρώτο σημείο των δεδομένων (βλ. πίνακα ΧΧ) [ ] έχει συντεταγμένες στο σύστημα των κυρίων συνιστωσών : [ ]. Το δεύτερο σημείο των δεδομένων [ ] [ ] κ.ο.κ.

21 1. Ανάλυση Κυρίων Συνιστωσών
Παράδειγμα 1.1 (συν.) Το διάγραμμα των δύο πρώτων στηλών του Score παρουσιάζει τα δεδομένα που προβάλλονται στις δύο πρώτες κύριες συνιστώσες: plot(Score(:,1),Score(:,2),'*b') xlabel('pc1') ylabel('pc2') Ας σημειωθεί ότι : corr(Score) =

22 1. Ανάλυση Κυρίων Συνιστωσών
Παράδειγμα 1.1 (συν.) Η μεταβλητή latent περιέχει τις ιδιοτιμές που αντιστοιχούν σε κάθε μία κύρια συνιστώσα, δηλαδή σε κάθε μία στήλη του Coeff ή αλλιώς περιέχει τη μεταβλητότητα που εξηγείται από την αντίστοιχη στήλη του Score: latent =[ ] Παρατήρηση : var(Score)=[ ]) Υπολογίζουμε το ποσοστό της συνολικής μεταβλητότητας που εξηγείται από κάθε κύρια συνιστώσα: percentage_explained = 100*latent/sum(latent); percentage_explained = [ ] Επομένως, οι δύο πρώτες κύριες συνιστώσες εξηγούν σχεδόν το 69% της συνολικής μεταβλητότητας, ενώ οι πρώτες τρεις κύριες συνιστώσες εξηγούν σχεδόν το 87.8% αυτής. Άρα, μπορούμε χωρίς ουσιαστική απώλεια πληροφορίας να μειώσουμε τη διάσταση των δεδομένων από 4 σε 3.

23 1. Ανάλυση Κυρίων Συνιστωσών
Παράδειγμα 1.1 (συν.) Η μεταβλητή tsquare είναι το Hotelling T2 που αποτελεί στατιστικό μέτρο της πολυμεταβλητής απόστασης κάθε παρατήρησης από το κέντρο του συνόλου των δεδομένων. tsquare =[ ] Επομένως, μπορούμε με τη βοήθειά της να προσδιορίσουμε τα πιο ακραία σημεία των δεδομένων. Τα πιο ακραία σημεία στα δεδομένα είναι εκείνα που αντιστοιχούν σε tsquare ίσο με (20η παρατήρηση) και (27η παρατήρηση).

24 1. Ανάλυση Κυρίων Συνιστωσών
Γραμμική Παλινδρόμηση και Ανάλυση Κύριων Συνιστωσών Όταν εφαρμόζουμε τη γραμμική ανάλυση παλινδρόμησης, πρέπει να διερευνούμε την ύπαρξη πολυσυγγραμμικότητας (multicollinearity) στις ανεξάρτητες μεταβλητές. Το φαινόμενο συμβαίνει όταν οι ανεξάρτητες μεταβλητές συσχετίζονται ισχυρά ή μία ανεξάρτητη μεταβλητή είναι συνάρτηση δύο ή περισσότερων από τις άλλες ανεξάρτητες μεταβλητές. Η πολυσυγγραμμικότητα αποτελεί πρόβλημα διότι : Μπορεί να εμποδίσει την ολοκλήρωση των υπολογισμών. Μπορεί να οδηγήσει σε αστάθεια των συντελεστών. Ένας τρόπος ελέγχου της πολυσυγγραμμικότητας είναι η παλινδρόμηση κάθε ανεξάρτητης μεταβλητής έναντι καθεμιάς από τις υπόλοιπες ανεξάρτητες μεταβλητές και η εξέταση των τιμών Rsquare.

25 1. Ανάλυση Κυρίων Συνιστωσών
Γραμμική Παλινδρόμηση και Ανάλυση Κυρίων Συνιστωσών (συν.) Εάν η τιμή Rsquare είναι μεγαλύτερη από το 90%, τότε έχουμε ένα πρόβλημα πολυσυγγραμμικότητας και πρέπει να λάβουμε κατάλληλα μέτρα. Συγκεκριμένα : πρέπει να προσπαθήσουμε να εξαιρέσουμε μεταβλητές κατά τέτοιο τρόπο ώστε να απομακρύνουμε το πρόβλημα πολυσυγγραμμικότητας ή να χρησιμοποιήσουμε την Ανάλυση Κυρίων Συνιστωσών για να εξάγουμε ένα νέο σύνολο ορθογώνιων (και επομένως ασυσχέτιστων) ανεξάρτητων μεταβλητών τις οποίες θα χρησιμοποιήσουμε στην ανάλυση παλινδρόμησης.

26 Παραγοντική Ανάλυση Επανάληψη της PCA Παραγοντική Ανάλυση
Γραμμική Διακριτική Ανάλυση

27 2. Παραγοντική Ανάλυση Η Παραγοντική Ανάλυση (Factor Analysis-FA) χρησιμοποιείται κυρίως σε προβλήματα στα οποία σημαντικές μεταβλητές δεν μπορούν να μετρηθούν απευθείας. Σκοπός της είναι η ανακάλυψη απλών σχέσεων μεταξύ μεταβλητών. Συγκεκριμένα, προσπαθεί να ανακαλύψει εάν οι παρατηρούμενες μεταβλητές μπορούν να εξηγηθούν πλήρως (ή τουλάχιστον σε μεγάλο ποσοστό) από ένα κατά πολύ μικρότερο πλήθος μεταβλητών που ονομάζονται παράγοντες. Δηλαδή, με την Παραγοντική Ανάλυση προσπαθούμε να συνδέσουμε τις μεταβλητές που παρατηρούμε (και για τις οποίες έχουμε μετρήσεις) με τις μη παρατηρούμενες μεταβλητές (τους παράγοντες). Επειδή κάθε παράγοντας μπορεί να επηρεάζει περισσότερες από μία από τις παρατηρούμενες μεταβλητές, οι παράγοντες ονομάζονται επίσης κοινοί παράγοντες.

28 2. Παραγοντική Ανάλυση Πολλές στατιστικές μέθοδοι χρησιμοποιούνται για τη μελέτη της σχέσης μεταξύ ανεξάρτητων και εξαρτημένων μεταβλητών. Η Παραγοντική Ανάλυση διαφέρει στο εξής : χρησιμοποιείται για τη μελέτη των σχέσεων μεταξύ εξαρτημένων μεταβλητών με στόχο την ανακάλυψη στοιχείων σχετικά με τη φύση των ανεξάρτητων μεταβλητών που τις επηρεάζουν, παρόλο που αυτές οι ανεξάρτητες μεταβλητές δεν μετρούνται απευθείας. Μία τυπική Παραγοντική Ανάλυση απαντά στα εξής τέσσερα βασικά ερωτήματα : Πόσοι διαφορετικοί παράγοντες απαιτούνται για την εξήγηση των σχέσεων μεταξύ των εξαρτημένων μεταβλητών; Ποια είναι η φύση αυτών των παραγόντων; Πόσο καλά οι (υποτιθέμενοι) παράγοντες εξηγούν τις παρατηρήσεις; Πόση καθαρά τυχαία διακύμανση περιλαμβάνει κάθε παρατηρούμενη μεταβλητή;

29 2. Παραγοντική Ανάλυση Κάθε παρατηρούμενη μεταβλητή υποθέτουμε ότι είναι εξαρτημένη από ένα γραμμικό συνδυασμό των κοινών παραγόντων. Οι συντελεστές αυτού του συνδυασμού είναι γνωστοί ως φορτώσεις ή φορτία ή επιβαρύνσεις. Επίσης, κάθε παρατηρούμενη μεταβλητή περιλαμβάνει μία συνιστώσα λόγω τυχαίας ανεξάρτητης μεταβλητότητας, που είναι γνωστή ως ειδική μεταβλητότητα ή ειδικός παράγοντας, επειδή είναι συγκεκριμένη για κάθε μεταβλητή.

30 2. Παραγοντική Ανάλυση Xi : η i-οστή παρατηρούμενη μεταβλητή, i=1, 2, …, p μi : η μέση τιμή της μεταβλητής Χi εi : ο i-οστός ειδικός παράγοντας (σφάλμα) Fj: ο j-οστός κοινός παράγοντας, j=1, 2, …, m lij : η φόρτωση της i-οστής μεταβλητής στο j-οστό παράγοντα

31 2. Παραγοντική Ανάλυση Σε μορφή πινάκων οι προηγούμενες σχέσεις γράφονται : Για τους πίνακες αυτούς ισχύουν : όπου Ψ είναι διαγώνιος πίνακας. Εάν ψi=1, αυτό σημαίνει ότι δεν υπάρχει κοινός παράγοντας στην i-οστή μεταβλητή. Εάν ψi=0, αυτό σημαίνει ότι η i-οστή μεταβλητή προσδιορίζεται μόνο από κοινούς παράγοντες. Ισχύει : Με τη χρήση του πίνακα R καταλήγουμε στον πίνακα F των παραγόντων. Ο πίνακας R έχει τον ίδιο αριθμό γραμμών και στηλών ίσο με τον αριθμό των μεταβλητών. Ο πίνακας των παραγόντων F έχει αριθμό γραμμών όσοι είναι οι παράγοντες και στηλών όσες είναι οι παρατηρήσεις (θεωρώντας ότι ο πίνακας των παρατηρήσεων έχει αριθμό γραμμών όσες είναι οι μεταβλητές και στηλών όσες είναι οι παρατηρήσεις).

32 2. Παραγοντική Ανάλυση Αν οι μεταβλητές δεν είναι συσχετισμένες τότε η Παραγοντική Ανάλυση δεν μπορεί να φανεί πολύ χρήσιμη. Σε αυτή την περίπτωση οι ειδικοί παράγοντες παίζουν το σημαντικότερο ρόλο. Σημειώνουμε ωστόσο ότι ο κύριος σκοπός της Παραγοντικής Ανάλυσης είναι ο προσδιορισμός μερικών από τους σημαντικούς κοινούς παράγοντες. Για τον υπολογισμό των κοινών παραγόντων υπάρχουν διάφορες μέθοδοι. Οι πλέον διαδεδομένες είναι : Η Ανάλυση Κυρίων Συνιστωσών Η μέθοδος μεγίστης πιθανοφάνειας Συνήθως στη βιβλιογραφία ο όρος «Παραγοντική Ανάλυση» αναφέρεται στη δεύτερη μέθοδο (μέθοδος μεγίστης πιθανοφάνειας) και αυτό ακολουθούμε στη συνέχεια, ενώ η Ανάλυση Κυρίων Συνιστωσών αναφέρεται απευθείας με το όνομά της.

33 2. Παραγοντική Ανάλυση H μέθοδος μεγίστης πιθανοφάνειας
H μέθοδος προσδιορίζει τις εκτιμήσεις των L, Ψ και μ που μεγιστοποιούν τη συνάρτηση πιθανοφάνειας: Στροφή των παραγόντων Οι εκτιμήσεις των φορτώσεων L μπορεί να έχουν πολύπλοκη δομή. Για να απλουστεύσουμε τη δομή πραγματοποιούμε στροφή των παραγόντων. Στόχος της στροφής είναι ο προσδιορισμός μιας παραμετροποίησης τέτοιας ώστε κάθε μεταβλητή να έχει ένα μικρό πλήθος μεγάλων τιμών φορτώσεων. Δηλαδή, να επηρεάζεται από ένα μικρό πλήθος παραγόντων, κατά προτίμηση έναν. Με τον τρόπο αυτό διευκολύνεται η ερμηνεία των παραγόντων.

34 2. Παραγοντική Ανάλυση Στροφή των παραγόντων (συν.)
Εάν δει κανείς κάθε γραμμή του πίνακα L ως συντεταγμένες ενός σημείου σε m-διάστατο χώρο, τότε κάθε παράγοντας αντιστοιχεί σε έναν άξονα του συστήματος συντεταγμένων. Η στροφή των παραγόντων είναι ισοδύναμη με στροφή των αξόνων αυτών και υπολογισμό των νέων φορτώσεων στο νέο σύστημα συντεταγμένων. Υπάρχουν πολλοί τρόποι με τους οποίους μπορεί να γίνει η στροφή των αξόνων. Μερικές αφήνουν τους άξονες ορθογώνιους ενώ άλλες μεταβάλουν τις μεταξύ τους γωνίες.

35 2. Παραγοντική Ανάλυση Έλεγχος υπόθεσης ότι το πλήθος των κοινών παραγόντων είναι m Η Παραγοντική Ανάλυση πραγματοποιείται υποθέτοντας ότι το πλήθος των κοινών παραγόντων είναι m. Έτσι πρέπει να ελέγχεται, στο πλαίσιο της Ανάλυσης, η μηδενική υπόθεση ότι «το πλήθος των κοινών παραγόντων είναι m». Εάν η p-τιμή του ελέγχου είναι μικρότερη από το επίπεδο σημαντικότητας, τότε η μηδενική υπόθεση απορρίπτεται και οι m παράγοντες δεν επαρκούν για την ανάλυση σε κοινούς παράγοντες. Στην περίπτωση αυτή πρέπει να πραγματοποιηθεί εκ νέου η Ανάλυση με μεγαλύτερο m.

36 2. Παραγοντική Ανάλυση MATLAB Statistics Toolbox : Η συνάρτηση factoran Πραγματοποιεί την Παραγοντική Ανάλυση (factor analysis) στον πίνακα δεδομένων X με τη μέθοδο της μεγίστης πιθανοφάνειας. [lambda,psi,T,stats,F] = factoran(X,m,’param’,value) Περιγραφή Τιμές X Ο n×p πίνακας των δεδομένων X. Οι γραμμές του X αντιστοιχούν σε παρατηρήσεις, οι στήλες σε μεταβλητές. m Το πλήθος των κοινών παραγόντων. ‘param’, value Παράμετροι που ελέγχουν το μοντέλο και τις εξόδους του. Η πλέον συνηθισμένη παράμετρος είναι η ΄rotate’ που χρησιμοποιείται για να δηλώσει τη μέθοδο στροφής των φορτώσεων. Εξ’ ορισμού ‘rotate’, ‘varimax’ lambda Ο πίνακας (διαστάσεων pxm) των εκτιμήσεων των φορτώσεων. psi To διάνυσμα (διάστασης m) των εκτιμήσεων των διασπορών των ειδικών παραγόντων Τ Ο πίνακας (διαστάσεων mxm) στροφής των παραγόντων. stats Δομή, το τελευταίο στοιχείο της οποίας περιέχει πληροφορία σχετική με τη μηδενική υπόθεση Η0 ότι το πλήθος των κοινών παραγόντων είναι m. F O πίνακας (διαστάσεων nxm) των τιμών των κοινών παραγόντων.

37 2. Παραγοντική Ανάλυση Παράδειγμα 2.1
Να πραγματοποιηθεί Παραγοντική Ανάλυση στα δεδομένα του Παραδείγματος 1.1. Εφαρμόζουμε την Παραγοντική Ανάλυση : [lambda,psi,T,stats,F] = factoran(XΧ,2) ??? Error using ==> factoran The number of factors requested, M, is too large for the number of the observed variables. . Παρατήρηση : Με τη μέθοδο της μέγιστης πιθανοφάνειας απαιτούνται περισσότερες των τεσσάρων μεταβλητών για να έχουμε περισσότερους του ενός παράγοντα.

38 2. Παραγοντική Ανάλυση Παράδειγμα 2.1 (συν.)
Εφαρμόζουμε την Παραγοντική Ανάλυση για m=1: [lambda,psi,T,stats,F] = factoran(XΧ,1) Λαμβάνουμε : τις φορτώσεις (μία στήλη επειδή έχουμε έναν κοινό παράγοντα): lambda = 0.3537 0.5640 0.3671 0.8084 τις διασπορές των ειδικών παραγόντων (μία για κάθε μία παρατηρούμενη μεταβλητή) psi = 0.8749 0.6819 0.8653 0.3465 Επομένως, υπάρχει σημαντική διακύμανση πέραν αυτής που οφείλεται στον κοινό παράγοντα (τουλάχιστον για τις τρεις πρώτες μεταβλητές).

39 2. Παραγοντική Ανάλυση Παράδειγμα 2.1 (συν.)
τον πίνακα στροφής (εδώ έχουμε έναν μόνο κοινό παράγοντα) : Τ = 1 τη δομή stats = loglike: dfe: 2 chisq: p: Επειδή p>0.05 δεν απορρίπτεται η μηδενική υπόθεση ότι «έχουμε έναν κοινό παράγοντα». Το μοντέλο με τον έναν κοινό παράγοντα παρέχει ικανοποιητική εξήγηση της μεταβλητότητας των δεδομένων. Παρατήρηση : Στην περίπτωση που προέκυπτε ότι με π.χ. m=4 κοινούς παράγοντες προκύπτει ικανοποιητικό μοντέλο, τότε συνεχίζουμε δοκιμάζοντας εάν προκύπτει ικανοποιητικό μοντέλο με λιγότερους κοινούς παράγοντες, π.χ. με m=3, κ.ο.κ.

40 2. Παραγοντική Ανάλυση Παράδειγμα 2.1 (συν.)
τις τιμές του κοινού παράγοντα (μία για κάθε μία παρατήρηση) F = 0.7263 0.1581 2.7333 0.5845 1.4260 1.5285 0.6214 0.7522 1.0035 1.0019 0.5294 1.8077

41 2. Παραγοντική Ανάλυση Σύγκριση Παραγοντικής Ανάλυσης και Ανάλυσης Κυρίων Συνιστωσών Υπάρχει επικάλυψη στην ορολογία και τους στόχους μεταξύ της Ανάλυσης Κυρίων Συνιστωσών και της Παραγοντικής Ανάλυσης. Πολλές φορές στη βιβλιογραφία δεν υπάρχει διάκριση μεταξύ των δύο μεθόδων και μάλιστα πολλές φορές ως αλγόριθμος της Παραγοντικής Ανάλυσης χρησιμοποιείται η Ανάλυση Κυρίων Συνιστωσών. Είναι και οι δύο τεχνικές για τη μείωση της διαστατικότητας (οι παρατηρούμενες μεταβλητές αντικαθίστανται με λιγότερες νέες.) Οι δύο μέθοδοι διαφέρουν ως προς τους στόχους τους και τα υποκείμενα μοντέλα : Η Ανάλυση Κυρίων Συνιστωσών χρησιμοποιείται για την προσέγγιση των δεδομένων χρησιμοποιώντας λιγότερες διαστάσεις. Η Παραγοντική Ανάλυση όταν αναζητούμε ένα μοντέλο επεξήγησης των συσχετίσεων των δεδομένων.

42 Γραμμική Διακριτική Ανάλυση
Επανάληψη της PCA Παραγοντική Ανάλυση Γραμμική Διακριτική Ανάλυση

43 3. Γραμμική Διακριτική Ανάλυση
Ένα συνηθισμένο πρόβλημα είναι η ταυτοποίηση των χαρακτηριστικών που διαχωρίζουν ένα σύνολο παρατηρήσεων σε δύο ή περισσότερες ομάδες. Για παράδειγμα, μπορεί να επιθυμούμε το διαχωρισμό μεταξύ : ασθενών που ανένηψαν από κώμα και ασθενών που δεν ανένηψαν από κώμα, λουλουδιών του τύπου A – λουλουδιών του τύπου B – λουλουδιών του τύπου C και λουλουδιών του τύπου D, πολύ έξυπνων παιδιών και απλώς έξυπνων παιδιών, κ.ο.κ. Εάν διαθέτουμε πληροφορίες για κάποιες παρατηρήσεις που αντιστοιχούν σε ένα πλήθος μεταβλητών, είναι εύλογο να αναρωτηθούμε εάν αυτές οι μεταβλητές μπορούν να χρησιμοποιηθούν για τον καθορισμό ομάδων ή/και για την πρόβλεψη της ομάδας στην οποία μια παρατήρηση ανήκει.

44 3. Γραμμική Διακριτική Ανάλυση
Στα ανωτέρω παραδείγματα, ασθενείς που ανένηψαν από κώμα και ασθενείς που δεν ανένηψαν από κώμα Ένας ιατρός θα μπορούσε να καταγράφει ένα συνδυασμό δημογραφικών και κλινικών μεταβλητών, όπως είναι η ηλικία, το φύλο, η γενική κατάσταση της υγείας, ο χρόνος μεταξύ του περιστατικού και της άφιξης στο νοσοκομείο, διάφορες χειρουργικές επεμβάσεις κ.λπ. για τον καλύτερο διαχωρισμό μεταξύ ασθενών που ανένηψαν από κώμα ή όχι. Επιπροσθέτως, ο ιατρός θα μπορούσε να χρησιμοποιήσει τις ανωτέρω πληροφορίες για την εκτίμηση (δηλαδή την πρόβλεψη) της πιθανότητας ανάνηψης ασθενούς από κώμα με βάση τις παρατηρούμενες για αυτόν μεταβλητές. Επίσης, το ανωτέρω μοντέλο πρόβλεψης μπορεί πιθανόν να δώσει πληροφόρηση για το πώς αλληλεπιδρούν οι μεταβλητές για την πρόβλεψη της ανάνηψης.

45 3. Γραμμική Διακριτική Ανάλυση
λουλούδια του τύπου A – λουλούδια του τύπου B – λουλούδια του τύπου C και λουλούδια του τύπου D Ένας βιολόγος θα μπορούσε να καταγράψει διάφορα χαρακτηριστικά παρόμοιων τύπων λουλουδιών για να προσδιορίσει το σύνολο των χαρακτηριστικών που επιτρέπουν με τον καλύτερο τρόπο τη διάκριση μεταξύ των τύπων των λουλουδιών. Επιπροσθέτως, ο βιολόγος θα μπορούσε να χρησιμοποιήσει τις ανωτέρω πληροφορίες για να προβλέψει τον τύπο ενός συγκεκριμένου λουλουδιού με βάση τις παρατηρούμενες μεταβλητές για αυτό. Επίσης, το ανωτέρω μοντέλο πρόβλεψης μπορεί πιθανόν να δώσει πληροφόρηση για το πώς αλληλεπιδρούν οι μεταβλητές για την πρόβλεψη του τύπου των λουλουδιών.

46 3. Γραμμική Διακριτική Ανάλυση
πολύ έξυπνα και απλώς έξυπνα παιδιά Ένας ερευνητικής θα μπορούσε να καταγράψει την απόδοση των παιδιών σε τρία κύρια μαθήματα : Ελληνικά, Μαθηματικά και Φυσική, για την καλύτερη διάκριση μεταξύ “πολύ έξυπνων” και “απλώς έξυπνων” παιδιών. Επιπροσθέτως, ο ερευνητής θα μπορούσε να χρησιμοποιήσει τις ανωτέρω πληροφορίες για να προβλέψει εάν ένα συγκεκριμένο παιδί κατατάσσεται στην ομάδα των “πολύ έξυπνων” παιδιών ή στην ομάδα των “απλώς έξυπνων” παιδιών με βάση τις παρατηρούμενες μεταβλητές για αυτό. Επίσης, το ανωτέρω μοντέλο πρόβλεψης μπορεί πιθανόν να δώσει πληροφόρηση για το πώς αλληλεπιδρούν οι μεταβλητές για την πρόβλεψη.

47 3. Γραμμική Διακριτική Ανάλυση
Η Διακριτική (ή Διαχωριστική) Ανάλυση (Discriminant Analysis) είναι μια τεχνική που χρησιμοποιείται για τη δημιουργία ενός προγνωστικού μοντέλου μέλους ομάδας με βάση τα παρατηρούμενα χαρακτηριστικά κάθε περίπτωσης. Η Διακριτική Ανάλυση παράγει συναρτήσεις από ένα δείγμα παρατηρήσεων για τις οποίες είναι γνωστή η ομάδα στην οποία κάθε μία παρατήρηση ανήκει. Στη συνέχεια, οι συναρτήσεις μπορούν να εφαρμοστούν σε νέες περιπτώσεις με μετρήσεις των μεταβλητών πρόβλεψης αλλά άγνωστη την ομάδα στην οποία ανήκουν. Όταν υπάρχουν δύο ομάδες, τότε παράγεται μόνο μία συνάρτηση διαχωρισμού.

48 3. Γραμμική Διακριτική Ανάλυση
Διακριτική Ανάλυση (συν.) Όταν υπάρχουν περισσότερες από δύο ομάδες παράγονται περισσότερες συναρτήσεις. Πιο συγκεκριμένα, εάν υπάρχουν k ομάδες, μπορεί να εξαχθούν μέχρι k-1 συναρτήσεις διαχωρισμού και μπορούμε να ελέγξουμε πόσες τελικά αξίζει να κρατήσουμε. Συνήθως, μόνο οι τρεις πρώτες από τις συναρτήσεις αυτές είναι χρήσιμες. Η Διακριτική Ανάλυση παράγει μια νέα μεταβλητή συνδυάζοντας τις αρχικές μεταβλητές κατά τέτοιο τρόπο ώστε να μεγιστοποιούνται οι διαφορές μεταξύ των προκαθορισμένων ομάδων. Ας σημειωθεί ότι τα μέλη των ομάδων πρέπει να είναι γνωστά πριν από τη χρήση της Διακριτικής Ανάλυσης.

49 3. Γραμμική Διακριτική Ανάλυση
Διακριτική Ανάλυση (συν.) Ένας δεύτερος σκοπός της διακριτικής ανάλυσης είναι η κατανόηση του συνόλου των δεδομένων. Μια προσεκτική εξέταση του μοντέλου πρόβλεψης που προκύπτει από την ανάλυση μπορεί να δώσει πληροφόρηση για τη σχέση μεταξύ της ιδιότητας μέλους ομάδας και των μεταβλητών που χρησιμοποιούνται για την πρόβλεψή της.

50 3. Γραμμική Διακριτική Ανάλυση
Τύποι Διακριτικής Ανάλυσης Υπάρχουν τρεις τύποι Διακριτικής Ανάλυσης (ΔΑ) : Άμεση ΔΑ (Direct DA) Στην άμεση ΔΑ, εισέρχονται απευθείας όλες οι μεταβλητές. Ιεραρχική ΔΑ (Hierarchical DA) Στην ιεραρχική ΔΑ, η σειρά εισόδου των μεταβλητών καθορίζεται από τον ερευνητή. Βηματική ΔΑ (Stepwise DA) Στη βηματική ΔΑ, η σειρά εισόδου των μεταβλητών καθορίζεται με βάση στατιστικά κριτήρια.

51 3. Γραμμική Διακριτική Ανάλυση
Η Γραμμική Διακριτική Ανάλυση (LDA - Linear Discriminant Analysis) είναι η μέθοδος που χρησιμοποιείται για τον προσδιορισμό του γραμμικού συνδυασμού χαρακτηριστικών [η συνάρτηση διάκρισης ή διαχωρισμού (disciminant function)], ο οποίος ξεχωρίζει καλύτερα δύο ή περισσότερες κλάσεις αντικειμένων ή συμβάντων. Δηλαδή, ο γραμμικός συνδυασμός είναι τέτοιος ώστε να μεγιστοποιούνται οι διαφορές μεταξύ των προκαθορισμένων αντικειμένων ή συμβάντων. Ο προκύπτον συνδυασμός χρησιμοποιείται ως ένας γραμμικός ταξινομητής.

52 3. Γραμμική Διακριτική Ανάλυση
Η απλούστερη περίπτωση Η απλούστερη συνάρτηση διαχωρισμού αφορά την περίπτωση της πρόβλεψης μέλους σε μία από δύο ομάδες με βάση μόνο μία μεταβλητή. Ένα παράδειγμα της απλούστερης περίπτωσης αποτελεί η πρόβλεψη της θεραπείας/μη θεραπείας ενός ασθενούς με βάση τις μετρήσεις ενός μόνο μεγέθους (π.χ. της πίεσης). Στην περίπτωση αυτή, επειδή το μοντέλο πρόβλεψης περιλαμβάνει μόνο μία μεταβλητή, δεν έχει νόημα να μιλάμε για εξαγωγή πληροφορίας σχετικά με τον τρόπο αλληλεπίδρασης των μεταβλητών. Ως προς τα δεδομένα και το σκοπό της ανάλυσης, η απλούστερη περίπτωση είναι ταυτόσημη με την περίπτωση της απλής γραμμικής παλινδρόμησης με δίτιμες εξαρτημένες μεταβλητές.

53 3. Γραμμική Διακριτική Ανάλυση
Διακριτική Ανάλυση με περισσότερες από 2 ομάδες Η επέκταση της διακριτικής ανάλυσης σε περιπτώσεις με τρεις ή περισσότερες ομάδες γίνεται με τον ίδιο τρόπο. Οι πιθανότητες των παρατηρούμενων αποτελεσμάτων για την ιδιότητα μέλους ομάδας υπολογίζονται με παρόμοιο τρόπο με την περίπτωση δύο ομάδων. Η μόνη διαφορά είναι ότι υπάρχουν περισσότερες πιθανότητες προς υπολογισμό.

54 3. Γραμμική Διακριτική Ανάλυση
Γραμμική Διακριτική Ανάλυση για την περίπτωση δύο ομάδων Ας θεωρήσουμε ένα απλό παράδειγμα δύο ομάδων. Σκοπός είναι ο συνδυασμός των αποτελεσμάτων των μεταβλητών κατά τέτοιο τρόπο έτσι ώστε να παραχθεί μία νέα σύνθετη μεταβλητή, οι τιμές της οποίας αποτελούν τα αποτελέσματα διαχωρισμού (discriminant score). Έστω ότι κάθε ομάδα έχει κανονική κατανομή του αποτελέσματος διαχωρισμού. Ο βαθμός επικάλυψης μεταξύ των κατανομών του αποτελέσματος διαχωρισμού μπορεί να χρησιμοποιηθεί ως μέτρο της επιτυχίας της τεχνικής.

55 3. Γραμμική Διακριτική Ανάλυση
Γραμμική Διακριτική Ανάλυση για την περίπτωση δύο ομάδων (συν.) Τα αποτελέσματα διαχωρισμού υπολογίζονται από μια συνάρτηση διαχωρισμού (discriminant function) της μορφής : όπου D : τα αποτελέσματα διαχωρισμού wi : ο συντελεστής στάθμισης (βάρος) της i-οστής μεταβλητής xi : το τυποποιημένο αποτέλεσμα της i-οστής μεταβλητής (μέση τιμή ίση με 0 και τυπική απόκλιση ίση με 1) Συνεπώς, το αποτέλεσμα διαχωρισμού είναι ένα σταθμισμένο γραμμικό άθροισμα των μεταβλητών διαχωρισμού. Υποθέτουμε ότι οι μεταβλητές διαχωρισμού ακολουθούν την πολυμεταβλητή κανονική κατανομή για κάθε ομάδα, υπάρχει ισότητα του πίνακα διασποράς-συνδιασποράς για όλες τις ομάδες και δεν είναι γραμμικά έντονα συσχετισμένες.

56 3. Γραμμική Διακριτική Ανάλυση
Γραμμική Διακριτική Ανάλυση για την περίπτωση δύο ομάδων (συν.) Οι συντελεστές στάθμισης υπολογίζονται χρησιμοποιώντας το σύνολο των παρατηρήσεων των x (γνωστές και ως γνωρίσματα, χαρακτηριστικά, κλπ.) για κάθε δείγμα ενός αντικειμένου ή γεγονότος με γνωστή ταξινόμηση y. Το σύνολο των δειγμάτων αυτών είναι το σύνολο εκπαίδευσης (training set). Οι συντελεστές στάθμισης υπολογίζονται έτσι ώστε να μεγιστοποιούνται οι διαφορές μεταξύ των προκαθορισμένων ομάδων των αντικειμένων ή γεγονότων. Το πρόβλημα ταξινόμησης έγκειται στην εύρεση της πρόβλεψης της κλάσης y οποιουδήποτε δείγματος (όχι απαραίτητα από το σύνολο εκπαίδευσης) με δεδομένο μόνο την παρατήρησή του x. Τα αποτελέσματα της ταξινόμησης λαμβάνονται από την εφαρμογή ενός κριτηρίου κατωφλίου (threshold criterion). Με άλλα λόγια, ο ταξινομητής παράγει μια μεταβλητή που έχει τιμές εντός ενός διαστήματος π.χ. [0 1], στις οποίες εφαρμόζεται ένα κατώφλι π.χ. ίσο με 0.5.

57 3. Γραμμική Διακριτική Ανάλυση
Γραμμική Διακριτική Ανάλυση για την περίπτωση δύο ομάδων (συν.) Παρατήρηση 1 : Η τυποποίηση των μεταβλητών εξασφαλίζει ότι ελαχιστοποιούνται οι διαφορές κλίμακας μεταξύ των μεταβλητών. Παρατήρηση 2: Αφού όλες οι μεταβλητές τυποποιούνται, οι απόλυτες τιμές των βαρών μπορούν να χρησιμοποιηθούν για την κατάταξη των μεταβλητών ως προς την ισχύ διαχωρισμού που έχουν. Παρατήρηση 3: Το (απολύτως) μεγαλύτερο βάρος σχετίζεται με τη μεταβλητή με τη μεγαλύτερη ισχύ διαχωρισμού. Παρατήρηση 4: Οι μεταβλητές με (απολύτως) μεγάλα βάρη είναι εκείνες που συνεισφέρουν περισσότερο στη διαφοροποίηση των ομάδων.

58 3. Γραμμική Διακριτική Ανάλυση
Γραμμική Διακριτική Ανάλυση για την περίπτωση δύο ομάδων (συν.) Στη συνέχει παρουσιάζουμε μια γραφική εξήγηση της Διακριτικής Ανάλυσης. Το ακόλουθο σχήμα αναφέρεται σε ένα παράδειγμα δύο ομάδων και δύο μεταβλητών και αποτελεί το διάγραμμα σκέδασης.

59 3. Γραμμική Διακριτική Ανάλυση
Γραμμική Διακριτική Ανάλυση για την περίπτωση δύο ομάδων (συν.) Καταρχήν οι δύο ομάδες μπορούν να διαχωριστούν με τη χρήση ως συνάρτησης διαχωρισμού τη μεταβλητή x1 ή τη x2. Ωστόσο, υπάρχει μεγάλη επικάλυψη σε κάθε μεμονωμένο άξονα.

60 3. Γραμμική Διακριτική Ανάλυση
Γραμμική Διακριτική Ανάλυση για την περίπτωση δύο ομάδων (συν.) Είναι εφικτή η κατασκευή ενός νέου άξονα, ο οποίος διέρχεται διαμέσου των κεντροειδών των δύο ομάδων, έτσι ώστε οι δύο ομάδες να επικαλύπτονται σε ελάχιστο βαθμό (ή εάν είναι εφικτό καθόλου) ως προς το νέο άξονα.

61 3. Γραμμική Διακριτική Ανάλυση
Γραμμική Διακριτική Ανάλυση για την περίπτωση δύο ομάδων (συν.) Ο νέος άξονας αντιπροσωπεύει μία νέα μεταβλητή που είναι γραμμικός συνδυασμός των x1 και x2 και παρέχει το αποτέλεσμα διαχωρισμού. Εάν έχουμε περισσότερες από δύο μεταβλητές η γραφική αναπαράσταση γίνεται εν γένει αδύνατη. Ωστόσο, μπορούμε να χρησιμοποιήσουμε κίνηση (animation) για να αναδείξουμε πώς μερικές προβολές των δεδομένων μας μπορούν να χρησιμοποιηθούν για το διαχωρισμό των δεδομένων καλύτερα από άλλες.

62 3. Γραμμική Διακριτική Ανάλυση
Παράδειγμα 3.1 Έστω ότι καταγράφουμε τις ακόλουθες τρεις μη ισχυρά γραμμικά συσχετισμένες μεταβλητές για 10 άνδρες (Μ) και 10 γυναίκες (F), οι οποίες ακολουθούν πολυμεταβλητή κανονική κατανομή με ίσους τους πίνακες διασποράς-συνδιασποράς των δύο ομάδων: α. Ύψος β. Βάρος γ. Ηλικία Τα δεδομένα παρουσιάζονται στον ακόλουθο πίνακα : Φύλο Ύψος (cm) Βάρος (Kg) Ηλικία M 174 68 51 178 74 32 F 161 56 33 162 65 37 181 80 48 177 180 78 44 40 62 42 81 171 22 152 35 167 50 155 55 154 27 190 47 175 60 38 92 41 184 73

63 3. Γραμμική Διακριτική Ανάλυση
Παράδειγμα 3.1 (συν.) Οι μέσες τιμές για κάθε μεταβλητή είναι : Θέλουμε να βρούμε γραμμική διακριτική συνάρτηση D που μεγιστοποιεί τις διαφορές μεταξύ των ομάδων και προκύπτει από τις ανωτέρω τρεις μεταβλητές : Το πρόβλημα είναι η εύρεση κατάλληλων τιμών για τα βάρη w1,w2 και w3 που επιτυγχάνουν τη μεγιστοποίηση των διαφορών μεταξύ των ομάδων. Μεταβλητή Άνδρας (M) Γυναίκα (F) Διαφορά Ύψος (cm) 178.3 168.4 9.9 Βάρος (Kg) 75.8 58.2 17.6 Ηλικία 43.2 34.6 8.6

64 3. Γραμμική Διακριτική Ανάλυση
Παράδειγμα 3.1 (συν.) Έστω w το διάνυσμα που περιέχει τα άγνωστα βάρη: Έστω d το διάνυσμα των διαφορών μεταξύ των ομάδων : Επίσης, έστω A ο πίνακας διασποράς-συνδιασποράς των παρατηρήσεων: A=[ ] Αποδεικνύεται ότι τα ζητούμενα βάρη ικανοποιούν τη σχέση: Επομένως, τα άγνωστα βάρη υπολογίζονται ως :

65 3. Γραμμική Διακριτική Ανάλυση
Παράδειγμα 3.1 (συν.) Στο παράδειγμά μας έχουμε: Έτσι, έχουμε :

66 3. Γραμμική Διακριτική Ανάλυση
Παράδειγμα 3.1 (συν.) Με τον ίδιο τρόπο όπως πριν, χρησιμοποιώντας τυποποιημένες μεταβλητές (δηλαδή μέση τιμή ίση με 0, τυπική απόκλιση ίση με 1) βρίσκουμε ότι : Επομένως, για το αποτέλεσμα διαχωρισμού έχουμε :

67 3. Γραμμική Διακριτική Ανάλυση
Παράδειγμα 3.1 (συν.) Τα αποτελέσματα διαχωρισμού για τους άντρες είναι : , , , , , , , , , Το μέσο αποτέλεσμα διαχωρισμού για τους άντρες είναι : Τα αποτελέσματα διαχωρισμού για τις γυναίκες είναι : , , , , , , , , , Το μέσο αποτέλεσμα διαχωρισμού για τις γυναίκες είναι : Το κατώφλι μπορεί να τεθεί ίσο με 0. Επομένως, ένα θετικό αποτέλεσμα διαχωρισμού (>0) αντιστοιχεί σε άντρα και ένα αρνητικό αποτέλεσμα διαχωρισμού (<0) αντιστοιχεί σε γυναίκα. Σημείωση: Οι μέσες τιμές δεν θα ήταν συμμετρικές εάν τα πλήθη των ομάδων ήταν διαφορετικά.

68 3. Γραμμική Διακριτική Ανάλυση
Ακρίβεια Ταξινόμησης (Classification Accuracy) Όταν πραγματοποιούμε διακριτική ανάλυση για να προβλέψουμε την ιδιότητα μέλους σε ομάδες, είναι πολύ σημαντικό να υπολογίζουμε την ακρίβεια των προβλέψεων. Αν και φαίνεται εύκολο έργο, στην πραγματικότητα ο υπολογισμός της ακρίβειας των προβλέψεων είναι πιο πολύπλοκος. Ας θεωρήσουμε τη διακριτική ανάλυση 2-ομάδων (π.χ. την περίπτωση παρουσία/απουσία ή την περίπτωση +/-). Υπάρχουν δύο πιθανά σφάλματα πρόβλεψης Ψευδώς θετικά (FP – False Positives) Ψευδώς αρνητικά (FN – False Negatives) Η απόδοση του μοντέλου πρόβλεψης συνοψίζεται σε ένα πίνακα σφαλμάτων, όπως ο ακόλουθος, που περιλαμβάνει τις παρατηρήσεις και τις προβλέψεις : + /-.

69 3. Γραμμική Διακριτική Ανάλυση
Ακρίβεια Ταξινόμησης (συν.) όπου A, B, C και D είναι μετρήσεις (και όχι ποσοστά) και A+B+C+D=N. Ένα πλήθος μέτρων του σφάλματος ή της ακρίβειας μπορούν να υπολογιστούν από τον πίνακα σφαλμάτων. Στη συνέχεια παρουσιάζουμε μερικά από αυτά τα μέτρα : Πραγματική τιμή + Πραγματική τιμή - Προβλεπόμενη τιμή + A B Προβλεπόμενη τιμή - C D

70 3. Γραμμική Διακριτική Ανάλυση
Πραγματική τιμή + Πραγματική τιμή- Προβλεπόμενη τιμή + A B Προβλεπόμενη τιμή - C D Ακρίβεια Ταξινόμησης (συν.) Μέτρα Υπολογισμός Παρατηρήσεις Επικράτηση (Prevalence) Αναφέρεται σε επικράτηση του «+». Συνολική Διαγνωστική Ισχύς (Overall Diagnostic Power) Ποσοστό Ορθής Ταξινόμησης (Correct Classification Rate) Ευαισθησία (Sensitivity) Είναι η υπό συνθήκη πιθανότητα ότι η περίπτωση «+» ταξινομείται σωστά. Ιδιομορφία (Specificity) Είναι το αντίθετο της “Ευαισθησίας”. Ποσοστό Ψευδώς Θετικών (False Positive Rate) Ποσοστό Ψευδώς Αρνητικών (False Negative Rate)

71 3. Γραμμική Διακριτική Ανάλυση
Πραγματική τιμή + Πραγματική τιμή - Προβλεπόμενη τιμή + A B Προβλεπόμενη τιμή - C D Ακρίβεια ταξινόμησης (συν.) Μέτρα Υπολογισμός Παρατηρήσεις Θετική Προβλεπτική Ισχύς (Positive Predictive Power) Αποτιμά την πιθανότητα μια περίπτωση να είναι «+» εάν ο ταξινομητής ταξινομεί την περίπτωση ως «+» Αρνητική Προβλεπτική Ισχύς (Negative Predictive Power) Αποτιμά την πιθανότητα μια περίπτωση να μην είναι «+» εάν ο ταξινομητής δεν ταξινομεί την περίπτωση ως «+» Ποσοστό Εσφαλμένης Ταξινόμησης (Misclassification Rate) Λόγος Σχετικών Πιθανοτήτων (Odds-ratio)

72 3. Γραμμική Διακριτική Ανάλυση
Πραγματική τιμή + Πραγματική τιμή - Προβλεπόμενη τιμή + A B Προβλεπόμενη τιμή - C D Ακρίβεια Ταξινόμησης (συν.) Μέτρα Υπολογισμός Παρατηρήσεις Κάππα Κανονικοποιη-μένη Αμοιβαία Πληροφορία

73 3. Γραμμική Διακριτική Ανάλυση
Ακρίβεια Ταξινόμησης (συν.) Σημειώνεται ότι μόνο τα ακόλουθα τρία από τα ανωτέρω μέτρα κάνουν πλήρη χρήση της πληροφορίας που περιέχεται στον πίνακα σφαλμάτων : ο Λόγος Σχετικών Πιθανοτήτων (Odds-ratio) το Κάππα (Kappa) η Κανονικοποιημένη Αμοιβαία Πληροφορία (Normalized Mutual Information) Ο λόγος σχετικών πιθανοτήτων τείνει στο άπειρο όταν είτε το B είτε το C τείνει στο μηδέν.

74 3. Γραμμική Διακριτική Ανάλυση
Ακρίβεια Ταξινόμησης (συν.) Τα ανωτέρω μέτρα εξυπηρετούν διάφορους σκοπούς. Η επιλογή ενός μέτρου αντανακλά το σκοπό της χρήσης του. Εάν ο σκοπός είναι η εκτίμηση της αποτελεσματικότητας του ταξινομητή, κατάλληλο είναι ένα μέτρο που εκτιμά τη βελτίωση έναντι της τυχαίας ταξινόμησης (π.χ. το Κάππα). Αυτό είναι σημαντικό διότι είναι εφικτή η λήψη υψηλής συνολικής ακρίβειας χρησιμοποιώντας τετριμμένους κανόνες, όταν, για παράδειγμα, η Επικράτηση είναι χαμηλή. Το Ποσοστό Ορθής Ταξινόμησης εξαρτάται από την Επικράτηση καθώς μπορεί να γραφεί ως: Για παράδειγμα, όταν η Επικράτηση είναι 5%, μπορούμε να επιτύχουμε Ποσοστό Ορθής Ταξινόμησης ίσο με 95% εάν όλες οι περιπτώσεις προβλεφθούν ως αρνητικές (A=B=0).

75 3. Γραμμική Διακριτική Ανάλυση
Ακρίβεια Ταξινόμησης (συν.) Η επίδραση του κατωφλίου (threshold effect) Όπως έχει αναφερθεί, τα αποτελέσματα της ταξινόμησης λαμβάνονται με την εφαρμογή ενός κριτηρίου κατωφλίου. Συνήθως, ο ταξινομητής παράγει μια μεταβλητή που λαμβάνει τιμές εντός ενός διαστήματος π.χ. [0 1] στις οποίες εφαρμόζεται ένα κατώφλι π.χ. ίσο με 0.5. Επομένως, τα αποτελέσματα στον πίνακα σφαλμάτων εξαρτώνται από το εφαρμοζόμενο κριτήριο κατωφλίου. Εάν το κριτήριο κατωφλίου τροποποιηθεί, οι τιμές του πίνακα σφαλμάτων θα αλλάξουν. Υπάρχουν πολλοί λόγοι για τους οποίους πρέπει να εξετάζεται η τιμή του κατωφλίου. Για παράδειγμα, εάν στο υπό εξέταση πρόβλημα τα Ψευδώς Αρνητικά σφάλματα είναι πιο σημαντικά από τα Ψευδώς Θετικά, το κατώφλι μπορεί να τροποποιηθεί για να μειώσει το ποσοστό των Ψευδώς Αρνητικών με αντιστάθμισμα την αύξηση του ποσοστού των Ψευδώς Θετικών.

76 3. Γραμμική Διακριτική Ανάλυση
Παράδειγμα 3.2 Έστω ότι σε ένα πρόβλημα διακριτικής ανάλυσης με δύο ομάδες λαμβάνουμε τον ακόλουθο πίνακα σφαλμάτων : Θέλουμε να υπολογίσουμε τα ακόλουθα μέτρα : Επικράτηση Συνολική Διαγνωστική Ισχύς Ποσοστό Ορθής Ταξινόμησης Ευαισθησία Ιδιομορφία Πραγματική τιμή + Πραγματική τιμή - Προβλεπόμενη τιμή + 80 25 Προβλεπόμενη τιμή - 20 75

77 3. Γραμμική Διακριτική Ανάλυση
Παράδειγμα 3.2 (συν.) N=A+B+C+D=200 Πραγματική τιμή + Πραγματική τιμή - Προβλεπόμενη τιμή + A=80 B=25 Προβλεπόμενη τιμή - C=20 D=75 Μέτρο Υπολογισμός Αποτελέσματα Επικράτηση (Prevelance) 0.50 Συνολική Διαγνωστική Ισχύς (Overall Diagnostic Power) Ποσοστό ορθής ταξινόμησης (Correct Classification Rate) 0.775 Ευαισθησία (Sensitivity) 0.80 Ιδιομορφία (Specificity) 0.75

78 3. Γραμμική Διακριτική Ανάλυση
MATLAB Statistics Toolbox : Η συνάρτηση classify για την πραγματοποίηση διακριτικής ανάλυσης Ταξινομεί κάθε γραμμή των δεδομένων που περιέχονται στο “sample” με βάση τον ταξινομητή που προκύπτει από την ανάλυση των δεδομένων εκπαίδευσης (“group” και “training”). [class,err]= classify(sample,training,group,'type') Περιγραφή Τιμές sample Ο πίνακας του οποίου οι γραμμές είναι οι προς ταξινόμηση παρατηρήσεις και οι στήλες είναι οι μεταβλητές. training Ο πίνακας του οποίου οι γραμμές είναι οι παρατηρήσεις με γνωστή ταξινόμηση (η πληροφορία παρέχεται από το διάνυσμα “group”) και οι στήλες είναι οι μεταβλητές. group Είναι μια μεταβλητή ομαδοποίησης που αντιστοιχεί στις παρατηρήσεις του “training”. Οι τιμές της ορίζουν τις ομάδες. Κάθε στοιχείο της ορίζει την ομάδα στην οποία ανήκει η αντίστοιχη γραμμή του “training”. ‘type’ Προσδιορίζει τον τύπο της συνάρτησης διαχωρισμού. ‘linear’ (εξ’ ορισμού) ‘quadratic’ κλπ class Δείχνει σε ποια ομάδα αντιστοιχεί κάθε γραμμή του “sample” και είναι του ίδιου τύπου με τη “group”. err Η εκτίμηση του ποσοστού εσφαλμένης ταξινόμησης του training.

79 3. Γραμμική Διακριτική Ανάλυση
Η συνάρτηση classify (συν.) [class,err]= classify(sample,training,group,'type') Σημειώνεται ότι : Οι “sample” και “training” πρέπει να είναι πίνακες με το ίδιο πλήθος στηλών (ίδιο πλήθος μεταβλητών). Οι “training” και “group” πρέπει να έχουν το ίδιο πλήθος γραμμών (ίδιο πλήθος παρατηρήσεων). Η συνάρτηση classify επιστρέφει ως ποσοστό των σφαλμάτων (err) το ποσοστό των παρατηρήσεων του “training” που ταξινομούνται εσφαλμένα (με βάση τον υπολογισμένο από τη συνάρτηση ταξινομητή).

80 3. Γραμμική Διακριτική Ανάλυση
Παράδειγμα 3.1 (συν.) Ας θεωρήσουμε το αρχείο των τριών μεταβλητών για 10 άνδρες και 10 γυναίκες του παραδείγματος 3.1: Να εφαρμοστεί γραμμική διακριτική ανάλυση χρησιμοποιώντας ως σύνολο εκπαίδευσης τον πίνακα των δειγμάτων και να υπολογιστεί το σφάλμα του ταξινομητή. Φύλο Ύψος (cm) Βάρος (Kg) Ηλικία M 174 68 51 178 74 32 F 161 56 33 162 65 37 181 80 48 177 180 78 44 40 62 42 81 171 22 152 35 167 50 155 55 154 27 190 47 175 60 38 92 41 184 73

81 3. Γραμμική Διακριτική Ανάλυση
Παράδειγμα 3.1 (συν.) training =[ ];

82 3. Γραμμική Διακριτική Ανάλυση
Παράδειγμα 3.1 (συν.) group=[ ]; % 0 for male,1 for female sample=training; % Για να δούμε το αποτέλεσμα της ταξινόμησης του training % που δίνει ο ταξινομητής [class,err]= classify(sample,training,group); class =[ ] err =0.0500 Επομένως, το σφάλμα του ταξινομητή είναι 5%. Παρατήρηση: Για το διάνυσμα “group” μπορούμε επίσης να χρησιμοποιήσουμε : group=['m' ;'m'; 'm' ;'m'; 'm' ;'m';'m' ;'m';'m' ;'m'; 'f' ;'f';'f';'f';'f' ;'f';'f' ;'f';'f' ;'f'] class =[ m m m m m m m m m m f f f m f f f f f f ] err =

83 3. Γραμμική Διακριτική Ανάλυση
Παράδειγμα 3.3 Ένας ερευνητής επιθυμεί να αναπτύξει ένα μοντέλο γραμμικής διακριτικής ανάλυσης για να προβλέψει εάν κάποιος είναι φορέας της Duschenne Muscular Dystrophy (DMD). Για το σκοπό αυτό, μέτρησε τις ακόλουθες τέσσερις, μη ισχυρά γραμμικά συσχετισμένες, μεταβλητές σε φορείς και μη-φορείς της DMM, οι οποίες ακολουθούν πολυμεταβλητή κανονική κατανομή με ίσους τους πίνακες διασποράς-συνδιασποράς των δύο ομάδων : α. Creatine kinase β. Hemopexin γ. Lactate dehydrogenase δ. Pyruvate kinase Δεδομένου ενός συνόλου μετρήσεων που απεικονίζονται στον ακόλουθο πίνακα (carrier=1 σημαίνει φορέας της DMM, ενώ carrier=2 σημαίνει μη-φορέας της DMM), κατάφερε ο ερευνητής να προβλέπει εάν κάποιος είναι φορέας της DMD; Θεωρείστε το σύνολο των μετρήσεων ως το σύνολο εκπαίδευσης και υπολογίστε το σφάλμα του ταξιμομητή. Στη συνέχεια θεωρείστε μισές από τις μετρήσεις ως το σύνολο εκπαίδευσης και υπολογίστε το σφάλμα του ταξινομητή στο δείγμα που αποτελείται από το υπόλοιπο μισό των μετρήσεων.

84 3. Γραμμική Διακριτική Ανάλυση
Παράδειγμα 3.3 (συν.) Φορέας CreatKin Hemo Lact Pyruv 1 52 84 11 176 2 167 89 26 364 20 77 200 104 81 27 245 28 87 13 171 30 108 9 284 23 230 44 17 172 40 83 15 205 65 24 198 79 10 151 440 107 239 14 232 58 88 259 22 91 18 129 93 188 42 66 216 256 130 80 211 122 263 48 85 160 265 16 136 31 7 162 285 36 47 53 131 25 49 209 56 105 124 92 32 298

85 3. Γραμμική Διακριτική Ανάλυση
Παράδειγμα 3.3 (συν.) Πρώτα θεωρούμε το σύνολο των μετρήσεων ως το σύνολο εκπαίδευσης : Data=[ ];

86 3. Γραμμική Διακριτική Ανάλυση
Παράδειγμα 3.3 (συν.) training=Data(:,2:5); sample=training; % για να δούμε το αποτέλεσμα της ταξινόμησης του training % που δίνει ο ταξινομητής group=Data(:,1); [class,err]= classify(sample,training,group) class =[ ] err = Επομένως, το σφάλμα στην περίπτωση αυτή είναι 10,71%. Στη συνέχεια θεωρούμε μισό από το σύνολο των μετρήσεων ως το σύνολο εκπαίδευσης και το υπόλοιπο μισό το προς ταξινόμηση δείγμα: training=[Data(1:7,2:5); Data(15:21,2:5)]; % περιλαμβάνει τους μισούς φορείς και % του μισούς μη φορείς group=[Data(1:7,1);Data(15:21,1)]; sample=[Data(8:14,2:5); Data(22:28,2:5)]; class = err = Προσοχή: Το ανωτέρω σφάλμα του 28,57% δεν είναι το σφάλμα του ταξινομητή στο δείγμα αλλά στο σύνολο εκπαίδευσης.

87 3. Γραμμική Διακριτική Ανάλυση
Παράδειγμα 3.3 (συν.) Ας θυμηθούμε ότι “Η συνάρτηση classify επιστρέφει ως ποσοστό των σφαλμάτων (err) το ποσοστό των παρατηρήσεων του “training” που ταξινομούνται εσφαλμένα”. Για να βρούμε το σφάλμα στο δείγμα πρέπει να συγκρίνουμε το αποτέλεσμα της συνάρτησης classify, δηλαδή το διάνυσμα class, με τα δεδομένα που αντιστοιχούν στις παρατηρήσεις του δείγματος : class =[ ] groupsample=[Data(8:14,1); Data(22:28,1)]; groupsample =[ ] Επομένως, έχουμε δύο σφάλματα στο δείγμα, δηλαδή 2/14=14.29%


Κατέβασμα ppt "ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ - ΔΙΑΚΡΙΤΙΚΗ ΑΝΑΛΥΣΗ"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google