Ανάλυση Πολλαπλής Παλινδρόμησης y = b0 + b1x1 + b2x2 + . . . bkxk + u 5. Ψευδομεταβλητές Κεφάλαιο 7
Ψευδομεταβλητές Μία ψευδομεταβλητή είναι μία μεταβλητή η οποία παίρνει τις τιμές 1 και 0. Παραδείγματα: αρσενικό (= 1 εάν είναι αρσενικό, 0 αλλιώς), νότος (= 1 εάν είναι στον νότο, 0 αλλιώς). Οι ψευδομεταβλητές καλούνται επίσης και δυαδικές μεταβλητές, για προφανείς λόγους.
Μία Μόνο Ανεξάρτητη Ψευδομεταβλητή Θεωρήστε ένα απλό μοντέλο με μία συνεχής μεταβλητή (x) και μία ψευδομεταβλητή (d) y = b0 + d0d + b1x + u Αυτό μπορεί να ερμηνευθεί σαν μια μετατόπιση της τεταγμένης της αρχής Εάν d = 0, τότε y = b0 + b1x + u Εάν d = 1, τότε y = (b0 + d0) + b1x + u Η περίπτωση της d = 0 είναι η ομάδα βάσης
{ } Παράδειγμα για d0 > 0 d0 b0 y = (b0 + d0) + b1x y = b0 + b1x y
Ψευδομεταβλητές για Πολλαπλές Κατηγορίες Μπορούμε να χρησιμοποιήσουμε τις ψευδομεταβλητές για να ελέγξουμε κάτι με αυτές τις πολλαπλές κατηγορίες. Υποθέστε ότι ο καθένας στα δεδομένα σας είναι: μη-απόφοιτος λυκείου, απόφοιτος λυκείου, ή απόφοιτος πανεπιστημίου. Για να συγκρίνουμε τους αποφοίτους του λυκείου και τους αποφοίτους του πανεπιστημίου με μη-αποφοίτους του λυκείου, περιλαμβάνουμε δύο ψευδομεταβλητές. hsgrad = 1 εάν είναι απόφοιτος λυκείου, 0 αλλιώς, και colgrad = 1 εάν είναι απόφοιτος πανεπιστήμιου, 0 αλλιώς
Πολλαπλές Κατηγορίες (συνεχ.) Κάθε ποιοτική μεταβλητή μπορεί να μετατραπεί σε ένα σετ ψευδομεταβλητών. Αφού η ομάδα βάσης παριστάνεται από τον σταθερό όρο, εάν υπάρχουνε n κατηγορίες θα πρέπει να υπάρχουνε n – 1 ψευδομεταβλητές. Εάν υπάρχουνε πολλές κατηγορίες, ενδέχεται να είναι λογικό να ενοποιήσουμε μερικές κατηγορίες μαζί. Example: top 10 ranking, 11 – 25, etc.
Αλληλεπιδράσεις που Αφορούν τις Ψευδομεταβλητές Αλληλεπιδρώντας ψευδομεταβλητές είναι σαν να υποδιαιρούμε τις ομάδες. Παράδειγμα: έχοντας ψευδομεταβλητές για άντρες (male), για αποφοίτους λυκείου (hsgrad) και αποφοίτους πανεπιστημίου (colgrad) Προσθέστε male*hsgrad και male*colgrad, και συνολικά έχουμε 5 ψευδομεταβλητές –> 6 κατηγορίες Η ομάδα βάσης είναι για γυναίκες (female) και μη-απόφοιτους λυκείου (HS dropouts) male=0, hsgrad=1, colgrad=0 είναι για γυναίκες αποφοίτους λυκείου, male=0, hsgrad=0, colgrad=1 είναι για γυναίκες αποφοίτους πανεπιστημίου Οι αλληλεπιδράσεις αντανακλούν για άντρες αποφοίτους λυκείου και για άντρες αποφοίτους πανεπιστημίου
Πιο πολλά για Ψευδό Αλληλεπιδράσεις Τυπικά, το μοντέλο είναι: y = b0 + d1male + d2hsgrad + d3colgrad + d4male*hsgrad + d5male*colgrad + b1x + u, μετά, για παράδειγμα: Εάν male = 0 και hsgrad = 0 και colgrad = 0 y = b0 + b1x + u Εάν male = 0 και hsgrad = 1 και colgrad = 0 y = b0 + d2hsgrad + b1x + u Εάν male = 1 και hsgrad = 0 και colgrad = 1 y = b0 + d1male + d3colgrad + d5male*colgrad + b1x + u
Άλλες Αλληλεπιδράσεις για Ψευδομεταβλητές Μπορούμε επίσης να θεωρήσουμε αλληλεπίδραση για μία ψευδομεταβλητή, d, με μία συνεχής μεταβλητή, x y = b0 + d1d + b1x + d2d*x + u Εάν d = 0, τότε y = b0 + b1x + u Εάν d = 1, τότε y = (b0 + d1) + (b1+ d2) x + u Αυτό ερμηνεύεται σαν μία αλλαγή στην κλίση.
Παράδειγμα για d0 > 0 και d1 < 0 y y = b0 + b1x d = 0 d = 1 y = (b0 + d0) + (b1 + d1) x x
Έλεγχος για Διαφορές Ανάμεσα σε Ομάδες Έλεγχος για Διαφορές Ανάμεσα σε Ομάδες Έλεγχος, όταν μία συνάρτηση παλινδρόμησης είναι διαφορετική για μία ομάδα ως προς σχέση με μία άλλη ομάδα, μπορεί να γίνει απλά για την από κοινού σημαντικότητα των ψευδομεταβλητών και για τις αλληλοεπιδράσεις αυτών με άλλες x μεταβλητές. Έτσι, μπορούμε να εκτιμήσουμε το μοντέλο με όλες τις αλληλεπιδράσεις και μετά χωρίς αυτές και να υπολογίσουμε μία F στατιστική, αλλά αυτό μπορεί και να μην είναι βολικό.
Το Τεστ του Chow Δείχνετε ότι μπορούμε να υπολογίσουμε μία κατάλληλη F στατιστική χωρίς να υπολογίσουμε το μοντέλο χωρίς περιορισμούς και αλληλεπιδράσεις με όλες τις k συνεχείς μεταβλητές. Εάν υπολογίσουμε το μοντέλο με περιορισμούς για την μία ομάδα και πάρουμε SSR1, κα μετά για την δεύτερη ομάδα παίρνουμε SSR2. Υπολογίζουμε το μοντέλο με περιορισμούς για όλες τις ομάδες μαζί SSR, και μετά
Το Τεστ του Chow (συνέχεια) Το Τεστ του Chow είναι στην πραγματικότητα ένα απλό F τεστ για να απορρίψουμε περιορισμούς, αλλά αντιλαμβανόμαστε ότι SSRur = SSR1 + SSR2. Σημειώστε, ότι έχουμε k + 1 περιορισμούς (κάθε περιορισμός των συντελεστών κλίσης και του σταθερού όρου). Σημειώστε, ότι το μοντέλο χωρίς περιορισμούς θα εκτιμούσε 2 διαφορετικούς σταθερούς όρους και 2 διαφορετικές κλίσεις, έτσι οι βαθμοί ελευθερίας είναι: df= n – 2k – 2
Γραμμικό Μοντέλο Πιθανότητας P(y = 1|x) = E(y|x), όταν y είναι δυαδική, μπορούμε να γράψουμε το μοντέλο μας ως: P(y = 1|x) = b0 + b1x1 + … + bkxk Έτσι, η ερμηνεία του bj είναι η αλλαγή της πιθανότητας για μία επιτυχία όταν η xj αλλάζει. Η πρόβλεψη για y είναι η προβλεπόμενη πιθανότητα για μία επιτυχία. Ουσιαστικό πρόβλημα είναι ότι η πιθανότητα μπορεί να είναι έξω από το διάστημα [0,1].
Γραμμικό Μοντέλο Πιθανότητας (συνέχεια) Ακόμα και χωρίς προβλέψεις εκτός του [0,1], ενδέχεται να εκτιμήσουμε επιδράσεις που σημαίνουνε μία αλλαγή στην x, αλλάζει την πιθανότητα περισσότερο από +1 ή –1, έτσι καλύτερα να κάνουμε αλλαγές κοντά στην μέση τιμή. Αυτό το μοντέλο θα παραβιάσει την υπόθεση της ομοσκεδαστικότητας, έτσι θα επηρεάσει την συμπερασματολογία. Παρόλο τα μειονεκτήματα, είναι συνήθως ένας καλός τρόπος για αρχή, όταν η y είναι δυαδική.
Παρερμηνείες στην Αξιολόγηση Προγραμμάτων Μία τυπική χρήση μιας ψευδομεταβλητής είναι όταν ενδιαφερόμαστε για την αξιολόγηση ενός προγράμματος. Για παράδειγμα, μπορεί να έχουμε άτομα που εκπαιδεύτηκαν για μία δουλειά, ή έλαβαν επιδόματα, etc. Χρειάζεται να θυμηθούμε ότι συνήθως άτομα επιλέγουν αν θα συμμετέχουν σε ένα πρόγραμμα, το οποίο ενδέχεται να οδηγήσει στο πρόβλημα της αυτεπιλογής.
Προβλήματα Αυτεπιλογής Εάν μπορούμε να ελέγξουμε για καθετί που συσχετίζεται και με τα δύο: συμμετοχή και το ενδεχόμενο του ενδιαφέροντος , τότε αυτό δεν παρουσιάζει κανένα πρόβλημα. Συχνά, μολονότι, υπάρχουνε μη- παρατηρήσιμες μεταβλητές οι οποίες συσχετίζονται με την συμμετοχή. Σε αυτή την περίπτωση, η εκτίμηση για την επίδραση του προγράμματος είναι μεροληπτική, και δεν θέλουμε να κάνουμε πολιτική βασισμένη σε αυτή.