Ανάλυση με Πολλαπλή Παλινδρόμηση y = b0 + b1x1 + b2x2 + . . . bkxk + u 2. Επαγωγή
Υποθέσεις του Κλασικού Γραμμικού Μοντέλου (ΚΓΜ) Μέχρι στιγμής, γνωρίζουμε ότι δοθέντος τις υποθέσεις των Gauss-Markov, OLS είναι BLUE, Για να εφαρμόσουμε κλασικό έλεγχο υποθέσεων, χρειαζόμαστε μί επιπλέον υπόθεση (επιπροσθέτως των υποθέσεων των Gauss-Markov) Υποθέτουμε ότι το u είναι ανεξάρτητο από τα x1, x2,…, xk, και το u ακολουθεί κανονική κατανομή με μέση τιμή 0 και διακύμανση s2: u ~ N(0,s2)
Υποθέσεις του ΚΓΜ (συνεχ.) Υποθέσεις του ΚΓΜ (συνεχ.) Στο ΚΓΜ, OLS δεν είναι μόνο BLUE, αλλά είναι και ελάχιστης διακύμανσης αμερόληπτος εκτιμητής Μπορούμε να συνοψίσουμε τις υποθέσεις του πληθυσμού του ΚΓΜ έως εξής: y|x ~ N(b0 + b1x1 +…+ bkxk, s2) Ενώ προς στιγμή υποθέτουμε κανονικότητα, ορισμένες φορές αυτή η υπόθεση αναιρείται Τα μεγάλα δείγματα θα μας επιτρέψουνε να παραλείψουμε την υπόθεση της κανονικότητας
. . Η ομοσκεδαστική κανονική κατανομή με μία ερμηνευτική μεταβλητή y f(y|x) . E(y|x) = b0 + b1x . Κανονικές κατανομές x1 x2
Κανονικές Κατανομές Δειγματοληψίας Κάτω από τις υποθέσεις του ΚΓΜ, υπό την συνθήκη των τιμών του δείγματος των ανεξαρτήτων μεταβλητών έχουμε επομένως ακολουθεί κανονική κατανομή αφού είναι ένας γραμμικός συνδυασμός των σφαλμάτων
Το t Τεστ Κάτω από τις υποθέσεις του ΚΓΜ την κανονική) αφού έχουμε να εκτιμήσουμε Σημειώστε ότι οι βαθμοί ελευθερίας είναι: n-k-1
Το t Τεστ (συνεχ.) Γνωρίζοντας την κατανομή δειγματοληψίας για τον τυποποιημένο εκτιμητή μας επιτρέπει να εκτελέσουμε έλεγχο υποθέσεων Αρχίζουμε με μία μηδενική υπόθεση Για παράδειγμα, H0: bj=0 Εάν δεχθούμε την μηδενική υπόθεση, τότε δεχόμαστε ότι xj δεν έχει επίδραση στην y, περικλείοντας για όλες τις άλλες x’s
Το t Τεστ (συνεχ.)
t Τεστ: Μονοκατάληκτες Διαζευκτικές Υποθέσεις Εκτός από την μηδενική υπόθεση, H0, χρειαζόμαστε μία εναλλακτική υπόθεση, H1, και ένα επίπεδο σημαντικότητας H1 ενδέχεται να είναι μονοκατάληκτη ή δικατάληκτη H1: bj > 0 και H1: bj < 0 είναι μονοκατάληκτες H1: bj 0 είναι δικατάληκτη Εάν θέλουμε να έχουμε μόνο ένα 5% πιθανότητα να απορρίψουμε την H0 εφόσον είναι πραγματικά αληθινή, τότε λέμε ότι το επίπεδο σημαντικότητας είναι 5%
Μονοκατάληκτες Διαζευκτικές Υποθέσεις (συνεχ.) Έχοντας επιλέξει ένα επίπεδο σημαντικότητας, a, αναζητούμε το (1–a)ο εκατοστημόριο από την t κατανομή με n – k – 1 βαθμούς ελευθερίας (df) και το καλούμε την κριτική τιμή, c. Μπορούμε να απορρίψουμε την μηδενική υπόθεση εάν η στατιστική t είναι μεγαλύτερη από την κριτική τιμή, c. Εάν η στατιστική t είναι μικρότερη από την κριτική τιμή τότε αποτυγχάνουμε να απορρίψουμε την μηδενική υπόθεση.
Μονοκατάληκτες Διαζευκτικές Υποθέσεις (συνεχ.) yi = b0 + b1xi1 + … + bkxik + ui H0: bj = 0 H1: bj > 0 αποτυγχάνουμε να απορρίψουμε απορρίπτουμε (1 - a) a c
Μονοκατάληκτες έναντι Δικατάληκτων Διαζευκτικών Υποθέσεων Αφού η t κατανομή είναι συμμετρική, ελέγχοντας H1: bj < 0 είναι πολύ απλό. Η κριτική τιμή είναι απλά η αρνητική από την προηγούμενη περίπτωση με H1: bj > 0. Μπορούμε να απορρίψουμε την μηδενική εάν η στατιστική t < –c, και εάν η στατιστική t >-c τότε αποτυγχάνουμε να απορρίψουμε την μηδενική υπόθεση. Για ένα δικατάληκτο έλεγχο, υπολογίζουμε την κριτική τιμή, c, με βάση το a/2 και απορρίπτουμε H1: bj 0 εφόσον η απόλυτη τιμή της στατιστικής t > c.
Δικατάληκτες Διαζευκτικές Υποθέσεις yi = b0 + b1Xi1 + … + bkXik + ui H0: bj = 0 H1: bj > 0 αποτυγχάνουμε να απορρίψουμε απορρίπτουμε απορρίπτουμε (1 - a) a/2 a/2 -c c
Περίληψη για H0: bj = 0 Εκτός αν μας ειπωθεί διαφορετικά, η εναλλακτική θεωρείται δικατάληκτη. Εάν απορρίψουμε την μηδενική, τυπικά λέμε “xj είναι στατιστικά σημαντική σε a % επίπεδο σημαντικότητας”. Εάν αποτύχουμε να απορρίψουμε την μηδενική, τυπικά λέμε “xj είναι στατιστικά ασήμαντη σε a % επίπεδο σημαντικότητας”.
Έλεγχος Άλλων Υποθέσεων Μία πιο γενική μορφή της στατιστικής t, περιλαμβάνει ότι ενδεχομένως μπορεί να θέλουμε να ελέγξουμε κάτι σαν H0: bj = aj Σε αυτή την περίπτωση, η κατάλληλη στατιστική t είναι:
Διαστήματα Εμπιστοσύνης Ένας άλλος τρόπος για να χρησιμοποιήσουμε κλασικό έλεγχο υποθέσεων είναι να κατασκευάσουμε διάστημα εμπιστοσύνης χρησιμοποιώντας την ίδια κριτική τιμή όπως αυτή που χρησιμοποιήσαμε για τα δικατάληκτα τεστ. Ένα (1 - a) % διάστημα εμπιστοσύνης ορίζεται ως:
Υπολογισμός των Τιμών p για τα τεστ t Μία εναλλακτική προσέγγιση ως προς την κλασική είναι να ερωτηθούμε «ποιο είναι το μικρότερο σημαντικό επίπεδο στο οποίο η μηδενική υπόθεση θα απορριπτότανε;» Έτσι, υπολογίζουμε την στατιστική t, και μετά αναζητούμε ποιο εκατοστημόριο αντιστοιχεί στην κατάλληλη t κατανομή – αυτή είναι η τιμή p. Η τιμή p είναι το μικρότερο επίπεδο σημαντικότητας στο οποίο θα απορριπτότανε η μηδενική υπόθεση, για την τιμή της στατιστικής t που έχουμε, εάν η μηδενική ήτανε αληθής.
Stata και τιμές p, t τεστ, κ.λ.π. Για παράδειγμα το Stata, όπως και αλλά λογισμικά δίνει τις στατιστικές t, τις τιμές p για H0: bj = 0, και H1: bj ≠ 0, , και 95% διαστήματα εμπιστοσύνης σε στήλες με επιγραφές “t”, “P > |t|” και “[95% Conf. Interval]”, αντίστοιχα.
Έλεγχος Υποθέσεων για έναν Απλό Γραμμικό Συνδυασμό των Παραμέτρων Υποθέστε αντί για τον έλεγχο της b1 ίση με μία σταθερά, θέλουμε να ελέγξουμε εάν b1 είναι ίση με άλλη παράμετρο, δηλαδή H0 : b1 = b2 Χρησιμοποιούμε την ίδια βασική διαδικασία διευθέτησης για την στατιστική t.
Έλεγχος Υποθέσεων για έναν Γραμμικό Συνδυασμό των Παραμέτρων (συνεχ.)
Έλεγχος Υποθέσεων για έναν Γραμμικό Συνδυασμό των Παραμέτρων (συνεχ.) Έτσι, για να χρησιμοποιήσουμε τον προηγούμενο τύπο χρειαζόμαστε s12, το οποίο δεν δίνεται από τα τυπικά λογισμικά. Πολλά πακέτα έχουνε μία επιλογή για να υπολογίσουμε την ζητούμενη ποσότητα , ή για να εκτελέσουμε το παραπάνω τεστ Στο Stata, μετά την εντολή «reg y x1 x2 … xk» γράψε «test x1 = x2» για να πάρεις την τιμή p για το τεστ. Πιο γενικά, μπορούμε πάντοτε να ξανά ορίσουμε το πρόβλημα για να εκτελέσουμε το τεστ.
Παράδειγμα: Υποθέστε ότι μας ενδιαφέρει η επίδραση των εξόδων δύο κομμάτων (expendΑ, expendB) μιας προεκλογικής εκστρατείας στους ψήφους του κόμματος Α (voteΑ). prtystrA είναι μια μεταβλητή για το κόμμα Α. Το μοντέλο είναι: voteA = b0 + b1log(expendA) + b2log(expendB) + b3prtystrA + u H0: b1 = - b2, ή H0: q1 = b1 + b2 = 0 b1 = q1 – b2, έτσι με αντικατάσταση και πράξεις voteA = b0 + q1log(expendA) + b2log(expendB / expendA) + b3prtystrA + u
Παράδειγμα: (συνεχ.) Αυτό είναι το ίδιο μοντέλο όπως το αρχικό, αλλά τώρα η νέα παλινδρόμηση θα μας δώσει το τυπικό σφάλμα για b1 – b2 = q1 Κάθε γραμμικός συνδυασμός των παραμέτρων μπορούνε να ελεγχθούνε με παρόμοιο τρόπο. Άλλα παραδείγματα των υποθέσεων με έναν απλό γραμμικό συνδυασμό των παραμέτρων: b1 = 1 + b2 ; b1 = 5b2 ; b1 = -1/2b2 ; κλπ
Έλεγχος Πολλαπλών Γραμμικών Περιορισμών Όσα τεστ κάναμε μέχρι τώρα ελέγχανε έναν απλό γραμμικό συνδυασμό των παραμέτρων, (π.χ. b1 = 0 ή b1 = b2 ) Ωστόσο, ενδέχεται να θέλουμε να ελέγξουμε ταυτοχρόνως πολλαπλές υποθέσεις για κάποιες παραμέτρους. Ένα τυπικό παράδειγμα είναι να ελέγξουμε «περιορισμούς αποκλεισμού» – θέλουμε να γνωρίζουμε εάν μία ομάδα παραμέτρων είναι όλες ίσες με το 0.
Έλεγχος Περιορισμών Αποκλεισμού Τώρα η μηδενική υπόθεση ενδέχεται να έχει την μορφή: H0: bk-q+1 = 0, ... , bk = 0 Η εναλλακτική είναι απλά H1: H0 δεν είναι αληθής. Δεν είναι σωστό να ελέγξουμε κάθε στατιστική t ξεχωριστά, γιατί θέλουμε να γνωρίζουμε εάν οι q παράμετρες είναι από κοινού σημαντικές σε ένα συγκεκριμένο επίπεδο – είναι πιθανό ατομικά να μην είναι κανένα t τεστ σημαντικό αλλά το από κοινού τεστ να είναι σημαντικό.
Έλεγχος Περιορισμών Αποκλεισμού (συνεχ.) Έλεγχος Περιορισμών Αποκλεισμού (συνεχ.) Για να εκτελέσουμε το τεστ χρειάζεται να εκτιμήσουμε το «μοντέλο υπό περιορισμούς» (r) χωρίς να συμπεριλάβουμε τις xk-q+1,, …, xk, και επίσης το «μοντέλο χωρίς περιορισμούς» (ur) με όλες τις x’s συμπεριλαμβανόμενες. Διαισθητικά, θέλουμε να γνωρίζουμε εάν η αλλαγή των δύο SSR είναι αρκετά μεγάλη ώστε να εγγυηθεί τον συνυπολογισμό των xk-q+1,, …, xk
Η Στατιστική F Η στατιστική F είναι πάντοτε θετική, αφού το SSR του μοντέλου υπό περιορισμούς δεν μπορεί να είναι μικρότερο από το SSR του μοντέλου χωρίς περιορισμούς Ουσιαστικά η στατιστική F μετράει την σχετική αύξηση του SSR όταν μεταβιβαζόμαστε από το μοντέλο χωρίς περιορισμούς στο μοντέλο υπό περιορισμούς q = αριθμός των περιορισμών , ή dfr – dfur n – k – 1 = dfur
Η Στατιστική F (συνεχ.) Για να αποφασίσουμε αν η αύξηση του SSR όταν μεταβιβαζόμαστε στο μοντέλο υπό περιορισμούς είναι «αρκετά μεγάλη» για να απορρίψουμε τους αποκλεισμούς, χρειάζεται να γνωρίσουμε την δειγματοληπτική κατανομή της στατιστικής F Χωρίς εκπλήξεις, F ~ Fq,n-k-1, όπου q αναφέρεται ως ο αριθμητής των βαθμών ελευθεριών και n – k – 1 ως ο παρανομαστής των βαθμών ελευθεριών
Η Στατιστική F (συνεχ.) f(F) (1 - a) a F απορρίπτουμε c Απορρίπτουμε H0 σε a επίπεδο σημαντικότητας όταν F > c αποτυγχάνουμε να απορρίψουμε απορρίπτουμε (1 - a) a c F
Η R2 μορφή της στατιστικής F Αφού τα SSR ενδέχεται να είναι μεγάλα και άβολα, μια εναλλακτική μορφή του τύπου είναι χρήσιμη Χρειαζόμαστε την σχέση SSR = SST(1 – R2) που ισχύει για κάθε παλινδρόμηση, έτσι αν αντικαταστήσουμε για SSRu και SSRur
Η Στατιστική F για τη Συνολική Σημαντικότητα Μία ειδική περίπτωση των περιορισμών αποκλεισμού είναι το τεστ H0: b1 = b2 =…= bk = 0 Αφού το R2 από ένα μοντέλο με μόνο τον σταθερό όρο είναι 0, η στατιστική F είναι απλά
Έλεγχος των Γενικών Γραμμικών Περιορισμών Έλεγχος των Γενικών Γραμμικών Περιορισμών Η βασική μορφή της στατιστικής F μπορεί να εφαρμοστεί για κάθε σύνολο γραμμικών περιορισμών Πρώτα εκτιμούμε το μοντέλο χωρίς περιορισμούς και μετά το μοντέλο υπό περιορισμούς Σε κάθε περίπτωση, σημειώνουμε το SSR Εφαρμόζοντας τους περιορισμούς μπορεί να εμφανιστούνε δυσκολίες – ενδέχεται να χρειαστεί να ορίσουμε καινούργιες μεταβλητές, ως συνάρτηση των αρχικών
Παράδειγμα: Χρησιμοποιούμε το ίδιο παράδειγμα από την Διαφάνεια 22. Το μοντέλο είναι voteA = b0 + b1log(expendA) + b2log(expendB) + b3prtystrA + u Τώρα η μηδενική είναι: H0: b1 = 1, b3 = 0 Με αντικατάσταση των περιορισμών: voteA = b0 + log(expendA) + b2log(expendB) + u, έτσι χρησιμοποιούμε voteA - log(expendA) = b0 + b2log(expendB) + u ως το μοντέλο υπό περιορισμούς
Η Στατιστική F Περίληψη Όπως και με την στατιστική t, η τιμή p μπορεί να υπολογιστεί από το εκατοστημόριο της κατάλληλης F κατανομής Stata υπολογίζει αυτό με την εντολή fprob(q, n – k – 1, F), όταν οι κατάλληλες τιμές για F, q, και n – k – 1 χρησιμοποιηθούνε. Παρομοίως και άλλα λογισμικά, π.χ. EXCEL. Όταν έχουμε να ελέγξουμε μόνο έναν περιορισμό, τότε F = t2, και η τιμή p θα είναι η ίδια.
Άσκηση 4.12 (i) Κρατώντας τους άλλους παράγοντες σταθερούς, where we use the fact that 100 . So /100 is the (ceteris paribus) percentage point change in voteA when expendA increases by one percent. (ii) The null hypothesis is H0: = –, which means a z% increase in expenditure by A and a z% increase in expenditure by B leaves voteA unchanged. We can equivalently write H0: + = 0. (iii) The estimated equation (with standard errors in parentheses below estimates) is = 45.08 + 6.083 log(expendA) – 6.615 log(expendB) + .152 prtystrA (3.93) (0.382) (0.379) (.062) n = 173, R2 = .793. The coefficient on log(expendA) is very significant (t statistic 15.92), as is the coefficient on log(expendB) (t statistic –17.45). The estimates imply that a 10% ceteris paribus increase in spending by candidate A increases the predicted share of the vote going to A by about .61 percentage points. [Recall that, holding other factors fixed, (6.083/100)%expendA).]
Άσκηση 4.12 Similarly, a 10% ceteris paribus increase in spending by B reduces by about .66 percentage points. These effects certainly cannot be ignored. While the coefficients on log(expendA) and log(expendB) are of similar magnitudes (and opposite in sign, as we expect), we do not have the standard error of + , which is what we would need to test the hypothesis from part (ii). (iv) Write = +, or = – . Plugging this into the original equation, and rearranging, gives = + log(expendA) + [log(expendB) – log(expendA)] +prtystrA + u, When we estimate this equation we obtain –.532 and se() .533. The t statistic for the hypothesis in part (ii) is –.532/.533 –1. Therefore, we fail to reject H0: = –.