Το μοντέλο της απλής παλινδρόμησης y = b0 + b1x + u Κεφάλαιο 2
Ορολογία Στο μοντέλο της απλής γραμμικής παλινδρόμησης , όπου y = b0 + b1x + u, αναφερόμαστε τυπικά στο y ως: Εξαρτημένη μεταβλητή, ή Αριστερόπλευρη μεταβλητή, ή Επεξηγημένη μεταβλητή, ή Παλινδρομούμενη Μεταβλητή
Ορολογία (συνέχεια) Στην απλή γραμμική παλινδρόμηση του y ως προς το x, αναφερόμαστε, τυπικά, στο x ως: Ανεξάρτητη μεταβλητή, ή Δεξιόπλευρη μεταβλητή, ή Επεξηγηματική μεταβλητή, ή Παλινδρομούσα μεταβλητή, ή Συνδιακυμιτής, ή Μεταβλητή ελέγχου
Παράδειγμα από το Κεφάλαιο 1
Μια απλή υπόθεση Η μέση τιμή του u, του όρου σφάλματος, στον πληθυσμό, είναι 0. Δηλαδή, E(u) = 0 Αυτή δεν είναι μία περιοριστική υπόθεση, αφού μπορούμε πάντα να χρησιμοποιήσουμε το b0 για να εξισώσουμε το E(u) ίσο με 0
Μηδενική Δεσμευμένη Μέση Τιμή Χρειάζεται να κάνουμε μια βασική υπόθεση για το πώς τα u και το x σχετίζονται. Θέλουμε να είναι η περίπτωση στην οποία γνωρίζοντας κάτι για το x να μην μας δίνει καμία απολύτως πληροφορία για το u, έτσι ώστε είναι τελείως ασυσχέτιστα μεταξύ τους. Δηλαδή, E(u|x) = E(u) = 0, που υποδηλώνει E(y|x) = b0 + b1x
E(y|x) σαν μία γραμμική συνάρτηση του x, όπου για κάθε x η κατανομή του y συγκεντρώνεται γύρω από το E(y|x) y f(y) . E(y|x) = b0 + b1x . x1 x2
Η Μέθοδος των Συνήθης Ελαχίστων Τετραγώνων (OLS) H βασική ιδέα της παλινδρόμησης είναι να εκτιμήσουμε τις παραμέτρους του πληθυσμού από το δείγμα. Ο συμβολισμός {(xi,yi): i=1, …,n} σημαίνει ένα τυχαίο δείγμα μεγέθους n από τον πληθυσμό. Για κάθε παρατήρηση του δείγματος, θα ισχύει: yi = b0 + b1xi + ui
Η γραμμή παλινδρόμησης του πληθυσμού, τα σημεία των δεδομένων του δείγματος και οι αντίστοιχοι όροι των σφαλμάτων y E(y|x) = b0 + b1x . y4 u4 { . y3 u3 } . y2 u2 { u1 . y1 } x1 x2 x3 x4 x
Οι Μηχανισμοί των OLS
Εξάγοντας (OLS) Εκτιμητές E(u|x) = E(u) = 0 από την οποία απορρέει ότι Cov(x,u) = E(xu) = 0 Γιατί; Θυμηθείτε την εξής βασική ιδιότητα από τις πιθανότητες, δηλαδή ότι: Cov(X,Y) = E(XY) – E(X)E(Y)
Εξάγοντας (OLS) (συνέχεια) Μπορούμε να γράψουμε τους δυο περιορισμούς μας ως συνάρτηση των x, y, b0 και b1 , αφού u = y – b0 – b1x E(y – b0 – b1x) = 0 E[x(y – b0 – b1x)] = 0 Οι οποίοι ονομάζονται περιορισμοί των ροπών.
Εξάγοντας (OLS) χρησιμοποιώντας την μέθοδο των ροπών Η μέθοδος των ροπών εξισώνει τις ροπές του πληθυσμού με τις ροπές του δείγματος. Τι σημαίνει αυτό; Θυμηθείτε ότι για E(X), η μέση τιμή της κατανομής του πληθυσμού, μ, ένας εκτιμητής του δείγματος για το E(X), είναι απλά η αριθμητική μέση τιμή του δείγματος,
Επιπρόσθετα στην εξαγωγή των OLS Θέλουμε να επιλέξουμε τιμές για τις παραμέτρους έτσι ώστε να εξασφαλίζεται ότι οι δειγματοληπτικές εκτιμήσεις των περιορισμών των ροπών είναι αληθής. Οι εκτιμήσεις από το δείγμα έχουνε ως εξής:
Επιπρόσθετα στην εξαγωγή των OLS Δοθέντος τον ορισμό της μέσης τιμής του δείγματος, και τις ιδιότητες της αθροισμάτων, μπορούμε να ξαναγράψουμε την πρώτη εξίσωση ως εξής:
Επιπρόσθετα στην εξαγωγή των OLS
Έτσι η εκτιμώμενη κλίση (OLS) είναι: Δοθέντος ότι
Περίληψη της εκτιμώμενης κλίσης του OLS. Η εκτιμώμενη κλίση είναι η δειγματοληπτική συνδιακύμανση μεταξύ του x και του y διαιρούμενη με την δειγματοληπτική διακύμανση του x Εάν το x και το y είναι θετικά συσχετιζόμενα, η κλίση θα είναι θετική. Εάν το x και το y είναι αρνητικά συσχετιζόμενα, η κλίση θα είναι αρνητική. Μόνο χρειαζόμαστε το x παίρνει τουλάχιστον δύο διαφορετικές τιμές στο δείγμα μας.
Περισσότερα για ΟLS Διαισθητικά, OLS προσαρμόζει μία ευθεία στα σημεία του δείγματος έτσι ώστε το άθροισμα των τετραγώνων των κατάλοιπων ελαχιστοποιείται, από το οποίο προκύπτει και ο όρος ελάχιστα τετράγωνα. Το κατάλοιπο, û, είναι ένας εκτιμητής του όρου του λάθους, u, και είναι η διαφορά μεταξύ της προσαρμοσμένης γραμμής (συνάρτηση παλινδρόμησης του δείγματος) και του σημείου του δείγματος.
Γραμμή παλινδρόμησης του δείγματος, τα σημεία του δείγματος (δεδομένα), και οι αντίστοιχοι όροι των σφαλμάτων y . y4 { û4 . y3 } û3 . y2 û2 { . } û1 y1 x1 x2 x3 x4 x
Εναλλακτική προσέγγιση της μεθόδου εξαγωγής των εκτιμητών Δοθέντος της διαισθητικής ιδέας της προσαρμοσμένης γραμμής, μπορούμε να αναρτήσουμε ένα μεθοδικό πρόβλημα ελαχιστοποίησης. Δηλαδή, θέλουμε να διαλέξουμε τις παραμέτρους έτσι ώστε να ελαχιστοποιούμε την εξής:
Εναλλακτική προσέγγιση (συνέχεια) Αν κάποιος χρησιμοποιήσει μαθηματική ανάλυση για την ελαχιστοποίηση του προβλήματος με δύο παραμέτρους, εξασφαλίζει τις συνθήκες πρώτης τάξης, που είναι οι ίδιες με αυτές που βρήκαμε προηγουμένως, πολλαπλασιασμένες με n.
Αλγεβρικές Ιδιότητες του (OLS) Η δειγματοληπτική συνδιακύμανση μεταξύ της παλινδρομούσα μεταβλητής (x) και των καταλοίπων είναι 0. Η γραμμή παλινδρόμησης του OLS πάντα διέρχεται από το σημείο των δειγματοληπτικών μέσων τιμών των x και y.
Αλγεβρικές Ιδιότητες (με ακρίβεια)
Περισσότερη ορολογία
Απόδειξη ׃ SST = SSE + SSR
Ποιότητα της προσαρμογής (Goodness-of-Fit) Πως διαλογιζόμαστε σχετικά με το πόσο καλά η γραμμή παλινδρόμησης, εκτιμώμενη από το δείγμα, προσαρμόζεται στα δεδομένα; Μπορούμε να υπολογίσουμε την αναλογία του συνολικού αθροίσματος των τετραγώνων (SST) η οποία εξηγείται από το μοντέλο, ονομαζόμενο R-τετράγωνο της παλινδρόμησης. R2 = SSE/SST = 1 – SSR/SST
Χρησιμοποιώντας Stata for OLS παλινδρόμησης Παλινδρομήσεις στο Stata είναι πολύ απλές. Για να εκτελέσεις μία παλινδρόμηση του y στο x, απλώς πληκτρολόγησε reg y x
Εφαρμογή στα Δεδομένα: Βαθμοί της California – Μέγεθος Τάξης
Ερμηνεία της Εκτιμώμενης Κλίσης και της Τεταγμένης της Αρχής
Προβλεπόμενες τιμές & Κατάλοιπα:
Παράδειγμα για το R2 και το Τυπικό Σφάλμα των Καταλοίπων
OLS Παλινδρόμηση: STATA output
Υποθέσεις για Αμεροληψία του OLS 1) Υποθέτουμε ότι το μοντέλο του πληθυσμού είναι γραμμικό ως προς τις παραμέτρους ως εξής: y = b0 + b1x + u 2) Υποθέτουμε ότι μπορούμε να επιλέξουμε ένα τυχαίο δείγμα μεγέθους n, {(xi, yi): i=1, 2, …, n}, από τον πληθυσμού. Έτσι μπορούμε να γράψουμε το μοντέλο του δείγματος ως εξής: yi = b0 + b1xi + ui 3) Υποθέτουμε ότι E(u|x) = 0 και έτσι E(ui|xi) = 0 4) Υποθέτουμε ότι υπάρχει μεταβλητότητα στις τιμές των x, τουλάχιστον δύο διαφορετικά xi
Αμεροληψία του OLS (συνεχ.) Για να υπολογίσουμε την αμεροληψία, θα γράψουμε τον εκτιμητή σε όρους των παραμέτρων του πληθυσμού Ξεκινάμε ξαναγράφοντας απλά τον τύπο ως׃
Αμεροληψία του OLS (συνέχεια)
Αμεροληψία του OLS (συνέχεια)
Αμεροληψία του OLS (συνέχεια)
Αμεροληψία - Περίληψη Οι OLS εκτιμητές των b1 και b0 είναι αμερόληπτοι. Η απόδειξη της αμεροληψίας βασίζεται στις τέσσερις υποθέσεις (που είδαμε) – αν κάποια υπόθεση αποτύχει, τότε ο OLS δεν είναι απαραίτητα αμερόληπτος. Θυμηθείτε ότι η αμεροληψία δίνει μία εικόνα για τον εκτιμητή – σε ένα δοσμένο δείγμα μπορούμε να βρισκόμαστε “κοντά” ή “μακριά” από την αληθινή παράμετρο.
Διακύμανση των OLS εκτιμητών Τώρα γνωρίζουμε ότι η δειγματοληπτική κατανομή των εκτιμητών εστιάζεται γύρω από την αληθινή παράμετρο Θέλουμε να γνωρίζουμε πόσο απλωμένη αυτή η κατανομή είναι Είναι πιο εύκολα να σκεφτούμε για αυτή τη διακύμανση κάτω από μία επιπρόσθετη υπόθεση, έτσι Υποθέτουμε Var(u|x) = s2 (Ομοσκεδαστικότητα)
Διακύμανση του OLS (συνέχεια) Var(u|x) = E(u2|x)-[E(u|x)]2 E(u|x) = 0, έτσι s2 = E(u2|x) = E(u2) = Var(u) Έτσι, s2 είναι επίσης μία χωρίς δεσμεύσεις διακύμανση, καλούμενη ως η διακύμανση των σφαλμάτων. s, είναι η τετραγωνική ρίζα της διακύμανσης σφάλματος και ονομάζεται τυπική απόκλιση των σφαλμάτων Μπορούμε να πούμε: E(y|x)=b0 + b1x και Var(y|x) = s2
Περίπτωση Ομοσκεδαστικότητας y f(y|x) . E(y|x) = b0 + b1x . x1 x2
. . . Περίπτωση Ετεροσκεδαστικότητας f(y|x) y x1 x2 x3 x E(y|x) = b0 + b1x . x1 x2 x3 x
Διακύμανση του OLS (συνέχεια)
Διακύμανση του OLS- Περίληψη Όσο μεγαλύτερη είναι η μεταβλητότητα του xi, τόσο μικρότερη είναι η διακύμανση του εκτιμητή της κλίσης. Όπως προκύπτει, ένα μεγαλύτερο μέγεθος δείγματος μειώνει την διακύμανση του εκτιμητή της κλίσης. Προς στιγμήν, αποτελεί πρόβλημα ότι η διακύμανση των σφαλμάτων είναι άγνωστη.
Υπολογίζοντας την Διακύμανση των Σφαλμάτων Δεν γνωρίζουμε ποια είναι η διακύμανση σφάλματος, s2, επειδή δεν παρατηρούμε τα σφάλματα, ui Αυτά που παρατηρούμε είναι τα κατάλοιπα, ûi Μπορούμε να χρησιμοποιήσουμε τα κατάλοιπα για να σχηματίσουμε μία εκτίμηση της διακύμανσης των σφαλμάτων
Υπολογίζοντας την Διακύμανση του Σφάλματος (συνέχεια)
Υπολογίζοντας την Διακύμανση των Σφαλμάτων (συνέχεια)