Απλή Γραμμική Παλινδρόμηση & Συσχέτιση Απλή Γραμμική Παλινδρόμηση & Συσχέτιση Χρήση της Στατιστικής. Το Απλό Γραμμικό Υπόδειγμα Παλινδρόμησης. Εκτίμηση: Η Μέθοδος των Ελαχίστων Τετραγώνων. Διακύμανση Σφάλματος και Τυπικά Σφάλματα Παλινδρόμησης των Εκτιμητών. Συσχέτιση. Έλεγχος Υποθέσεων για την αιτιώδη σχέση της παλινδρόμησης. Πόσο καλή είναι η εκτιμηθείσα παλινδρόμηση. Πίνακας Ανάλυσης Διακύμανσης και F-Test της παλινδρόμησης. Ανάλυση Καταλοίπων και Διαγνωστικός Έλεγχος ανεπαρκειών της παλινδρόμησης. Χρήση της εκτιμηθείσας παλινδρόμησης για προβλέψεις. Περίληψη και ανακεφαλαίωση όρων.
Χρήση Στατιστικής Το διάγραμμα διασποράς (scatterplot) δείχνει ζευγάρια παρατηρήσεων για τις μεταβλητές Χ δαπάνες διαφήμισης και Υ πωλήσεων. Παρατηρούμε ότι: Ψηλότερες (χαμηλότερες) τιμές Υ πωλήσεων τείνουν να συμβαδίζουν με μεγαλύτερες (μικρότερες) τιμές Χ δαπανών διαφήμισης. S c a t e r p l o f A d v i s n g E x u ( X ) Y 5 4 3 2 1 8 6 Το νέφος των σημείων τείνει να κατανέμεται γύρω από μία θετικής κλίσης ευθεία. Τα ζευγάρια των τιμών {Χ, Υ} δεν εντοπίζονται ακριβώς σε ευθεία γραμμή. Το διάγραμμα διασποράς αποκαλύπτει έντονη τάση παρά ακριβή γραμμική συσχέτιση. Η ευθεία γραμμή εκφράζει τη φύση της σχέσης κατά μέσο όρο.
π.χ. Διαγραμμάτων Διασποράς X Y
Κατασκευή Υποδείγματος Data Στατιστι-κό Υπόδειγμ. Συστηματ. τμήμα + Τυχαία σφάλματα Η μη ακριβής μαθηματική φύση της σχέσης μεταξύ Υ και Χ υπονοεί ότι ένα στατιστικό υπόδειγμα θα μπορούσε να είναι χρήσιμο στην ανάλυση της σχέσης. Το στατιστικό υπόδειγμα διακρίνει το συστηματικό τμήμα της σχέσης από το τυχαίο. Στην Ανάλυση Διασποράς, το συστηματικό τμήμα είναι η διακύμανση των μέσων των δειγμάτων ή στοιχείων (SSTR) και η τυχαία συνιστώσα είναι το τμήμα της ανερμήνευτης διασποράς των παρατηρήσεων (SSE). Στην παλινδρόμηση, η συστηματική συνιστώσα είναι η συνολική γραμμική σχέση, και το τυχαίο τμήμα είναι η διασπορά γύρω από τη γραμμή αυτή.
Το Απλό Γραμμικό Υπόδειγμα Παλινδρόμησης Το Απλό Γραμμικό Υπόδειγμα Παλινδρόμησης στον Πληθυσμό: Y = 0 + 1 X + Μη-τυχαίο ή Τυχαίο Συστηματικό Τμήμα Τμήμα Y εξαρτημένη μεταβλητή, που θέλουμε να ερμηνεύσουμε ή να προβλέψουμε X ανεξάρτητη ή ερμηνευτική μεταβλητή όρος σφάλματος, το μόνο τυχαίο τμήμα στο υπόδειγμα, και γι’ αυτό, η μόνη πηγή τυχαιότητας της Y. 0 σταθερά του συστηματικού τμήματος της παλινδρόμησης. 1 κλίση του συστηματικού τμήματος. Ο πληθ. δεσμευμ. μέσος της Y:
Διαγραμματική Απεικόνιση του Α.Γ.Κ.Υ.Π. Διαγραμματική Απεικόνιση του Α.Γ.Κ.Υ.Π. Το Απλό Γραμμικό Κανονικό Υπόδειγμα Παλινδρόμησης (Α.Γ.Κ.Υ.Π.) δίνει την ακριβή γραμμική σχέση μεταξύ της αναμενόμενης ή μέσης τιμής της εξαρτημένης Y, και της ανεξάρτητης ή προβλέπουσας X: E[Yi]=0 + 1 Xi Οι πραγματικά παρατηρούμενες τιμές Y διαφέρουν από τις αναμενόμενες κατά το ανερμήνευτο ή τυχαίο σφάλμα: Yi = E[Yi] + i = 0 + 1 Xi + i X Y E[Y]=0 + 1 X Xi } 1 = Κλίση 1 0 = Σταθερά Yi { Σφάλμα: i
Υποθέσεις του ΑΓΚΥΠ Η Σχέση μεταξύ X και Y είναι ευθεία γραμμή. Η μόνη τυχαιότητα στις τιμές της Y προέρχεται από τον όρο σφάλματος i. Τα σφάλματα i κατανέμονται κανονικά με μέσο 0 και διακύμανση σταθερή (2). Τα σφάλματα είναι ασυσχέτιστα μεταξύ διαδοχικών τιμών. Δηλ.: ~ N(0,2) X Y E[Y]=0 + 1 X Υποθέσεις ΑΓΚΥΠ Ίδιες κανονικές κατανομές σφαλμάτων,όλες με κέντρο τη γραμμή παλινδρόμησης.
Εκτίμηση: Η Μέθοδος των Ελαχίστων Τετραγώνων Εκτίμηση: Η Μέθοδος των Ελαχίστων Τετραγώνων Η εκτίμηση της απλής γραμμικής σχέσης των Χ, Υ σημαίνει να υπολογίσουμε με όρους πιθανότητας ή να προβλέψουμε τις τιμές της σταθεράς β0 και της κλίσης β1 της γραμμής. Το υπόδειγμα παλινδρόμησης στο δείγμα είναι: Y = b0 + b1X + e Όπου: b0 εκτίμηση της σταθεράς της πληθυσμιακής γραμμής παλινδρ., 0 b1 εκτίμηση της κλίσης της πληθυσμιακής γραμμής παλινδρ., 1 e = Y – (b0 + b1X) = Y - τα παρατηρούμενα κατάλοιπα της αφαίρεσης της εκτιμημένης γραμμής παλινδρόμησης από τις n παρατηρήσεις Υ.
Προσαρμόζοντας τη Γραμμή Παλινδρόμησης Προσαρμόζοντας τη Γραμμή Παλινδρόμησης Y Y Χ,Υ Τρία σφάλματα από την πληθυσμιακή γραμμή των ελαχίστων τετραγώνων (παλινδρόμησης) X X Y Τα σφάλματα από τη γραμμή παλινδρ. των ε.τ. είναι τα ελάχιστα. Ή τρία σφάλματα από την προσαρμοσμένη γραμμή ε.τ. X X
Σφάλματα Παλινδρόμησης Y Πραγματική τιμή Υ για Χi Η γραμμή παλινδρόμησης των ε.τ. . { Το εκτιμημένο Υi για το δεδομένο Χi X Xi
Εκτιμητές Παλινδρόμησης ε.τ. Από την ελαχιστοποίηση του αθροίσματος των τετραγώνων των καταλοίπων παίρνουμε τις κανονικές εξισώσεις. Λύνοντας το σύστημα ως προς b0 και b1 βρίσκουμε τους τύπους των εκτιμητών ε.τ. που ψάχνουμε.
π.χ. εκτίμησης συντελεστών ΑΓΚΥΠ Miles Dollars Miles 2 Miles*Dollars 1211 1802 1466521 2182222 1345 2405 1809025 3234725 1422 2005 2022084 2851110 1687 2511 2845969 4236057 1849 2332 3418801 4311868 2026 2305 4104676 4669930 2133 3016 4549689 6433128 2253 3385 5076009 7626405 2400 3090 5760000 7416000 2468 3694 6091024 9116792 2699 3371 7284601 9098329 2806 3998 7873636 11218388 3082 3555 9498724 10956510 3209 4692 10297681 15056628 3466 4244 12013156 14709704 3643 5298 13271449 19300614 3852 4801 14837904 18493452 4033 5147 16265089 20757852 4267 5738 18207288 24484046 4498 6420 20232004 28877160 4533 6059 20548088 27465448 4804 6426 23078416 30870504 5090 6321 25908100 32173890 5233 7026 27384288 36767056 5439 6964 29582720 37877196 79,448 106,605 293,426,946 390,185,014
Αποτελέσματα εκτίμησης απλής παλινδρόμησης
Αποτελέσματα εκτίμησης απλής παλινδρόμησης Ανάλυση Υπολοίπων. Το διάγραμμα δείχνει ότι η X δε συσχετίζεται με τα υπόλοιπα (απουσία αυτοσυσχέτισης).
Αποτελέσματα εκτίμησης απλής παλινδρόμησης Το διάγραμμα κανονικότητας των υπολοίπων προσεγγίζει την ευθεία γραμμή. Αυτό επιβεβαιώνει ότι δεν παραβιάζεται η υπόθεση της κανονικότητάς τους.
Διασπορά της Υ και των σφαλμάτων (MSE) Y X Η διασπορά της εξαρτημένης Υ. X Η διασπορά των υπολοίπων της παλινδρόμησης (ΜSE). Y
Διακύμανση υπολοίπων και τυπικά σφάλματα των εκτιμητών ε.τ. X Y Square and sum all regression errors to find SSE.
Τυπικά σφάλματα των εκτιμητών ε.τ.
Confidence Intervals for the Regression Parameters Length = 1 Height = Slope Least-squares point estimate: b1=1.25533 Upper 95% bound on slope: 1.35820 Lower 95% bound: 1.15246 (not a possible value of the regression slope at 95%)
Template (partial output) that can be used to obtain Confidence Intervals for b0 and b1
10-5 Correlation The correlation between two random variables, X and Y, is a measure of the degree of linear association between the two variables. The population correlation, denoted by, can take on any value from -1 to 1. indicates a perfect negative linear relationship -1 < < 0 indicates a negative linear relationship indicates no linear relationship 0 < < 1 indicates a positive linear relationship indicates a perfect positive linear relationship The absolute value of indicates the strength or exactness of the relationship.
Illustrations of Correlation Y X = 0 Y X = 1 Y X = -1 Y X = -.8 Y X = 0 Y X = .8
Covariance and Correlation Example 10 - 1: = r SS XY X Y 51402852. 4 40947557. 84 66855898 52321943 29 9824 ( )( ) . *Note: If < 0, b1 < 0 If = 0, b1 = 0 If > 0, b1 >0
Hypothesis Tests for the Correlation Coefficient H0: = 0 (No linear relationship) H1: 0 (Some linear relationship) Test Statistic:
10-6 Hypothesis Tests about the Regression Relationship X Constant Y Unsystematic Variation Nonlinear Relationship A hypothes is test fo r the exis tence of a linear re lationship between X and Y: H 1 Test stati stic for t he existen ce of a li near relat ionship be tween X an d Y: ( - ) where is the le ast squares es timate of the regres sion slope and ) is the s tandard er ror of . When the null hypot hesis is t rue, the stati stic has a distribu tion with degrees o f freedom. : b 2 = ¹ t n s
Hypothesis Tests for the Regression Slope
10-7 How Good is the Regression? The coefficient of determination, r2, is a descriptive measure of the strength of the regression relationship, a measure of how well the regression line fits the data. . { Y X } Total Deviation Explained Deviation Unexplained Deviation Percentage of total variation explained by the regression.
The Coefficient of Determination Y Y Y X X X SST SST SST S E r2=0 SSE r2=0.50 SSE SSR r2=0.90 SSR 5 4 3 2 1 7 6 M i l e s D o a r
10-8 Analysis of Variance and an F Test of the Regression Model
Template (partial output) that displays Analysis of Variance and an F Test of the Regression Model
10-9 Residual Analysis and Checking for Model Inadequacies Residuals Homoscedasticity: Residuals appear completely random. No indication of model inadequacy. Curved pattern in residuals resulting from underlying nonlinear relationship. Residuals exhibit a linear trend with time. Time Heteroscedasticity: Variance of residuals changes when x changes.
Normal Probability Plot of the Residuals Flatter than Normal
Normal Probability Plot of the Residuals More Peaked than Normal
Normal Probability Plot of the Residuals More Positively Skewed than Normal
Normal Probability Plot of the Residuals More Negatively Skewed than Normal
10-10 Use of the Regression Model for Prediction Point Prediction A single-valued estimate of Y for a given value of X obtained by inserting the value of X in the estimated regression equation. Prediction Interval For a value of Y given a value of X Variation in regression line estimate Variation of points around regression line For an average value of Y given a value of X
Errors in Predicting E[Y|X] Regression line Upper limit on slope Lower limit on slope 1) Uncertainty about the slope of the regression line Upper limit on intercept Lower limit on intercept 2) Uncertainty about the intercept
Prediction Interval for E[Y|X] The prediction band for E[Y|X] is narrowest at the mean value of X. The prediction band widens as the distance from the mean of X increases. Predictions become very unreliable when we extrapolate beyond the range of the sample itself. Y Prediction band for E[Y|X] Regression line Y X X Prediction Interval for E[Y|X]
Additional Error in Predicting Individual Value of Y 3) Variation around the regression line X Y Regression line Prediction Interval for E[Y|X] Regression Prediction band for E[Y|X] Prediction band for Y
Prediction Interval for a Value of Y
Prediction Interval for the Average Value of Y
Template Output with Prediction Intervals
10-11 The Solver Method for Regression The solver macro available in EXCEL can also be used to conduct a simple linear regression. See the text for instructions.