Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Απλή Γραμμική Παλινδρόμηση & Συσχέτιση

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Απλή Γραμμική Παλινδρόμηση & Συσχέτιση"— Μεταγράφημα παρουσίασης:

1 Απλή Γραμμική Παλινδρόμηση & Συσχέτιση
Απλή Γραμμική Παλινδρόμηση & Συσχέτιση Χρήση της Στατιστικής. Το Απλό Γραμμικό Υπόδειγμα Παλινδρόμησης. Εκτίμηση: Η Μέθοδος των Ελαχίστων Τετραγώνων. Διακύμανση Σφάλματος και Τυπικά Σφάλματα Παλινδρόμησης των Εκτιμητών. Συσχέτιση. Έλεγχος Υποθέσεων για την αιτιώδη σχέση της παλινδρόμησης. Πόσο καλή είναι η εκτιμηθείσα παλινδρόμηση. Πίνακας Ανάλυσης Διακύμανσης και F-Test της παλινδρόμησης. Ανάλυση Καταλοίπων και Διαγνωστικός Έλεγχος ανεπαρκειών της παλινδρόμησης. Χρήση της εκτιμηθείσας παλινδρόμησης για προβλέψεις. Περίληψη και ανακεφαλαίωση όρων.

2 Χρήση Στατιστικής Το διάγραμμα διασποράς (scatterplot) δείχνει ζευγάρια παρατηρήσεων για τις μεταβλητές Χ δαπάνες διαφήμισης και Υ πωλήσεων. Παρατηρούμε ότι: Ψηλότερες (χαμηλότερες) τιμές Υ πωλήσεων τείνουν να συμβαδίζουν με μεγαλύτερες (μικρότερες) τιμές Χ δαπανών διαφήμισης. S c a t e r p l o f A d v i s n g E x u ( X ) Y 5 4 3 2 1 8 6 Το νέφος των σημείων τείνει να κατανέμεται γύρω από μία θετικής κλίσης ευθεία. Τα ζευγάρια των τιμών {Χ, Υ} δεν εντοπίζονται ακριβώς σε ευθεία γραμμή. Το διάγραμμα διασποράς αποκαλύπτει έντονη τάση παρά ακριβή γραμμική συσχέτιση. Η ευθεία γραμμή εκφράζει τη φύση της σχέσης κατά μέσο όρο.

3 π.χ. Διαγραμμάτων Διασποράς
X Y

4 Κατασκευή Υποδείγματος
Data Στατιστι-κό Υπόδειγμ. Συστηματ. τμήμα + Τυχαία σφάλματα Η μη ακριβής μαθηματική φύση της σχέσης μεταξύ Υ και Χ υπονοεί ότι ένα στατιστικό υπόδειγμα θα μπορούσε να είναι χρήσιμο στην ανάλυση της σχέσης. Το στατιστικό υπόδειγμα διακρίνει το συστηματικό τμήμα της σχέσης από το τυχαίο. Στην Ανάλυση Διασποράς, το συστηματικό τμήμα είναι η διακύμανση των μέσων των δειγμάτων ή στοιχείων (SSTR) και η τυχαία συνιστώσα είναι το τμήμα της ανερμήνευτης διασποράς των παρατηρήσεων (SSE). Στην παλινδρόμηση, η συστηματική συνιστώσα είναι η συνολική γραμμική σχέση, και το τυχαίο τμήμα είναι η διασπορά γύρω από τη γραμμή αυτή.

5 Το Απλό Γραμμικό Υπόδειγμα Παλινδρόμησης
Το Απλό Γραμμικό Υπόδειγμα Παλινδρόμησης στον Πληθυσμό: Y = 0 + 1 X  Μη-τυχαίο ή Τυχαίο Συστηματικό Τμήμα Τμήμα Y εξαρτημένη μεταβλητή, που θέλουμε να ερμηνεύσουμε ή να προβλέψουμε X ανεξάρτητη ή ερμηνευτική μεταβλητή  όρος σφάλματος, το μόνο τυχαίο τμήμα στο υπόδειγμα, και γι’ αυτό, η μόνη πηγή τυχαιότητας της Y. 0 σταθερά του συστηματικού τμήματος της παλινδρόμησης. 1 κλίση του συστηματικού τμήματος. Ο πληθ. δεσμευμ. μέσος της Y:

6 Διαγραμματική Απεικόνιση του Α.Γ.Κ.Υ.Π.
Διαγραμματική Απεικόνιση του Α.Γ.Κ.Υ.Π. Το Απλό Γραμμικό Κανονικό Υπόδειγμα Παλινδρόμησης (Α.Γ.Κ.Υ.Π.) δίνει την ακριβή γραμμική σχέση μεταξύ της αναμενόμενης ή μέσης τιμής της εξαρτημένης Y, και της ανεξάρτητης ή προβλέπουσας X: E[Yi]=0 + 1 Xi Οι πραγματικά παρατηρούμενες τιμές Y διαφέρουν από τις αναμενόμενες κατά το ανερμήνευτο ή τυχαίο σφάλμα: Yi = E[Yi] + i = 0 + 1 Xi + i X Y E[Y]=0 + 1 X Xi } 1 = Κλίση 1 0 = Σταθερά Yi { Σφάλμα: i

7 Υποθέσεις του ΑΓΚΥΠ Η Σχέση μεταξύ X και Y είναι ευθεία γραμμή.
Η μόνη τυχαιότητα στις τιμές της Y προέρχεται από τον όρο σφάλματος i. Τα σφάλματα i κατανέμονται κανονικά με μέσο 0 και διακύμανση σταθερή (2). Τα σφάλματα είναι ασυσχέτιστα μεταξύ διαδοχικών τιμών. Δηλ.: ~ N(0,2) X Y E[Y]=0 + 1 X Υποθέσεις ΑΓΚΥΠ Ίδιες κανονικές κατανομές σφαλμάτων,όλες με κέντρο τη γραμμή παλινδρόμησης.

8 Εκτίμηση: Η Μέθοδος των Ελαχίστων Τετραγώνων
Εκτίμηση: Η Μέθοδος των Ελαχίστων Τετραγώνων Η εκτίμηση της απλής γραμμικής σχέσης των Χ, Υ σημαίνει να υπολογίσουμε με όρους πιθανότητας ή να προβλέψουμε τις τιμές της σταθεράς β0 και της κλίσης β1 της γραμμής. Το υπόδειγμα παλινδρόμησης στο δείγμα είναι: Y = b0 + b1X + e Όπου: b0 εκτίμηση της σταθεράς της πληθυσμιακής γραμμής παλινδρ., 0 b1 εκτίμηση της κλίσης της πληθυσμιακής γραμμής παλινδρ., 1 e = Y – (b0 + b1X) = Y τα παρατηρούμενα κατάλοιπα της αφαίρεσης της εκτιμημένης γραμμής παλινδρόμησης από τις n παρατηρήσεις Υ.

9 Προσαρμόζοντας τη Γραμμή Παλινδρόμησης
Προσαρμόζοντας τη Γραμμή Παλινδρόμησης Y Y Χ,Υ Τρία σφάλματα από την πληθυσμιακή γραμμή των ελαχίστων τετραγώνων (παλινδρόμησης) X X Y Τα σφάλματα από τη γραμμή παλινδρ. των ε.τ. είναι τα ελάχιστα. Ή τρία σφάλματα από την προσαρμοσμένη γραμμή ε.τ. X X

10 Σφάλματα Παλινδρόμησης
Y Πραγματική τιμή Υ για Χi Η γραμμή παλινδρόμησης των ε.τ. . { Το εκτιμημένο Υi για το δεδομένο Χi X Xi

11 Εκτιμητές Παλινδρόμησης ε.τ.
Από την ελαχιστοποίηση του αθροίσματος των τετραγώνων των καταλοίπων παίρνουμε τις κανονικές εξισώσεις. Λύνοντας το σύστημα ως προς b0 και b1 βρίσκουμε τους τύπους των εκτιμητών ε.τ. που ψάχνουμε.

12 π.χ. εκτίμησης συντελεστών ΑΓΚΥΠ
Miles Dollars Miles 2 Miles*Dollars 79, , ,426, ,185,014

13 Αποτελέσματα εκτίμησης απλής παλινδρόμησης

14 Αποτελέσματα εκτίμησης απλής παλινδρόμησης
Ανάλυση Υπολοίπων. Το διάγραμμα δείχνει ότι η X δε συσχετίζεται με τα υπόλοιπα (απουσία αυτοσυσχέτισης).

15 Αποτελέσματα εκτίμησης απλής παλινδρόμησης
Το διάγραμμα κανονικότητας των υπολοίπων προσεγγίζει την ευθεία γραμμή. Αυτό επιβεβαιώνει ότι δεν παραβιάζεται η υπόθεση της κανονικότητάς τους.

16 Διασπορά της Υ και των σφαλμάτων (MSE)
Y X Η διασπορά της εξαρτημένης Υ. X Η διασπορά των υπολοίπων της παλινδρόμησης (ΜSE). Y

17 Διακύμανση υπολοίπων και τυπικά σφάλματα των εκτιμητών ε.τ.
X Y Square and sum all regression errors to find SSE.

18 Τυπικά σφάλματα των εκτιμητών ε.τ.

19 Confidence Intervals for the Regression Parameters
Length = 1 Height = Slope Least-squares point estimate: b1= Upper 95% bound on slope: Lower 95% bound: (not a possible value of the regression slope at 95%)

20 Template (partial output) that can be used to obtain Confidence Intervals for b0 and b1

21 10-5 Correlation The correlation between two random variables, X and Y, is a measure of the degree of linear association between the two variables. The population correlation, denoted by, can take on any value from -1 to 1.    indicates a perfect negative linear relationship -1 <  < 0 indicates a negative linear relationship    indicates no linear relationship 0 <  < 1 indicates a positive linear relationship    indicates a perfect positive linear relationship The absolute value of  indicates the strength or exactness of the relationship.

22 Illustrations of Correlation
Y X  = 0 Y X  = 1 Y X  = -1 Y X  = -.8 Y X  = 0 Y X  = .8

23 Covariance and Correlation
Example 10 - 1: = r SS XY X Y 4 84 29 9824 ( )( ) . *Note: If  < 0, b1 < 0 If  = 0, b1 = 0 If  > 0, b1 >0

24 Hypothesis Tests for the Correlation Coefficient
H0:  = 0 (No linear relationship) H1:   0 (Some linear relationship) Test Statistic:

25 10-6 Hypothesis Tests about the Regression Relationship
X Constant Y Unsystematic Variation Nonlinear Relationship A hypothes is test fo r the exis tence of a linear re lationship between X and Y: H 1 Test stati stic for t he existen ce of a li near relat ionship be tween X an d Y: ( - ) where is the le ast squares es timate of the regres sion slope and ) is the s tandard er ror of . When the null hypot hesis is t rue, the stati stic has a distribu tion with degrees o f freedom. : b 2 = t n s

26 Hypothesis Tests for the Regression Slope

27 10-7 How Good is the Regression?
The coefficient of determination, r2, is a descriptive measure of the strength of the regression relationship, a measure of how well the regression line fits the data. . { Y X } Total Deviation Explained Deviation Unexplained Deviation Percentage of total variation explained by the regression.

28 The Coefficient of Determination
Y Y Y X X X SST SST SST S E r2=0 SSE r2=0.50 SSE SSR r2=0.90 SSR 5 4 3 2 1 7 6 M i l e s D o a r

29 10-8 Analysis of Variance and an F Test of the Regression Model

30 Template (partial output) that displays Analysis of Variance and an F Test of the Regression Model

31 10-9 Residual Analysis and Checking for Model Inadequacies
Residuals Homoscedasticity: Residuals appear completely random. No indication of model inadequacy. Curved pattern in residuals resulting from underlying nonlinear relationship. Residuals exhibit a linear trend with time. Time Heteroscedasticity: Variance of residuals changes when x changes.

32 Normal Probability Plot of the Residuals
Flatter than Normal

33 Normal Probability Plot of the Residuals
More Peaked than Normal

34 Normal Probability Plot of the Residuals
More Positively Skewed than Normal

35 Normal Probability Plot of the Residuals
More Negatively Skewed than Normal

36 10-10 Use of the Regression Model for Prediction
Point Prediction A single-valued estimate of Y for a given value of X obtained by inserting the value of X in the estimated regression equation. Prediction Interval For a value of Y given a value of X Variation in regression line estimate Variation of points around regression line For an average value of Y given a value of X

37 Errors in Predicting E[Y|X]
Regression line Upper limit on slope Lower limit on slope 1) Uncertainty about the slope of the regression line Upper limit on intercept Lower limit on intercept 2) Uncertainty about the intercept

38 Prediction Interval for E[Y|X]
The prediction band for E[Y|X] is narrowest at the mean value of X. The prediction band widens as the distance from the mean of X increases. Predictions become very unreliable when we extrapolate beyond the range of the sample itself. Y Prediction band for E[Y|X] Regression line Y X X Prediction Interval for E[Y|X]

39 Additional Error in Predicting Individual Value of Y
3) Variation around the regression line X Y Regression line Prediction Interval for E[Y|X] Regression Prediction band for E[Y|X] Prediction band for Y

40 Prediction Interval for a Value of Y

41 Prediction Interval for the Average Value of Y

42 Template Output with Prediction Intervals

43 10-11 The Solver Method for Regression
The solver macro available in EXCEL can also be used to conduct a simple linear regression. See the text for instructions.


Κατέβασμα ppt "Απλή Γραμμική Παλινδρόμηση & Συσχέτιση"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google