Απλή Γραμμική Παλινδρόμηση & Συσχέτιση

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
Applied Econometrics Second edition
Advertisements

Προβλέψεις με τη χρήση προτύπων γραμμικής παλινδρόμησης και συσχέτισης
Γεώργιος Σιδερίδης Πανεπιστήμιο Κρήτης
Άλλες Στατιστικές Παλινδρόμησης
Αυτο-συσχέτιση (auto-correlation)
Χρονολογικές Σειρές (Time Series)
Γεώργιος Σιδερίδης Πανεπιστήμιο Κρήτης
Το μοντέλο της απλής παλινδρόμησης
Μπουντζιούκα Βασιλική, MSc Βιοστατιστικός Εξωτ. Συνεργάτης ΕΣΔΥ
Εισαγωγή στην Κοινωνιογλωσσολογία
Ανάλυση Πολλαπλής Παλινδρόμησης
Στατιστική IΙ (ΨΥΧ-122) Διάλεξη 3 Απλή γραμμική παλινδρόμηση
Στατιστική I Γ. Παπαγεωργίου XEIM Επιλογή μεθόδου Εξαρτάται από τον ερευνητή/τρια Ποιοτικά/ ποσοτικά όταν τα data αριθμοποιούνται. εδώ – Έμφαση.
Στατιστική IΙ (ΨΥΧ-122) Διάλεξη 4 Πολλαπλή γραμμική παλινδρόμηση
Απλή και Παραγοντική Ανάλυση Διακύμανσης
ΚΕΦΑΛΑΙΟ 10 ΠΑΛΙΝΔΡΟΜΗΣΗ
Πηγή: Βιοστατιστική [Β.Γ. Σταυρινός, Δ.Β. Παναγιωτάκος]
ΗΥ Παπαευσταθίου Γιάννης1 Clock generation.
Ανάλυση με Πολλαπλή Παλινδρόμηση
Ποσοτική Ανάλυση Κειμένου
Τι είναι η Κατανομή (Distribution)
Γλώσσα R! R language Μερικά παραδείγματα 1.Γράφοντας το «ν παραγοντικό», n! Fact
Στατιστική – Πειραματικός Σχεδιασμός Βασικά. Πληθυσμός – ένα μεγάλο σετ από Ν παρατηρήσεις (πιθανά δεδομένα) από το οποίο το δείγμα λαμβάνεται. Δείγμα.
Πειραματικές Μονάδες Ένα φυτό Ένα πειραματικό τεμάχιο (plot)
ΤΜΗΜΑ ΕΠΙΧΕΙΡΗΜΑΤΙΚΟΥ ΣΧΕΔΙΑΣΜΟΥ & ΠΛΗΡΟΦΟΡΙΑΚΩΝ ΣΥΣΤΗΜΑΤΩΝ ΟΙΚΟΝΟΜΕΤΡΙΚΑ ΠΡΟΤΥΠΑ ΜΑΘΗΜΑ ΠΡΩΤΟ ΘΕΩΡΙΑΣ - ΑΠΛΟ ΓΡΑΜΜΙΚΟ ΥΠΟΔΕΙΓΜΑ Δρ. Κουνετάς Η Κωνσταντίνος.
Εισαγωγή στη διαχείριση χαρτοφυλακίου Ως επενδυτικό χαρτοφυλάκιο ορίζουμε Μ ια περιουσία που αποτελείται από μία ή περισσότερες κατηγορίες επενδυτικών.
ΠΕΡΙΓΡΑΦΗ ΤΗΣ ΜΕΘΟΔΟΛΟΓΙΑΣ BOX- JENKINS ΣΤΟ SPSS.
Introduction to Latent Variable Models. A comparison of models X1X1 X2X2 X3X3 Y1Y1 δ1δ1 δ2δ2 δ3δ3 Model AModel B ξ1ξ1 X1X1 X2X2 X3X3 δ1δ1 δ2δ2 δ3δ3.
Γραμμική Συσχέτιση, Απλή και Πολλαπλή Γραμμική Παλινδρόμηση (Εργαστήριο Σχολής Κοινωνικών Επιστημών)
Οικονομετρία Οικονομετρία ποσοτικοποιεί τις σχέσεις μεταξύ μεταβλητών με βάση και αιτιολόγηση τη σχετική οικονομική θεωρία έχει στόχο – όχι μόνο την.
ΤΕΙ Αθήνας: Σχολή ΤΕΦ: Τμήμα Ναυπηγικής Εφαρμογές Η/Υ στην Ναυπηγική ΙΙ ΚΩΔΙΚΟΣ ΜΑΘΗΜΑΤΟΣ NA0703C39 Εξάμηνο Ζ’ Διδάσκων Κωνσταντίνος Β. Κώστας Παρουσίαση.
Μέτρα Διασποράς Η μεταβλητότητα, ή αλλιώς η ποικιλομορφία, στις τιμές μιας μεταβλητής θα πρέπει πάντοτε να λαμβάνεται υπόψη σε οποιαδήποτε στατιστική ανάλυση!
Στατιστικές Υποθέσεις
Βασική Στατιστική Επεξεργασία. Ερμηνεία Δεδομένων.
Μέτρα μεταβλητότητας ή διασποράς
Εκτιμητική: σημειακές εκτιμήσεις παραμέτρων
Συσχέτιση 1/6 Συντελεστής Συσχέτισης Pearson
ΓΡΑΜΜΙΚΑ ΜΟΝΤΕΛΑ 1η Διάλεξη
Εκτιμητική: σημειακές εκτιμήσεις παραμέτρων
Εισαγωγή στην Στατιστική
Μέθοδος ελαχίστων τετραγώνων – Μεθοδολογία παλινδρόμησης
ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΜΠΣ Τραπεζικής & Χρηματοοικονομικής
Εισαγωγή στο SPSS.
Μεθοδολογία έρευνας και στατιστική – Δείγμα – Πληθυσμός
Πού χρησιμοποιείται ο συντελεστής συσχέτισης (r) pearson
Κανονικότητα Μια από τις υποθέσεις του υποδείγματος της γραμμικής παλινδρόμησης είναι ότι ο διαταρακτικός όρος κατανέμεται κανονικά με μέσο μηδέν και σταθερή.
Πολυσυγγραμμικότητα Εξειδίκευση
Βασική Στατιστική Επεξεργασία. Ερμηνεία Δεδομένων - 2.
Πειραματικές Μονάδες Ένα φυτό Ένα πειραματικό τεμάχιο (plot)
Πολυπαραγοντική γραμμική εξάρτηση
Σχεδιασμός των Μεταφορών
Σχέση μεταξύ δυο ποσοτικών μεταβλητών & Μονοπαραγοντική γραμμική εξάρτηση 2017.
Επαγωγική Στατιστική Συσχέτιση – Συντελεστής συσχέτισης Χαράλαμπος Γναρδέλλης Τμήμα Τεχνολογίας Αλιείας και Υδατοκαλλιεργειών.
Απλή γραμμική παλινδρόμηση
Τμήμα Λογιστικής & Χρηματοοικονομικής
ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ Τμήμα Λογιστικής και Χρηματοοικονομικής
Στατιστικές Υποθέσεις
ΤΕΙ ΔΥΤΙΚΗΣ ΜΑΚΕΔΟΝΙΑΣ ΜΠΣ Τραπεζικής & Χρηματοοικονομικής
Find: φ σ3 = 400 [lb/ft2] CD test Δσ = 1,000 [lb/ft2] Sand 34˚ 36˚ 38˚
Find: angle of failure, α
Ορισμός Με τον όρο Χρονοσειρές εννοούμε μια σειρά από παρατηρήσεις που παίρνονται σε ορισμένες χρονικές στιγμές ή περιόδους που ισαπέχουν μεταξύ τους.
Choosing between Competing Experimental Designs
Τ. Ε. Ι. Αθήνας Τμήμα Ιατρικών Εργαστηρίων ΒΙΟΣΤΑΤΙΣΤΙΚΗ
ΤΕΙ Αθήνας Βιοστατιστική (Θ)
Financial Market Theory
We can manipulate simple equations:
Κεφάλαιο 12 Απλή Γραμμική Παλινδρόμηση.
Δοκοί Διαγράμματα Τεμνουσών Δυνάμεων και Καμπτικών Ροπών
Επαγωγική Στατιστική Συσχέτιση – Συντελεστές συσχέτισης Χαράλαμπος Γναρδέλλης Εφαρμογές Πληροφορικής στην Αλιεία και τις Υδατοκαλλιέργειες.
Επαγωγική Στατιστική Γραμμική παλινδρόμηση-Linear Regression Χαράλαμπος Γναρδέλλης Εφαρμογές Πληροφορικής στην Αλιεία και τις Υδατοκαλλιέργειες.
Μεταγράφημα παρουσίασης:

Απλή Γραμμική Παλινδρόμηση & Συσχέτιση Απλή Γραμμική Παλινδρόμηση & Συσχέτιση Χρήση της Στατιστικής. Το Απλό Γραμμικό Υπόδειγμα Παλινδρόμησης. Εκτίμηση: Η Μέθοδος των Ελαχίστων Τετραγώνων. Διακύμανση Σφάλματος και Τυπικά Σφάλματα Παλινδρόμησης των Εκτιμητών. Συσχέτιση. Έλεγχος Υποθέσεων για την αιτιώδη σχέση της παλινδρόμησης. Πόσο καλή είναι η εκτιμηθείσα παλινδρόμηση. Πίνακας Ανάλυσης Διακύμανσης και F-Test της παλινδρόμησης. Ανάλυση Καταλοίπων και Διαγνωστικός Έλεγχος ανεπαρκειών της παλινδρόμησης. Χρήση της εκτιμηθείσας παλινδρόμησης για προβλέψεις. Περίληψη και ανακεφαλαίωση όρων.

Χρήση Στατιστικής Το διάγραμμα διασποράς (scatterplot) δείχνει ζευγάρια παρατηρήσεων για τις μεταβλητές Χ δαπάνες διαφήμισης και Υ πωλήσεων. Παρατηρούμε ότι: Ψηλότερες (χαμηλότερες) τιμές Υ πωλήσεων τείνουν να συμβαδίζουν με μεγαλύτερες (μικρότερες) τιμές Χ δαπανών διαφήμισης. S c a t e r p l o f A d v i s n g E x u ( X ) Y 5 4 3 2 1 8 6 Το νέφος των σημείων τείνει να κατανέμεται γύρω από μία θετικής κλίσης ευθεία. Τα ζευγάρια των τιμών {Χ, Υ} δεν εντοπίζονται ακριβώς σε ευθεία γραμμή. Το διάγραμμα διασποράς αποκαλύπτει έντονη τάση παρά ακριβή γραμμική συσχέτιση. Η ευθεία γραμμή εκφράζει τη φύση της σχέσης κατά μέσο όρο.

π.χ. Διαγραμμάτων Διασποράς X Y

Κατασκευή Υποδείγματος Data Στατιστι-κό Υπόδειγμ. Συστηματ. τμήμα + Τυχαία σφάλματα Η μη ακριβής μαθηματική φύση της σχέσης μεταξύ Υ και Χ υπονοεί ότι ένα στατιστικό υπόδειγμα θα μπορούσε να είναι χρήσιμο στην ανάλυση της σχέσης. Το στατιστικό υπόδειγμα διακρίνει το συστηματικό τμήμα της σχέσης από το τυχαίο. Στην Ανάλυση Διασποράς, το συστηματικό τμήμα είναι η διακύμανση των μέσων των δειγμάτων ή στοιχείων (SSTR) και η τυχαία συνιστώσα είναι το τμήμα της ανερμήνευτης διασποράς των παρατηρήσεων (SSE). Στην παλινδρόμηση, η συστηματική συνιστώσα είναι η συνολική γραμμική σχέση, και το τυχαίο τμήμα είναι η διασπορά γύρω από τη γραμμή αυτή.

Το Απλό Γραμμικό Υπόδειγμα Παλινδρόμησης Το Απλό Γραμμικό Υπόδειγμα Παλινδρόμησης στον Πληθυσμό: Y = 0 + 1 X +  Μη-τυχαίο ή Τυχαίο Συστηματικό Τμήμα Τμήμα Y εξαρτημένη μεταβλητή, που θέλουμε να ερμηνεύσουμε ή να προβλέψουμε X ανεξάρτητη ή ερμηνευτική μεταβλητή  όρος σφάλματος, το μόνο τυχαίο τμήμα στο υπόδειγμα, και γι’ αυτό, η μόνη πηγή τυχαιότητας της Y. 0 σταθερά του συστηματικού τμήματος της παλινδρόμησης. 1 κλίση του συστηματικού τμήματος. Ο πληθ. δεσμευμ. μέσος της Y:

Διαγραμματική Απεικόνιση του Α.Γ.Κ.Υ.Π. Διαγραμματική Απεικόνιση του Α.Γ.Κ.Υ.Π. Το Απλό Γραμμικό Κανονικό Υπόδειγμα Παλινδρόμησης (Α.Γ.Κ.Υ.Π.) δίνει την ακριβή γραμμική σχέση μεταξύ της αναμενόμενης ή μέσης τιμής της εξαρτημένης Y, και της ανεξάρτητης ή προβλέπουσας X: E[Yi]=0 + 1 Xi Οι πραγματικά παρατηρούμενες τιμές Y διαφέρουν από τις αναμενόμενες κατά το ανερμήνευτο ή τυχαίο σφάλμα: Yi = E[Yi] + i = 0 + 1 Xi + i X Y E[Y]=0 + 1 X Xi } 1 = Κλίση 1 0 = Σταθερά Yi { Σφάλμα: i

Υποθέσεις του ΑΓΚΥΠ Η Σχέση μεταξύ X και Y είναι ευθεία γραμμή. Η μόνη τυχαιότητα στις τιμές της Y προέρχεται από τον όρο σφάλματος i. Τα σφάλματα i κατανέμονται κανονικά με μέσο 0 και διακύμανση σταθερή (2). Τα σφάλματα είναι ασυσχέτιστα μεταξύ διαδοχικών τιμών. Δηλ.: ~ N(0,2) X Y E[Y]=0 + 1 X Υποθέσεις ΑΓΚΥΠ Ίδιες κανονικές κατανομές σφαλμάτων,όλες με κέντρο τη γραμμή παλινδρόμησης.

Εκτίμηση: Η Μέθοδος των Ελαχίστων Τετραγώνων Εκτίμηση: Η Μέθοδος των Ελαχίστων Τετραγώνων Η εκτίμηση της απλής γραμμικής σχέσης των Χ, Υ σημαίνει να υπολογίσουμε με όρους πιθανότητας ή να προβλέψουμε τις τιμές της σταθεράς β0 και της κλίσης β1 της γραμμής. Το υπόδειγμα παλινδρόμησης στο δείγμα είναι: Y = b0 + b1X + e Όπου: b0 εκτίμηση της σταθεράς της πληθυσμιακής γραμμής παλινδρ., 0 b1 εκτίμηση της κλίσης της πληθυσμιακής γραμμής παλινδρ., 1 e = Y – (b0 + b1X) = Y - τα παρατηρούμενα κατάλοιπα της αφαίρεσης της εκτιμημένης γραμμής παλινδρόμησης από τις n παρατηρήσεις Υ.

Προσαρμόζοντας τη Γραμμή Παλινδρόμησης Προσαρμόζοντας τη Γραμμή Παλινδρόμησης Y Y Χ,Υ Τρία σφάλματα από την πληθυσμιακή γραμμή των ελαχίστων τετραγώνων (παλινδρόμησης) X X Y Τα σφάλματα από τη γραμμή παλινδρ. των ε.τ. είναι τα ελάχιστα. Ή τρία σφάλματα από την προσαρμοσμένη γραμμή ε.τ. X X

Σφάλματα Παλινδρόμησης Y Πραγματική τιμή Υ για Χi Η γραμμή παλινδρόμησης των ε.τ. . { Το εκτιμημένο Υi για το δεδομένο Χi X Xi

Εκτιμητές Παλινδρόμησης ε.τ. Από την ελαχιστοποίηση του αθροίσματος των τετραγώνων των καταλοίπων παίρνουμε τις κανονικές εξισώσεις. Λύνοντας το σύστημα ως προς b0 και b1 βρίσκουμε τους τύπους των εκτιμητών ε.τ. που ψάχνουμε.

π.χ. εκτίμησης συντελεστών ΑΓΚΥΠ Miles Dollars Miles 2 Miles*Dollars 1211 1802 1466521 2182222 1345 2405 1809025 3234725 1422 2005 2022084 2851110 1687 2511 2845969 4236057 1849 2332 3418801 4311868 2026 2305 4104676 4669930 2133 3016 4549689 6433128 2253 3385 5076009 7626405 2400 3090 5760000 7416000 2468 3694 6091024 9116792 2699 3371 7284601 9098329 2806 3998 7873636 11218388 3082 3555 9498724 10956510 3209 4692 10297681 15056628 3466 4244 12013156 14709704 3643 5298 13271449 19300614 3852 4801 14837904 18493452 4033 5147 16265089 20757852 4267 5738 18207288 24484046 4498 6420 20232004 28877160 4533 6059 20548088 27465448 4804 6426 23078416 30870504 5090 6321 25908100 32173890 5233 7026 27384288 36767056 5439 6964 29582720 37877196 79,448 106,605 293,426,946 390,185,014

Αποτελέσματα εκτίμησης απλής παλινδρόμησης

Αποτελέσματα εκτίμησης απλής παλινδρόμησης Ανάλυση Υπολοίπων. Το διάγραμμα δείχνει ότι η X δε συσχετίζεται με τα υπόλοιπα (απουσία αυτοσυσχέτισης).

Αποτελέσματα εκτίμησης απλής παλινδρόμησης Το διάγραμμα κανονικότητας των υπολοίπων προσεγγίζει την ευθεία γραμμή. Αυτό επιβεβαιώνει ότι δεν παραβιάζεται η υπόθεση της κανονικότητάς τους.

Διασπορά της Υ και των σφαλμάτων (MSE) Y X Η διασπορά της εξαρτημένης Υ. X Η διασπορά των υπολοίπων της παλινδρόμησης (ΜSE). Y

Διακύμανση υπολοίπων και τυπικά σφάλματα των εκτιμητών ε.τ. X Y Square and sum all regression errors to find SSE.

Τυπικά σφάλματα των εκτιμητών ε.τ.

Confidence Intervals for the Regression Parameters Length = 1 Height = Slope Least-squares point estimate: b1=1.25533 Upper 95% bound on slope: 1.35820 Lower 95% bound: 1.15246 (not a possible value of the regression slope at 95%)

Template (partial output) that can be used to obtain Confidence Intervals for b0 and b1

10-5 Correlation The correlation between two random variables, X and Y, is a measure of the degree of linear association between the two variables. The population correlation, denoted by, can take on any value from -1 to 1.    indicates a perfect negative linear relationship -1 <  < 0 indicates a negative linear relationship    indicates no linear relationship 0 <  < 1 indicates a positive linear relationship    indicates a perfect positive linear relationship The absolute value of  indicates the strength or exactness of the relationship.

Illustrations of Correlation Y X  = 0 Y X  = 1 Y X  = -1 Y X  = -.8 Y X  = 0 Y X  = .8

Covariance and Correlation Example 10 - 1: = r SS XY X Y 51402852. 4 40947557. 84 66855898 52321943 29 9824 ( )( ) . *Note: If  < 0, b1 < 0 If  = 0, b1 = 0 If  > 0, b1 >0

Hypothesis Tests for the Correlation Coefficient H0:  = 0 (No linear relationship) H1:   0 (Some linear relationship) Test Statistic:

10-6 Hypothesis Tests about the Regression Relationship X Constant Y Unsystematic Variation Nonlinear Relationship A hypothes is test fo r the exis tence of a linear re lationship between X and Y: H 1 Test stati stic for t he existen ce of a li near relat ionship be tween X an d Y: ( - ) where is the le ast squares es timate of the regres sion slope and ) is the s tandard er ror of . When the null hypot hesis is t rue, the stati stic has a distribu tion with degrees o f freedom. : b 2 = ¹ t n s

Hypothesis Tests for the Regression Slope

10-7 How Good is the Regression? The coefficient of determination, r2, is a descriptive measure of the strength of the regression relationship, a measure of how well the regression line fits the data. . { Y X } Total Deviation Explained Deviation Unexplained Deviation Percentage of total variation explained by the regression.

The Coefficient of Determination Y Y Y X X X SST SST SST S E r2=0 SSE r2=0.50 SSE SSR r2=0.90 SSR 5 4 3 2 1 7 6 M i l e s D o a r

10-8 Analysis of Variance and an F Test of the Regression Model

Template (partial output) that displays Analysis of Variance and an F Test of the Regression Model

10-9 Residual Analysis and Checking for Model Inadequacies Residuals Homoscedasticity: Residuals appear completely random. No indication of model inadequacy. Curved pattern in residuals resulting from underlying nonlinear relationship. Residuals exhibit a linear trend with time. Time Heteroscedasticity: Variance of residuals changes when x changes.

Normal Probability Plot of the Residuals Flatter than Normal

Normal Probability Plot of the Residuals More Peaked than Normal

Normal Probability Plot of the Residuals More Positively Skewed than Normal

Normal Probability Plot of the Residuals More Negatively Skewed than Normal

10-10 Use of the Regression Model for Prediction Point Prediction A single-valued estimate of Y for a given value of X obtained by inserting the value of X in the estimated regression equation. Prediction Interval For a value of Y given a value of X Variation in regression line estimate Variation of points around regression line For an average value of Y given a value of X

Errors in Predicting E[Y|X] Regression line Upper limit on slope Lower limit on slope 1) Uncertainty about the slope of the regression line Upper limit on intercept Lower limit on intercept 2) Uncertainty about the intercept

Prediction Interval for E[Y|X] The prediction band for E[Y|X] is narrowest at the mean value of X. The prediction band widens as the distance from the mean of X increases. Predictions become very unreliable when we extrapolate beyond the range of the sample itself. Y Prediction band for E[Y|X] Regression line Y X X Prediction Interval for E[Y|X]

Additional Error in Predicting Individual Value of Y 3) Variation around the regression line X Y Regression line Prediction Interval for E[Y|X] Regression Prediction band for E[Y|X] Prediction band for Y

Prediction Interval for a Value of Y

Prediction Interval for the Average Value of Y

Template Output with Prediction Intervals

10-11 The Solver Method for Regression The solver macro available in EXCEL can also be used to conduct a simple linear regression. See the text for instructions.