© 2002 Thomson / South-Western Slide 13-1 Κεφάλαιο 13 Ανάλυση Πολλαπλής Παλινδρόμησης
© 2002 Thomson / South-Western Slide 13-2 Στόχοι Μαθήματος Ανάπτυξη ενός πολλαπλού μοντέλου παλινδρόμησης. Κατανόηση και εφαρμογή τεχνικών οι οποίες μπορούν να χησιμοποιηθούν για να καθορισθεί πόσο καλά ταιριάζει ένα μοντέλο παλινδρόμησης στα δεδομένα. Ανάλυση και ερμηνεία μη γραμμικών μεταβλητών και πώς χρησιμοποιούνται αυτές στη πολλαπλή ανάλυση παλινδρόμησης. Κατανόηση του ρόλου ποιοτικών μεταβλητών και πώς χρησιμοποιούνται αυτές στη πολλαπλή ανάλυση παλινδρόμησης. Κατασκευή και εκτίμηση των μοντέλων πολλαπλής παλινδρόμησης.
© 2002 Thomson / South-Western Slide 13-3 Το Πολλαπλό Μοντέλο Παλινδρόμησης Πολλαπλή Παλινδρόμηση είναι η ανάλυση παλινδρόμησης με μια εξαρτημένη μεταβλητή και δυο ή περισσότερες ανεξάρτητες μεταβλητές, ή τουλάχιστον μια μη γραμμική ανεξάρτητη μεταβλητή. Η Εξαρτημένη Μεταβλητή είναι η μεταβλητή την οποία ο αναλυτής της επιχείρησης επιχειρεί να προβλέψει.
© 2002 Thomson / South-Western Slide 13-4 Μοντέλα Παλινδρόμησης nΠιθανοθεωρητικό Μοντέλο Πολλαπλής Παλινδρόμησης Y = b 0 + b 1 X 1 + b 2 X 2 + b 3 X b k X k + Y = b 0 + b 1 X 1 + b 2 X 2 + b 3 X b k X k + Y = η τιμή της εξαρτημένης μεταβλητής b 0 = η σταθερά της παλινδρόμησης b 1 = ο συντελεστής ευαισθησίας της πρώτης ανεξάρτητης μεταβλητής b 2 = ο συντελεστής ευαισθησίας της δεύτερης ανεξάρτητης μεταβλητής b k = ο συντελεστής ευαισθησίας της κ-ανεξάρτητης μεταβλητής k = ο αριθμός των ανεξάρτητων μεταβλητών = το σφάλμα της πρόβλεψης
© 2002 Thomson / South-Western Slide 13-5 Εκτιμημένο Μοντέλο Παλινδρόμησης
© 2002 Thomson / South-Western Slide 13-6 Πολλαπλό Μοντέλο Παλινδρόμησης με δυο Ανεξάρτητες Μεταβλητές (Πρώτης-τάξης) Μοντέλο Πληθυσμού Εκτιμημένο Μοντέλο
© 2002 Thomson / South-Western Slide 13-7 Επίπεδο αντίδρασης για ένα μοντέλο πολλαπλής παλινδρόμησης πρώτης τάξης, δυο ανεξάρτητων μεταβλητών X1X1 X2X2 Επίπεδο αντίδρασης Y1Y1 Σταθερά Y
© 2002 Thomson / South-Western Slide 13-8 Εξισώσεις Ελαχίστων Τετραγώνων για k = 2 Η ανάλυση ελαχίστων τετραγώνων αποτελεί μια διαδικασία κατά την οποία αναπτύσσεται ένα μοντέλο παλινδρόμησης το οποίο βασίζεται σε υπολογιστικές τεχνικές και με απώτερο σκοπό την δημιουργία ενός ελαχίστου αθροίσματος των τετραγώνων των καταλοίπων.
© 2002 Thomson / South-Western Slide 13-9 Δεδομένα Αγοράς Ακινήτων ΠαρατήρησηYX1X1 X2X2 YX1X1 X2X , , , , , , , , , , , , , , , , , , , , , , ,1436 Αγοραία Τιμή ($1,000) ΕμβαδόΗλικία (Έτη) Αγοραία Τιμή ($1,000) ΕμβαδόΗλικία (Έτη)
© 2002 Thomson / South-Western Slide Πρόβλεψη της τιμής ενός ακινήτου και Χιλιάδες δολλάρια Για
© 2002 Thomson / South-Western Slide Αξιολόγηση του μοντέλου πολλαπλής παλινδρόμησης Έλεγχος σημαντικότητας μεμονωμένων συντελεστών της παλινδρόμησης Συνολικός έλεγχος του μοντέλου
© 2002 Thomson / South-Western Slide Έλεγχος του μοντέλου συνολικά για το παράδειγμα της αγοράς των ακινήτων ANOVA df SSMSF p Regression Residual (Error) Total
© 2002 Thomson / South-Western Slide Έλεγχος σημαντικότητας των συντελεστών παλινδρόμησης για το παράδειγμα της αγοράς ακινήτων t Cal = 5.63 > 2.086, απορρίπτουμε την H 0. CoefficientsStd Devt Stat p x 1 (Sq.Feet) x 2 (Age) t.025,20 = 2.086
© 2002 Thomson / South-Western Slide Κατάλοιπα Το κατάλοιπο είναι η διαφορά μεταξύ της πραγματικής τιμής Υ της εξαρτημένης μεταβλητής και της τιμής της Y που προκύπτει από το μοντέλο (προβλεφθείσα τιμή). Είναι το σφάλμα που διαπράττουμε στην πρόβλεψη της εξαρτημένης μεταβλητής μέσω του μοντέλου παλινδρόμησης.
© 2002 Thomson / South-Western Slide SSE και τυπικό σφάλμα εκτίμησης της παλινδρόμησης SSE ANOVA df SSMSF P Regression Residual (Error) Total
© 2002 Thomson / South-Western Slide Συντελεστής προσδιορισμού πολλαπλής παλινδρόμησης (R 2 ) SSE ANOVA df SSMSF p Regression Residual (Error) Total SS YY SSR
© 2002 Thomson / South-Western Slide Προσαρμοσμένος συντελεστής R 2 ANOVA df SSMSF p Regression Residual (Error) Total SS YY SSE n-k-1 n-1
© 2002 Thomson / South-Western Slide Ψευδομεταβλητές (Δηκτικές μεταβλητές) Ποιοτικές (Δηκτικές ή ψευδομεταβλητές) Ο αριθμός των ψευδομεταβλητών που απαιτούνται για την ενσωμάτωση μιας ποιοτικής μεταβλητής στην ανάλυση είναι ο αριθμός των κατηγοριών μειωμένος κατά μια. Για δυαδικές μεταβλητές όπως για παράδειγμα το φύλο χρειαζόμαστε μια ψευδομεταβλητή. Υπάρχουν δυο κατηγορίες (θήλυ, άρρεν): c = 1; c - 1 = 0. Σε ποια περιοχή της χώρας βρίσκεται το γραφείο σας? ___Βορειοανατολικά___ Mεσοδυτικά___Νότια___Δυτικά Αριθμός ψευδομεταβλητών = c - 1 = = 3
© 2002 Thomson / South-Western Slide Δεδομένα για το παράδειγμα μηνιαίου μισθού Παρατήρηση Μηνιαίος Μισθός ($1000) Ηλικία (10 Έτη) Φύλο (1=Άρρεν, 0=Θήλυ)
© 2002 Thomson / South-Western Slide Αποτέλεσμα εκτίμησης γραμμής παλινδρόμησης: Παράδειγμα Μηνιαίου Μισθού Η εξίσωση παλινδρόμησης είναι: Μισθός = Ηλικία Φύλο Μεταβλητή Coef StDev T P Σταθερά Ηλικία Φύλο S = R-Sq = 89.0% R-Sq(adj) = 87.2% Analysis of Variance Source DF SS MS F P Regression Error Total
© 2002 Thomson / South-Western Slide Γραφική απεικόνιση μοντέλου παλινδρόμησης Ξεχωριστή απεικόνιση ανδρών & γυναικών Άντρες Γυναίκες
© 2002 Thomson / South-Western Slide Σύνθετα Μοντέλα Παλινδρόμησης Πρώτης τάξης με δυο ανεξάρτητες μεταβλητές Δεύτερης τάξης με μια ανεξάρτητη μεταβλητή Δεύτερης τάξης με όρο αλληλεπίδρασης Δεύτερης τάξης με δυο ανεξάρτητες μεταβλητές
© 2002 Thomson / South-Western Slide Παράδειγμα: Δεδομένα πωλήσεων και διάγραμμα διασποράς για 13 βιομηχανικές εταιρείες Αριθμός αντιπροσώπων Πωλήσεις Κατασκευαστής Πωλήσεις ($1,000,000) Αριθμός Αντιπροσώπων
© 2002 Thomson / South-Western Slide Αποτέλεσμα απλής παλινδρόμησης στο Excel για το παράδειγμα με τις βιομηχανικές εταιρείες Regression Statistics Multiple R0.933 R Square0.870 Adjusted R Square0.858 Standard Error51.10 Observations13 CoefficientsStandard Errort StatP-value Σταθερά Αριθμ. Αντιπρ ANOVA dfSSMSFSignificance F Regression Residual Total
© 2002 Thomson / South-Western Slide Δεδομένα παραδείγματος βιομηχανικών εταιρειών με μια νέα μεταβλητή Κατασκευαστής Πωλήσεις ($1,000,000) Number of Mgfr Reps X 1 (No. Mgfr Reps) 2 X 2 = (X 1 )
© 2002 Thomson / South-Western Slide Διάγραμμα διασποράς των αρχικών και των μετασχηματισμένων δεδομένων Άριθμός αντιπροσώπων Πωλήσεις Αριθμός αντιπροσώπων ^2 Πωλήσεις
© 2002 Thomson / South-Western Slide Χρήση του δευτεροβάθμιου μοντέλου μέσω του Excel για την πρόβλεψη των πωλήσεων Regression Statistics Multiple R0.986 R Square0.973 Adjusted R Square0.967 Standard Error Observations13 CoefficientsStandard Errort StatP-value Intercept MfgrRp MfgrRpSq ANOVA dfSSMSFSignificance F Regression Residual Total
© 2002 Thomson / South-Western Slide Παράδειγμα Μοντέλου παλινδρόμησης με όρο αλληλεπίδρασης: Τιμές τριών μετοχών για μια περίοδο 15 μηνών Μετοχή 1Μετοχή 2Μετοχή
© 2002 Thomson / South-Western Slide Μοντέλα παλινδρόμησης για τις τρεις μετοχές Πρώτης τάξης με δυο ανεξάρτητες μεταβλητές Δεύτερης τάξης με όρο αλληλεπίδρασης
© 2002 Thomson / South-Western Slide Παλινδρόμηση για τις τρεις μετοχές: Δυο ανεξάρτητες μεταβλητές, απουσία αλληλεπίδρασης Η εξίσωση της παλινδρόμησης είναι Μετοχή 1 = Μετοχή Μετοχή 3 Μεταβλητή Coef StDev T P Σταθερά Μετοχή Μετοχή S = R-Sq = 47.2% R-Sq(adj) = 38.4% Analysis of Variance Source DF SS MS F Sig. F Regression Error Total
© 2002 Thomson / South-Western Slide Παλινδρόμηση για τις τρεις μετοχές με αλληλεπίδραση Η εξίσωση της παλινδρόμησης είναι Μετοχή 1 = Μετοχή Μετοχή 3 – Αλληλ. Μεταβλητή Coef StDev T P Σταθερά Μετοχή Μετοχή Αλληλ S = R-Sq = 80.4% R-Sq(adj) = 25.1% Analysis of Variance Source DF SS MS F Sig. F Regression Error Total
© 2002 Thomson / South-Western Slide Μη γραμμικά μοντέλα παλινδρόμησης : Μετασχημτισμός μοντέλου
© 2002 Thomson / South-Western Slide Δεδομένα για παράδειγμα μετασχηματισμού μοντέλου ΕταιρείαYX ΕταιρείαLOG YX ΑΡΧΙΚΑ ΔΕΔΟΜΕΝΑ ΜΕΤΑΣΧΗΜΑΤΙΣΜΕΝΑ ΔΕΔΟΜΕΝΑ Y = Πωλήσεις ($ million/έτος) X = Διαφήμιση ($ million/έτος)
© 2002 Thomson / South-Western Slide Αποτέλεσμα Εκτίμησης Γραμμής Παλινδρόμησης για το παράδειγμα μετασχηματισμού μοντέλου Regression Statistics Multiple R0.990 R Square0.980 Adjusted R Square0.977 Standard Error0.054 Observations7 CoefficientsStandard Errort StatP-value Intercept X ANOVA dfSSMSFSignificance F Regression Residual Total
© 2002 Thomson / South-Western Slide Προβλέψεις με την χρήση του μετασχηματισμένου μοντέλου
© 2002 Thomson / South-Western Slide Προβλέψεις με την χρήση του μετασχηματισμένου μοντέλου
© 2002 Thomson / South-Western Slide Κατασκευή μοντέλου: Διαδικασία αναζήτησης Όλα τα είδη παλινδρόμησης Από το συγκεκριμένο στο γενικότερο (Forward Selection).Διαδοχικές προσθήκες μεταβλητών που προσθέτουν ερμηνευτική ικανότητα. Από το γενικότερο μοντέλο στο πιο συγκεκριμένο (Backward elimination). Διαδοχική αφαίρεση μεταβλητών που δεν προσθέτουν ερμηνευτική ικανότητα. Παλινδρόμηση σε στάδια (Stepwise Regression)
© 2002 Thomson / South-Western Slide Δεδομένα πολλαπλής παλινδρόμησης για την πρόβλεψη της παγκόσμιας παραγωγής αργού πετρελαίου YΠαγκόσμια παραγωγή αργού πετερελαίου X 1 Κατανάλωση ενέργειας ΗΠΑ X 2 Παραγωγή πυρηνικής ενέργειας ΗΠΑ X 3 Παραγωγή άνθρακα ΗΠΑ X 4 Ποσοστό καυσίμων για αυτοκίνητα ΗΠΑ
© 2002 Thomson / South-Western Slide Παράδειγμα: Όλα τα είδη παλινδρόμησης με 4 ανεξάρτητες μεταβλητές
© 2002 Thomson / South-Western Slide Forward Selection Η μέθοδος μοιάζει με αυτή της παλινδρόμησης σε στάδια με την διαφορά ότι οι μεταβλητές δεν επαναξιολογούνται αφού συμπεριληφθούν στο μοντέλο.
© 2002 Thomson / South-Western Slide Backward Elimination Ξεκινάμε με το ‘πλήρες’ μοντέλο (και οι k ανεξάρτητες μεταβλητές) Εάν όλες οι ανεξάρτητες μεταβλητές είναι σημαντικές, τότε σταματάμε εκεί. Σε διαφορετική περίπτωση αφαιρούμε τις μη σημαντικές μεταβλητές και επιστρέφουμε στο προηγούμενο βήμα.
© 2002 Thomson / South-Western Slide Παλινδρόμηση σε στάδια (Stepwise Regression) Εκτελούμε k τον αριθμό απλές παλινδρομήσεις και επιλέγουμε το καλύτερο μοντέλο ως το αρχικό μας μοντέλο. Αξιολογούμε κάθε μεταβλητή που δεν περιλαμβάνεται στο μοντέλο –Εάν καμμία από τις μεταβλητές δεν ικανοποιεί το κριτήριο, σταματάμε. –Προσθέτουμε την καλύτερη μεταβλητή στο μοντέλο,αξιολογούμε τις υπάρχουσες μεταβλητές και αφαιρούμε οποιαδήποτε είναι ασήμαντη. Επιστροφή στο προηγούμενο βήμα
© 2002 Thomson / South-Western Slide Πολυσυγγραμμικότητα Παρατηρείται όταν δυο ή περισσότερες ανεξάρτητες μεταβλητές συσχετίζονται μεταξύ τους. –Δυσκολία στην ερμηνεία των εκτιμήσεων των συντελεστών της παλινδρόμησης. –Μπορεί να οδηγήσει σε υπερβολικά μικρές τιμές του στατιστικού t για τους συντελεστές της παλινδρόμησης. –Μπορεί να οδηγήσει σε υπερκτίμηση των τυπικών σφαλμάτων εκτίμησης των συντελεστών. –Το πρόσημο των εκτιμηθέντων συντελεστών μπορεί να είναι αντίθετο από το αναμενόμενο.