Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η Ύλη του Μαθήματος Επανάληψη της πολλαπλή παλινδρόμησης και Ασυμπτωτική κατανομή της εκτιμήτριας ελαχίστων τετραγώνων. Βοηθητικές μεταβλητές και παλινδρόμηση.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Η Ύλη του Μαθήματος Επανάληψη της πολλαπλή παλινδρόμησης και Ασυμπτωτική κατανομή της εκτιμήτριας ελαχίστων τετραγώνων. Βοηθητικές μεταβλητές και παλινδρόμηση."— Μεταγράφημα παρουσίασης:

1 Η Ύλη του Μαθήματος Επανάληψη της πολλαπλή παλινδρόμησης και Ασυμπτωτική κατανομή της εκτιμήτριας ελαχίστων τετραγώνων. Βοηθητικές μεταβλητές και παλινδρόμηση σε δύο στάδια. Υποδείγματα και μέθοδοι εκτίμησης στοιχείων σε Panel. Εισαγωγή στις χρονολογικές σειρές: Ιδιότητες εκτιμητριών ελαχίστων τετραγώνων, τάση και κυκλικότητα. Περαιτέρω ανάλυση χρονολογικών σειρών: Στασιμότητα, ασυμπτωτικές ιδιότητες εκτιμητών, δυναμικά πλήρη υποδείγματα και απουσία αυτοσυσχέτισης. Αυτοσυσχέτιση και ετεροσκεδαστικότητα στις χρονολογικές σειρές: Ιδιότητες εκτιμητών με αυτοσυσχετισμένα λάθη, εφικτή γενικευμένη μέθοδος ελαχίστων τετραγώνων. Εισαγωγή στα γραμμικά συστήματα εξισώσεων: Ταυτοποίηση και εκτίμηση συστημάτων.

2 Η Ύλη του Μαθήματος Επανάληψη στην πολλαπλή παλινδρόμηση. Βοηθητικές μεταβλητές (IV) και παλινδρόμηση σε δύο στάδια (TSLS). Ανάλυση Χρονοσειρών. Ανάλυση δεδομένων Panel (συνδιασμός διαστρωματικών στοιχείων και χρονοσειρών).

3 Από που να διαβάσω? J. Μ. Wooldridge, Introductory Econometrics: A Modern Approach, 2nd Edition. Εισαγωγή στην Οικονομετρία. Μια Νέα Προσέγγιση. Τόμοι Α&Β. Εκδόσεις Παπαζήση. Ν. Πιττής, Πιθανοθεωρητική Θεμελίωση της Οικονομετρίας. Εκδόσεις Σταμούλη.

4 Από πού να διαβάσω 2SLS, Εκτίμηση βοηθητικών μεταβλητών, κεφ. 15, Β’ τόμος, Wooldridge. Χρονολογικές σειρές, κεφ. 10, 11, 12, Α’ τόμος, Wooldridge. Panel Data, κεφ. 13, Β’ τόμος, Wooldridge. Πιθανοθεωρητική Θεμελίωση της Οικονομετρίας, Πιττής, κεφ. 1, σελ , 89-98, ,

5 Από που να ζητήσω βοήθεια αν τη χρειαστώ? Διαλέξεις (Phoebe Koundouri) ΄Ωρες Γραφείου, 3-5 κάθε Τρίτη Φροντιστήρια. Νατάσα Κουτσούρη

6 Η Οικονομική Επιστήμη προτείνει ενδιαφέρουσες σχέσεις, που συχνά έχουν πολιτικές επιπτώσεις, αλλά, ουσιαστικά, ποτέ δεν ασχολείται με την ποσοτική μέτρηση των αιτιωδών αποτελεσμάτων Ποία είναι η ελαστικότητα της τιμής των τσιγάρων; Ποίο αποτέλεσμα έχει μία μείωση του μεγέθους μιας τάξης μαθητών στις επιδόσεις τους; Πώς επηρεάζει τα έσοδα ένας χρόνος εκπαίδευσης; Ποίο αποτέλεσμα έχει η άνοδος κατά μία ποσοστιαία μονάδα των επιτοκίων της Κεντρικής Τράπεζας στην αύξηση της παραγωγής;

7 Το μάθημα αυτό εστιάζει στη χρήση στατιστικών και οικονομετρικών μεθόδων για την ποσοτικοποίηση των οικονομικών σχέσεων και των συνεπειών πολιτικής ‘Ενα χαρακτηριστικό της οικονομικής επιστήμης είναι το ότι σχεδόν πάντα, πρέπει να χρησιμοποιούμε παρατηρήσιμα στοιχεία (μη πειραματικά). Αυτά τα στοιχεία παρουσιάζουν κάποιες ιδιαιτερότητες οι οποίες για να αντιμετωπιστούν χρειάζονται κάποιες συγκεκριμένες στατιστικές τεχνικές. Το σύνολο των στατιστικών τεχνικών καί μεθόδων πού επεξεργάζονται καί αναλύουν παρατηρήσιμα στοιχεία συνθέτει, κατά κύριο λόγο, την οικονομετρία.

8 Επανάληψη στη Θεωρία των Πιθανοτήτων και στη Στατιστική Θεωρία Εμπειρικό πρόβλημα: Μέγεθος τάξης και προϊόν εκπαίδευσης. Ποιο είναι το αποτέλεσμα της μείωσης του μεγέθους της τάξης κατά ένα μαθητή ανά τάξη; Ποιο είναι το κατάλληλο μέτρο του προϊόντος εκπαίδευσης; ικανοποίηση των γονέων; ατομική πρόοδος τού μαθητή; μελλοντική του ευημερία ως ενήλικος; μελλοντικά του έσοδα ως ενήλικος; επίδοσή του σε καθιερωμένες εξετάσεις;

9 Έστω ότι έχουμε εμπειρικά στοιχεία για τη σχέση ανάμεσα στο μέγεθος της τάξης και στους βαθμούς των μαθητών στις εξετάσεις. Στατιστικά στοιχεία αποτελεσμάτων εξετάσεων από την πολιτεία της Καλιφόρνιας που περιλαμβάνει όλες τις σχολικές μονάδες της Καλιφόρνιας (n=420). Μεταβλητές: - Βαθμοί εξετάσεων 5ης βαθμίδας εκπαίδευσης (μέσος όρος των βαθμών κάθε σχολικής μονάδας). - Λόγος Μαθητή προς Δάσκαλο (ΛΜΔ) = πλήθος μαθητών κάθε σχολικής μονάδας, προς αντίστοιχο πλήθος δασκάλων πλήρους απασχόλησης.

10 Κοιτάζοντας αρχικά τα στοιχεία από την Καλιφόρνια:

11

12 Μπορεί να θεωρηθεί ότι οι σχολικές μονάδες με μικρότερες σε μέγεθος τάξεις (χαμηλότερο ΛΜΔ) παρουσιάζουν υψηλότερους βαθμούς στις εξετάσεις; Πώς μπορούμε να απαντήσουμε «στατιστικά» στο παραπάνω ερώτημα? Συγκρίνοντας το μέσο όρο των βαθμών στις εξετάσεις μεταξύ μονάδων με χαμηλό ΛΜΔ και μονάδων με υψηλό ΛΜΔ (εκτίμηση). Ελέγχοντας την υπόθεση ότι ο μέσος βαθμός εξετάσεων είναι ίδιος και για τα δύο είδη σχολικών μονάδων, αντί της εναλλακτικής υπόθεσης ότι οι δύο μέσοι διαφέρουν (έλεγχος υποθέσεων).

13 Αρχική ανάλυση των δεδομένων: Σύγκριση σχολικών μονάδων με «μικρό» (ΛΜΔ <20) και «μεγάλο» (ΛΜΔ ≥ 20) αριθμό μαθητών: Αριθμός Μαθητών Μέσος ( ) Τυπική Απόκλιση (s Y ) n Μικρός Μεγάλος Εκτίμηση του Δ= διαφορά στους μέσους μεταξύ των δύο ομάδων/συνόλων μαθητών. 2. Έλεγχος της υπόθεσης ότι Δ=0.

14 1. Εκτίμηση Ερώτηση. Η διαφορά αυτή είναι πραγματικά μεγάλη; Απάντηση. Το τι είναι μικρό ή μεγάλο μέγεθος στη στατιστική εξαρτάται από την τυπική απόκλιση αυτού τού μεγέθους.

15 2. Έλεγχος Υποθέσεων. Έλεγχος της διαφοράς στους μέσους. Υπολογίζουμε την στατιστική- t (Student-t): Τυπικό Σφάλμα της διαφοράς Τυπική Απόκλιση Οι δείκτες s και l αναφέρονται στις σχολικές μονάδες με μικρό και μεγάλο ΛΜΔ αντίστοιχα.

16 Υπολογίζουμε, τώρα, την τιμή της κατανομής t για τη διαφορά μεταξύ των μέσων: Αριθμός Μαθητών Τυπική Απόκλιση (s Y ) n Μικρός Μεγάλος Μέσος ( ) |t| > 1.96, που σημαίνει ότι απορρίπτουμε την μηδενική υπόθεση ότι οι δύο μέσοι είναι ίσοι (στο 5% επίπεδο στατιστικής σημαντικότητας).

17 3. Διάστημα Εμπιστοσύνης 95% διάστημα εμπιστοσύνης για τη διαφορά μεταξύ των μέσων: Δύο ισοδύναμες προτάσεις: 1.To μηδέν δεν περιλαμβάνεται στο διάστημα εμπιστοσύνης 95%. 2.Η υπόθεση ότι Δ = 0 απορρίπτεται σε 5% επίπεδο στατιστικής σημαντικότητας.

18 Όλα μέχρι τώρα πρέπει να μας είναι γνωστά. Όμως: 1. Ποιο είναι το πλαίσιο που δικαιολογεί όλα τα παραπάνω; 2. Εκτίμηση: Γιατί εκτιμούμε το Δ μέσω του ; 3. Έλεγχος: Γιατί απορρίπτουμε Δ = 0 όταν |t| > 1.96 ; 4. Διαστήματα Εμπιστοσύνης (εκτίμηση διαστήματος): τι είναι, αλήθεια, το διάστημα εμπιστοσύνης ;

19 Στατιστική επαγωγή: πιθανό-θεωρητικό πλαίσιο 1. Εκτίμηση 2. Έλεγχος 3. Διαστήματα Εμπιστοσύνης Πληθυσμός Η ομάδα ή η συλλογή των στοιχείων που μας ενδιαφέρουν Στο παράδειγμά μας, o πληθυσμός αποτελείται από όλες τις σχολικές μονάδες

20 Η τυχαία (στοχαστική) μεταβλητή Υ είναι Αριθμητική σύνοψη ενός τυχαίου αποτελέσματος. Στο παράδειγμά μας, η τυχαία μεταβλητή είναι η αριθμητική τιμή της μέσης βαθμολογίας (ή του μέσου ΛΜΔ), αφού πρώτα έχουμε επιλέξει το έτος και τη σχολική μονάδα που θα παρατηρήσουμε. Η κατανομή του πληθυσμού (population distribution) για την τ.μ. Υ Οι πιθανότητες να λάβει η Υ συγκεκριμένες τιμές, διαφορετικές μεταξύ τους, όπως π.χ. Pr[Y = 650] (εδώ, η Υ είναι μια διακριτή τυχαία μεταβλητή) ή οι πιθανότητες να λάβει η Υ κάποιο σύνολο τιμών, π.χ. Pr[Y  650] (εδώ, η Υ είναι μια συνεχής τυχαία μεταβλητή)

21 Θεωρητικές Ροπές Τυχαίας Μεταβλητής. μέσος = αναμενόμενη τιμή = E(Y) =  Y Παράμετρος Θέση: Δείχνει τη θέση της κατανομής της τυχαίας μεταβλητής στον άξονα των πραγματικών αριθμών. διακύμανση = E(Y –  Y ) 2 = Παράμετρος Διασποράς: Δείχνει την Μέση Τετραγωνική Απόκλιση των τιμών της τ.μ. από το μέσο. τυπική απόκλιση = =  Y

22 Η συνδιακύμανση μεταξύ δύο τυχαίων μεταβλητών Χ και Ζ, δίνεται από τον τύπο: η συνδιακύμανση είναι ένα μέτρο της γραμμικής σχέσης μεταξύ των τ.μ. Χ και Ζ. Μετριέται σε μονάδες του Χ επί μονάδες του Ζ. αν cov(X,Z) > (<) 0, τότε: υπάρχει θετική (αρνητική) σχέση μεταξύ του X και του Z. αν τα Χ και Ζ είναι ανεξάρτητα κατανεμημένα, ισχύει ότι: cov(X,Z) = 0. η συνδιακύμανση μιας τ.μ. με τον εαυτό της, μας δίνει τη διακύμανση της ίδιας της τ.μ. :

23 Η συνδιακύμανση μεταξύ βαθμών εξετάσεων και ΛΜΔ είναι αρνητική:

24 Ο συντελεστής συσχέτισης ορίζεται σε όρους της συνδιακύμανση: ο συντελεστής συσχέτισης παίρνει τιμές στο διάστημα [-1,1], δηλαδή: αν corr(X,Z) = 1, τότε υπάρχει τέλεια θετική γραμμική συσχέτιση μεταξύ του Χ και του Ζ. αν corr(X,Z) = -1, τότε υπάρχει τέλεια αρνητική γραμμική συσχέτιση μεταξύ του Χ και του Ζ. αν corr(X,Z) = 0,τότε δεν υπάρχει γραμμική σχέση μεταξύ Χ και Ζ.

25

26 Τυχαία Μεταβλητή καί Πραγματοποίηση Εφόσον η τυχαία μεταβλητή παρατηρηθεί, τότε παύει να είναι τ.μ. και γίνεται ένας συγκεκριμένος αριθμός. Αυτό τον αριθμό τον λέμε Πραγματοποίηση της τ.μ. Το σύνολο των τ.μ. (Y 1, Y 2,…, Y n ), ονομάζεται Δείγμα. Το σύνολο των αντίστοιχων πραγματοποιήσεων (y 1, y 2,…,y n ), ονομάζεται Πραγματοποίηση τού Δείγματος.

27 27 Τυχαία Δειγματοληψία Αν ο τρόπος εκτέλεσης του τυχαίου πειράματος παραμένει σταθερός καί αμετάβλητος σε επαναλαμβανόμενες εκτελέσεις τότε έχουμε τυχαία δειγματοληψία. Συγκεκριμένα οι τυχαίες μεταβλητές (Y1, Y2,…, Yn), πού συνθέτουν το Δείγμα πρέπει να είναι: Ανεξάρτητες (independent) Ταυτόνομες (identically distributed)

28 28 Αν Χ και Υ είναι ανεξάρτητες τ.μ. τότε Ε[Χ Υ] = Ε[Χ].Ε[Υ] var (X+Y) = var (X) + var (Y) Cov (X, Y) = 0

29 29 Οι τ.μ. X και Y με Συνάρτηση Κατανομής FX(x) FY(y) Συνάρτηση Πυκνότητας Πιθανότητας fX(x) fY(y) Είναι ανεξάρτητες αν και μόνο αν η τ.μ. (X,Y) έχει από κοινού Κατανομή: F X,Y (x,y) = FX(x) FY(y) ή από κοινού Πυκνότητας Πιθανότητας: f X,Y(x,y) = fX(x) fY(y).

30 Ανεξάρτητες (independent) F X,Y (x,y) = F X(x) F Y(y) Ταυτόνομες (identically distributed) F X(x) = F Y(y) Δύο τ.μ. είναι ταυτόνομες αν κάθε μία από αυτές έχει την ίδια συνάρτηση κατανομής. Επομένως, η απλή τυχαία δειγματοληψία συνεπάγεται ότι οι (Y 1, Y 2,…, Y n ), είναι ανεξάρτητες και ταυτόνομες (i.i.d.)

31 Στατιστική επαγωγή: 1. Εκτίμηση 2. Έλεγχος Υποθέσεων 3. Διαστήματα Εμπιστοσύνης Συγκεκριμένο Παράδειγμα: O Δειγματικός Μέσος ως Εκτιμητής τού Θεωρητικού Μέσου μ Υ. Όμως: Ποιες είναι οι ιδιότητες του εκτιμητή αυτού; Είναι ο δειγματικός μέσος «ΚΑΛΟΣ» εκτιμητής του αντίστοιχου Θεωρητικού Μέσου? Γιατί χρησιμοποιούμε το και όχι κάποιον άλλον εκτιμητή;

32 το είναι ένας αμερόληπτος εκτιμητής του μέσου  Y (δηλαδή, ) η διακύμανση του,, είναι αντιστρόφως ανάλογη του μεγέθους του δείγματος n. Τι συμβαίνει, όμως, με ολόκληρη την κατανομή του, και όχι μόνο με τον μέσο και τη διακύμανσή του;

33 Για μικρά δείγματα, η κατανομή του είναι περίπλοκη. Aλλά, για μεγάλα δείγματα, αυτό δεν ισχύει: n Όσο το n αυξάνει, οι τιμές της κατανομής του συγκεντρώνονται όλο και περισσότερο γύρω από τον μέσο της κατανομής : αυτό δείχνει ότι η αβεβαιότητα από τη δειγματοληψία μειώνεται, καθώς το μέγεθος του δείγματος αυξάνει. (Θυμηθείτε ότι ) Ένας εκτιμητής λέμε ότι είναι συνεπής, αν η πιθανότητα να «πέσει» μέσα στο διάστημα των πραγματικών τιμών του πληθυσμού της υπό εκτίμηση παραμέτρου, τείνει στη μονάδα, καθώς το μέγεθος του δείγματος αυξάνει.

34 Ο Νόμος των Μεγάλων Αριθμών (Law of Large Numbers) Αν οι (Y 1,…,Y n ) είναι ανεξάρτητα και ταυτόνομα κατανεμημένα (i.i.d.) και, τότε το είναι συνεπής εκτιμητής του  Y, δηλαδή:, καθώς το οποίο μπορεί να γραφεί ως εξής: που διαβάζεται: «το συγκλίνει κατά πιθανότητα στο ». Απόδειξη: καθώς το, που συνεπάγεται ότι:

35 Κεντρικό Οριακό Θεώρημα (ΚΟΘ): Αν (Y 1,…,Y n ) είναι i.i.d. και, τότε η κατανομή του προσεγγίζεται ικανοποιητικά από την κανονική κατανομή, καθώς το μέγεθος του δείγματος n μεγαλώνει: κατά προσέγγιση, το ακολουθεί την κανονική κατανομή με μέσο και διακύμανση : N(, ) κατά προσέγγιση, το ακολουθεί την τυπική κανονική κατανομή: N(0,1) άρα, το «τυποποιημένο» ακολουθεί, κατά προσέγγιση, την τυπική κανονική κατανομή: N(0,1) η προσέγγιση βελτιώνεται, καθώς το n αυξάνει

36 Ανακεφαλαίωση Για ανεξάρτητα και ταυτόνομα κατανεμημένα με : Εκτός του μέσου και της διακύμανσης, η ακριβής κατανομή του είναι περίπλοκη και εξαρτάται από την κατανομή του Υ (Νόμος των μεγάλων αριθμών) Η στατιστική ακολουθεί, κατά προσέγγιση, την τυπική κανονική κατανομή, δηλαδή Ν(0,1) [ΚΟΘ] Η ακριβής (πεπερασμένου δείγματος) κατανομή δειγματοληψίας του έχει μέσο («ο είναι αμερόληπτος εκτιμητής του ») και διακύμανση

37 Για ποιους λόγους, λοιπόν, χρησιμοποιούμε το για να εκτιμήσουμε το ; Αμεροληψία: Συνέπεια: Αποτελεσματικότητα : το έχει τη μικρότερη διακύμανση μεταξύ όλων των γραμμικών και αμερόληπτων εκτιμητών

38 1. Στατιστική επαγωγή: πιθανοθεωρητικό πλαίσιο 2. Εκτίμηση 3. Έλεγχος 4. Διαστήματα Εμπιστοσύνης Έλεγχος υποθέσεων (για τον μέσο): καταλήγουμε σε ένα «προσωρινό» συμπέρασμα, βασιζόμενοι στα στοιχεία που διαθέτουμε τη στιγμή εκείνη, αναφορικά με το αν η αρχική υπόθεση είναι ορθή ή αντ’ αυτής ότι κάποια άλλη υπόθεση (εναλλακτική υπόθεση) είναι ορθή. Δηλαδή, ελέγχουμε : H 0 : E(Y) = vs. H 1 : E(Y) > (μονόπλευρο δεξιό κριτήριο ελέγχου, > ) H 0 : E(Y) = vs. H 1 : E(Y) < (μονόπλευρο αριστερό κριτήριο ελέγχου, < ) H 0 : E(Y) = vs. H 1 : E(Y)  (δίπλευρο κριτήριο ελέγχου)

39 H τιμή p (“p-value”) είναι το μικρότερο επίπεδο στατιστικής σημαντικότητας στο οποίο μπορεί να απορριφθεί η υπόθεση μηδέν (αρχική υπόθεση), υποθέτοντας ότι η Η 0 είναι ορθή. Άρα, το επίπεδο στατιστικής σημαντικότητας ενός ελέγχου είναι μία προκαθορισμένη πιθανότητα με την οποία απορρίπτουμε την Η 0, ενώ είναι ορθή. Υπολογισμός της τιμής p με βάση το : p-value = όπου είναι η τιμή του παρατηρήσιμου στατιστικού (μη στοχαστικό).

40 Έστω ότι το συμβολίζει την τυπική απόκλιση της κατανομής του

41 Η τιμή p (p-value) και το επίπεδο στατιστικής σημαντικότητας Έστω ένα προκαθορισμένο επίπεδο σημαντικότητας (π.χ. 5%). Τότε: απορρίπτουμε την Η 0, αν |t|  1.96 ή ισοδύναμα: απορρίπτουμε την Η 0, αν p  0.05 η τιμή p λέγεται και οριακό επίπεδο σημαντικότητας

42 Η κατανομή t (του student) Αν το Y κατανέμεται κανονικά με N(  Y,), τότε η t-στατιστική ακολουθεί την κατανομή t (του student). Σχόλια: Για n > 30, η κατανομή t και η τυποποιημένη κανονική κατανομή N(0,1) βγάζουν σχεδόν το ίδιο αποτέλεσμα

43 1. Στατιστική επαγωγή: πιθανοθεωρητικό πλαίσιο 2. Εκτίμηση 3. Έλεγχος 4. Διαστήματα Εμπιστοσύνης Ένα 95% διάστημα εμπιστοσύνης για το,είναι ένα διάστημα που περιέχει την πραγματική τιμή του στο 95% των επαναλαμβανόμενων δειγμάτων.

44 Ένα 95% διάστημα εμπιστοσύνης μπορεί να κατασκευαστεί σαν ένα σύνολο από τιμές για το, τις οποίες δεν απορρίπτει ο έλεγχος υποθέσεων με 5% επίπεδο σημαντικότητας. Το εν λόγω διάστημα εμπιστοσύνης βασίζεται στα αποτελέσματα μεγάλου δείγματος, σύμφωνα με τα οποία το κατανέμεται, κατά προσέγγιση, κανονικά, και ισχύει, επίσης, ότι

45 Ανακεφαλαίωση: Με τη βοήθεια των υποθέσεων της απλής τυχαίας δειγματοληψίας του πληθυσμού, δηλαδή ότι τα {Y i, i =1,…,n} είναι ταυτόνομα και ανεξάρτητα κατανεμημένα (i.i.d.) αναπτύξαμε, για μεγάλα δείγματα, τις εξής θεωρίες: Εκτιμητική Θεωρία (δειγματοληπτική κατανομή του ) Έλεγχος υποθέσεων (κατανομή της t-στατιστικής για μεγάλο n και υπολογισμός της τιμής p) Κατασκευή διαστημάτων εμπιστοσύνης

46 Τελος 1ης Διάλεξης Ευχαριστώ για την προσοχή σας!


Κατέβασμα ppt "Η Ύλη του Μαθήματος Επανάληψη της πολλαπλή παλινδρόμησης και Ασυμπτωτική κατανομή της εκτιμήτριας ελαχίστων τετραγώνων. Βοηθητικές μεταβλητές και παλινδρόμηση."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google