Ανάλυση Παλινδρόμησης και Συσχέτισης Παλινδρόμηση όταν η Var[Y/X] είναι σταθερή. Μια αμερόληπτη εκτιμήτρια αυτής της διασποράς είναι η s 2 Y/X Δεν επιτρέπεται η χρήση της γραμμής τάσης εκτός του διαστήματος των τιμών της ανεξάρτητης τυχαίας μεταβλητής. Σημασία της γραμμής τάσης Είδη γραμμών τάσης Απαραίτητο γνωστικό υπόβαθρο είναι η μέθοδος ελαχίστων τετραγώνων για την ελαχιστοποίηση του σφάλματος.
Η έννοια της γραμμής τάσης Επιστροφή
Υπολογισμοί
Αποτελέσματα υπολογισμών
Σχεδίαση
Παράδειγμα 2 Το δεύτερο παράδειγμα αφορά μια μελέτη που έγινε από την τροχαία και στην οποία φαίνεται η ηλικία και ο αριθμός των νεκρών θυμάτων στις χώρες της Ε.Ε. κατά την διάρκεια των θερινών διακοπών του 2013.
Επεξεργασία στοιχείων Παράδειγμα 2: Έρευνα για τα τροχαία ατυχήματα στις χώρες τις Ευρώπης στη διάρκεια των θερινών διακοπών του έτους 2013, έδειξε τον πίνακα στον οποίο φαίνονται οι θάνατοι σε σχέση με τις ηλικίες των θυμάτων . Να εκτιμηθεί ο αριθμός των νεκρών του επόμενου έτους, υπό την προϋπόθεση ότι οι συνθήκες στο ευρωπαϊκό οδικό δίκτυο δεν θα έχουν μεταβληθεί. Α/Α Ηλικία (Xi) Σύνολο Νεκρών (Yi) 1 12 εις μεταφορά 430 458 2 13 21 32 19 3 14 4 22 33 15 10 23 34 16 5 11 24 35 6 17 40 25 36 7 18 26 37 8 30 27 38 9 20 28 39 45 29 41 31 42 43 44 50 55 60 65 70 Σύνολο 1269 697 Επεξεργασία στοιχείων
Πολυδιάστατη γραμμική Παλινδρόμιση
Παράδειγμα 3
Παρεμβολικός υπολογισμός άγνωστης τιμής
Άλλες μορφές γραμμών παλινδρόμησης Γραμμή Τάσης Δευτέρου βαθμού
Επιφάνειες παλινδρόμησης Ανατέθηκε η 9η εργασία 2011-12
Αυτο-συσχέτιση (auto-correlation) covariance («συνδιασπορά») και συντελεστής συσχέτισης (correlation coefficient) αυτο-συσχέτιση (auto-correlation) βασικά παραδείγματα
Covariance («συνδιασπορά») παράδειγμα: έχουμε μετρήσει την ένταση Ιi και την αντίσταση Ri για Ν τάσεις, δηλ. έχουμε Ν ζεύγη μετρήσεων (Ιi,Ri), i = 1,2,3, …, N ερώτηση: υπάρχει κάποια σχέση μεταξύ Ii και Ri, π.χ. «όσο πιο μεγάλο είναι Ii, τόσο πιο μεγάλο είναι Ri» ? πρώτος τρόπος απάντησης: γραφική παράσταση Ri Ri περίπτωση 2: περίπτωση 1: Ii Ii υπάρχει σχέση, Ii ανάλογο του Ri σχέση ?
ποσοτικός προσδιορισμός της σχέσης μεταξύ Δ και Υ: covariance («συνδιασπορά») ερμηνεία: - Cov(Δ,Υ) > 0: αν Δ μεγάλο (μεγαλύτερο από μΔ) τότε και Υ μεγάλο (μεγαλύτερο από μΥ), αν Δ μικρό τότε και Υ μικρό - Cov(Δ,Υ) < 0: αν Δ μικρό (μικρότερο από μΔ) τότε Υ μεγάλο (μεγαλύτερο από μΥ), αν Δ μεγάλο τότε Υ μικρό - Cov(Δ,Υ) = 0: Υ μικρό ή μεγάλο, ανεξάρτητα από το αν Δ είναι μικρό ή μεγάλο η τιμή της Cov εξαρτάται από τις τιμές (και μονάδες) των Δ και Υ, κάτι το οποίο δυσκολεύει την ερμηνεία της Cov: για ποιές τιμές της Cov μπορούμε να πούμε ότι η σχέση μεταξύ Δ και Υ είναι ισχυρή ή ασθενής ? όπου (μέσος όρος των Δi) και (μέσος όρος των Yi)
ο συντελεστής συσχέτισης r (correlation coefficient) ή (οι παράγοντες 1/(Ν-1) φεύγουν) ) τώρα -1 · r · 1 (η διασπορά των Ιi) όπου (η διασπορά των Yi) και
ο συντελεστής συσχέτισης δίνει και το βαθμό της συσχέτισης: r = 1 ή r = -1: μέγιστη συσχέτιση r > 0: θετική συσχέτιση (αν Ι μεγάλο τότε και Υ μεγάλο, αν Ι μικρό τοτε και Υ μικρό), τόσο πιο ισχυρή συσχέτιση όσο πιο κοντά είναι το r στο 1 r < 0: αρνητική συσχέτιση, «αντι-συσχέτιση» (αν Ι μεγάλο τότε Υ μικρό, αν Ι μικρό τοτε Υ μεγάλο), τόσο πιο ισχυρή αντι-συσχέτιση όσο πιο κοντά είναι το r στο -1 r = 0: καμμία συσχέτιση
συντελεστής συσχέτισης: εφαρμογή στις ΧΣ έστω μια ΧΣ X(ti) σχηματίζουμε ζεύγη (X(t1),X(t1+k)), (X(t2),X(t2+k)), (X(t3),X(t3+k)), ….. (X(tN-k),X(tN)) δηλ. ζεύγη από την ΧΣ και την μετατοπισμένη κατά k ΧΣ συντελεστής αυτο-συσχέτισης όπου ο μέσος όρος της ΧΣ X(ti+k) κ t X(ti)
συντελεστής αυτο-συσχέτισης: ιδιότητες κ = 0,1,2,3, …., N-1 το σύνολο των rk ονομάζεται (συνάρτηση) αυτο- συσχέτιση(ς) [auto-correlation (function), acf] r-k = rk r0 = (Ν-1)σ2Χ / (Ν-1)σ2Χ = 1 πρόβλημα: για μεγάλα k έχουμε μόνο λίγους όρους ) rk έχει μεγάλο στατιστικό σφάλμα για μεγάλο k ) στην πράξη παίρνουμε υπ’όψιν τα rk μόνο μέχρι περίπου Ν/4 ή το πολύ Ν/2 -1 · rk · 1, για όλα τα k
αυτο-συσχέτιση: ερμηνεία {rk} δίνει το μέτρο της συσχέτισης (correlation) παρατηρήσεων/μετρήσεων οι οποίες απέχουν κατά το χρονικό διάστημα τκ {rk} εκφράζει κατά πόσο οι μετρήσεις με χρονική απόσταση τκ έχουν σχέση μεταξύ τους, δηλ. αν π.χ. Χ(ti) παίρνει μεγάλη τιμή τότε και Χ(ti+k) παίρνει μεγάλη τιμή, ή αντιθέτως παίρνει μικρή ή αρνητική τιμή, ή δεν επηρεάζεται καθόλου {rk} εκφράζει τη μνήμη της ΧΣ (καλύτερα: της διαδικασίας η οποία έχει παράγει την ΧΣ), δηλ. κατά πόσο το παρόν θυμάται το παρελθόν, και κατά πόσο το μέλλον θα επηρεαστεί από το παρόν
αυτο-συσχέτιση, παράδειγμα: αρχική ΧΣ: σαν θόρυβος, αλλά και με δομές (AR-1, a1=0.7, u2 [-1,1]) αυτο-συσχέτιση (acf), μέχρι Ν/4 1/e acf, μέχρι k = 20 η acf πέφτει μεν στο μηδέν, αλλά τα πρώτα rk > 0 ) η ΧΣ έχει μνήμη υπάρχει χαρακτηριστικός χρόνος (characteristic time) = χρονικό διάστημα για το οποίο η ΧΣ θυμάται το παρελθόν της
χαρακτηριστικός χρόνος 1/e acf, μέχρι k = 20 υπάρχουν 3 βασικοί τρόποι για τον ορισμό του χαρακτηριστικού χρόνου c c:= χρόνος όπου η acf περνάει πρώτη φορά από το μηδέν (c » 10.5) c:= χρόνος όπου η acf έχει το πρώτο ελάχιστο (c » 11) c:= χρόνος όπου η acf πέφτει κάτω από 1/e (e η σταθερή του Euler, 1/e » 0.37) (c » 2.5) ποιόν ορισμό προτιμάμε εξαρτάται απά την εφαρμογή, συχνά ο «1/e time» είναι μια καλή επιλογή – αιτία: συχνά η acf πέφτει εκθετικά acf, μέχρι k = 10 log-linear 1/e γραμμικό στο log-lin , rk » exp[-a k]
ο χαρακτηριστικός χρόνος και η αρχική ΧΣ αρχική ΧΣ, μέχρι 40 2.5 μικρές δομές 10 «ταλαντώσεις» c » 10.5 (χρόνος όπου η acf περνάει πρώτη φορά από το μηδέν) c » 11 (χρόνος όπου η acf έχει το πρώτο ελάχιστο) c » 2.5 (χρόνος όπου η acf πέφτει κάτω από 1/e) ) συχνά μπορούμε να αναγνωρίσουμε τον χαρακτηριστικό χρόνο στην αρχική ΧΣ
εναλλακτικός τρόπος παράστασης της συσχέτισης γραφική παράσταση των ζευγών (X(ti), X(ti+k)), i = 1,2,3, …, N-k k = 1 X(ti+1) γραμμική δομή, με θόρυβο Χ(ti) k = 20 X(ti+20) καμμία δομή, θόρυβος Χ(ti)
Ανάλυση: σύνοψη (μέθοδος του τρέχοντα μέσου όρου) αρxική ΧΣ = τάση + περιοδικότητα (1o υπόλοιπο) + θόρυβος (2ο υπόλοιπο)
αυτο-συσχέτιση, παράδειγμa: περιοδική ΧΣ αρχική ΧΣ, X(ti) = 10 sin(2π ti/39.5) περιοδική αυτο-συσχέτιση (acf), μέχρι Ν, δηλ. ολόκληρη η acf η acf είναι περιοδική, όμως το πλάτος μικραίνει …
Γιατί πέφτει το πλάτος ? όσο μεγαλώνει το k, έχουμε λιγότεροyς όρους στο άθροισμα, rk έιναι «υποτιμημένο» (biased, underestimated), και το στατιστικό σφάλμα αυξάνει ) παίρνουμε υπ’όψιν τα rk μόνο μέχρι Ν/4 ή το πολύ Ν/2 εξ’αλλου στην αυτο-συσχέτιση μας ενδιαφέρει κυρίως η απόσβεση (decay) της συσχέτισης (correlation), δηλ. περίπου μέχρι το k όπου το rk γίνεται 0
αυτο-συσχέτιση, παράδειγμa: περιοδική ΧΣ, ξανά αρχική ΧΣ, X(ti) = 10 sin(2π ti/39.5) περιοδική αυτο-συσχέτιση (acf), μέχρι N/4 η acf είναι περιοδική (το πλάτος μικραίνει λίγο λόγω στατιστικού σφάλματος) μέρος της αρχικής ΧΣ + acf η περίοδος είναι ίδια στην αρχική ΧΣ και στην acf ) για σχετικά καθαρά περιοδικές ΧΣ, η acf δεν μας δίνει πολλές πληροφορίες τις οποίες δεν τις είχαμε ήδη από την αρχική ΧΣ
sin(A) sin(B) = ½[ cos(B-A) - cos(A+B)] περιοδική ΧΣ: αναλυτική acf Χ(ti) = a sin( ti) X = 0 ) rk » i sin( ti) sin( ti+k) sin(A) sin(B) = ½[ cos(B-A) - cos(A+B)] ) rk » (1/2) i [ cos( (ti+k-ti)) - cos( (ti+k+ti)) ] » cos( k) - i cos( (ti+k+ti)) k = 0 (όπως ο μέσος όρος !) ) για περιοδικές ΧΣ η acf έιναι επίσης περιοδική, με την ίδια περίοδο, και ξεκινά από το 1 (r0 = 1)
Άσκηση 5: Δημιουργείστε τη ΧΣ X(ti) = 10 sin(2π ti / 39.5) + 50.0 i = 1, 2, 3, …, N, και N = 512 υπολογίστε την αυτο-συσχέτιση για k = 0,1,2,3, ... γραφική παράσταση, μέχρι Ν/4 (ο χρονικός άξονας ξεκινά από 0 = 0 !)
ΧΣ p = 0 καμμία πρόσθεση πρόσθεση στη δεξιά πλευρά πρόσθεση στην αριστερά πλευρά πρόσθεση αριστερά και δεξιά
αυτο-συσχέτιση, παράδειγμa: θόρυβος αρχική ΧΣ, ομοιόμορφος θόρυβος στο [-2,2] αυτο-συσχέτιση (acf) r0 = 1, και rk ¼ 0, για k =1,2,3, … ) η ΧΣ είναι εντελώς τυχαία (completely random) και παριστάνει λευκό θόρυβο (white noise) ορισμός: λευκός θόρυβος , rk = (k) = μη-συσχετιζόμένη (uncorrelated) ΧΣ
πότε μπορούμε να πούμε ότι rk ¼ 0 ? μπορεί να αποδειχθεί, ότι αν μια ΧΣ είναι εντελώς τυχαία, τότε 95% των rk βρίσκονται στο διάστημα (95% confidence interval) τα 5% των rk επιτρέπεται να βρίσκονται έξω, όχι όμως συστηματικά ! στο παράδειγμα του λευκού θορύβου: ) τεστ για το αν μια ΧΣ είναι τυχαία: (1) υπολόγισε την αυτο-συσχέτιση, (2) αν 95% των rk είναι στο διαστημα τότε η ΧΣ είναι εντελώς τυχαία acf
Άσκηση 6: Δημιουργείστε τη ΧΣ X(ti) = G(ti), i=1,2,3, …, N, και N = 512 όπου G(ti) θόρυβος με κατανομή Gauss (μέσος όρος μ = 5 και στάνταρτ απόκλιση σ = 2) γραφική παράσταση της ΧΣ X(ti) ιστόγραμμα της ΧΣ X(ti), μαζί με την κατανομή Gauss υπολογίστε την αυτο-συσχέτιση, γραφική παράσταση, μαζί με το «διάστημα ελέγχου» (confidence interval)
τυχαίοι αριθμοί με κατανομή Gauss στη Mathematica: <<Statistics`ContinuousDistributions` Random[ NormalDistribution[5., 2.] ] μέσος όρος μ τυπική απόκλιση σ γραφική παράσταση της κατανομής Gauss: pgauss = Plot[ nx*PDF[ NormalDistribution[5.,2.] , z ] , {z,0,10} ]; ιστόγραμμα στη Mathematica: xh = Histogram[ x, HistogramCategories! 10, Ticks ! IntervalCenters , HistogramScale! 1] hi xi = 1 αριθμός των «δοχείων» (pdf, εμβαδόν = 1) (bins, διαστημάτων)
Υπό συνθήκη διασπορά Επιστροφή