Παλινδρόμηση (απλή γραμμική παλινδρόμηση) Σκοπός: Πρόβλεψη των τιμών μιας μεταβλητής (εξαρτημένης) χρησιμοποιώντας μιαν άλλη μεταβλητή (ανεξάρτητη). Εξήγηση της μεταβλητότητας μιας μεταβλητής, από μιαν άλλη μεταβλητή. μοντέλο (μια συνάρτηση)
Απλή Γραμμική Παλινδρόμηση Μια ευθεία γραμμή Η λέξη “απλή” αναφέρεται στο γεγονός ότι χρησιμοποιούμε μια μόνο ανεξάρτητη μεταβλητή Χ.
Περιπτώσεις β>0β<0β=0
Η σημασία των παραμέτρων της εξίσωσης α είναι το σημείο τομής (με τον άξονα Y). Συνήθως δεν μας ενδιαφέρει πολύ. β είναι η κλίση (η εφαπτομένη της γωνίας που δημιουργεί η ευθεία με τον άξονα X) – λέγεται και ρυθμός μεταβολής του Υ όταν μεταβάλλεται το Χ Αν η κλίση είναι 0, τότε η X δεν μπορεί να μας βοηθήσει στην εκτίμηση της Υ. Το μοντέλο δεν είναι σημαντικό.
Τι προσπαθούμε να προβλέψουμε με μια εξίσωση σαν αυτήν? Μια τιμή της Y, όταν η X πάρει μια τιμή x 0 ? Είναι αυτό αξιόπιστο? Π.χ.: προβλέπουμε το βάρος ενός ατόμου, όταν μας δοθει το ύψος του. Ακόμη και αν ο τύπος που θα μας δοθεί είναι πολύ καλός, δεν έχει νόημα να πούμε π.χ. “έχεις ύψος 1.63cm τότε θα είσαι ακριβώς 60,3 Kg” !!
Τι σημαίνει λοιπόν τελικά «πρόβλεψη»? X 0 =1.63cm 60.3Kg ύψος βάρος Το μέσο βάρος του πληθυσμού με ύψος 1.63cm Το μέσο βάρος του πληθυσμού με ύψος 1.90cm X 0 =1.90cm 95 Kg
Απλή Γραμμική Παλινδρόμηση - Δεδομένα X (ανεξάρτητη)Y (εξαρτημένη) X1X1 Y1Y1 X2X2 Y2Y2 …… XnXn YnYn Ένα δείγμα μεγέθους n
Απλή Γραμμική Παλινδρόμηση - Εκτίμηση XiXi YiYi Εκτιμάμε τα α και β (με a και b αντίστοιχα) Εκτιμητές ελαχίστων τετραγώνων
Ερώτηση: Είναι το μοντέλο σημαντικό? Χρειάζεται να βεβαιωθούμε ότι η κλίση της ευθείας β, δεν μπορεί να είναι μηδέν! Αλλιώς, αν η κλίση είναι 0, τότε το μοντέλο της απλής γραμμικής παλινδρόμησης δεν είναι καθόλου χρήσιμο Υπάρχει πάλι το «μαγικό» p-value Αν p<0,05 τότε η κλίση δεν είναι μηδέν, άρα το μοντέλο είναι σημαντικό
Σημαντική Παρατήρηση (α): Αν βρούμε το συντελεστή συσχέτισης r και την κλίση της παλινδρόμησης b ισχύει το εξής: 1.Αν το r>0 τότε και το b>0 2.Αν το r<0 τότε και το b<0 3.Αν το r=0 τότε και το b=0
Σημαντική Παρατήρηση (β): Το p-value για την κλίση της παλινδρόμησης b και για το συντελεστή συσχέτισης r, είναι τα ΙΔΙΑ! Αυτό σημαίνει επιπλέον, πως αν αποδείξουμε ότι το b είναι σημαντικό (δηλ. p<0,05), τότε ταυτόχρονα έχουμε αποδείξει ότι και το r είναι σημαντικό και αντίστροφα.
Παράδειγμα Για να ελεγχθεί αν κάποιες δοσολογίες λιπάσματος επιδρούν στην παραγωγή ντομάτας, εττοιμάστηκαν 12 πειραματικά τεμάχια και δόθηκαν διάφορες δοσολογίες. Μετρήθηκε η παραγωγή ντομάτας με τα ακόλουθα αποτελέσματα Λίπασμα Παραγωγή
Αποτελέσματα – 1.Διάγραμμα Διάχυσης
Αποτελέσματα - 2. Εξίσωση και Σημαντικότητα ΈΞΟΔΟΣ ΣΥΜΠΕΡΑΣΜΑΤΟΣ Στατιστικά παλινδρόμησης Πολλαπλό R0,462 R Τετράγωνο0,213 Προσαρμοσμένο R Τετράγωνο0,135 Τυπικό σφάλμα4,256 Μέγεθος δείγματος12 ΑΝΑΛΥΣΗ ΔΙΑΚΥΜΑΝΣΗΣ βαθμοί ελευθ.SSMSF Σημαντικ ότητα F Παλινδρόμηση149,106 2,7110,131 Υπόλοιπο10181,14418,114 Σύνολο11230,25 Συντελεστ ές Τυπικό σφάλμαtτιμή-P Κατώτερ ο 95% Υψηλότε ρο 95% Κατώτερ ο 95,0% Υψηλότε ρο 95,0% Τεταγμένη επί την αρχή20,6663,3246,2180,00013,26028,07113,26028,071 Λίπασμα0,3940,2391,6460,131-0,1390,926-0,1390,926 a b p-value
Συμπεράσματα To μοντέλο παλινδρόμησης είναι Υ = 20, ,394. Χ Το μοντέλο όμως δεν είναι σημαντικό, γιατί p=0,131 > 0,05 συνεπώς η κλίση της ευθείας μπορεί να είναι 0 αν μετρήσουμε όλο τον πληθυσμό.
Συντελεστής προσδιορισμού Είναι το ποσοστό της συνολικής μεταβλητότητας της Υ που εξηγείται από την παλινδρόμησης στην μεταβλητή Χ Όσο πλησιάζει στην τιμή 1 (100%), τόσο πιο σημαντικό είναι το μοντέλο. Αν πλησιάζει το 0, το μοντέλο δεν μπορεί να εξηγήσει τη μεταβλητότητα της Υ.
Συντελεστής προσδιορισμού Στην απλή γραμμική παλινδρόμηση, το r 2 είναι το τετράγωνο του συντελεστή συσχέτισης του Pearson (r), ή αντίθετα το r είναι η τετραγωνική ρίζα του r 2 Προσοχή: όταν δίνεται το r 2 και πρέπει να βρούμε το r, πρέπει να προσέχουμε το πρόσημο του συντελεστή συσχέτισης (είναι το ίδιο με το πρόσημο της κλίσης β)