Παλινδρόμηση – Συσχέτιση
Ερώτημα: Υπάρχει σχέση ανάμεσα σε δύο ποσοτικά χαρακτηριστικά; (π.χ. υπάρχει καμιά σχέση ανάμεσα στο ύψος και το βάρος ή ανάμεσα στη θερμοκρασία και την ανάπτυξη ενός φυτού ή )
Σε όλες τις περιπτώσεις που ζητάμε σχέση (συσχέτιση) χαρακτηριστικών, ενδιαφερόμαστε να δώσουμε απάντηση στα ερωτήματα: Υπάρχει σχέση; Τι σχέση είναι αυτή; (π.χ. όταν αυξάνει το ένα, αυξάνει και το άλλο ή αντίστροφα;) Μπορεί να περιγραφεί με μια εξίσωση (συνάρτηση); Ποιος είναι ο βαθμός αυτής της σχέσης;
Παλινδρόμηση & Συσχέτιση Πολύ συχνά όταν έχουμε αριθμητικά δεδομένα χρησιμοποιούμε τη διαδικασία της Γραμμικής Παλινδρόμησης (απαντά επιπλέον και στο ερώτημα 3) και τον Συντελεστή Συσχέτισης του Pearson (απαντά επιπλέον και στο ερώτημα 4)
Διάγραμμα Διάχυσης (Διασποράς) Ρυθμός ανάπτυξης θερμοκρασία
Ο συντελεστής συσχέτισης Pearson (r) Θετική Συσχέτιση (r > 0) όταν αυξάνει το ένα χαρακτηριστικό αυξάνει και το άλλο r=1 r=0,94 r=0,15 r=0,41
Ο συντελεστής συσχέτισης Pearson (r) Μηδενική Συσχέτιση r = 0 Τα χαρακτηριστικά ΔΕΝ έχουν καμία σχέση
Ο συντελεστής συσχέτισης Pearson (r) Αρνητική Συσχέτιση (r < 0) όταν αυξάνει το ένα χαρακτηριστικό μειώνεται το άλλο r= - 1 r= - 0,83 r= - 0,14 r= - 0,55
εμπειρικά: Οταν 0<r0,25, τότε είναι πολύ μικρή συσχέτιση Οταν 0,25r0,50, τότε έχουμε ελαφρά συσχέτιση Οταν 0,50r0,75, η συσχέτιση είναι σχετικά ισχυρή και Οταν 0,75r1, τότε η συσχέτιση είναι πολύ ισχυρή. Αντίστοιχα μπορούμε να πούμε και για τις αρνητικές τιμές του r
Στο παράδειγμα (διάγραμμα διάχυσης) υπολογίσαμε r = 0,762 Φαίνεται δηλαδή να υπάρχει μια πολύ ισχυρή σχέση ανάμεσα στη θερμοκρασία και το ρυθμό ανάπτυξης των φυτών που μελετήσαμε. Όσο αυξάνει το ένα, αυξάνει και το άλλο (το r έχει θετικό πρόσημο)
Ερώτηση: Ο συντελεστής συσχέτισης r που βρήκαμε στο δείγμα μας ήταν τυχαίος; Δηλαδή, μήπως ο συντελεστής συσχέτισης σε ολόκληρο τον πληθυσμό είναι 0; ή τελικά με το δείγμα μας επιβεβαιώνουμε ότι ΥΠΑΡΧΕΙ πράγματι κάποια σχέση μεταξύ των χαρακτηριστικών και στον πληθυσμό;
Ο αριθμός p Ξανά εδώ χρησιμοποιούμε το «μαγικό» νούμερο, που μας δίνει την ΠΙΘΑΝΟΤΗΤΑ να είναι ο συντελεστής συσχέτισης στον πληθυσμό ίσος με 0. p-value (τιμή p)
Κανόνας: Αν το p<0,05 (πιο μικρό από το 5%) τότε ο συντελεστής συσχέτισης στον πληθυσμό ΔΕΝ μπορεί να είναι ίσος με 0. Δηλαδή αν βρήκαμε κάποια συσχέτιση στα χαρακτηριστικά στο δείγμα (θετική ή αρνητική), αυτή επιβεβαιώνονται και στον πληθυσμό. Το p είναι αντιστρόφως ανάλογο με το r
Στο παράδειγμα (διάγραμμα διάχυσης) Βρήκαμε με τη βοήθεια υπολογιστή, ότι p = 0,0004 Συμπέρασμα: Αφού p<<0,05 άρα υπάρχει μια θετική συσχέτιση ανάμεσα στη θερμοκρασία και το ρυθμό ανάπτυξης των φυτών που μελετήσαμε. Μάλιστα, φαίνεται πως όσο αυξάνει η θερμοκρασία, αυξάνει και ο ρυθμός ανάπτυξης των φυτών