Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Στατιστική IΙ (ΨΥΧ-122) Διάλεξη 3 Απλή γραμμική παλινδρόμηση

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Στατιστική IΙ (ΨΥΧ-122) Διάλεξη 3 Απλή γραμμική παλινδρόμηση"— Μεταγράφημα παρουσίασης:

1 Στατιστική IΙ (ΨΥΧ-122) Διάλεξη 3 Απλή γραμμική παλινδρόμηση
4/9/2017 Στατιστική IΙ (ΨΥΧ-122) Λεωνίδας Α. Ζαμπετάκης Β.Sc., M.Env.Eng., M.Ind.Eng., D.Eng. Εmail: Διαλέξεις αναρτημένες στο: Διαλέξεις: ftp://ftp.soc.uoc.gr/Psycho/Zampetakis/ Τηλ – 37323 Διάλεξη 3 Απλή γραμμική παλινδρόμηση Ρέθυμνο,

2 Σημαντική Υπενθύμιση:
4/9/2017 Σημαντική Υπενθύμιση: Δεν υπάρχουν χαζές ερωτήσεις και δεν θα με προσβάλετε αν διακόπτετε με ρωτήσεις το μάθημα

3 Τι είναι η ανάλυση παλινδρόμησης?
4/9/2017 Τι είναι η ανάλυση παλινδρόμησης?

4 4/9/2017 Η ανάλυση παλινδρόμησης…είναι ένας τρόπος για να προβλέψουμε την τιμή μιας μεταβλητής από τις τιμές μίας ή πολλών άλλων γνωστών μεταβλητών Στην ουσία τι κάνουμε? Προσπαθούμε να προσαρμόσουμε στα δεδομένα μας ένα υποθετικό προβλεπτικό μοντέλο της σχέσης ανάμεσα στις μεταβλητές

5 4/9/2017 Γραμμική Παλινδρόμηση Μη- Γραμμική Παλινδρόμηση Στην περίπτωση της γραμμικής παλινδρόμησης, το μοντέλο που εφαρμόζουμε είναι μια ευθεία γραμμή Επομένως, περιγράφουμε τη σχέση χρησιμοποιώντας την εξίσωση μιας ευθείας γραμμής

6 4/9/2017 Απλή ονομάζεται η γραμμική παλινδρόμηση κατά την οποία χρησιμοποιούμε τις τιμές μίας μόνο μεταβλητής (ονομάζεται ερμηνευτική ή προβλεπτική μεταβλητή) για να προβλέψουμε τη μεταβλητή κριτήριο. Πολλαπλή ονομάζεται η γραμμική παλινδρόμηση κατά την οποία χρησιμοποιούμε τις τιμές πολλών προβλεπτικών μεταβλητών για να προβλέψουμε τη μεταβλητή κριτήριο.

7 Προσοχή στη χρήση των όρων εξαρτημένη και ανεξάρτητη μεταβλητή
4/9/2017 Προσοχή στη χρήση των όρων εξαρτημένη και ανεξάρτητη μεταβλητή Χρησιμοποιούνται κυρίως στις πειραματικές έρευνες (όπου επιτρέπουν την προσέγγιση όχι μόνο του βαθμού της σχέσης αλλά και τη φύση της σχέσης ανάμεσα στις μεταβλητές) Στις λεγόμενες νατουραλιστικές έρευνες (correlational) (η οποίες επιτρέπουν την προσέγγιση μόνο του βαθμού της σχέσης ανάμεσα στις μεταβλητές) είναι προτιμότερο να χρησιμοποιούνται οι όροι, προβλεπτική μεταβλητή και κριτήριο

8 Υi=βο+β1Χi+εi Αποτέλεσμα = (Μοντέλο) + Λάθος
4/9/2017 Η ευθεία γραμμή της απλής γραμμικής παλινδρόμησης διατυπωμένη με τη βασική μαθηματική εξίσωση Αποτέλεσμα = (Μοντέλο) + Λάθος Υi=βο+β1Χi+εi Η ευθεία γραμμή…..

9 Υi=βο+β1Χi+εi Η ευθεία γραμμή…..
4/9/2017 Κάθε ευθεία γραμμή μπορεί να προσδιοριστεί αν γνωρίζουμε: (1) την κλίση της ευθείας και (2) το σημείο που η ευθεία τέμνει τον κάθετο άξονα. Υi=βο+β1Χi+εi Η ευθεία γραμμή….. ο συντελεστής παλινδρόμησης για την προβλεπτική μεταβλητή β1= η κλίση της ευθείας (δηλ. η γωνία που σχηματίζει η ευθεία με τον άξονα ψ) η κατεύθυνση/δύναμη της σχέσης β0= ο σταθερός όρος (δηλ. η τιμή του Υ όταν το Χ=0). το σημείο στο οποίο η γραμμή παλινδρόμησης τέμνει τον άξονα Ψ εi= το σφάλμα που αντιστοιχεί τη διαφορά ανάμεσα στην τιμή που προβλέπει η ευθεία γραμμή για το άτομο i και την πραγματική τιμή που έχει το συγκεκριμένο άτομο

10 Εξισώσεις με ίδιο σταθερό όρο αλλά διαφορετική κλίση
4/9/2017 Εξισώσεις με ίδιο σταθερό όρο αλλά διαφορετική κλίση

11 Εξισώσεις με ίδια κλίση αλλά διαφορετικό σταθερό όρο
4/9/2017 Εξισώσεις με ίδια κλίση αλλά διαφορετικό σταθερό όρο

12 Πώς υπολογίζουμε το μοντέλο της απλής παλινδρόμησης?
4/9/2017 Πώς υπολογίζουμε το μοντέλο της απλής παλινδρόμησης? Μπορούμε κατά προσέγγιση με το μάτι να δούμε ποια ευθεία περιγράφει καλύτερα τα δεδομένα μας. Η μέθοδος όμως αυτή είναι και υποκειμενική και ανακριβής!

13 4/9/2017 Για να επιλέξουμε την καλύτερη γραμμή που περιγράφει τα δεδομένα μας χρησιμοποιούμε μια μέθοδο γνωστή ως ΜΕΘΟΔΟ των ΕΛΑΧΙΣΤΩΝ ΤΕΤΡΑΓΩΓΩΝ Η μέθοδος των ελάχιστων τετραγώνων, προσδιορίζει τη γραμμή που περνάει όσο το δυνατόν πιο κοντά από όλα τα σημεία που βρίσκονται τα δεδομένα μας. «Βρίσκει» στην ουσία εκείνη τη γραμμή (από το σύνολο των γραμμών που μπορούν να περιγράψουν τα δεδομένα μας), η οποία παρουσιάζει το μικρότερο συνολικό σφάλμα εκτίμησης.

14 4/9/2017 Προκειμένου να βγάλουμε κάποιο συμπέρασμα για μία τιμή της κατανομής (το σκορ κάποιου συμμετέχοντα), θα πρέπει να το συγκρίνουμε με τις άλλες τιμές. Πχ στο παράδειγμα της κατανομής ύψους 500 γυναικών, τι συμπέρασμα θα γβάζαμε για μία γυναίκα με ύψος 1.90μ; Θα πρέπει να υπάρχει ένα σημείο αναφοράς (μέτρο σύγκρισης), το οποίο εξαρτάται από τη θέση της τιμής είτε στην ιεραρχία των τιμών, είτε ως προς ένα δείκτη κεντρικής τάσης (συνήθως το μέσο όρο). Πχ η τιμή 50 σε μία κατανομή με μέσο όρο 54 μπορεί να εκφραστεί ως +4. Επιπλέον, αυτή η απόκλιση μπορεί να εκφραστεί με μονάδες τυπικής απόκλισης. Αν πχ η τυπική απόκλιση της κατανομής είναι 2, τότε η τιμή 54 βρίσκεται 2 τυπικές αποκλίσεις πάνω από τον μέσο όρο (4/2=2sds). Αντίστοιχα, η τιμή 46 είναι δύο τυπικές αποκλίσεις κάτω από τον μέσο όρο (46-50=-4/2=-2sds). Το πηλίκο της απόκλισης μιας τιμής προς την τυπική απόκλιση ονομάζεται μετατροπή σε τυπικές τιμές ή z-τιμές (standardised values or z-scores). Οι τυπικές τιμές συμβολίζονται με το z. Οι τυπικές τιμές εκφράζουν την απόσταση (απόκλιση) μιας τιμής από τον μέσο όρο σε τυπικές αποκλίσεις (και όχι στην αρχική μονάδα μέτρησης). ‘πόσες τυπικές αποκλίσεις απέχει από τον μέσο όρο μία συγκεκριμένη τιμή;’. Όταν οι τυπικές τιμές είναι θετικές, αυτό σημαινει ότι η αρχική τιμή είναι μεγαλύτερη από τον μέσο όρο, ενώ όταν οι z-τιμές έχουν αρνητικό πρόσημο, τότε αυτό σημαίνει ότι η αρχική τιμή είναι μικρότερη από τον μέσο όρο. Κυμαίνονται από το -4 ως το +4. Αυτό που μας προσφέρουν οι z-τιμές είναι η δυνατότητα σύγκρισης (ως προς την απόστασή τους από τον μέσο όρο της κατανομής τους) διάφορων τιμών που δεν προέρχονται από την ίδια κατανομή. Κι αυτό γιατί οι z-τιμές εκφράζονται σε μονάδες τυπικής απόκλισης, και είναι ανεξάρτητες από την αρχική μονάδα μέτρησης. ‘ποιά τιμή απείχε περισσότερο από τον μέσο όρο της κατανομής της;’. Με τις τυπικές τιμές μπορούμε να συγκρίνουμε απευθείας ή να κάνουμε αλγεβρικές πράξεις. Πχ έχουμε ένα αγόρι 14 ετών και ένα κορίτσι 11 ετών με ύψος 163cm και 130cm αντίστοιχα, και θέλουμε να δούμε ποιό είναι ψηλότερο. Πρέπει να τα συγκρίνουμε με τους συνομηλίκους τους του ίδιου φύλου. Αν οι μέσοι όροι και οι τυπικές αποκλίσεις των κατανομών αυτών είναι mean= 155cm, sd= 9cm και mean=128cm, sd= 7cm, θα είχαμε: Αγόρι: ( )/9= 0.89τυπικές απικλίσεις (περίπου 9/10 της τυπικής απόκλισης) Κορίτσι: ( )/7= 0.29 τυπικές αποκλίσεις (περίπου 3/10 της τυπικής απόκλισης) Συνεπώς το αγόρι θεωρείται ψηλότερο από το κορίτσι, σε σχέση με το μέσο όρο της ηλικίας του. Χαρακτηριστικά τυπικών τιμών: Η κατανομή των τυπικών τυμών έχει ίδιο σχήμα με αυτό της αρχικής κατανομής (η θέση των τιμών είναι ίδια). Ο μέσος όρος της τυπικής κατανομής είναι πάντα 0 και η τυπική απόκλισή της είναι πάντα 1. Οι τυπικές τυμές εκφράζονται σε αριθμούς χωρίς μονάδες (ή σε μονάδες τυπικής απόκλισης). Το μέγεθος της τυπικής τιμής μιας αρχικής τιμής μας δίνει άμεσα μία εικόνα για τη θέση της στην κατανομή (πόσο μακριά είναι από τον μέσο όρο). Προσθέτοντας τα τετράγωνα των επιμέρους σφαλμάτων εκτίμησης μπορούμε να έχουμε μια εκτίμηση του πόσο καλά μια γραμμή περιγράφει τα δεδομένα μας. Μικρές τιμές σημαίνουν καλύτερη προσαρμογή (περιγραφή) των δεδομένων μας.

15 4/9/2017 Επειδή όμως είναι αδύνατο να κάνουμε αυτή τη διαδικασία για όλες τις πιθανές γραμμές που μπορούν να περιγράψουν τα δεδομένα μας, υπάρχει ένας μαθηματικός τρόπος (βασισμένος στην άλγεβρα) προκειμένου να προσδιορίζεται η γραμμή που έχει την καλύτερη προσαρμογή δηλ.___________? Τη μικρότερη τιμή στο άθροισμα των τετραγώνων των επιμέρους σφαλμάτων εκτίμησης Όμως ακόμα και αν βρούμε την γραμμή με την καλύτερη προσαρμογή, υπάρχει και άλλη ανακρίβεια που πρέπει να προσδιορίσουμε, όπως η διαφορά ανάμεσα στην τιμή που προβλέπει το μοντέλο και στην πραγματική τιμή

16 4/9/2017 Συνοψίζοντας: Αν έχουμε δύο μεταβλητές και θέλουμε να προβλέψουμε την μία από την άλλη Αρχικά βρίσκουμε τη γραμμή που περνάει πιο κοντά από το σύνολο των δεδομένων μας, και στη συνέχεια προσδιορίζουμε τη διαφορά που υπάρχει ανάμεσα στις τιμές που έχουμε πραγματικά και σε αυτές που υπολογίζει το μοντέλο

17 …Πόσο καλή όμως είναι η προσαρμογή του μοντέλου μου στα δεδομένα?
4/9/2017 …Πόσο καλή όμως είναι η προσαρμογή του μοντέλου μου στα δεδομένα?

18 4/9/2017 Για να έχουμε μια εκτίμηση του πόσο καλή είναι η προσαρμογή του μοντέλου μας, θα πρέπει να το συγκρίνουμε μα κάτι Συνήθως αυτό το «κάτι» είναι το πιο απλό μοντέλο που έχουμε δει μέχρι τώρα, δηλ. ο μέσος όρος. Παράδειγμα: Αν δεν ξέρουμε τη σχέση ανάμεσα στις πωλήσεις δίσκων και τα έξοδα διαφημιστικής δαπάνης, τότε αν κάποιος μας ρωτήσει πόσες πωλήσεις δίσκων θα κάνει η Βανδή αν ξοδέψει € θα απαντήσουμε με βάση το μέσο όρο των δίσκων που πουλάει (για παράδειγμα δίσκους). Την ίδια όμως απάντηση θα δώσουμε και στην ερώτηση «Πόσους δίσκους θα πουλήσει αν ξοδέψει 1000 €. Με άλλα λόγια ανεξάρτητα από το ποσό διαφημιστικής δαπάνης, έχουμε τον ίδιο μέσο όρο πωλήσεων.

19 4/9/2017 Εμείς όμως μπορούμε να χρησιμοποιήοπυμε το μέσο όρο ως τη βάση με την οποία θα συγκρίνουμε τη γραμμή που περιγράφει τα δεδομένα μας Στη συνέχεια υπολογίζουμε το συνολικό άθροισμα των τετραγώνων των αποκλίσεων (δηλ. το συνολικό σφάλμα όταν εφαρμόσουμε στα δεδομένα μας το πιο απλό μοντέλο δηλ. το μέσο όρο του Υ) -Συμβολίζεται με SST

20 Τα τετράγωνα των αποκλίσεων αυτών συμβολίζονται με SSR
4/9/2017 Το επόμενο βήμα είναι με βάση την ευθεία που έχουμε επιλέξει ως την καλύτερη, να προσδιορίσουμε τη διαφορά ανάμεσα στις τιμές που δίνει η ευθεία και σε αυτές που πραγματικά έχουμε Τα τετράγωνα των αποκλίσεων αυτών συμβολίζονται με SSR

21 4/9/2017 ΣΤΗ ΣΥΝΕΧΕΙΑ ΜΠΟΡΟΥΜΕ ΝΑ ΧΡΗΣΙΜΟΠΟΙΗΣΟΥΜΕ ΤΙΣ ΔΥΟ ΑΥΤΈΣ ΤΙΜΕΣ ΔΗΛ. SST ΚΑΙ SSR ΠΡΟΚΕΙΜΕΝΟΥ ΝΑ ΠΡΟΣΔΙΟΡΙΣΟΥΜΕ ΠΟΣΟ ΚΑΛΥΤΕΡΗ ΕΙΝΑΙ Η ΓΡΑΜΜΗ ΜΕ ΤΗΝ ΚΑΛΥΤΕΡΗ ΠΡΟΣΑΡΜΟΓΗ ΣΕ ΣΧΕΣΗ ΜΕ ΤΟ ΑΝ ΧΡΗΣΙΜΟΠΟΙΟΥΣΑΜΕ ΤΟ ΜΕΣΟ ΟΡΟ. Η ΔΙΑΦΟΡΑ ΤΟΥΣ ΑΠΟΤΕΛΕΙ ΤΟ ΑΘΡΟΙΣΜΑ ΤΩΝ ΤΕΤΡΑΓΩΓΩΝ ΤΩΝ ΑΠΟΚΛΙΣΕΩΝ ΤΙΣ ΟΠΟΙΕΣ ΕΡΜΗΝΕΥΕΙ ΤΟ ΜΟΝΤΕΛΟ (ΣΥΜΒΟΛΙΖΕΤΑΙ ΜΕ SSΜ )

22 4/9/2017 - SST SSR SSM

23 4/9/2017 Αν το SSΜ είναι μεγάλο τότε έχουμε σημαντική βελτίωση αναφορικά με το πόσο καλά μπορεί η γραμμή μας να προβλέψει το κριτήριο. Αντίθετα αν είναι μικρό τότε η χρησιμοποίηση της γραμμής μας δεν έχει κάτι περισσότερο να προσθέσει από το αν χρησιμοποιούσαμε απλά το μέσο όρο Το ποσοστό βελτίωσης από τη χρήση της γραμμής παλινδρόμησης δίδεται από τον τύπο:

24 4/9/2017 Το R2 είναι ο λεγόμενος συντελεστής προσδιορισμού και μας δείχνει το ποσοστό της ολικής μεταβολής της μεταβλητής Υ που εξηγείται από την εξίσωση παλινδρόμησης Η τετραγωνική ρίζα του R2 είναι ο συντελεστής συσχέτισης (r) ανάμεσα στις δύο μεταβλητές

25 4/9/2017 Τα τετράγωνα των αποκλίσεων, χρησιμοποιούνται επίσης και για το λεγόμενο F-test το οποίο θα το εξετάσουμε στην ανάλυση διακύμανσης (ΑΝΟVA)

26 4/9/2017 Προϋποθέσεις για τη γραμμική παλινδρόμηση (καθώς και γενικά των παραμετρικών στατιστικών τεχνικών) Τα δεδομένα ακολουθούν κανονική κατανομή (normally distributed data) Οι διακυμάνσεις είναι περίπου ίδιες (ομοιογενείς) (homogeneity of variance)>>>η διακύμανση μιας μεταβλητής πρέπει να είναι σταθερή για όλα τα επίπεδα των άλλων μεταβλητών. Η Κλίμακα να είναι τουλάχιστον ίσων διαστημάτων (interval) Ανεξαρτησία των παρατηρήσεων (Independence)>>>το ένα άτομο για παράδειγμα είναι ανεξάρτητο από το άλλο. Για τα (1) και (2), υπάρχουν αντικειμενικά τεστ μέσω SPSS. Για τα (3) και (4) απαιτείται κοινή λογική

27 4/9/2017 Παράδειγμα. Ας υποθέσουμε ότι θέλουμε να διερευνήσουμε τη σχέση που υπάρχει ανάμεσα στην ευσυνειδησία του εργαζομένου και την ικανοποίηση από την εργασία του. Είναι άραγε οι ευσυνείδητοι υπάλληλοι πιο ικανοποιημένοι από την εργασία τους?

28 4/9/2017

29 4/9/2017 Μέσος όρος SST

30 4/9/2017 Μέσος όρος SSR

31 Αποτελέσματα από SPSS Συντελεστής συσχέτισης Συντελεστής προσδιορισμού
4/9/2017 Αποτελέσματα από SPSS Συντελεστής συσχέτισης Συντελεστής προσδιορισμού Τυπικό σφάλμα εκτίμησης Συντελεστής προσδιορισμού για τον πληθυσμό

32 4/9/2017 SST SSΜ SSR

33 4/9/2017 Υi=βο+β1Χi+εi β1= ο συντελεστής παλινδρόμησης για την προβλεπτική μεταβλητή- Στο παράδειγμα μας είναι ίσο με 0,872, δηλ. Αύξηση της ευσυνειδησίας κατά μία μονάδα οδηγεί σε αύξηση της ικανοποίησης κατά 0,872 μονάδες. Αν χρησιμοποιήσουμε την τυποποιημένη τιμή (standardized coefficient), τότε η ερμηνεία είναι : αν η ευσυνηδησία αυξηθεί κατά μία τυπική απόκλιση, η ικανοποίηση αυξάνεται κατά 0,231 τυπικές αποκλίσεις β0= ο σταθερός όρος (δηλ. η τιμή του Υ όταν το Χ=0) – Στο παράδειγμα μας είναι μηδέν.

34 Χρησιμοποιώντας το μοντέλο της απλής γραμμικής παλινδρόμησης
4/9/2017 Χρησιμοποιώντας το μοντέλο της απλής γραμμικής παλινδρόμησης Υi=βο+β1Χi Ικανοποίηση από εργασία = 0 + 0,872*Ευσυνειδησία

35 Πολλαπλή γραμμική παλινδρόμηση
4/9/2017 Δευτέρα Πολλαπλή γραμμική παλινδρόμηση

36 4/9/2017


Κατέβασμα ppt "Στατιστική IΙ (ΨΥΧ-122) Διάλεξη 3 Απλή γραμμική παλινδρόμηση"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google