Στατιστική Ι Παράδοση 6 Η Κανονική Κατανομή Θεωρητικά η κατανομή των τιμών μιας μεταβλητής μπορεί να πάρει άπειρες μορφές (σχήματα). Η μορφή της κατανομής θα επηρεάσει τον τύπο των αναλύσεων (τεστ) που μπορούν να χρησιμοποιηθούν προκειμένου να απαντήσουμε τα ερευνητικά ερωτήματα που μας ενδιαφέρουν. Ο τύπος κατανομής με το μεγαλύτερο ενδιαφέρον είναι αυτός της κανονικής κατανομής, καθώς τα παραμετρικά τεστ είναι σχεδιασμένα για αυτό τον τύπο δεδομένων. Η μορφή μιας κατανομής καθορίζεται από τα εξής χαρακτηριστικά: Α) από τη συμμετρικότητά της (από το σημείο συγκέντρωσης των περισσότερων τιμών, τη φορά κατανομής των τιμών) Β) από την κύρτωσή της (από τη διασπορά των τιμών) Γ) από τον αριθμό των δεσποζουσών τιμών της
Κατανομές μεταβλητών Κύρτωση (Kurtosis): Ο βαθμός συγκέντρωσης των τιμών γύρω από το κέντρο της κατανομής α) Λεπτόκυρτη κατανομή: Συμμετρική καμπύλη που χαρακτηρίζεται από τη συγκέντρωση των τιμών στο κέντρο της κατανομής β) Μεσόκυρτη κατανομή: Συμμετρική καμπύλη που έχει τη μορφή της κανονικής κατανομής γ) Πλατύκυρτη κατανομή: Συμμετρική καμπύλη που χαρακτηρίζεται από μικρό βαθμό συγκέντρωσης γύρω από το κέντρο της κατανομής Σχήμα: τύποι κωδωνοειδών συμμετρικών κατανομών κατανομών. Η κύρτωση εκφράζει τη διασπορά της κατανομής, δηλαδή την ομοιογένεια ή ανομοιογένεια των τιμών της. Η μεσόκυρτη κατανομή έχει το ιδανικό σχήμα Λεπτόκυρτη κατανομή Μεσόκυρτη κατανομή Πλατύκυρτη
Κατανομές μεταβλητών Συμμετρική κατανομή: η συγκέντρωση των τιμών γύρω από το μέσο της κατανομής είναι συμμετρική Ισοϋψής κατανομή: Κατανομή, η συχνότητα των τιμών της οποίας είναι ίση σε όλο το μήκος της κλίμακας μέτρησης (α) Δικόρυφη κατανομή: Κατανομή με δύο δεσπόζουσες τιμές (β & γ) Σχήμα: συμμετρικές, μή κωδωνοειδείς κατανομές Ισοϋψής κατανομή (rectangular distribution) Δικόρυφη κατανομή (bimodal distribution) Δικόρυφη κατανομή σε σχήμα U (U-distribution) Σε αρκετές περιπτώσεις δικόρυφες (με δύο δεσπόζουσες τιμές) κατανομές συναντάμε όταν τα δεδομένα απεικονίζουν δύο διαφορετικούς πληθυσμούς (πχ μέτρηση της σωματικής-φυσικής δραστηριότητας σε ενήλικες της ίδιας ηλικίας, όπου το δείγμα περιλαμβάνει άνδρες και γυναίκες).
Κατανομές μεταβλητών Ασύμμετρη κατανομή (skewed distribution): Μη συμμετρική κατανομή, στην οποία το σημείο συγκέντρωσης των περισσότερων τιμών βρίσκεται δεξιά ή αριστερά στον άξονα των τιμών Ασύμμετρη αριστερά (positively skewed): οι μεγάλες συχνότητες συγκεντρώνονται στο αριστερό άκρο της κατανομής (που αντιστοιχεί στις χαμηλότερες τιμές της κλίμακας μέτρησης) και ταυτόχρονα οι συχνότητες στο δεξιό άκρο είναι λιγότερες (γ) Ασύμμετρη δεξιά κατανομή (negatively skewed): το σημείο συγκέντρωσης των τιμών της κατανομής βρίσκεται δεξιά στον οριζόντιο άξονα (α & β) Προκειμένου να αποκτήσουμε μία καλή εικόνα της μορφής της κατανομής πρέπει να έχουμε σχετικά μεγάλο δείγμα (προκειμένου να ‘γεμίσει’ η κατανομή). Με δείγμα 30 περίπου ατόμων, μπορούμε να έχουμε μία εικόνα της συμμετρικότητας της κατανομής (μόνο). Η συμμετρικότητα έχει να κάνει με την φορά της κατανομής, δηλαδή με το σημείο συγκέντρωσης των περισσότερων τιμών της. J-curve S-shaped distribution Positively skewed distribution
Μορφές κατανομών Α) κανονική κατανομή Μία (απόλυτα) κανονική κατανομή θα έχει τιμές για ασυμμετρία και κύρτωση (skewness and kurtosis) ίσες με μηδέν. Β) ασύμμετρη αριστερά (θετική ασυμμετρία) όταν το πρόσημο του δείκτη ασυμμετρίας είναι θετικό, οι περισσότεροι συμμετέχοντες έδωσαν χαμηλά σκορ στην υπό μέτρηση μεταβλητή. Γ) ασύμμετρη δεξιά (αρνητική ασυμμετρία) Όταν το πρόσημο του δείκτη ασυμμετρίας είναι αρνητικό, οι περισσότεροι συμμετέχοντες έδωσαν υψηλά σκορ στην υπό μέτρηση μεταβλητή. Δ) λεπτόκυρτη (θετική κύρτωση) Ε) πλατύκυρτη (αρνητική κύρτωση) [παράδειγμα SPSS]
Η κανονική κατανομή Συμμετρική κωδωνοειδής κατανομή με συγκεκριμένα χαρακτηριστικά Άξονας Χ: τετμημένη, οριζόντιος άξονας. Αναπαριστά τις τιμές της μεταβλητής Άξονας Υ: τεταγμένη, κάθετος άξονας. Αναπαριστά τη συχνότητα (ή την πιθανότητα) εμφάνισης των τιμών (Συνήθως ο άξονας Χ αναπαριστά την ανεξάρτητη μεταβλητή, ενώ ο άξονας Υ αναπαριστά την εξαρτημένη μεταβλητή) Όσο μεγαλύτερο το μέγεθος του δείγματος, τόσο ομαλότερη μορφή παίρνει η καμπύλη (αλλά το αν είναι κανονική ή όχι εξαρτάται από τις τιμές της κατανομής, όχι από το μέγεθος του δείγματος). Η μελέτη της κανονικής κατανομής ξεκινά από τον 18ο αιώνα. Ορίστηκε με ακρίβεια από τον Pierre-Simon Laplace, και πήρε την πιο συνήθη μορφή της από τον Carl Friedrich Gauss. Ο πρώτος που την εφάρμοσε σε δεδομένα κοινωνικής έρευνας ήταν ο Βέλγος στατιστικολόγος και δημογράφος Adolph Quetelet, ο οποίος συγκέντρωσε ανθρωπομετρικά δεδομένα και διαπίστωσε ότι έπαιρναν τη μορφή κανονικής κατανομής. Η ερμηνεία του Quetelet στην μορφή της κατανομής των δεδομένων ήταν ότι ο μέσος όρος αναπαριστά το ιδανικό μέτρο της φύσης (κανονική κατανομή γιατί οι κατανομές στον φυσικό κόσμο έχουν αυτή τη μορφή) και οι αποκλίσεις από αυτόν αποτελούν αποκλίσεις από το ιδανικό αυτό μέτρο. Η ερμηνεία αυτή μάλλον δεν χρησιμοποιείται πλέον ( η απόκλιση θεωρείται ως διαφορετικότητα-ποικιλομορφία και όχι ως κάτι το αφύσικο), αλλά είναι χρήσιμη για την κατανόηση της διασποράς γύρω από το μέσο όρο, αλλά και για την κατανόηση της ορολογίας. Η κανονική κατανομή είναι πού χρήσιμη γιατί: Πολλές εξαρτημένες μεταβλητές στο χώρο των κοινωνικων επιστημών θεωρείται ότι σχηματίζουν κανονική κατανομή στον πληθυσμό, και ΄τα σκορς όλου του πληθυσμού ακολουθούν την κανονική κατανομή. Τα περισσότερα και ισχυρότερα στατιστικά κριτήρια (τεστ) που χρησιμοποιούμε προϋποθέτουν ότι οι μετρήσεις του πληθυσμού θα ακολουθούσαν κανονική κατανομή. Η κανονική κατανομή έχει κάποια χαρακτηριστικά με βάση τα οποία μπορούμε να εξάγουμε ορισμένα συμπεράσματα για μεμονωμένες τιμές αυτής της μεταβλητής. Αν πάρουμε έναν άπειρο αριθμό δειγμάτων του υπό μελέτη πληθυσμού και σχηματίσουμε μία κατανομή των μέσων όρων τους, αυτή ονομάζεται δειγματοληπτική κατανομή του μέσου όρου (mean sampling distribution). Θεωρείται ότι κάτω από ορισμένες προϋποθέσεις θα έχει περίπου κανονική μορφή. Αναφορικά με το πόσο μπορούμε να αποκλίνουμε από το σχήμα, υπάρχει κάποια υποκειμενικότητα.
Οι τυπικές τιμές Τυπική τιμή (ή z-τιμή) (standardised or z-scores): Μια μετασχηματισμένη τιμή που δείχνει πόσες τυπικές αποκλίσεις πάνω ή κάτω από το μέσο όρο βρίσκεται η αντίστοιχη αρχική τιμή Ο τύπος υπολογισμού της τυπικής τιμής: Προκειμένου να βγάλουμε κάποιο συμπέρασμα για μία τιμή της κατανομής (το σκορ κάποιου συμμετέχοντα), θα πρέπει να το συγκρίνουμε με τις άλλες τιμές. Πχ στο παράδειγμα της κατανομής ύψους 500 γυναικών, τι συμπέρασμα θα γβάζαμε για μία γυναίκα με ύψος 1.90μ; Θα πρέπει να υπάρχει ένα σημείο αναφοράς (μέτρο σύγκρισης), το οποίο εξαρτάται από τη θέση της τιμής είτε στην ιεραρχία των τιμών, είτε ως προς ένα δείκτη κεντρικής τάσης (συνήθως το μέσο όρο). Πχ η τιμή 50 σε μία κατανομή με μέσο όρο 54 μπορεί να εκφραστεί ως +4. Επιπλέον, αυτή η απόκλιση μπορεί να εκφραστεί με μονάδες τυπικής απόκλισης. Αν πχ η τυπική απόκλιση της κατανομής είναι 2, τότε η τιμή 54 βρίσκεται 2 τυπικές αποκλίσεις πάνω από τον μέσο όρο (4/2=2sds). Αντίστοιχα, η τιμή 46 είναι δύο τυπικές αποκλίσεις κάτω από τον μέσο όρο (46-50=-4/2=-2sds). Το πηλίκο της απόκλισης μιας τιμής προς την τυπική απόκλιση ονομάζεται μετατροπή σε τυπικές τιμές ή z-τιμές (standardised values or z-scores). Οι τυπικές τιμές συμβολίζονται με το z. Οι τυπικές τιμές εκφράζουν την απόσταση (απόκλιση) μιας τιμής από τον μέσο όρο σε τυπικές αποκλίσεις (και όχι στην αρχική μονάδα μέτρησης). ‘πόσες τυπικές αποκλίσεις απέχει από τον μέσο όρο μία συγκεκριμένη τιμή;’. Όταν οι τυπικές τιμές είναι θετικές, αυτό σημαινει ότι η αρχική τιμή είναι μεγαλύτερη από τον μέσο όρο, ενώ όταν οι z-τιμές έχουν αρνητικό πρόσημο, τότε αυτό σημαίνει ότι η αρχική τιμή είναι μικρότερη από τον μέσο όρο. Κυμαίνονται από το -4 ως το +4. Αυτό που μας προσφέρουν οι z-τιμές είναι η δυνατότητα σύγκρισης (ως προς την απόστασή τους από τον μέσο όρο της κατανομής τους) διάφορων τιμών που δεν προέρχονται από την ίδια κατανομή. Κι αυτό γιατί οι z-τιμές εκφράζονται σε μονάδες τυπικής απόκλισης, και είναι ανεξάρτητες από την αρχική μονάδα μέτρησης. ‘ποιά τιμή απείχε περισσότερο από τον μέσο όρο της κατανομής της;’. Με τις τυπικές τιμές μπορούμε να συγκρίνουμε απευθείας ή να κάνουμε αλγεβρικές πράξεις. Πχ έχουμε ένα αγόρι 14 ετών και ένα κορίτσι 11 ετών με ύψος 163cm και 130cm αντίστοιχα, και θέλουμε να δούμε ποιό είναι ψηλότερο. Πρέπει να τα συγκρίνουμε με τους συνομηλίκους τους του ίδιου φύλου. Αν οι μέσοι όροι και οι τυπικές αποκλίσεις των κατανομών αυτών είναι mean= 155cm, sd= 9cm και mean=128cm, sd= 7cm, θα είχαμε: Αγόρι: (163-155)/9= 0.89τυπικές απικλίσεις (περίπου 9/10 της τυπικής απόκλισης) Κορίτσι: (130-128)/7= 0.29 τυπικές αποκλίσεις (περίπου 3/10 της τυπικής απόκλισης) Συνεπώς το αγόρι θεωρείται ψηλότερο από το κορίτσι, σε σχέση με το μέσο όρο της ηλικίας του. Χαρακτηριστικά τυπικών τιμών: Η κατανομή των τυπικών τυμών έχει ίδιο σχήμα με αυτό της αρχικής κατανομής (η θέση των τιμών είναι ίδια). Ο μέσος όρος της τυπικής κατανομής είναι πάντα 0 και η τυπική απόκλισή της είναι πάντα 1. Οι τυπικές τυμές εκφράζονται σε αριθμούς χωρίς μονάδες (ή σε μονάδες τυπικής απόκλισης). Το μέγεθος της τυπικής τιμής μιας αρχικής τιμής μας δίνει άμεσα μία εικόνα για τη θέση της στην κατανομή (πόσο μακριά είναι από τον μέσο όρο).
Μετατροπή τυπικών τιμών σε Τ-τιμές Τ-τιμές (T-scores): Οι τυπικές τιμές μιας κανονικής κατανομής που έχουν μετατραπεί σε άλλη ισοδύναμη κλίμακα, η οποία δεν περιλαμβάνει αρνητικές τιμές. Ο τύπος υπολογισμού: Τ = 50 +10z Η νέα αυτή κατανομή έχει μέσο όρο 50 και τυπική απόκλιση 10 προκειμένου να αποφύγουμε τις τιμές με αρνητικό πρόσημο, είναι κάποιες φορές σκόπιμο να μετατρέψουμε τις τυπικές τιμές σε Τ-τιμές (T-scores). Πχ για z-τιμή = -4 έχουμε Τ = 50 + 10(-4)= 50 -40= 10. Για z-τιμή = +4 έχουμε Τ= 50 + 10(+4)= 50 + 40= 90. Συνεπώς, οι τιμές της Τ-κατανομής κυμαίνονται μεταξύ 10 και 90, και έχουν μέσο όρο 50 και τυπική απόκλιση 10. Ακολουθώντας τον ίδιο τύπο μπορούμε να μετατρέψουμε τις τυπικές τιμές σε ένα καινούριο σύστημα, όπου ορίζουμε εμείς τον μέσο όρο και την τυπική απόκλιση. Ο τύπος θα είναι: Νέα τιμή = νέος μέσος όρος + (νέα τυπική απόκλιση) Χ (z-τιμή)
Κανονική κατανομή του δείκτη νοημοσύνης Σε σχέση με τα τεστ νοημοσύνης, συνήθως οι μετρήσεις ακολουθούν την κανονική κατανομή. Τα περισσότερα είναι κατασκευασμένα ώστε να έχουν μέσο όρο 100 και τυπική απόκλιση 15. με αυτό τον τρόπο μπορούμε να κάνουμε συγκρίσεις ανθρώπων αναφορικά με τη νοημοσύνης τους. Επειδή οι τιμές του δείκτη νοημοσύνης ακολουθούν την κανονική κατανομή, μπορούμε να μετατρέψουμε τις z—τιμές σε ποσοστό, και να βρούμε για μία συγκεκριμένη τιμή ποιό είναι το ποσοστό των περιπτώσεων που βρίσκονται κάτω από την τιμή αυτή. Για παράδειγμα, ένα σκορ ίσο με 130 είναι δύο τυπικές αποκλίσεις πάνω από τον μέσο όρο. Ελέγχοντας τον πίνακα βρίσκουμε ότι το 98% των περιπτώσεων έχουν σκορ από 130 και κάτω. Το σημείο αυτό ονομάζεται και 98ο εκατοστημόριο.
Η τυπική κανονική κατανομή Τυπική κανονική κατανομή (standardised normal distribution): η κατανομή του σχηματίζουν οι τυπικές τιμές (z-scores). [αναφέρεται και ως Ν(0,1), όπου το Ν είναι για το normal, το 0 είναι η τιμή του μέσου όρου και το 1 είναι για την τυπική απόκλιση]. Αυτή η κατανομή έχει μέσο όρο 0 και τυπική απόκλιση 1, και επειδή είναι κανονική μπορούμε να προσδιορίσουμε τη θέση κάθε τιμής στην κατανομή. Δεδομένου ότι: α) ολόκληρη η κατανομή περιλαμβάνει μία περιοχή ίση με 1 (σύνολο κατανομής), β) η κατανομή είναι συμμετρική γύρω από το μέσο όρο, δηλ το 50% των περιπτώσεων βρίσκονται κάτω και το 50% των περιπτώσεων πάνω από τον μέσο όρο, και γ) η τυπική τιμή κόβει την κατανομή σε δύο τμήματα, μπορούμε να προσδιορίσουμε τη θέση κάθε τιμής στην κατανομή. (πίνακας τυπικής κατανομής: παράρτημα Α του βιβλίου). Ο πίνακας του παραρτήματος μας δείχνει το ποσοστό των περιπτώσεων που περιλαμβάνονται μεταξύ του μέσου όρου και της κάθε z-τιμής. πχ, για μία z-τιμή= 0.89, το ποσοστό των περιπτώσεων με τιμές μεταξύ του μέσου όρου και της τιμής αυτής είναι 31.33%. Καθώς η z-τιμή είναι θετική, θα βρίσκεται επάνω από τον μέσο όρο, συνεπώς το σύνολο των περιπτώσεων που βρίσκονται κάτω από αυτή την z-τιμή είναι 50+31.33= 81.33%. Αναφορικά με το παράδειγμα των παιδιών, το αγόρι είναι ψηλότερο από το 81.33% των συνομηλίκων του, ενώ το κορίτσι είναι ψηλότερο από το 61.41% των συνομηλίκων της. επιπλέον, το 18.67% των αγοριών είναι ψηλότερα από το συγκεκριμένο αγόρι, ενώ το 38.59% των κοριτσιών είναι ψηλότερα από το κορίτσι.
Χαρακτηριστικά της τυπικής κανονικής κατανομής (standardised normal distribution) 1. Ο μέσος όρος της ισούται με 0, η τυπική της απόκλιση με 1, και καλύπτει μια περιοχή ίση με 1,00 2. Η δεσπόζουσα τιμή, η διάμεσος και ο μέσος όρος συμπίπτουν 3. Εκτείνεται συμμετρικά σε κάθε πλευρά του μέσου όρου 4. Το σχήμα της κανονικής κατανομής έχει τις εξής ιδιότητες: α) Έχει ρέουσα κλίση, της οποίας το πιο απότομο σημείο βρίσκεται σε απόσταση μιας τυπικής απόκλισης εκατέρωθεν του μέσου όρου β) Σε απόσταση 3 τυπικών αποκλίσεων από το μέσο όρο η κλίση είναι σχεδόν οριζόντια, πολύ κοντά στο μηδέν γ) Η καμπύλη είναι ασυμπτωτική (asymptotic) προς τον οριζόντιο άξονα. Με άλλα λόγια, θεωρητικά δεν αγγίζει ποτέ τον οριζόντιο άξονα, αλλά προεκτείνεται και προς τις δύο κατευθύνσεις προς το άπειρο
Χαρακτηριστικά της τυπικής κανονικής κατανομής (συνέχεια) 5. Η περιοχή που περιλαμβάνεται μεταξύ δύο οποιωνδήποτε τιμών της κατανομής είναι συγκεκριμένη και προσδιορίζεται με ακρίβεια στο σχετικό πίνακα 6. Το ποσοστό της περιοχής που περιλαμβάνεται μεταξύ του μέσου όρου και: ±1 τυπική απόκλιση είναι περίπου 0,68 ή 68% ±2 τυπικές αποκλίσεις είναι περίπου 0,95 ή 95% ±3 τυπικές αποκλίσεις είναι περίπου 0,997 ή 99,7%
Η τυπική κανονική κατανομή Περιοχές μεταξύ των διαστημάτων που ορίζονται από τυπικές αποκλίσεις
Υπολογισμός της περιοχής μεταξύ δύο τιμών Ένα πρόβλημα που απασχολεί συχνά τους ερευνητές (και αυτούς που ασχολούνται με την ψυχομετρική αξιολόγηση) είναι ο υπολογισμός του ποσοστού των τιμών που εμπίπτουν μεταξύ δύο τιμών μιας κανονικής κατανομής. Παράδειγμα: Εξέταση μιας ομάδας φοιτητών με ένα τεστ πολλπλής επιλογής 300 ερωτήσεων (σκοριγκ από 0-300). Η κατανομή των επιδόσεων των φοιτητών ήταν κανονική, με μέσο όρο 195 και τυπική απόκλιση 30. Ποιό είναι το ποσοστό των περιπτώσεων που περιλαμβάνεται μεταξύ του 259 και του 271; Όπως αναφέραμε, η διαδικασία είναι ότι υπολογίζουμε αρχικά τις τυπικές τιμές και στη συνέχεια βρίσκουμε τις περιοχές από τον πίνακα. Τυπική τιμή 259= (259-195)/30= 64/30= +2.13 και 48.34% Τυπική τιμή 271= (271-195)/30= 76/30= +2.53 και 49.43% Συνεπώς: 49.45%-48.34%= 1.09% οπότε, το ποσοστό των φοιτητών που αξιολογήθηκαν με βαθμούς μεταξύ του 259 και του 271 είναι 1.09% (ή περίπου 3.27 φοιτητές)