Ποσοτικές Μέθοδοι Δρ. Χάϊδω Δριτσάκη MSc Τραπεζική & Χρηματοοικονομική Τεχνολογικό Εκπαιδευτικό Ίδρυμα Δυτικής Μακεδονίας Western Macedonia University of Applied Sciences Κοίλα Κοζάνης 50100 | Kozani GR 50100
Εισαγωγή σε βασικές έννοιες Στατιστικής Ορισμός Στατιστική (Statistics) είναι ένα σύνολο αρχών και μεθοδολογιών για: Α. το σχεδιασμό της διαδικασίας συλλογής δεδομένων Β. τη συνοπτική και αποτελεσματική παρουσίασή τους Γ. την εξαγωγή αντίστοιχων συμπερασμάτων Η Στατιστική επιτυγχάνει τη συλλογή, επεξεργασία, παρουσίαση και ανάλυση των στατιστικών στοιχείων (αριθμητικών δεδομένων) με την εφαρμογή κατάλληλων για κάθε περίπτωση στατιστικών μεθόδων, οι οποίες και συνιστούν το περιεχόμενό της.
Πληθυσμός (Population) Κάθε σύνολο αντικειμένων ή ατόμων που έχουν κάποιο κοινό μετρήσιμο χαρακτηριστικό Δείγμα (Sample) Κάθε υποσύνολο του πληθυσμού. Τυχαίο δείγμα (random sample) είναι το δείγμα του πληθυσμού, όπου τα άτομα διαλέγονται το ένα μετά το άλλο, με κύριο χαρακτηριστικό, ότι τα υπόλοιπα άτομα του πληθυσμού κάθε φορά, έχουν τις ίδιες πιθανότητες να περιληφθούν στο τυχαίο δείγμα.
Οι όροι πληθυσμός και δείγμα μπορεί να αναφέρονται είτε στα άτομα, είτε στις μετρήσεις του κοινού χαρακτηριστικού τους. Τότε υπάρχει μια κατανομή των μετρήσεων του δείγματος, η οποία συνήθως μελετάται και μια κατανομή των μετρήσεων όλου του πληθυσμού που συνήθως υπάρχει αλλά είναι δύσκολο να προσδιοριστεί. Ένα ενδιαφέρον πρόβλημα είναι η απόφαση για το τι είδος πληροφορίες δύναται να εξαχθούν για την κατανομή του πληθυσμού, από την παρατήρηση και τη μελέτη της κατανομής του τυχαίου δείγματος.
Τα χαρακτηριστικά ή ιδιότητες των στατιστικών μονάδων ως προς τα οποία εξετάζουμε έναν πληθυσμό ονομάζονται μεταβλητές (variables). Διάκριση των μεταβλητών Ποιοτικές: Χαρακτηρίζονται οι μεταβλητές που δεν επιδέχονται αριθμητική μέτρηση Ποσοτικές Ασυνεχείς (ή Διακριτές) (Discrete variables) είναι εκείνες που παίρνουν ακέραιες τιμές (αριθμός λευκών ή ερυθρών αιμοσφαιρίων, αριθμός υπαλλήλων ενός λογιστηρίου, αριθμός παιδιών μιας οικογένειας, αριθμός ραδιενεργών κρούσεων, αριθμός ελαττωματικών προϊόντων). Συνεχείς (Continuous varaibles) είναι εκείνες που μπορούν να πάρουν όλες τις τιμές ενός διαστήματος πραγματικών αριθμών (βάρος, ύψος).
Περιγραφή Δεδομένων- Τρόποι Παρουσίασης Τα στατιστικά δεδομένα πρέπει να παρουσιάζονται με τρόπο απλό και σαφή, έτσι ώστε να είναι εύκολη η κατανόησή τους από τον κάθε ενδιαφερόμενο. Η παρουσίαση μπορεί να γίνει με μορφή Α. Πινάκων Β. Γραφικών Παραστάσεων
Οι Πίνακες μπορεί να είναι απλής εισόδου ή διπλής εισόδου. Οι πίνακες απλής εισόδου χρησιμοποιούνται όταν οι μονάδες του εξεταζόμενου πληθυσμού ερευνώνται ως προς ένα ποιοτικό ή ποσοτικό χαρακτηριστικό. Ενώ οι πίνακες διπλής εισόδου όταν οι μονάδες του εξεταζόμενου πληθυσμού μελετώνται ταυτοχρόνως ως προς δυο ποιοτικά ή ποσοτικά χαρακτηριστικά.
Σημειόγραμμα (Scatter Plot)
Ραβδόγραμμα (Bar Charts)
Κυκλικό Διάγραμμα (Pie Chart)
Διάγραμμα συχνοτήτων και σχετικών συχνοτήτων (Line diagram)
Ιστόγραμμα συχνοτήτων (Frequency histogram)
Πολύγωνο συχνοτήτων (frequency polygon)
Θηκόγραμμα (Box plot)
Πίνακες κατανομής συχνοτήτων Οι πίνακες αυτοί συντάσσονται με κατάλληλη κατάταξη και συστηματική ομαδοποίηση των τιμών της μεταβλητής που εξετάζεται. Αν τα χαρακτηριστικά είναι ασυνεχή και τα αποτελέσματα της μέτρησης σχετικά λίγα τότε ο πίνακας παίρνει την ακόλουθη μορφή:
Δυνατές τιμές της μεταβλητής x Αριθμός φορών που παρατηρήθηκε η κάθε τιμή (συχνότητα) x1 f1 x2 f2 x3 f3 … …. Σύνολο
Τα x1,x2,x3, ….. xk είναι τιμές της διακριτής μεταβλητής Χ, οι οποίες τοποθετούνται κατά τη φυσική τους σειρά, από τη μικρότερη στη μεγαλύτερη. Τα f1,f2,f3,…fk εκφράζουν πόσες φορές εμφανίζεται στο συνολικό πληθυσμό κάθε τιμή της μεταβλητής.
Αν τα χαρακτηριστικά είναι συνεχή ή διακριτά με μεγάλο πλήθος δυνατών τιμών, τότε δυσχεραίνεται η μορφή του πίνακα, οπότε κρίνεται απαραίτητη η ομαδοποίηση των παρατηρήσεων. Η ομαδοποίηση αυτή πραγματοποιείται με το χωρισμό του διαστήματος μεταβολής (α0,α1) της μεταβλητής Χ σε υποδιαστήματα που ονομάζονται κλάσεις ή τάξεις ή ομάδες.
Τι είναι κλάσεις Κλάσεις είναι ημιανοικτά διαστήματα της μορφής [αi, bi), τα οποία είναι ταυτόχρονα και διαδοχικά, έτσι ώστε να μην υπάρχει κάποια τιμή του διαστήματος εντός του οποίου ορίζεται η μεταβλητή, που να μην ανήκει σε κάποια κλάση. Συνήθως αντί για κλάσεις χρησιμοποιείται και ο όρος τάξεις.
Λόγω της μορφής των κλάσεων (διαστήματα), θα πρέπει να αφορούν περιπτώσεις ποσοτικών, συνεχών μεταβλητών, χωρίς αυτό να αποκλείει δημιουργία κλάσεων και για διακριτά (ασυνεχή) δεδομένα, τα οποία όμως εμφανίζουν μεγάλος εύρος τιμών. • Θα πρέπει όλες οι παρατηρήσεις (δεδομένα) να ενταχθούν στις κλάσεις που δημιουργούνται. Μπορεί να συμβεί η τελευταία κλάση να είναι της μορφής […,…] ώστε να περιέχει την τελευταία παρατήρηση.
Το ημιάθροισμα των ορίων της κάθε τάξης καλείται κεντρική τιμή της τάξεως.
Εύρος τιμών Ως εύρος τιμών δείγματος αναφέρεται η διαφορά της ελάχιστης από τη μέγιστη παρατήρηση του δείγματος. R = xmax – xmin όπου R = range (εύρος)
Κανόνας Sturges Ένας εμπειρικός κανόνας για τον καλύτερο αριθμό κλάσεων (κανόνας του Sturges) • Ο ιδανικός αριθμός κλάσεων για Ν μετρήσεις είναι ο πλησιέστερος ακέραιος αριθμός προς τον αριθμό k, που παρέχεται από τη σχέση: k= 1+3,322logN
Καλούμε πλάτος κλάσης τη διαφορά της κατώτερης από την ανώτερη τιμή της κλάσης. Συμβολίζεται με c και είναι c = bi - ai Η σχέση που συνδέει το c, R & k είναι: c = R/k
Τέλος, κάνουμε τη διαλογή των παρατηρήσεων και δημιουργούμε έναν πίνακα όπου απεικονίζουμε τη συχνότητα (νi), τη σχετική συχνότητα (fi), την αθροιστική συχνότητα (Ni) και τη σχετική αθροιστική συχνότητα (Fi).
Σχετική Συχνότητα (fi) Είναι το ποσοστό των εμφανίσεων μιας συγκεκριμένης τιμής στο σύνολο του δείγματος. Αν x1 , x2 , x3 ,…, xκ οι τιμές μιας μεταβλητής Χ ενός δείγματος μεγέθους ν και ν1 , ν2 , ν3 , … , νκ οι αντίστοιχες συχνότητές τους, τότε σχετική συχνότητα της τιμής xi , i = 1 , 2 , 3 , …, κ λέγεται αριθμός fi= vi /v, i = 1 , 2 , 3 , …, κ.
Αθροιστική Συχνότητα (Νi) Είναι το πλήθος των παρατηρήσεων που βρίσκονται κάτω από μια συγκεκριμένη τιμή μέσα στο δείγμα μας. Αν οι τιμές x1,x2,x3 ,…,xκ μιας ποσοτικής μεταβλητής Χ, ενός δείγματος μεγέθους κ, είναι σε αύξουσα διάταξη και ν1 ,ν2 , ν3 ,…, νκ οι αντίστοιχες συχνότητές τους, τότε αθροιστική συχνότητα της τιμής xi , i = 1 , 2 , 3 , …, κ λέγεται ο φυσικός αριθμός Νi = ν1 + ν2 + ν3 +…+ νi
Αθροιστική Σχετική Συχνότητα (Fi) Είναι το ποσοστό των παρατηρήσεων που βρίσκονται κάτω από μια συγκεκριμένη τιμή μέσα στο δείγμα μας. Αν οι τιμές x1 , x2 , x3 ,…, xκ μιας ποσοτικής μεταβλητής Χ, ενός δείγματος μεγέθους ν, είναι σε αύξουσα διάταξη και f1 , f2 , f3 ,…,fκ οι αντίστοιχες σχετικές συχνότητές τους , τότε αθροιστική σχετική συχνότητα της τιμής xi , i = 1 , 2 ,3,…,κ λέγεται ο αριθμός Fi = f1 + f2 + f3+…+fκ
Παράδειγμα Βάρος 30 ατόμων σε κιλά 79,6 72,3 86,1 75,0 67,3 74,1 76,7 79,9 89,9 76,2 78,6 73,0 85,8 78,0 80,8 81,4 65,1 81,8 76,5 66,8 77,1 80,1 78,3 67,9 83,9 70,0 Από το βιβλίο Τσίμπου Κ. – Γεωργιακώδη Φ., Πίνακας 4.1
Παράδειγμα Αναζητούμε τη μέγιστη και ελάχιστη τιμή. Μέγιστη τιμή: 89,9 κιλά Ελάχιστη τιμή: 65,1 κιλά Το εύρος των τιμών στο δείγμα: 24,8 = R Στρογγυλοποιούμε (προς τα κάτω) την ελάχιστη τιμή 65 κιλά Στρογγυλοποιούμε (προς τα πάνω) την μέγιστη τιμή 90 κιλά Επομένως, το εύρος θα είναι τώρα 90-65=25 κιλά
Παράδειγμα Χωρίζουμε το εύρος σε κλάσεις ή τάξεις. Πόσες κλάσεις επιλέγω? Σπάνια λιγότερα από 5 ή περισσότερα από 15. Εφαρμόζοντας τον κανόνα του Sturges, προκύπτει: k = 1+3,322log30= 5,9 (περίπου 6) Αν επιλέξουμε 6 κλάσεις, τότε το πλάτος κάθε κλάσης θα είναι c=25/6=4,167 (δεκαδικός αριθμός καλύτερα ν’αποφεύγεται). Επιλέγοντας k=5 τότε έχουμε:
Κλάση Κεντρική Τιμή Συχνότητα Σχετική Συχνότητα [65-70) 67,5 4 0,13 [70-75) 72,5 6 0,20 [75-80) 77,5 12 0,40 [80-85) 82,5 5 0,17 [85-90] 87,5 3 0,10
Μέτρα θέσης και μεταβλητότητας Μέτρα θέσης καθορίζουν τη θέση των τιμών στο χώρο Μέτρα μεταβλητότητας καθορίζουν πώς μεταβάλλονται οι τιμές της μεταβλητής
Μέτρα Θέσης Αριθμητικός Μέσος ή μέση τιμή (mean) ορίζεται ως το πηλίκο των τιμών της μεταβλητής δια το πλήθος των τιμών της. Διάμεσος (median) είναι η τιμή εκείνη της μεταβλητής που χωρίζει το σύνολο των τιμών σε δυο ίσα μέρη. (όταν το πλήθος των τιμών της μεταβλητής είναι άρτιος αριθμός τότε η διάμεσος ορίζεται ως ο μέσος αριθμητικός των τιμών των δύο κεντρικών όρων) (όταν το πλήθος των τιμών είναι περιττός αριθμός τότε ως διάμεσο παίρνουμε την τιμή εκείνη της μεταβλητής που βρίσκεται στο κέντρο , αφού προηγουμένως οι τιμές τοποθετηθούν κατά αύξουσα τάξη μεγέθους) Επικρατούσα Τιμή (mode) είναι η τιμή της μεταβλητής με τη μεγαλύτερη συχνότητα Τεταρτημόρια (quartiles) οι τιμές της μεταβλητής που χωρίζουν το σύνολο των τιμών της σε 4 ισοπληθείς ομάδες.
Πληθυσμιακός μέσος
Δειγματικός μέσος
Επικρατούσα τιμή - παράδειγμα Η επικρατούσα τιμή είναι 44. Η τιμή 44 εμφανίζεται περισσότερες φορές από οποιαδήποτε άλλη τιμή.
Τεταρτημόρια-παράδειγμα Το Q1 είναι ίσο με το 25ο εκατοστημόριο Το Q2 τοποθετείται στο 50ο εκατοστημόριο και είναι ίσο με τη διάμεσο Το Q3 είναι ίσο με το 75ο εκατοστημόριο
Μέτρα Θέσης Στην περίπτωση που μια κατανομή είναι συμμετρική, οι τιμές του αριθμητικού μέσου, διαμέσου και επικρατούσας τιμής συμπίπτουν μεταξύ τους.
Μέτρα μεταβλητότητας Εύρος (range) δίνει τη διαφορά ανάμεσα στη μεγαλύτερη και την μικρότερη τιμή μιας σειράς παρατηρήσεων. Διακύμανση (variance) είναι ο μέσος αριθμητικός των τετραγώνων των διαφορών των τιμών μιας μεταβλητής από το μέσο αριθμητικό της. Συμβολίζεται με σ2 ή με s2 Επειδή η διακύμανση εκφράζεται μέσω του τετραγώνου της μεταβλητής, γι’αυτό παίρνουμε την τετραγωνική ρίζα της διακύμανσης που ονομάζεται τυπική απόκλιση (standard deviation)
Παράδειγμα: Εύρος = = 48 - 35 = 13
Διακύμανση-Παράδειγμα 5 9 16 17 18 -8 -4 +3 +4 +5 64 25 130
Τυπική απόκλιση - Παράδειγμα
Μέτρα μεταβλητότητας Όσο μικρότερες οι τιμές της διασποράς και της τυπικής απόκλισης, τόσο πιο συγκεντρωμένες γύρω από το μ βρίσκονται οι τιμές της μεταβλητής. Συντελεστής μεταβλητικότητας (coefficient of variation) όταν θέλουμε να συγκρίνουμε δύο κατανομές οι οποίες εκφράζονται σε διαφορετικές μονάδες τότε χρησιμοποιούμε το CV και είναι το πηλίκο της τυπικής απόκλισης μιας κατανομής προς τον αριθμητικό μέσο αυτής. Εκφράζεται ως ποσοστό.
Ασυμμετρία & Κύρτωση Συμμετρική είναι μια κατανομή όταν οι τιμές της τοποθετούνται συμμετρικά γύρω από το μέσο. Ο συντελεστής ασυμμετρίας (skewness) μας πληροφορεί για το αν οι τιμές της μεταβλητής τοποθετούνται συμμετρικά γύρω από το μέσο ή όχι και πόσο. Η ασυμμετρία ορίζεται με βάση την τρίτη κεντρική ροπή ως προς το μέσο
Αν S < 0, η κατανομή είναι αρνητικά ασύμμετρη (ασύμμετρη στα αριστερά).
Ασυμμετρία & Κύρτωση Η κύρτωση (kyrtosis) μετράει το βαθμό της συγκέντρωσης των τιμών της μεταβλητής στην περιοχή του αριθμητικού μέσου και προς τα άκρα του μέσου.