Κεφάλαιο 3 Αριθμητικά Περιγραφικά Μέτρα
Στόχοι Σε αυτό το κεφάλαιο, μαθαίνετε να: Περιγράφετε τις ιδιότητες της κεντρικής τάσης, της μεταβλητότητας και του σχήματος στα αριθμητικά δεδομένα Κατασκευάζετε και ερμηνεύστε ένα θηκόγραμμα Υπολογίζετε περιγραφικά συνοπτικά μέτρα για έναν πληθυσμό Υπολογίζετε τη συνδιακύμανση και τον συντελεστή συσχέτισης
Συνοπτικοί ορισμοί DCOVA Η κεντρική τάση είναι η έκταση στην οποία οι τιμές μιας αριθμητικής ομάδας μεταβλητών συγκεντρώνονται γύρω από μια τυπική ή κεντρική τιμή. Η μεταβλητότητα είναι η ποσότητα της διασποράς μακριά από μια κεντρική τιμή που δείχνουν οι τιμές μιας αριθμητικής μεταβλητής. Το σχήμα είναι το μοτίβο της κατανομής τιμών από τη χαμηλότερη στην υψηλότερη τιμή.
Μέτρα Κεντρικής Τάσης : Ο Μέσος Όρος DCOVA Ο αριθμητικός μέσος (συχνά αποκαλούμενος «μέσος όρος») είναι το πιο κοινό μέτρο της κεντρικής τάσης Για ένα δείγμα μεγέθους n: Το σύμβολο x-παύλα Η iοστή τιμή Μέγεθος δείγματος Παρατηρούμενες τιμές
Μέτρα Κεντρικής Τάσης: Ο Μέσος Όρος (συνέχεια) Μέτρα Κεντρικής Τάσης: Ο Μέσος Όρος (συνέχεια) DCOVA Το πιο κοινό μέτρο της κεντρικής τάσης Μέσος όρος = το άθροισμα των τιμών διαιρούμενο με τον αριθμό των τιμών Επηρεασμένες από ακραίες τιμές (υπερβολικές τιμές) 11 12 13 14 15 16 17 18 19 20 11 12 13 14 15 16 17 18 19 20 Μέσος Όρος = 13 Μέσος Όρος = 14
Μέτρα Κεντρικής Τάσης: Η Διάμεσος DCOVA Σε μια διάταξη, η διάμεσος είναι ο «μεσσαίος» αριθμός (50% πάνω, 50% κάτω) Λιγότερο ευαίσθητος από τον μέσο όρο σε ακραίες τιμές 11 12 13 14 15 16 17 18 19 20 11 12 13 14 15 16 17 18 19 20 Διάμεσος = 13 Διάμεσος = 13
Μέτρα Κεντρικής Τάσης: Εντοπίζοντας την Διάμεσο DCOVA Η θέση της διαμέσου όταν οι τιμές είναι σε αριθμητική σειρά (μικρότερη έως μεγαλύτερη): Εάν ο αριθμός των τιμών είναι μονός, η διάμεσος είναι ο μεσαίος αριθμός Εάν ο αριθμός των τιμών είναι ζυγός, η διάμεσος είναι ο μέσος όρος των δύο μεσαίων αριθμών Σημειώστε ότι δεν είναι η τιμή της διάμεσου, μόνο η θέση της διαμέσου στα ταξινομημένα δεδομένα
Μέτρα Κεντρικής Τάσης: Η Επικρατούσα Τιμή DCOVA Η τιμή που εμφανίζεται πιο συχνά Δεν επηρεάζεται από ακραίες τιμές Χρησιμοποιείται για αριθμητικά ή κατηγορικά δεδομένα Μπορεί να μην υπάρχει επικρατούσα τιμή Μπορεί να υπάρχουν διάφορες επικρατούσες τιμές 0 1 2 3 4 5 6 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Επικρατούσα τιμή= 9 Καμία επικρατούσα τιμή
Μέτρα Κεντρικής Τάσης: Παράδειγμα επανάληψης Μέτρα Κεντρικής Τάσης: Παράδειγμα επανάληψης DCOVA Τιμές σπιτιών: $2,000,000 $ 500,000 $ 300,000 $ 100,000 $ 100,000 Σύνολο $ 3,000,000 Μέσος όρος: ($3,000,000/5) = $600,000 Διάμεσος: μέση τιμή ταξινομημένων δεδομένων = $300,000 Επικρατούσα τιμή : η πιό συχνή τιμή = $100,000
Μέτρα Κεντρικής Τάσης: Ποια μέτρα πρέπει να επιλέξετε; Μέτρα Κεντρικής Τάσης: Ποια μέτρα πρέπει να επιλέξετε; DCOVA Ο μέσος όρος χρησιμοποιείται γενικά, εκτός εάν υπάρχουν ακραίες τιμές. Η διάμεσος χρησιμοποιείται συχνά, αφού η διάμεσος δεν είναι ευαίσθητη σε ακραίες τιμές. Για παράδειγμα, οι διάμεσοι των τιμών κατοικίας μπορεί να αναφέρονται σε μια περιοχή. Είναι λιγότερο ευαίσθητες στις ακραίες τιμές. Σε ορισμένες περιπτώσεις είναι λογικό να αναφέρουμε τόσο τον μέσο όρο όσο και την διάμεσο.
Μέτρα Κεντρικής Τάσης: Περίληψη DCOVA Κεντρική Τάση Αριθμητικός Μέσος όρος Διάμεσος Επικρατούσα τιμή Μεσσαία τιμή στην σειρά διάταξης Η πιο συχνά παρατηρούμενη τιμή
Συντελεστής μεταβλητότητας Μέτρα Μεταβλητότητας DCOVA Μεταβλητότητα Τυπική Απόκλιση Συντελεστής μεταβλητότητας Εύρος Διασπορά Τα μέτρα μεταβλητότητας δίνουν πληροφορίες σχετικά με την εξάπλωση ή τη μεταβλητότητα ή τη διασπορά των τιμών των δεδομένων. Ίδιο κέντρο, Διαφορετική μεταβλητότητα
Μέτρα Κεντρικής Τάσης: Το Εύρος DCOVA Το απλούστερο μέτρο μεταβλητότητας Διαφορά μεταξύ της μεγαλύτερης και της μικρότερης τιμής: Εύρος = Xμεγαλύτερο – Xμικρότερο Παράδειγμα: 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Εύρος = 13 - 1 = 12
Μέτρα Κεντρικής Τάσης: Γιατί το εύρος μπορεί να είναι παραπλανητικό Μέτρα Κεντρικής Τάσης: Γιατί το εύρος μπορεί να είναι παραπλανητικό DCOVA Δεν λαμβάνει υπόψη τον τρόπο κατανομής των δεδομένων Ευαίσθητο στις ακραίες τιμές 7 8 9 10 11 12 7 8 9 10 11 12 Εύρος = 12 - 7 = 5 Εύρος = 12 - 7 = 5 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5 Εύρος = 5 - 1 = 4 1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120 Εύρος = 120 - 1 = 119
Μέτρα Κεντρικής Τάσης: Η Δειγματική Διασπορά DCOVA Ο μέσος όρος (κατά προσέγγιση) των τετραγωνικών αποκλίσεων των τιμών από το μέσο όρο Δειγματική Διασπορά: Όπου = αριθμητικός μέσος όρος n = μέγεθος δείγματος Xi = iοστή τιμή της μεταβλητής X
Μέτρα Κεντρικής Τάσης: Η Τυπική Απόκλιση Δείγματος DCOVA Το πιο συχνά χρησιμοποιούμενο μέτρο μεταβλητότητας Εμφανίζει αποκλίσεις σχετικά με τον μέσο όρο Είναι η τετραγωνική ρίζα της διασποράς Έχει τις ίδιες μονάδες με τα αρχικά δεδομένα Δείγμα τυπικής απόκλισης:
Μέτρα Κεντρικής Τάσης: Η Τυπική Απόκλιση Μέτρα Κεντρικής Τάσης: Η Τυπική Απόκλιση DCOVA Βήματα για την υπολογισμό της τυπικής απόκλισης 1. Υπολογίστε τη διαφορά μεταξύ κάθε τιμής και μέσου όρου. 2. Τετραγωνίστε κάθε διαφορά. 3. Προσθέστε τις τετραγωνικές διαφορές. 4. Διαχωρίστε αυτό το σύνολο με n-1 για να πάρετε τη διακύμανση του δείγματος. 5. Πάρτε την τετραγωνική ρίζα της διασποράς του δείγματος για να βρείτε την τυπική απόκλιση του δείγματος.
Μέτρα Κεντρικής Τάσης: Τυπική Απόκλιση Δείγματος: Παράδειγμα υπολογισμού DCOVA Δείγμα Δεδομένων(Xi) : 10 12 14 15 17 18 18 24 n = 8 Μέσος όρος= X = 16 Ένα μέτρο της «μέσης» διασποράς γύρω από τον μέσο όρο
Μέτρα Κεντρικής Τάσης: Σύγκριση Τυπικών Αποκλίσεων DCOVA Μ.Ο.= 15.5 S = 3.338 11 12 13 14 15 16 17 18 19 20 21 Δεδομένα B Δεδομένα A Μ.Ο. = 15.5 S = 0.926 S = 4.567 Δεδομένα C
Μέτρα Κεντρικής Τάσης: Σύγκριση Τυπικών Αποκλίσεων DCOVA Μικρότερη τυπική απόκλιση Μεγαλύτερη τυπική απόκλιση
Μέτρα Κεντρικής Τάσης: Συνοπτικά χαρακτηριστικά Μέτρα Κεντρικής Τάσης: Συνοπτικά χαρακτηριστικά DCOVA Όσο περισσότερο εκτείνονται τα δεδομένα, τόσο μεγαλύτερο είναι το εύρος, η διακύμανση και η τυπική απόκλιση. Όσο περισσότερο συγκεντρώνονται τα δεδομένα, τόσο μικρότερο είναι το εύρος, η διασπορά και η τυπική απόκλιση. Εάν οι τιμές είναι όλες οι ίδιες (χωρίς μεταβολή), όλα αυτά τα μέτρα θα είναι μηδέν. Κανένα από αυτά τα μέτρα δεν είναι ποτέ αρνητικό.
Μέτρα Κεντρικής Τάσης: Ο Συντελεστής Μεταβλητότητας DCOVA Μετρά την σχετική μεταβλητότητα Πάντα σε ποσοστό (%) Εμφανίζει τη μεταβλητότητα σε σχέση με τον μέσο όρο Μπορεί να χρησιμοποιηθεί για τη σύγκριση της μεταβλητότητας δύο ή περισσοτέρων συνόλων δεδομένων που μετρήθηκαν σε διαφορετικές μονάδες
Μέτρα Κεντρικής Τάσης: Σύγκριση Συντελεστών Μεταβλητότητας DCOVA Απόθεμα A: Περσινή μέση τιμή = $50 Τυπική απόκλιση = $5 Απόθεμα B: Περσινή μέση τιμή = $100 Και τα δύο αποθέματα έχουν την ίδια τυπική απόκλιση, αλλά το απόθεμα Β είναι λιγότερο μεταβλητό σε σχέση με την τιμή του
Μέτρα Κεντρικής Τάσης: Σύγκριση συντελεστών μεταβλητότητας(συνέχεια) Μέτρα Κεντρικής Τάσης: Σύγκριση συντελεστών μεταβλητότητας(συνέχεια) Απόθεμα A: Περσινή μέση τιμή = $50 Τυπική απόκλιση = $5 Απόθεμα C: Περσινή μέση τιμή = $8 Τυπική απόκλιση = $2 DCOVA Το Απόθεμα C έχει πολύ μικρότερη τυπική απόκλιση αλλά πολύ μεγαλύτερο συντελεστή μεταβλητότητας
Εντοπισμός Ακραίων Τιμών: Z-Score DCOVA Για να υπολογίσετε το Ζ-score μιας τιμής δεδομένων, αφαιρείτε την μέση τιμή και διαιρείτε με την τυπική απόκλιση. Το Ζ-score είναι ο αριθμός των τυπικών αποκλίσεων που η τιμή ενός δεδομένου απέχει από τον μέσο όρο. Μια τιμή δεδομένων θεωρείται ακραία αν το Ζ-score είναι μικρότερo από -3.0 ή μεγαλύτερo από +3.0. Όσο μεγαλύτερη είναι η απόλυτη τιμή του Ζ-score, τόσο μεγαλύτερη είναι η τιμή των δεδομένων από τον μέσο όρο.
Εντοπισμός Ακραίων Τιμών: Z-Score DCOVA Όπου το X αντιπροσωπεύει την τιμή των δεδομένων X είναι ό Μ.Ο. του δείγματος S είναι η τυπική απόκλιση του δείγματος
Εντοπισμός Ακραίων Τιμών: Z-Score DCOVA Ας υποθέσουμε ότι η μέση βαθμολογία σε ένα μαθηματικό τέστ SAT είναι 490, με τυπική απόκλιση 100. Υπολογίστε το Z-score για την βαθμολογία 620 του τεστ. Μία βαθμολογία 620 είναι 1.3 τυπικές αποκλίσεις πάνω από τον μέσο όρο και δεν θα θεωρούνταν ακραία τιμή.
Σχήμα Κατανομής DCOVA Περιγράφει τον τρόπο με τον οποίο κατανέμονται τα δεδομένα Δύο χρήσιμα σχετικά με το σχήμα στατιστικά μέτρα είναι: Ασυμμετρία Μετρά την έκταση στην οποία οι τιμές δεδομένων δεν είναι συμμετρικές Κύρτωση Η κύρτωση επηρεάζει την κορυφή της καμπύλης της κατανομής - δηλαδή, πόσο έντονα η καμπύλη αυξάνεται πλησιάζοντας το κέντρο της κατανομής
Σχήμα Κατανομής (Ασυμμετρία) DCOVA Μετρά την έκταση στην οποία οι τιμές δεδομένων δεν είναι συμμετρικές Αριστερά ασύμμετρη Συμμετρική Δεξιά ασύμμετρη Μ.Ο.< Διάμεσος Μ.Ο.= Διάμεσος Διάμεσος < Μ.Ο. Ασυμμετρία Στατιστικών Μέτρων < 0 0 >0
Σχήμα Κατανομής - η Κύρτωση μετρά πόσο έντονα η καμπύλη αυξάνεται πλησιάζοντας στο κέντρο της κατανομής DCOVA Αιχμηρότερη Κορυφή Από σχήμα καμπάνας (Κύρτωση> 0) Σχήμα καμπάνας (Κύρτωση = 0) Πιο επίπεδη από σχήμα καμπάνας (Κύρτωση < 0)
Γενικά περιγραφικά στατιστικά μέτρα που χρησιμοποιούν τις λειτουργίες του Microsoft Excel DCOVA
Γενικά περιγραφικά στατιστικά μέτρα χρησιμοποιώντας το εργαλείο ανάλυσης δεδομένων του Microsoft Excel DCOVA Επιλέξτε Data. Επιλέξτε Data Analysis. Επιλέξτε Descriptive Statistics και καντε κλίκ στο OK.
Γενικά περιγραφικά στατιστικά μέτρα χρησιμοποιώντας το Microsoft Excel DCOVA 4. Εισάγετε το Εύρος κελιών. 5. Τικάρετε στο κουτί Summary Statistics. 6. Κάντε κλίκ στο OK
Αποτελέσματα του Excel DCOVA Αποτελέσματα περιγραφικων στατιστικών μέτρων του Microsoft Excel, με χρήση δεδομένων των τιμών των σπιτιών: Τιμές Σπιτιών: $2,000,000 500,000 300,000 100,000 100,000
Αποτελέσματα του Minitab DCOVA Τα αποτελέσματα περιγραφικών στατιστικών μέτρων του Minitab με χρήση δεδομένων των τιμών των σπιτιών: House Prices: $2,000,000 500,000 300,000 100,000 100,000 Descriptive Statistics: House Price Total Variable Count Mean SE Mean StDev Variance Sum Minimum House Price 5 600000 357771 800000 6.40000E+11 3000000 100000 N for Variable Median Maximum Range Mode Mode Skewness Kurtosis House Price 300000 2000000 1900000 100000 2 2.01 4.13
Τεταρτημόρια Μέτρων DCOVA Τα τεταρτημόρια χωρίζουν τα ταξινομημένα δεδομένα σε 4 τμήματα με ίσο αριθμό τιμών ανά τμήμα 25% 25% 25% 25% Q1 Q2 Q3 Το πρώτο τεταρτημόριο, Q1, είναι η τιμή για την οποία το 25% των παρατηρήσεων είναι μικρότερες και το 75% μεγαλύτερο Το Q2 είναι το ίδιο όπως η διάμεσος (Το 50% των παρατηρήσεων είναι μικρότερο και το 50% είναι μεγαλύτερο) Μόνο το 25% των παρατηρήσεων είναι μεγαλύτερο από το τρίτο τεταρτημόριο
Τεταρτημόρια Μέτρων: Εντοπισμός Τεταρτημορίων DCOVA Βρείτε ένα τεταρτημόριο καθορίζοντας την τιμή στην κατάλληλη θέση στα ταξινομημένα δεδομένα, όπου Πρώτη θέση τεταρτημορίου: Q1 = (n+1)/4 ταξινομημένη τιμή Δεύτερη θέση τεταρτημορίου:Q2 = (n+1)/2 ταξινομημένη τιμή Τρίτη θέση τεταρτημορίου: Q3 = 3(n+1)/4 ταξινομημένη τιμή όπου n είναι οι παρατηρούμενες τιμές
Τεταρτημόρια Μέτρων: Κανόνες υπολογισμού Τεταρτημόρια Μέτρων: Κανόνες υπολογισμού DCOVA Κατά τον υπολογισμό της θέσης ταξινόμισης χρησιμοποιήστε τους ακόλουθους κανόνες Αν το αποτέλεσμα είναι ένας ακέραιος αριθμός, τότε είναι η θέση ταξινόμησης που θα χρησιμοποιηθεί Εάν το αποτέλεσμα είναι ένα κλασματικό ήμισυ(π.χ. 2.5, 7.5, 8.5, κ.τ.λ.) τότε βρείτε τον μέσο όρο των δύο αντίστοιχων τιμών δεδομένων. Αν το αποτέλεσμα δεν είναι ένας ακέραιος αριθμός ή ένα κλασματικό ήμισυ, τότε στρογγυλοποιήστε το αποτέλεσμα στον πλησιέστερο ακέραιο για να βρείτε την ταξινομημένη θέση.
Τεταρτημόρια Μέτρων: Εντοπισμός Τεταρτημορίων DCOVA Δείγμα δεδομένων σε σειρά διάταξης: 11 12 13 16 16 17 18 21 22 (n = 9) Το Q1 είναι στη (9+1)/4 = 2,5 θέση των ταξινομημένων δεδομένων έτσι χρησιμοποιήστε την τιμή στη μέση μεταξύ της 2ης και 3ης τιμής, έτσι Q1 = 12,5 Τα Q1 και Q3 είναι μέτρα μη κεντρικής τοποθεσίας Το Q2 = διάμεσος, είναι μέτρο κεντρικής τάσης
Τεταρτημόρια Μέτρων Υπολογισμός των τεταρτημορίων: Παράδειγμα Τεταρτημόρια Μέτρων Υπολογισμός των τεταρτημορίων: Παράδειγμα DCOVA Δείγμα δεδομένων σε σειρά διάταξης: 11 12 13 16 16 17 18 21 22 (n = 9) Το Q1 είναι στη(9+1)/4 = 2,5 θέση των ταξινομημένων δεδομένων, έτσι Q1 = (12+13)/2 = 12,5 Το Q1 είναι στη(9+1)/2 = 5th θέση των ταξινομημένων δεδομένων, έτσι Q2 = median = 16 Q3 is in the 3(9+1)/4 = 7,5 θέση των ταξινομημένων δεδομένων, έτσι Q3 = (18+21)/2 = 19,5 Τα Q1 και Q3 είναι μέτρα μη κεντρικής τοποθεσίας Το Q2 = διάμεσος, είναι μέτρο κεντρικής τάσης
Τεταρτημόρια Μέτρων: Το Ενδοτεταρτημοριακό Εύρος (IQR) DCOVA Το IQR είναι Q3 – Q1 και υπολογίζει την εξάπλωση στο μέσο του 50% των δεδομένων Το IQR ονομάζεται επίσης middleadspace επειδή καλύπτει το μεσαίο 50% των δεδομένων Το IQR είναι ένα μέτρο μεταβλητότητας που δεν επηρεάζεται από υπερβολικές τιμές ή ακραίες τιμές Μέτρα όπως το Q1, Q3 και το IQR που δεν επηρεάζονται από ακραίες τιμές, ονομάζονται ανθεκτικά μέτρα
Υπολογισμός του ενδοτεταρτημοριακού εύρους DCOVA Διάμεσος (Q2) X maximum minimum Q1 Q3 Παράδειγμα: 25% 25% 25% 25% 12 30 45 57 70 Ενδοτεταρτημοριακό εύρος = 57 – 30 = 27
Η περίληψη των πέντε αριθμών DCOVA Οι πέντε αριθμοί που περιγράφουν το κέντρο, την εξάπλωση και τη μορφή των δεδομένων είναι: Xsmallest First Quartile (Q1) Median (Q2) Third Quartile (Q3) Xlargest
Σχέσεις μεταξύ της περίληψης των πέντε αριθμών και της κατανομής σχήματος DCOVA Αριστερά Ασύμμετρη Συμμετρική Δεξιά Ασύμμετρη Διάμεσος – Xsmallest > Xlargest – Διάμεσος ≈ < Q1 – Xsmallest Xlargest – Q3 Διάμεσος – Q1 Q3 – Διάμεσος
Περίληψη των πέντε αριθμών και θηκόγραμμα DCOVA Το Θηκόγραμμα: Γραφική απεικόνιση των δεδομένων βάσει της περίληψης πέντε αριθμών: Xsmallest -- Q1 -- Διάμεσος -- Q3 -- Xlargest Παράδειγμα: 25% of data 25% 25% 25% of data of data of data Xsmallest Q1 Διάμεσος Q3 Xlargest
Περίληψη των πέντε αριθμών : Σχήμα των θηκογραμμάτων DCOVA Εάν τα δεδομένα είναι συμμετρικά γύρω από την διάμεσο, τότε το πλαίσιο και η κεντρική γραμμή είναι κεντραρισμένα μεταξύ των τελικών σημείων Ένα θηκόγραμμα μπορεί να παρουσιαστεί σε κάθετο ή οριζόντιο προσανατολισμό Xsmallest Q1 Διάμεσος Q3 Xlargest
Κατανομή σχήματος και το θηκόγραμμα DCOVA Αριστερά Ασύμμετρη Συμμετρική Δεξιά Ασύμμετρη Q1 Q2 Q3 Q1 Q2 Q3 Q1 Q2 Q3
Παράδειγμα θηκογράμματος DCOVA Παρακάτω είναι ένα θηκόγραμμα για τα ακόλουθα δεδομένα: 0 2 2 2 3 3 4 5 5 9 27 Τα δεδομένα είναι δεξιά ασύμμετρα, όπως απεικονίζει το σχέδιο Xsmallest Q1 Q2 / Διάμεσος Q3 Xlargest 0 2 3 5 27
Αριθμητικά περιγραφικά μέτρα για έναν πληθυσμό DCOVA Η περιγραφική στατιστική που αναφέρθηκε προηγουμένως περιγράφει ένα δείγμα, όχι τον πληθυσμό. Τα συνοπτικά μέτρα που περιγράφουν έναν πληθυσμό, ονομάζονται παράμετροι, σημειώνονται με Ελληνικά γράμματα. Σημαντικές παράμετροι του πληθυσμού είναι ο μέσος όρος του πληθυσμού, η διασπορά και η τυπική απόκλιση.
Αριθμητικά περιγραφικά μέτρα για έναν πληθυσμό: Ο μέσος όρος µ Αριθμητικά περιγραφικά μέτρα για έναν πληθυσμό: Ο μέσος όρος µ DCOVA Ο μέσος όρος του πληθυσμού είναι το άθροισμα των τιμών στον πληθυσμό διαιρούμενο με το μέγεθος του πληθυσμού, N Όπου μ = Μέσος όρος του πληθυσμού N = Μέγεθος του πληθυσμού Xi = iοστή τιμή της μεταβλητής X
Αριθμητικά περιγραφικά μέτρα για έναν πληθυσμό: Η διασπορά σ2 Αριθμητικά περιγραφικά μέτρα για έναν πληθυσμό: Η διασπορά σ2 DCOVA Μέσος όρος τετραγωνικών αποκλίσεων των τιμών από την μέση τιμή Διασπορά πληθυσμού: Όπου μ = μέσος όρος πληθυσμού N = μέγεθος πληθυσμού Xi = iοστή τιμή της μεταβλητής X
Αριθμητικά περιγραφικά μέτρα για έναν πληθυσμό: Η τυπική απόκλιση σ Αριθμητικά περιγραφικά μέτρα για έναν πληθυσμό: Η τυπική απόκλιση σ DCOVA Το πιο συχνά χρησιμοποιούμενο μέτρο μεταβλητότητας Εμφανίζει την μεταβλητότητα σχετικά με τον μέσο όρο Is the square root of the population variance Έχει τις ίδιες μονάδες με τα αρχικά δεδομένα Τυπική απόκλιση πληθυσμού:
Δειγματικά στατιστικά μέτρα σε σχέση με τις παραμέτρους του πληθυσμού DCOVA Μέτρο Παράμετρος Πληθυσμού Δειγματικά στατιστικά Μέσος όρος Διασπορά Τυπική Απόκλιση
Ο Εμπειρικός Κανόνας DCOVA Ο εμπειρικός κανόνας προσεγγίζει την μεταβλητότητα των δεδομένων σε μια κατανομή σχήματος καμπάνας Περίπου το 68% των δεδομένων σε κατανομή σχήματος καμπάνας είναι εντός μιας τυπικής απόκλισης του μέσου όρου ή 68%
Ο Εμπειρικός Κανόνας DCOVA Περίπου το 95% των δεδομένων σε μια κατανομή σχήματος καμπάνας βρίσκονται μέσα σε δύο τυπικές αποκλίσεις του μέσου όρου, ή µ ± 2σ Περίπου το 99,7% των δεδομένων σε μια κατανομή σχήματος καμπάνας βρίσκονται μέσα σε τρεις τυπικές αποκλίσεις του μέσου όρου, ή µ ± 3σ 99.7% 95%
Χρήση του Εμπειρικού Κανόνα DCOVA Ας υποθέσουμε ότι οι μεταβλητές των βαθμολογιών μαθηματικών τεστ SAT είναι σε σχήμα καμπάνας με μέσο όρο 500 και τυπική απόκλιση 90. Στη συνέχεια, Περίπου το 68% όλων των εξεταστέων βαθμολογήθηκε μεταξύ 410 και 590, (500 ± 90). Περίπου το 95% όλων των εξεταστέων βαθμολογήθηκε μεταξύ 320 και 680, (500 ± 180). Περίπου το 99.7% όλων των εξεταστέων βαθμολογήθηκε μεταξύ 230 και 770, (500 ± 270).
Κανόνας Chebyshev DCOVA Ανεξάρτητα από το πώς κατανέμονται τα δεδομένα, τουλάχιστον (1 - 1/k2) x 100% των τιμών θα εμπίπτουν στις τυπικές αποκλίσεις του μέσου όρου k (για k > 1) Παραδείγματα: (1 - 1/22) x 100% = 75% ….............. k=2 (μ ± 2σ) (1 - 1/32) x 100% = 88.89% ……….. k=3 (μ ± 3σ) Τουλάχιστον Εντός
Συζητάμε δύο μέτρα της σχέσης μεταξύ δύο αριθμητικών μεταβλητών Τα διαγράμματα διασποράς σας επιτρέπουν να εξετάσετε οπτικά τη σχέση μεταξύ δύο αριθμητικών μεταβλητών και τώρα θα συζητήσουμε δύο ποσοτικά μέτρα τέτοιων σχέσεων. Η Συνδιακύμανση Ο Συντελεστής Συσχέτισης
Η Συνδιακύμανση DCOVA Η συνδιακύμανση μετρά τη δύναμη της γραμμικής σχέσης μεταξύ δύο αριθμητικών μεταβλητών (X & Y) Η συνδιακύμανση δείγματος: Αφορά μόνο τη δύναμη της σχέσης Δεν υπάρχει αιτιώδης επίπτωση
Ερμηνεία της Συνδιακύμανσης DCOVA Συνδιακύμανση μεταξύ δύο μεταβλητών: cov(X,Y) > 0 X και Y τείνουν να κινούνται προς την ίδια κατεύθυνση cov(X,Y) < 0 X και Y τείνουν να κινούνται προς την αντίθετη κατεύθυνση cov(X,Y) = 0 X και Y είναι ανεξάρτητα Η συνδιακύμανση έχει μεγάλο ελάττωμα : Δεν είναι δυνατόν να προσδιοριστεί η σχετική ισχύς της σχέσης από το μέγεθος της συνδιακύμανσης
Συντελεστής Συσχέτισης DCOVA Μετρά τη σχετική ισχύ της γραμμικής σχέσης μεταξύ δύο αριθμητικών μεταβλητών Δείγμα συντελεστή συσχέτισης: όπου
Χαρακτηριστικά του Συντελεστή Συσχέτισης DCOVA Ο συντελεστής συσχέτισης του πληθυσμού αναφέρεται ως ρ. Ο συντελεστής συσχέτισης δείγματος αναφέρεται ως r. Είτε ρ είτε r έχουν τα ακόλουθα χαρακτηριστικά: Χωρίς μονάδες Εύρος μεταξύ -1 και 1 Όσο πιο κοντά στο -1, τόσο ισχυρότερη είναι η αρνητική γραμμική σχέση Όσο πιο κοντά στο 1, τόσο ισχυρότερη είναι η θετική γραμμική σχέση Όσο πιο κοντά στο 0, τόσο ασθενέστερη είναι η γραμμική σχέση
Διαγράμματα διασποράς δεδομένων δείγματος με διάφορους συντελεστές συσχέτισης Y DCOVA Y X X r = -1 r = -0,6 Y Y Y X X X r = +1 r = +0,3 r = 0
Ο Συντελεστής Συσχέτισης χρησιμοποιώντας τη λειτουργία Microsoft Excel DCOVA
Ο Συντελεστής Συσχέτισης χρησιμοποιώντας το εργαλείο ανάλυσης δεδομένων του Microsoft Excel DCOVA Επιλέξτε Data Επιλέξτε Data Analysis Επιλέξτε Correlation & κάντε κλίκ στο OK
Ο Συντελεστής Συσχέτισης χρησιμοποιώντας Microsoft Excel DCOVA Εισάγετε εύρος δεδομένων και επιλέξτε τις κατάλληλες επιλογές Κάντε κλίκ στο OK για το αποτέλεσμα
Ερμηνεία του συντελεστή συσχέτισης χρησιμοποιώντας το Microsoft Excel DCOVA r = 0,733 Υπάρχει μια σχετικά ισχυρή θετική γραμμική σχέση μεταξύ του test score #1 και τουτtest score #2. Οι φοιτητές που σημείωσαν υψηλή βαθμολογία στο πρώτο τεστ τείνουν να σημειώνουν υψηλή βαθμολογία στο δεύτερο τέστ.
Παγίδες στα αριθμητικά περιγραφικά μέτρα DCOVA Η ανάλυση δεδομένων είναι αντικειμενική Πρέπει να αναφέρει τα συνοπτικά μέτρα που περιγράφουν και γνωστοποιούν καλύτερα τις σημαντικές πτυχές του συνόλου δεδομένων Η ερμηνεία των δεδομένων είναι υποκειμενική Θα πρέπει να γίνεται με δίκαιο, ουδέτερο και σαφή τρόπο
Ηθικές σκέψεις DCOVA Αριθμητικά περιγραφικά μέτρα : Πρέπει να τεκμηριώνουν τόσο καλά όσο και κακά αποτελέσματα Πρέπει να παρουσιάζονται με δίκαιο, αντικειμενικό και ουδέτερο τρόπο Δεν θα πρέπει να χρησιμοποιούν ακατάλληλα περιληπτικά μέτρα για τη στρέβλωση των γεγονότων
Περίληψη Κεφαλαίου Σε αυτό το κεφάλαιο συζητήσαμε : Την περιγραφή των ιδιοτήτων της κεντρικής τάσης, της μεταβλητότητας και του σχήματος στα αριθμητικά δεδομένα Κατασκευή και ερμηνεία ενός θηκογράμματος Υπολογισμός περιγραφικών περιληπτικών μέτρων για έναν πληθυσμό Υπολογισμός της συνδιακύμανσης και του συντελεστή συσχέτισης