Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Keller: Stats for Mgmt & Econ, 7th Ed Περιγραφική Στατιστική

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Keller: Stats for Mgmt & Econ, 7th Ed Περιγραφική Στατιστική"— Μεταγράφημα παρουσίασης:

1 Keller: Stats for Mgmt & Econ, 7th Ed Περιγραφική Στατιστική
April 5, 2017 Κεφάλαιο 2 Περιγραφική Στατιστική Copyright © 2006 Brooks/Cole, a division of Thomson Learning, Inc.

2 Εισαγωγή & Ανακεφαλαίωση …
Η Περιγραφική Στατιστική περιλαμβάνει την διευθέτηση, την περίληψη, και την παρουσίαση ενός συνόλου δεδομένων με τέτοιον τρόπο ώστε χρήσιμη πληροφόρηση θα παράγεται. Οι μέθοδοι της κάνουνε χρήση γραφικών τεχνικών και αριθμητικών μέτρων περιγραφής (όπως μέσες τιμές) για να συνοψίσουμε και να παρουσιάσουμε τα δεδομένα. Στατιστική Δεδομένα Πληροφόρηση

3 Πληθυσμοί και Δείγματα
Πληθυσμός Δείγμα Υποσύνολο Τα γραφικά και οι πίνακες που παρουσιάζονται εδώ εφαρμόζονται σε ολόκληρους τους πληθυσμούς και σε ολόκληρα τα δείγματα που επιλέγονται από τους πληθυσμούς.

4 Ορισμοί… Η μεταβλητή είναι κάποιο χαρακτηριστικό του πληθυσμού ή του δείγματος. Π.χ. βαθμοί φοιτητών Τυπικά σημαίνονται με κεφαλαία γράμματα: X, Y, Z… Οι τιμές της μεταβλητής είναι το εύρος των πιθανών τιμών για μία μεταβλητή. Π.χ. βαθμοί φοιτητών (0..100) Δεδομένα είναι οι τιμές που παρατηρούνται από μία μεταβλητή. Π.χ. βαθμοί φοιτητών : {67, 74, 71, 83, 93, 55, 48}

5 Τύποι Δεδομένων & Πληροφόρηση
Τα δεδομένα (τουλάχιστον για επιδιώξεις της Στατιστικής) χωρίζονται σε τρεις βασικές κατηγορίες: Διαστημικά δεδομένα Ονομαστικά δεδομένα Διατακτικά δεδομένα

6 Διαστημικά δεδομένα … Διαστημικά δεδομένα
• Πραγματικοί αριθμοί, π.χ. ύψη, βάρη, τιμές, κ.λ.π. • Επίσης αναφέρονται και ως ποσοτικά ή αριθμητικά. Αριθμητικές πράξεις μπορούν να εκτελεστούν σε διαστημικά δεδομένα, έτσι κάνει νόημα να μιλάμε σχετικά με 2*ύψος, ή Τιμή + $1, και ου το καθεξής.

7 Ονομαστικά δεδομένα… Ονομαστικά δεδομένα
• Οι τιμές των ονομαστικών δεδομένων είναι κατηγορίες. Π.χ. απαντήσεις σε ερωτήσεις όπως οικογενειακή κατάσταση, κωδικοποιούνται όπως: Ελεύθερος = 1, Παντρεμένος = 2, Διαζευγμένος = 3, Χήρος = 4 Επειδή οι αριθμοί είναι αυθαίρετοι, οι αριθμητικές πράξεις δεν κάνουν νόημα (π.χ. είναι Χήρος ÷ 2 = Παντρεμένος;!) Τα ονομαστικά δεδομένα επίσης καλούνται ποιοτικά ή κατηγορικά.

8 Διατακτικά Δεδομένα… Διατακτικά Δεδομένα εμφανίζονται να είναι κατηγορικά από την φύση τους, αλλά οι τιμές τους έχουν μία τάξη, υπάρχει μία κατάταξη σε αυτά: Π.χ. το σύστημα αξιολόγησης για τα μαθήματα του πανεπιστημίου: ανεπαρκές = 1, μέτριο = 2, καλό = 3, πολύ καλό = 4, άριστο = 5 Παρόλο που ακόμα δεν κάνει νόημα να εκτελούμε αριθμητικές πράξεις σε αυτά τα δεδομένα (π.χ. ισχύει 2*μέτριο = πολύ καλό;!), μπορούμε να πούμε πράγματα όπως: άριστο > ανεπαρκές ή μέτριο < πολύ καλό Δηλαδή, η τάξη διατηρείται ανεξάρτητα από τι αριθμούς θα αναθέσουμε σε κάθε κατηγορία.

9 Τύποι των Δεδομένων & Πληροφόρηση …
Τύποι των Δεδομένων & Πληροφόρηση … Δεδομένα Κατηγορικά; Διαστημικά Δεδομένα Όχι Ναι Διατακτικά; Διατακτικά Δεδομένα Ναι Κατηγορικά Δεδομένα Όχι Ονομαστικά Δεδομένα

10 Π.χ. Παρουσίαση βαθμών φοιτητών …
Δεδομένα Κατηγορικά; Διαστημικά Δεδομένα π.χ. {0..100} Όχι Ναι Διατακτικά; Διατακτικά Δεδομένα π.χ. {F, D, C, B, A} Ναι Κατηγορικά Δεδομένα Όχι Κατάταξε την σειρά των δεδομένων Ονομαστικά Δεδομένα π.χ. {Βαθμοί στα Μαθηματικά | Βαθμοί στα Αγγλικά} Χωρίς κατάταξη στην σειρά των δεδομένων

11 Ιεραρχία των Δεδομένων …
Διαστημικά Οι τιμές είναι πραγματικοί αριθμοί. Όλοι οι υπολογισμοί επιτρέπονται. Τα δεδομένα μπορούμε να τα αναλύσουμε ως ονομαστικά ή διατακτικά. Διατακτικά Οι τιμές πρέπει να παριστάνουν την ταξινομημένη τάξη των δεδομένων. Μόνο υπολογισμοί που σχετίζονται με την κατάταξη των δεδομένων επιτρέπονται. Τα δεδομένα μπορούμε να τα αναλύσουμε ως ονομαστικά αλλά όχι ως διαστημικά. Ονομαστικά Οι τιμές είναι αυθαίρετοι αριθμοί που παριστάνουν κατηγορίες. Μόνο υπολογισμοί που σχετίζονται με την συχνότητα των δεδομένων επιτρέπονται. Τα δεδομένα δεν μπορούμε να τα αναλύσουμε ως διαστημικά ή διατακτικά.

12 Γραφικά & Πίνακες για Ονομαστικά Δεδομένα …
Ο μόνος επιτρεπόμενος υπολογισμός για ονομαστικά δεδομένα είναι να καταμετρήσουμε τη συχνότητα για κάθε τιμή της μεταβλητής. Μπορούμε να συνοψίσουμε τα δεδομένα σε έναν πίνακα ο οποίος παρουσιάζει τις κατηγορίες με τις συχνότητες τους, καλώντας τον πίνακας ή κατανομή συχνοτήτων. Ο πίνακας ή η κατανομή σχετικών συχνοτήτων καταγράφει τις κατηγορίες και την αναλογία με την οποία η καθεμία εμφανίζεται.

13 Πίνακας Συχνοτήτων ή Σχετικών Συχνοτήτων
Περιοχή Συχνότητα Σχετική Συχνότητα

14 Ονομαστικά Δεδομένα (Συχνότητα)
Ραβδόγραμμα (Bar Charts) Περιοχή Εργασίας Τα ραβδογράμματα συχνά χρησιμοποιούνται για να παρουσιάσουν συχνότητες

15 Ονομαστικά Δεδομένα (Σχετική Συχνότητα)
Κυκλικό Διάγραμμα (Pie Chart) Τα Κυκλικά Διαγράμματα δείχνουν σχετικές συχνότητες …

16 Ονομαστικά Δεδομένα Και τα τρία δείχνουν την ίδια πληροφόρηση,
Περιοχή Συχνότητα Σχετική Συχνότητα Και τα τρία δείχνουν την ίδια πληροφόρηση, (βασισμένα στα ίδια δεδομένα). Απλά διαφορετική παρουσίαση. Ραβδόγραμμα Κυκλικό Διάγραμμα

17 Γραφικές Τεχνικές για Διαστημικά Δεδομένα
Υπάρχουν αρκετοί γραφικοί μέθοδοι οι οποίοι χρησιμοποιούνται όταν τα δεδομένα είναι διαστημικά (π.χ. αριθμητικά, όχι κατηγορικά). Η πιο σημαντική από αυτές τις γραφικές μεθόδους είναι το ιστόγραμμα. Το ιστόγραμμα δεν είναι μόνο μία αποτελεσματική γραφική τεχνική η οποία χρησιμοποιείται για να συνοψίσει διαστημικά δεδομένα, αλλά επίσης χρησιμοποιείται και για να εξηγήσουμε πιθανότητες.

18 Κατασκευάζοντας Ένα Ιστόγραμμα …
Συλλέξτε τα Δεδομένα  Δημιουργήστε μία κατανομή συχνοτήτων για τα δεδομένα … Πως; α) Καθορίστε τον αριθμό των τάξεων … Πως; -> Κοιτάξτε τον παρακάτω πίνακα Αριθμός των Παρατηρήσεων Αριθμός Τάξεων < 50 5-7 50-200 7-9 9-10 10-11 11-13 13-17 > 50000 17-20 Με 200 παρατηρήσεις, θα πρέπει να έχουμε μεταξύ 7 & 10 τάξεις… Εναλλακτικά, μπορούμε να χρησιμοποιήσουμε τον τύπο του Sturges: Αριθμός των τάξεων = log10 (n)

19 Κατασκευάζοντας Ένα Ιστόγραμμα … (συνεχεία)
Κατασκευάζοντας Ένα Ιστόγραμμα … (συνεχεία) Συλλέξτε τα Δεδομένα  Δημιουργήστε μία κατανομή συχνοτήτων για τα δεδομένα … Πως; α) Καθορίστε τον αριθμό των τάξεων [8]  β) Καθορίστε το μήκος της κάθε τάξης … Κοιτάξτε το εύρος των δεδομένων, δηλαδή, Εύρος = Μέγιστη Παρατήρηση – Ελάχιστη Παρατήρ. Εύρος = $ – $0 = $119.63 Τότε κάθε τάξη θα έχει μήκος: Εύρος ÷ (# τάξεις) = ÷ 8 ≈ 15

20 Κατασκευάζοντας Ένα Ιστόγραμμα …(συνεχεία)
Συλλέξτε τα Δεδομένα  Δημιουργήστε μία κατανομή συχνοτήτων για τα δεδομένα … Πως; α) Καθορίστε τον αριθμό των τάξεων [8]  β) Καθορίστε το μήκος της κάθε τάξης [15]  γ) Τοποθέτησε τα δεδομένα στις τάξεις … Κάθε παρατήρηση μπορεί να ανήκει σε μόνο μία τάξη, Οι τάξεις περιέχουν παρατηρήσεις κάτω φραγμάτων < και ≤ άνω φραγμάτων.

21 Κατασκευάζοντας Ένα Ιστόγραμμα … συνεχεία)
Συλλέξτε τα Δεδομένα  Δημιουργήστε μία κατανομή συχνοτήτων για τα δεδομένα  Φράγματα τάξεων Συχνότητα 3) Σχεδιάστε ένα ιστόγραμμα …

22 Κατασκευάζοντας Ένα Ιστόγραμμα …(συνεχεία)
Συλλέξτε τα Δεδομένα  Δημιουργήστε μία κατανομή συχνοτήτων για τα δεδομένα  Σχεδιάστε ένα ιστόγραμμα … Ιστόγραμμα Μακροπρόθεσμων Λογαριασμών Φράγματα τάξεων Συχνότητα Λογαριασμοί

23 Ιστόγραμμα Μακροπρόθεσμων
Ερμηνεία… Ιστόγραμμα Μακροπρόθεσμων Λογαριασμών Σχεδόν μισοί (71+37=108) από τους λογαριασμούς είναι «μικροί», π.χ. μικρότεροι από $30 Λογαριασμοί ( =60)÷200 = 30% π.χ. σχεδόν ‘ένα τρίτο των τηλεφωνικών λογαριασμών είναι $90 ή περισσότερο. Υπάρχουνε μόνο μερικοί τηλεφωνικοί λογαριασμοί στη μέση.

24 Μορφές Ιστογραμμάτων …
Συμμετρία Ένα ιστόγραμμα λέγεται να είναι συμμετρικό εάν, όταν τραβήξουμε μία κάθετη γραμμή στο κέντρο του ιστογράμματος, τα δύο χωρισμένα κομμάτια είναι ακριβώς τα ίδια σε μορφή και σε μέγεθος: Frequency Frequency Frequency Variable Variable Variable

25 Μορφές Ιστογραμμάτων …
Λοξότητα Ένα λοξό ιστόγραμμα είναι αυτό που έχει μια εκτεταμένη μακριά ουρά προς τα αριστερά ή προς τα δεξιά: Frequency Frequency Variable Variable Λοξή προς τα Δεξιά Λοξή προς τα Αριστερά

26 Μορφές Ιστογραμμάτων …
Κορυφές Ένα μονόκορφο ιστόγραμμα είναι ένα ιστόγραμμα με μία κορυφή, ενώ ένα δίκορφο ιστόγραμμα είναι ένα ιστόγραμμα με δύο κορυφές: Δίκορφο Μονόκορφο Συχνότητα Συχνότητα Μεταβλητή Μεταβλητή Η κλάση κορυφής είναι η κλάση με τον μεγαλύτερο αριθμό παρατηρήσεων

27 Μορφές Ιστογραμμάτων …
Σχήμα Καμπάνας Μία ειδική περίπτωση ενός συμμετρικού και μονόκορφου ιστογράμματος είναι αυτό με το σχήμα της καμπάνας: Πολλές στατιστικές τεχνικές απαιτούν ότι ο πληθυσμός έχει το σχήμα της καμπάνας. Σχεδιάζοντας το ιστόγραμμα βοηθάει να επαληθεύσουμε την μορφή του πληθυσμού υπό εξέταση. Συχνότητα Μεταβλητή Σχήμα Καμπάνας

28 Σύγκριση Ιστογραμμάτων …
Keller: Stats for Mgmt & Econ, 7th Ed April 5, 2017 Σύγκριση Ιστογραμμάτων … Συγκρίνουμε και αντιπαραθέτουμε τα ακόλουθα ιστογράμματα βασισμένοι σε δεδομένα Παράδειγμα 2.6 & Παράδειγμα 2.7. Τα δύο μαθήματα έχουν διαφορετικές μορφές ιστογραμμάτων … μονόκορφο & δίκορφο Το εύρος των βαθμών (στενότερο | πλατύτερο) Copyright © 2006 Brooks/Cole, a division of Thomson Learning, Inc.

29 Απεικόνιση Στελεχών-Φύλλων …
Διατηρεί πληροφορίες σχετικά με ατομικές παρατηρήσεις που θα χανόταν με την δημιουργία ενός ιστογράμματος. Διασπάστε κάθε παρατήρηση σε δύο μέρη, σε ένα στέλεχος και σε ένα φύλλο. Π.χ. Τιμή Παρατήρησης: 42.19 Υπάρχουν αρκετοί τρόποι να την διασπάσουμε … Μπορούμε να την διασπάσουμε στο κόμμα: Ή να την διασπάσουμε στην θέση των «δεκάδων» (ενώ στρογγυλοποιούμε στον κοντινότερο ακέραιο, στην θέση «μονάδων») Στέλεχος Φύλλο 42 19 4 2

30 Απεικόνιση Στελεχών-Φύλλων …
Συνεχίστε την διαδικασία για όλες τις παρατηρήσεις. Ύστερα χρησιμοποιήστε τα «φύλλα» για τις ομάδες και κάθε φύλλο γίνεται μέρος του ιστογράμματος, π.χ. στο παρακάτω παράδειγμά: Στελέχη Φύλλα Έτσι, έχουμε ακόμα πρόσβαση στις τιμές των αρχικών δεδομένων!

31 Ιστόγραμμα και Στελέχη & Φύλλα …

32 Η Καμπύλη S … Είναι ένα γράφημα της κατανομή αθροιστικών συχνοτήτων.
Πρώτον, από την κατανομή συχνοτήτων που αναφέραμε πριν, υπολογίζουμε τις σχετικές συχνότητες: Σχετική Συχνότητα = # των παρατηρήσεων σε μία ομάδα Συνολικός # των παρατηρήσεων

33 Σχετικές Συχνότητές … Για παράδειγμα, έχουμε 71 παρατηρήσεις στην πρώτη τάξη (τηλεφωνικοί λογαριασμοί από $0.00 ως $15.00). Έτσι, η σχετική συχνότητα για αυτήν την τάξη είναι 71 ÷ 200 (ο συνολικός αριθμός λογαριασμών) = (ή 35.5%)

34 Η Καμπύλη S … Είναι ένα γράφημα μιας κατανομής αθροιστικών συχνοτήτων.
Κατασκευάζουμε μία καμπύλη σε τρία βήματα … 1) Υπολογίστε σχετικές συχνότητες.  2) Υπολογίστε αθροιστικές σχετικές συχνότητες προσθέτοντας στην σχετική συχνότητα της τρέχων ομάδας την αθροιστική σχετική συχνότητα της προηγούμενης ομάδας. (Για την πρώτη ομάδα, η αθροιστική σχετική συχνότητα είναι απλά ίση με την σχετική συχνότητα)

35 Αθροιστικές Σχετικές Συχνότητες …
Παράδειγμα Πρώτη τάξη… Επόμενη τάξη: =.540 : Τελευταία τάξη: =1.00

36 Η Καμπύλη S … Είναι ένα γράφημα μιας κατανομής αθροιστικών συχνοτήτων.
1) Υπολογίστε σχετικές συχνότητες.  2) Υπολογίστε αθροιστικές σχετικές συχνότητες.  3) Σχεδιάστε σε γράφημα τις αθροιστικές σχετικές συχνότητες …

37 Η Καμπύλη S … Η καμπύλη S μπορεί να χρησιμοποιηθεί για να απαντήσει ερωτήσεις όπως: Τι ποσό τηλεφώνου είναι το 50ο ποσοστημόριο; “περίπου $35”

38 Δύο Ονομαστικές Μεταβλητές …
Μέχρι τώρα έχουμε κοιτάξει σε τεχνικές πινάκων και γραφικές για μία μεταβλητή (για ονομαστικά ή για διαστημικά δεδομένα). Ένας πίνακας συνάφειας χρησιμοποιείται για να περιγράψει την σχέση μεταξύ δύο ονομαστικών μεταβλητών. Ένας πίνακας συνάφειας καταγράφει την συχνότητα για κάθε παρατήρηση των τιμών των δύο μεταβλητών …

39 Πίνακας Συνάφειας … Παράδειγμα:, ένα δείγμα αναγνωστών εφημερίδων ρωτήθηκε να αναφέρει ποια εφημερίδα διαβάζουν: Globe και Mail (1), Post (2), Star (3), ή Sun (4), και να υποδείξουν αν ήταν εργάτες (blue-collar worker) (1), υπάλληλοι (white-collar worker) (2), ή επαγγελματίες (professional) (3). Αυτή η απάντηση των αναγνωστών βρίσκετε ως μέρος του συνολικού αριθμού στον πίνακα συνάφειας …

40 Πίνακας Συνάφειας … ανόμοια παραπλήσια
Ερμηνεία: Η σχετική συχνότητα στις στήλες 2 & 3 είναι παραπλήσιες, αλλά υπάρχουν μεγάλες διαφορές ανάμεσα στις στήλες 1 και 2 και ανάμεσα στις στήλες 1 και 3. Αυτό μας λέει ότι οι εργάτες έχουν την τάση να διαβάζουν διαφορετικές εφημερίδες από τους υπαλλήλους και τους επαγγελματίες, και οι υπάλληλοι και οι επαγγελματίες έχουν κοινές προτιμήσεις για εφημερίδες. παραπλήσια ανόμοια

41 Γράφημα για τη Σχέση Μεταξύ Δύο Ονομαστικών μεταβλητών …
Χρησιμοποιούμε τα δεδομένα από τον πίνακα συνάφειας για να δημιουργήσουμε τις ράβδους (μπάρες) … Οι επαγγελματίες κλίνουν να διαβάζουν την Globe & Mail περισσότερο από το διπλάσιο από ότι την Star ή την Sun…

42 Γράφημα για τη Σχέση Μεταξύ Δύο Διαστημικών μεταβλητών …
Πηγαίνοντας από ονομαστικά σε διαστημικά δεδομένα, μας ενδιαφέρει συχνά πως δύο διαστημικές μεταβλητές συσχετίζονται. Για να εξετάσουμε αυτή τη σχέση, κατασκευάζουμε ένα διάγραμμα διασποράς (scatter diagram ή scatterplot), το οποίο σχεδιάζει την μία μεταβλητή σε σχέση με την άλλη. Η ανεξάρτητη μεταβλητή συμβολίζεται με X και συνήθως τοποθετείται στον οριζόντιο άξονα, ενώ η άλλη μεταβλητή καλείται εξαρτημένη και παριστάνεται με Y στον κάθετο άξονα.

43 Διάγραμμα Διασποράς … Παράδειγμά: Ένας μεσίτης σπιτιών επιθυμεί να ξέρει σε ποιο βαθμό η τιμή αγοράς συσχετίζεται με το μέγεθος του σπιτιού … Συλλέξτε τα δεδομένα  Καθορίστε την ανεξάρτητη μεταβλητή (X – μέγεθος σπιτιού) και την εξαρτημένη μεταβλητή (Y – τιμή αγοράς)  Χρησιμοποιήστε το Excel για να σχεδιάσετε ένα «διάγραμμα διασποράς» (scatter diagram) …

44 Διάγραμμα Διασποράς … Φαίνεται ότι πράγματι υπάρχει μία σχέση, δηλαδή, όσο ποιο μεγάλο είναι το μέγεθος του σπιτιού τόσο υψηλότερη είναι η τιμή αγοράς …

45 Διάγραμμα Διασποράς … Γραμμικότητα και Κατεύθυνση είναι δύο έννοιες που μας ενδιαφέρουν Θετική Γραμμική Σχέση Αρνητική Γραμμική Σχέση Ασθενή ή Μη-γραμμική Σχέση

46 Δεδομένα Χρονολογικών Σειρών …
Παρατηρήσεις οι οποίες παίρνονται την ίδια χρονική στιγμή ονομάζονται διαστρωματικά δεδομένα. Παρατηρήσεις οι οποίες παίρνονται σε διαδοχικές χρονικές στιγμές καλούνται δεδομένα χρονολογικών σειρών. Δεδομένα χρονολογικών σειρών παρουσιάζονται με χρονοδιαγράμματα (line chart), τα οποία σχεδιάζουν την τιμή της μεταβλητής στον κάθετο άξονα σε σχέση ως προς τις χρονικές περιόδους στον οριζόντιο άξονα.

47 Χρονοδιάγραμμα … Σχεδιάζουμε τα συνολικά ποσά φόρων εισοδημάτων (income tax) των ΗΠΑ για τα έτη (year) 1987 μέχρι 2002…

48 Χρονοδιάγραμμα … Από το ’87 ως το ’92, οι φόροι ήταν σχεδόν στάσιμοι. Ξεκινώντας το ’93, υπήρχε μία ταχεία αύξηση στους φόρους μέχρι το Τελικά, υπήρχε μία κάθοδο το

49 Περίληψη I… Παράγοντες που Προσδιορίζουν Πότε να Χρησιμοποιούμε Πίνακες Συχνοτήτων και Σχετικών Συχνοτήτων, Ραβδογράμματα και Κυκλικά Διαγράμματα 1. Στόχος: Να περιγράψουμε δεδομένα μιας μεταβλητής. 2. Τύπος Δεδομένων: Ονομαστικά Παράγοντες που Προσδιορίζουν Πότε να Χρησιμοποιούμε Ιστόγραμμα, Καμπύλη S, ή Απεικόνιση Στελεχών-Φύλλων 2. Τύπος Δεδομένων: Διαστημικά Παράγοντες που Προσδιορίζουν Πότε να Χρησιμοποιούμε Πίνακες Συνάφειας, ή Ραβδογράμματα 1. Στόχος: Να περιγράψουμε την σχέση δύο μεταβλητών. Παράγοντες που Προσδιορίζουν Πότε να Χρησιμοποιούμε ένα Διάγραμμα Διασποράς

50 Σχέση Μεταξύ Δύο Μεταβλητών
Περίληψη II… Διαστημικά Δεδομένα Ονομαστικά Δεδομένα Δεδομένα μιας Μεταβλητής. Ιστόγραμμα, Καμπύλη S, ή Απεικόνιση Στελεχών-Φύλλων Πίνακες Συχνοτήτων και Σχετικών Συχνοτήτων, Ραβδογράμματα και Κυκλικά Διαγράμματα Σχέση Μεταξύ Δύο Μεταβλητών Διάγραμμα Διασποράς Πίνακες Συνάφειας, ή Ραβδογράμματα

51 Περισσότερα σε Περιγραφική Στατιστική
Θυμηθείτε, που χρησιμοποιήσαμε γραφικές τεχνικές για να περιγράψουμε δεδομένα: Ενώ αυτό το ιστόγραμμα δίνει κάποια νέα πληροφόρηση, άλλα ενδιαφέροντα ερωτήματα (π.χ. ποιος είναι ο μέσος όρος της τάξης;) δεν απαντιέται.

52 Αριθμητικές Περιγραφικές Τεχνικές …
Μέτρα Κεντρικής Θέσης Μέση Τιμή (Mean), Διάμεσος (Median), Κορυφή (Mode) Μέτρα Μεταβλητότητας Εύρος (Range), Τυπική Απόκλιση (Standard Deviation), Διακύμανση (Variance), Συντελεστής Μεταβλητότητας (Coefficient of Variation) Μέτρα Σχετικής Τοποθεσίας Ποσοστημόρια (Percentile), Τεταρτημόρια (Quartile) Μέτρα Γραμμικής Σχέσης Συνδιακύμανση (Covariance), Συσχέτιση (Correlation), Ευθεία Ελάχιστων Τετραγώνων (Least Square Line)

53 Μέτρα Κεντρικής Θέσης …
Η αριθμητική μέση τιμή, μέσος όρος, η απλά μέση τιμή, είναι το πιο δημοφιλή και χρήσιμο μέτρο κεντρικής θέσης. Υπολογίζεται απλά προσθέτοντας όλες τις παρατηρήσεις και διαιρώντας με τον συνολικό αριθμό των παρατηρήσεων: Άθροισμα των Παρατηρήσεων Αριθμός των Παρατηρήσεων Μέση Τιμή =

54 Συμβολισμός … Όταν αναφερόμαστε στον αριθμό των παρατηρήσεων ενός πληθυσμού, χρησιμοποιούμε το κεφαλαίο γράμμα N. Όταν αναφερόμαστε στον αριθμό των παρατηρήσεων ενός δείγματος, χρησιμοποιούμε το μικρό γράμμα n. Η μέση τιμή του πληθυσμού συμβολίζεται με το ελληνικό γράμμα μ: Η μέση τιμή του δείγματος συμβολίζεται με:

55 Συμβολισμός … Πληθυσμός Δείγμα Μέγεθος N n Μέση Τιμή

56 Αριθμητική Μέση Τιμή … Μέση Τιμή Δείγματος Μέση Τιμή Πληθυσμού

57 Συμβολισμός … Πληθυσμός Δείγμα Μέγεθος N n Μέση Τιμή

58 Αριθμητική Μέση Τιμή … …είναι κατάλληλη για να περιγράψουμε δεδομένα μετρήσεων, π.χ. ύψη ανθρώπων, βαθμοί από εξετάσεις, κλπ. …επηρεάζεται σοβαρά από «ακραίες τιμές». Π.χ. εφόσον ένας εκατομμυριούχος μετακομίζει σε μία γειτονιά, ο μέσο οικογενειακό εισόδημα αυξάνει πολύ από πριν και δίνει λανθασμένη εντύπωση.

59 Μέτρα Κεντρικής Θέσης …
Η διάμεσος υπολογίζεται βάζοντας όλες τις παρατηρήσεις στην σειρά. Η μεσαία παρατήρηση είναι η διάμεσος. Δεδομένα: {0, 7, 12, 5, 14, 8, 0, 9, 22} N=9 (μονός αριθμός) Τα ταξινομούμε από το μικρότερο ως προς το μεγαλύτερο, και βρίσκουμε την κεντρική τιμή: Δεδομένα: {0, 7, 12, 5, 14, 8, 0, 9, 22, 33} N=10 (ζυγός) Τα ταξινομούμε από το μικρότερο ως προς το μεγαλύτερο, και υπάρχουν δύο κεντρικές τιμές (8 και 9) από τις οποίες παίρνουμε τον μέσο όρο Διάμεσος = (8+9)÷2 = 8.5 Οι διάμεσοι του δείγματος και του πληθυσμού υπολογίζονται κατά τον ίδιο τρόπο.

60 Μέτρα Κεντρικής Θέσης …
Η κορυφή ενός συνόλου παρατηρήσεων είναι η τιμή που εμφανίζεται πιο συχνά. Ένα σύνολο δεδομένων ενδέχεται να έχει μία κορυφή ή δύο, ή περισσότερες κορυφές. Η κορυφή είναι χρήσιμη για όλους τους τύπους δεδομένων, και βασικά για ονομαστικά δεδομένα. Οι κορυφές του δείγματος και του πληθυσμού υπολογίζονται κατά τον ίδιο τρόπο.

61 Κορυφή … Π.χ. Δεδομένα: {0, 7, 12, 5, 14, 8, 0, 9, 22, 33} N=10
Ποια παρατήρηση εμφανίζεται ποιο συχνά; Η κορυφή για αυτό το σύνολο δεδομένων είναι 0. Πως αυτό είναι ένα μέτρο κεντρικής θέσης; Η κορυφή Συχνότητα Μεταβλητή

62 =MODE(range) στο Excel…
Σημειώστε: εάν χρησιμοποιείται Excel για να αναλύσετε τα δεδομένα σας τα οποία είναι με αρκετές κορυφές (όχι απλά μία κορυφή), το Excel απλά υπολογίζει την μικρότερη από αυτές. Θα πρέπει να χρησιμοποιήσουμε άλλες τεχνικές (π.χ. ιστογράμματα) για να καθορίσετε εάν τα δεδομένα σας είναι δίκορφα (bimodal), τρίκορφα (trimodal), etc.

63 Μέση τιμή, Διάμεσος … Εάν η κατανομή είναι συμμετρική, η μέση τιμή, και η διάμεσος συμπίπτουν … διάμεσος Μέση τιμή

64 Μέση τιμή, Διάμεσος, … Εάν η κατανομή είναι ασύμμετρη, ας πούμε λοξή προς τα αριστερά ή προς τα δεξιά, τα τρία μέτρα θα διαφέρουν, π.χ. διάμεσος Μέση τιμή

65 Μέση τιμή, Διάμεσος … Εάν τα δεδομένα είναι συμμετρικά, η μέση τιμή, και η διάμεσος θα είναι προσεγγιστικά τα ίδια. Εάν τα δεδομένα είναι πολύκορφα, αναφέρεται την μέση τιμή, την διάμεσος, και/ή την κορυφή για κάθε υποομάδα που αντιστοιχεί σε μία κορυφή. Εάν τα δεδομένα είναι λοξά αναφέρεται την διάμεσος.

66 Μέση τιμή, Διάμεσος, Κορυφές για Διατακτικά & Ονομαστικά Δεδομένα…
Για διατακτικά και ονομαστικά δεδομένα ο υπολογισμός της μέσης τιμής δεν είναι έγκυρος. Η Διάμεσος είναι κατάλληλη για διατακτικά δεδομένα. Για ονομαστικά δεδομένα, ο υπολογισμός της κορυφής είναι χρήσιμος για να καθορίσει την μεγαλύτερη συχνότητα αλλά όχι την «κεντρική θέση».

67 Γεωμετρικός Μέσος … Ο γεωμετρικός μέσος χρησιμοποιείται όταν η μεταβλητή είναι ρυθμός αύξησης (growth rate) ή ρυθμός αλλαγής (rate of change), όπως η τιμή μιας επένδυσης για διάφορες χρονικές περιόδους. Εάν Ri είναι ο ρυθμός απόδοσης στην περίοδο i (i = 1, 2, …, n), τότε Ο γεωμετρικός μέσος Rg των αποδόσεων R1, R2, … Rn ορίζεται ως: Λύνοντας ως προς Rg παράγουμε τον ακόλουθο τύπο:

68 Παράδειγμα από τα Χρηματοοικονομικά …
Υποθέστε μία διετή επένδυση των $1,000 αυξάνει κατά 100% σε $2,000 την πρώτη χρονιά, αλλά χάνει 50% από $2,000 πίσω στά $1,000 την δεύτερη χρονιά. Ποια είναι η μέση απόδοση; Χρησιμοποιώντας την αριθμητική μέση τιμή, έχουμε Αυτό θα σήμαινε ότι θα είχαμε $1,250 στο τέλος της επένδυσης, όχι $1,000. Λύνοντας τον γεωμετρικό μέσο δίνει απόδοση 0%, η οποία είναι λογική. Παριστάνει το γινόμενο όρων…

69 Μέτρα Κεντρικής Θέσης • Περίληψη …
Μέτρα Κεντρικής Θέσης • Περίληψη … Υπολογίστε την Μέση Τιμή στην Περιγραφή κεντρικής θέσης ενός συνόλου διαστημικών δεδομένων Υπολογίστε την Διάμεσο στην Περιγραφή κεντρικής θέσης ενός συνόλου διαστημικών ή διατακτικών δεδομένων Υπολογίστε την Κορυφή στην Περιγραφή κεντρικής θέσης ενός συνόλου ονομαστικών δεδομένων Υπολογίστε τον Γεωμετρικό Μέσο στην Περιγραφή κεντρικής θέσης ενός συνόλου διαστημικών δεδομένων που δείχνουν ρυθμό αύξησης, ποσοστά, αποδόσεις, κλπ

70 Μέτρα Μεταβλητότητας …
Τα μέτρα της κεντρικής θέσης δεν μας δίνουν όλα τα χαρακτηριστικά για μία κατανομή. Δηλαδή, πόσο πολύ είναι οι παρατηρήσεις απλωμένες γύρω από κέντρο; Για παράδειγμα, βαθμοί από δύο διαφορετικές τάξεις δίνονται. Η μέση τιμή (=50) είναι η ίδια και για τις δύο τάξεις … Αλλά, η κόκκινη τάξη έχει μεγαλύτερη μεταβλητότητα από την μπλε τάξη.

71 Εύρος … Το εύρος είναι το απλούστερο μέτρο μεταβλητότητας, υπολογίζεται ως: Εύρος = Μεγαλύτερη παρατήρηση – Μικρότερη παρατήρηση Π.χ. Δεδομένα: {4, 4, 4, 4, 50} Εύρος = 46 Δεδομένα : {4, 8, 15, 24, 39, 50} Εύρος = 46 Το εύρος είναι το ίδιο και στις δύο περιπτώσεις, αλλά τα σύνολα των δεδομένων έχουν πολύ διαφορετικές κατανομές …

72 Εύρος … Τα πλεονέκτημα του είναι η ευκολία με την οποία μπορεί να υπολογιστεί. Το βασικό μειονέκτημα είναι ότι δεν δίνει καμία πληροφορία για την διασπορά των παρατηρήσεων ανάμεσα στα δύο ακραία σημεία (min και max). Επομένως χρειαζόμαστε ένα μέτρο που να ενσωματώνει όλα τα δεδομένα και όχι μόνο δύο παρατηρήσεις. Επομένως …

73 Διακύμανση … Η διακύμανση και το παρεμφερή της μέτρο, τυπική απόκλιση είναι από τις πιο σημαντικές στατιστικές ποσότητες. Χρησιμοποιούνται για να μετρήσουν μεταβλητότητα, και επίσης παίζουν ένα κρίσιμο ρόλο σε όλες σχεδόν τις στατιστικές διαδικασίες για συμπερασματολογία (επαγωγή). Η διακύμανση του πληθυσμού συμβολίζεται με σ2. (μικρό Ελληνικό γράμμα) Η διακύμανση του δείγματος συμβολίζεται με s2. (μικρό “S” στο τετράγωνο)

74 Συμβολισμός … Πληθυσμός Δείγμα Μέγεθος N n Μέση Τιμή Διακύμανση

75 Διακύμανση… Η διακύμανση του πληθυσμού είναι:
Η διακύμανση του δείγματος Μέση τιμή του πληθυσμού Μέγεθος πληθυσμού Μέση τιμή του δείγματος Σημειώστε ότι ο παρανομαστής είναι το μέγεθος του δείγματος (n) μείον 1

76 Διακύμανση… Όπως μπορούμε να δούμε, έχουμε να υπολογίσουμε την μέση τιμή (x-παύλα) για να υπολογίσουμε την διακύμανση του δείγματος. Εναλλακτικά, υπάρχει ένας πιο σύντομος τύπος για να υπολογίσουμε την διακύμανση του δείγματος άμεσα από τα δεδομένα χωρίς να έχουμε το ενδιάμεσο βήμα του υπολογισμού της μέσης τιμής. Αυτός ο τύπος δίνεται από:

77 Εφαρμογή … Παράδειγμα: Το ακόλουθο δείγμα αποτελείται από τον αριθμό των εργασιών για τις οποίες έχουν κάνει αίτηση έξι φοιτητές: 17, 15, 23, 7, 9, 13. Βρείτε την μέση της τιμή και την διακύμανση. Τι θέλουμε να υπολογίσουμε; Το ακόλουθο δείγμα αποτελείται από τον αριθμό των εργασιών των 6 φοιτητών: 17, 15, 23, 7, 9, 13. …σε αντίθεση με  ή 2

78 Μέση Τιμή & Διακύμανση …
Μέση τιμή Διακύμανση του δείγματος Διακύμανση του δείγματος (σύντομη μέθοδο)

79 Τυπική Απόκλιση … Η τυπική απόκλιση είναι απλά η τετραγωνική ρίζα της διακύμανσης, έτσι: Η τυπική απόκλιση του πληθυσμού: Η τυπική απόκλιση του δείγματος:

80 Συμβολισμός … N n Πληθυσμός Δείγμα Μέγεθος Μέση Τιμή Διακύμανση
Συμβολισμός … Πληθυσμός Δείγμα Μέγεθος N n Μέση Τιμή Διακύμανση Τυπική Απόκλιση

81 Τυπική Απόκλιση … Παράδειγμά: Θεωρήστε έναν κατασκευαστή για κλαμπ του γκολφ ο οποίος θέλει να καθορίσει εάν το νέο κλαμπ είναι πιο συνεπή (π.χ. με μικρότερη μεταβλητότητα) από το παλαιό κλαμπ. Χρησιμοποιώντας Tools > Data Analysis… > Descriptive Statistics στο Excel, παίρνουμε τους ακόλουθους πίνακες για ερμηνεία … Παίρνουμε πιο συνεπή απόσταση με το νέο κλαμπ.

82 Ερμηνεύοντας την Τυπική Απόκλιση …
Η τυπική απόκλιση μπορεί να χρησιμοποιηθεί για την σύγκριση της μεταβλητότητας αρκετών κατανομών και τον χαρακτηρισμό της γενικής μορφής μιας κατανομής. Εάν το ιστόγραμμα έχει το σχήμα της καμπάνας, μπορούμε να χρησιμοποιήσουμε τον Εμπειρίκο Κανόνα, ο οποίος λέει: Προσεγγιστικά 68% των παρατηρήσεων βρίσκονται εντός () μιας τυπικής απόκλισης από την μέση τιμή. Προσεγγιστικά 95% των παρατηρήσεων βρίσκονται εντός () δύο τυπικών αποκλίσεων από την μέση τιμή. Προσεγγιστικά 99.7% των παρατηρήσεων βρίσκονται εντός () τρεις τυπικές αποκλίσεις από την μέση τιμή.

83 Ο Εμπειρικός Κανόνας … Προσεγγιστικά 68% των παρατηρήσεων βρίσκονται
εντός () μιας τυπικής απόκλισης από την μέση τιμή. Προσεγγιστικά 95% των παρατηρήσεων βρίσκονται εντός () δύο τυπικών αποκλίσεων από την μέση τιμή. Προσεγγιστικά 99.7% των παρατηρήσεων βρίσκονται εντός () τρεις τυπικές αποκλίσεις από την μέση τιμή.

84 Το Θεώρημα του Chebysheff’s …
Το ποσοστό των παρατηρήσεων στο δείγμα πέφτει εντός () k τυπικών αποκλίσεων από την μέση τιμή είναι τουλάχιστον: Για k=2 π.χ. το θεώρημα αναφέρει ότι τουλάχιστον 3/4 από όλες τις παρατηρήσεις πέφτουν 2 τυπικές αποκλίσεις από την μέση τιμή. Αυτό είναι ένα «κάτω φράγμα» (σε σύγκριση με την προσέγγιση του Εμπειρικο Κανόνα (95%).

85 Συντελεστής Μεταβλητότητας …
Ο συντελεστής μεταβλητότητας ενός συνόλου παρατηρήσεων είναι η τυπική απόκλιση των παρατηρήσεων διαιρούμενη με την μέση τιμή, δηλαδή: Ο συντελεστής μεταβλητότητας του πληθυσμού = CV = Συντελεστής Μεταβλητότητας του δείγματος = cv =

86 Συντελεστής Μεταβλητότητας
Συμβολισμός … Πληθυσμός Δείγμα Μέγεθος N n Μέση Τιμή Διακύμανση Τυπική Απόκλιση S Συντελεστής Μεταβλητότητας CV cv

87 Συντελεστής Μεταβλητότητας …
Αυτός ο συντελεστής δείχνει ένα αναλογικό μέτρο της μεταβλητότητας, π.χ. Η τυπική απόκλιση του 10 ενδέχεται να ληφθεί ως μεγάλη όταν η μέση τιμή είναι 100, αλλά μόνο ως μέτρια όταν η μέση τιμή είναι 500.

88 Μέτρα Μεταβλητότητας …
Εάν τα δεδομένα είναι συμμετρικά, χωρίς ακραίες τιμές, χρησιμοποιήστε το εύρος και την τυπική απόκλιση. Εάν συγκρίνουμε την μεταβλητότητα ανάμεσα σε δύο σύνολα δεδομένων χρησιμοποιήστε τον συντελεστής μεταβλητότητας. Τα μέτρα μεταβλητότητας που εισήχθην σε αυτή την ενότητα μπορούν να χρησιμοποιηθούν μόνο για διαστημικά δεδομένα.

89 Μέτρα Σχετικής Τοποθεσίας & Box Plots
Μέτρα Σχετικής Τοποθεσίας σχεδιάζονται για να προβάλουν πληροφόρηση σχετικά με την τοποθεσία κάποιων συγκεκριμένων τιμών σε σχέση με ολόκληρο το σύνολο των δεδομένων. Ποσοστημόριο: το Pο ποσοστημόριο είναι η τιμή από την οποία P ποσοστό των τιμών είναι μικρότερο από την τιμή αυτή και (100-P)% είναι μεγαλύτερο από την τιμή αυτή. Υποθέστε ότι το σκορ σας είναι το 60ο ποσοστημόριο στο GMAT τεστ, το οποίο σημαίνει ότι το 60% των άλλων σκορ ήταν κάτω από το δικό σας, ενώ το 40% των άλλων σκορ ήταν κάτω από το δικό σας.

90 Ποσοστημόριο … Έχουμε ειδικά ονόματα για το 25ο, 50ο, και 75ο ποσοστημόριο, χαρακτηριστικά τεταρτημόρια. Το πρώτο τεταρτημόριο χαρακτηρίζει Q1 = 25ο ποσοστημόριο. Το δεύτερο τεταρτημόριο, Q2 = 50ο ποσοστημόριο (το οποίο είναι επίσης η διάμεσος). Το τρίτο τεταρτημόριο, Q3 = 75ο ποσοστημόριο. Μπορούμε επίσης να αντιστοιχίσουμε ποσοστημόρια σε πεμπτημόρια (quintiles, fifths) και δεκατημόρια (deciles, tenths).

91 Χρήσιμα Ποσοστημόρια …
Πρώτο δεκατημόριο = 10ο ποσοστημόριο Πρώτο τεταρτημόριο, Q1, = 25ο ποσοστημόριο Διάμεσος, Q2, = 50ο ποσοστημόριο Τρίτο τεταρτημόριο, Q3, = 75ο ποσοστημόριο Ένατο δεκατημόριο = 90ο ποσοστημόριο Σημειώστε: Εάν ο βαθμό σου σε φέρνει στο 80ο ποσοστημόριο, αυτό δεν σημαίνει ότι απάντησες το 80% των ερωτήσεων σωστά – αυτό σημαίνει ότι το 80% των συμφοιτητών σου είχε σκορ χαμηλότερο από το δικό σου. Δείχνει την θέση σου σε σχέση με τους άλλους.

92 Θέση των Ποσοστημορίων …
Ο ακόλουθος τύπος μας επιτρέπει να προσεγγίσουμε την θέση του κάθε ποσοστημορίου: Όπου Lp είναι η θέση του Pο ποσοστημόριου

93 Θέση των Ποσοστημορίων …
Θεωρήστε τα δεδομένα: Ποια είναι η θέση του 25ο ποσοστημορίου. Δηλαδή, σε ποιο σημείο είναι το 25% των τιμών μικρότερες και 75% των τιμών μεγαλύτερες; L25 = (10+1)(25/100) = 2.75 Το 25ο ποσοστημόριο είναι τρία-τέταρτα της απόστασης μεταξύ της δεύτερης (που είναι 0) και της τρίτης (που είναι 5) παρατήρησης. Τα τρία-τέταρτα της απόστασης είναι: (.75)(5 – 0) = 3.75 Επειδή η δεύτερη παρατήρηση είναι 0, το 25ο ποσοστημόριο είναι = 3.75

94 Θέση των Ποσοστημορίων …
Ποιο είναι το τρίτο τεταρτημόριο; L75 = (10+1)(75/100) = 8.25 Τοποθετείτε ένα-τέταρτο της απόστασης ανάμεσα στην όγδοη και ένατη παρατήρηση, οι οποίες είναι 14 και 22, αντίστοιχα. Το πρώτο τέταρτο της απόστασης είναι: (.25)( ) = 2, το οποίο σημαίνει ότι το 75ο ποσοστημόριο είναι: = 16

95 Θέση των Ποσοστημορίων …
Παρακαλώ θυμηθείτε … θέση 2.75 16 0 0 | | 22 33 θέση 8.25 3.75 Lp καθορίζει την θέση στο σύνολο των δεδομένων όπου η τιμή του ποσοστημορίου βρίσκεται, όχι την τιμή του ποσοστημορίου.

96 Ενδοτεταρτημοριακό Εύρος …
Τα τεταρτημόρια μπορούν να χρησιμοποιηθούν για να δημιουργήσουν ένα άλλο μέτρο μεταβλητότητας, το ενδοτεταρτημοριακό εύρος το οποίο ορίζεται ως εξής: Ενδοτεταρτημοριακό Εύρος = Q3 – Q1 Το ενδοτεταρτημοριακό εύρος μετράει το άπλωμα του 50% των μεσαίων παρατηρήσεων. Μεγάλες τιμές αυτής της στατιστικής σημαίνουν ότι το 1ο και 3ο τεταρτημόριο απέχουν υποδεικνύοντας υψηλό επίπεδο μεταβλητότητας.

97 Θηκόγραμμα (Box Plot)…
• την μικρότερη και την μεγαλύτερη παρατήρηση, και • το πρώτο, δεύτερο, και τρίτο τεταρτημόριο. Μύστακας Μύστακας (1.5*(Q3–Q1)) Οι προεκτεινόμενες γραμμές στα αριστερά και στα δεξιά καλούνται μύστακες (whiskers). Κάθε σημείο που πέφτει έξω από τους μύστακες καλείται ακραία τιμή (outlier). Οι μύστακες επεκτείνονται προς τα έξω στο μικρότερο από το (1.5 φορά το ενδοτεταρτημοριακό εύρος) ή στην ποιο τελευταία τιμή η οποία δεν είναι ακραία.

98 Θηκόγραμμα (Box Plot)…
Αυτά τα θηκογράμματα είναι από δεδομένα με χρόνος εξυπηρέτησης πελατών. Ο χρόνος εξυπηρέτησης στα Wendy’s είναι ο μικρότερος και λιγότερο μεταβλητός. Στα Hardee’s o χρόνος εξυπηρέτησης έχει την μεγαλύτερη μεταβλητότητα, ενώ στα Jack-in-the-Box έχει τον μεγαλύτερο χρόνος εξυπηρέτησης.

99 Μέτρα για Γραμμική Συσχέτιση …
Παριστάνουμε τώρα δύο αριθμητικά μέτρα για γραμμική σχέση που δίνουν πληροφορία για την ισχύ & κατεύθυνση της γραμμικής σχέσης ανάμεσα σε δύο μεταβλητές (αν υπάρχει). Αυτά είναι η συνδιακύμανση και ο συντελεστής συσχέτισης. Συνδιακύμανση – υπάρχει κάποια σχέση που να δημιουργείται καθώς οι δύο μεταβλητές κινούνται μαζί; Συντελεστής συσχέτισης - πόσο ισχυρή είναι η γραμμική σχέση μεταξύ των δύο μεταβλητών;

100 Συνδιακύμανση … Συνδιακυμανση του Πληθυσμού =
Μέσες τιμές του πληθυσμού X, Y Συνδιακυμανση του Πληθυσμού = Μέσες τιμές του δείγματος X, Y Συνδιακυμανση του Δείγματος = Σημειώστε: ο παρανομαστής είναι n-1, όχι n όπως θα περιμέναμε.

101 Συνδιακύμανση … Με τον ίδιο τρόπο που υπήρχε ένας «σύντομος» τύπος για τον υπολογισμό της διακύνμανσης του δείγματος χωρίς να απαιτείται ο υπολογισμός της μέσης τιμής, υπάρχει και εδώ ένας «σύντομος» τύπος για τον υπολογισμό της συνδιακύνμανσης του δείγματος χωρίς να απαιτείται ο υπολογισμός των μέσων τιμών:

102 Συντελεστής Μεταβλητότητας
Συμβολισμός … Πληθυσμός Δείγμα Μέγεθος N n Μέση Τιμή Διακύμανση S2 Τυπική Απόκλιση S Συντελεστής Μεταβλητότητας CV cv Συνδιακύμανση Sxy

103 Υπολογισμός της Συνδιακύμανσης …
Θεωρήστε τα ακόλουθα τρία σύνολα δεδομένων … Σε κάθε σύνολο, οι τιμές των X είναι οι ίδιες, και οι τιμές του Y είναι οι ίδιες. Το μόνο που αλλάζει είναι η σειρά των Y’s. Στο σύνολο #1, καθώς το X αυξάνει, αυξάνει και το Y; Sxy είναι μεγάλη και θετική Στο σύνολο #2, καθώς το X αυξάνει, το Y μειώνετε; Sxy είναι μεγάλη και αρνητική Στο σύνολο #3, καθώς το X αυξάνει, το Y δεν έχει συγκεκριμένη φορά; Sxy είναι μικρή

104 Συνδιακύμανση … (Μιλώντας Γενικά)
Όταν δύο μεταβλητές κινούνται προς την ίδια κατεύθυνση (και τα δύο αυξάνουν ή μειώνουν,) η συνδιακύμανση είναι μεγάλη και θετική. Όταν δυο μεταβλητές κινούνται προς την αντίθετη κατεύθυνση η συνδιακύμανση είναι μεγάλη και αρνητική. Όταν δεν υπάρχει κάποια σχέση, η συνδιακύμανση είναι μικρή, δηλαδή κοντα στο 0.

105 Συντελεστής Συσχέτισης …
Ο συντελεστής συσχέτισης ορίζεται ως η συνδιακύμανση διαιρούμενη με τις τυπικές αποκλίσεις των μεταβλητών: Ο συντελεστής συσχέτισης του πληθυσμού = Το Ελληνικό «ρ» Ο συντελεστής συσχέτισης του δείγματος = Ο συντελεστής απαντάει στην ερώτηση: Πόσο ισχυρή είναι η σχέση μεταξύ του X και Υ;

106 Συμβολισμός … N n S2 S CV cv Sxy r Πληθυσμός Δείγμα Μέγεθος Μέση Τιμή
Διακύμανση S2 Τυπική Απόκλιση S Συντελεστής Μεταβλητότητας CV cv Συνδιακύμανση Sxy Συντελεστής Συσχέτισης r

107 Συντελεστής Συσχέτισης …
Συντελεστής Συσχέτισης … Το πλεονέκτημα του συντελεστή συσχέτισης σε σχέση με την συνδιακύμανση είναι ότι κυμαίνεται πάντα μεταξύ -1 και +1, έτσι: Εάν οι δύο μεταβλητές είναι πολύ ισχυρά και θετικά συσχετιζόμενες, ο συντελεστής θα είναι κοντά στο +1 (ισχυρή θετική γραμμική σχέση). Εάν οι δύο μεταβλητές είναι πολύ ισχυρά και αρνητικά συσχετιζόμενες, ο συντελεστής θα είναι κοντά στο -1 (ισχυρή αρνητική γραμμική σχέση). Μη γραμμική σχέση υποδηλώνεται από έναν συντελεστή κοντά στο 0.

108 Συντελεστής Συσχέτισης …
Συντελεστής Συσχέτισης … +1 -1 Ισχυρή θετική γραμμική σχέση r ή r = Καμία σχέση Ισχυρή αρνητική γραμμική σχέση

109 Συντελεστής Συσχέτισης (Εφαρμογή)
Βαθμοί (μέσοι όροι) από MBA συγκρίνονται με βαθμούς από GMAT. Είναι ένας βαθμός από το GMAT καλή πρόβλεψη για επιτυχία σε MBA; Excel: Tools > Data Analysis… > Covariance Tools > Data Analysis… > Correlation

110 Ερμηνεία των Τεστ GMAT & GPA …
Η συνδιακύμανση είναι και ο συντελεστής συσχέτισης είναι Αυτά τα δύο στατιστικά μας λένε ότι υπάρχει μία θετική γραμμική σχέση ανάμεσα στο βαθμό του GMAT και του μέσου όρου του ΜΒΑ. Ο συντελεστής συσχέτισης μας λέει ότι η γραμμική σχέση δεν είναι «αρκετά» ισχυρή.


Κατέβασμα ppt "Keller: Stats for Mgmt & Econ, 7th Ed Περιγραφική Στατιστική"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google