Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc. 2.1 Κεφάλαιο 2 Περιγραφική Στατιστική.

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc. 2.1 Κεφάλαιο 2 Περιγραφική Στατιστική."— Μεταγράφημα παρουσίασης:

1 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc. 2.1 Κεφάλαιο 2 Περιγραφική Στατιστική

2 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc. 2.2 Εισαγωγή & Ανακεφαλαίωση … Η Περιγραφική Στατιστική περιλαμβάνει την διευθέτηση, την περίληψη, και την παρουσίαση ενός συνόλου δεδομένων με τέτοιον τρόπο ώστε χρήσιμη πληροφόρηση θα παράγεται. Οι μέθοδοι της κάνουνε χρήση γραφικών τεχνικών και αριθμητικών μέτρων περιγραφής (όπως μέσες τιμές) για να συνοψίσουμε και να παρουσιάσουμε τα δεδομένα. Δεδομένα Στατιστική Πληροφόρηση

3 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc. 2.3 Πληθυσμοί και Δείγματα Τα γραφικά και οι πίνακες που παρουσιάζονται εδώ εφαρμόζονται σε ολόκληρους τους πληθυσμούς και σε ολόκληρα τα δείγματα που επιλέγονται από τους πληθυσμούς. Πληθυσμός Δείγμα Υποσύνολο

4 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc. 2.4 Ορισμοί… Η μεταβλητή είναι κάποιο χαρακτηριστικό του πληθυσμού ή του δείγματος. Π.χ. βαθμοί φοιτητών Τυπικά σημαίνονται με κεφαλαία γράμματα: X, Y, Z… Οι τιμές της μεταβλητής είναι το εύρος των πιθανών τιμών για μία μεταβλητή. Π.χ. βαθμοί φοιτητών (0..100) Δεδομένα είναι οι τιμές που παρατηρούνται από μία μεταβλητή. Π.χ. βαθμοί φοιτητών : {67, 74, 71, 83, 93, 55, 48}

5 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc. 2.5 Τύποι Δεδομένων & Πληροφόρηση Τα δεδομένα (τουλάχιστον για επιδιώξεις της Στατιστικής) χωρίζονται σε τρεις βασικές κατηγορίες: Διαστημικά δεδομένα Ονομαστικά δεδομένα Διατακτικά δεδομένα

6 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc. 2.6 Διαστημικά δεδομένα … Διαστημικά δεδομένα Πραγματικοί αριθμοί, π.χ. ύψη, βάρη, τιμές, κ.λ.π. Επίσης αναφέρονται και ως ποσοτικά ή αριθμητικά. Αριθμητικές πράξεις μπορούν να εκτελεστούν σε διαστημικά δεδομένα, έτσι κάνει νόημα να μιλάμε σχετικά με 2*ύψος, ή Τιμή + $1, και ου το καθεξής.

7 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc. 2.7 Ονομαστικά δεδομένα… Ονομαστικά δεδομένα Οι τιμές των ονομαστικών δεδομένων είναι κατηγορίες. Π.χ. απαντήσεις σε ερωτήσεις όπως οικογενειακή κατάσταση, κωδικοποιούνται όπως: Ελεύθερος = 1, Παντρεμένος = 2, Διαζευγμένος = 3, Χήρος = 4 Επειδή οι αριθμοί είναι αυθαίρετοι, οι αριθμητικές πράξεις δεν κάνουν νόημα (π.χ. είναι Χήρος ÷ 2 = Παντρεμένος;!) Τα ονομαστικά δεδομένα επίσης καλούνται ποιοτικά ή κατηγορικά.

8 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc. 2.8 Διατακτικά Δεδομένα… Διατακτικά Δεδομένα εμφανίζονται να είναι κατηγορικά από την φύση τους, αλλά οι τιμές τους έχουν μία τάξη, υπάρχει μία κατάταξη σε αυτά: Π.χ. το σύστημα αξιολόγησης για τα μαθήματα του πανεπιστημίου: ανεπαρκές = 1, μέτριο = 2, καλό = 3, πολύ καλό = 4, άριστο = 5 Παρόλο που ακόμα δεν κάνει νόημα να εκτελούμε αριθμητικές πράξεις σε αυτά τα δεδομένα (π.χ. ισχύει 2*μέτριο = πολύ καλό;!), μπορούμε να πούμε πράγματα όπως: άριστο > ανεπαρκές ή μέτριο < πολύ καλό Δηλαδή, η τάξη διατηρείται ανεξάρτητα από τι αριθμούς θα αναθέσουμε σε κάθε κατηγορία.

9 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc. 2.9 Τύποι των Δεδομένων & Πληροφόρηση … Κατηγορικά; Δεδομένα Διαστημικά Δεδομένα Ονομαστικά Δεδομένα Διατακτικά Δεδομένα Όχι Διατακτικά; Ναι Όχι Κατηγορικά Δεδομένα

10 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Π.χ. Παρουσίαση βαθμών φοιτητών … Κατηγορικά; Δεδομένα Διαστημικά Δεδομένα π.χ. {0..100} Ονομαστικά Δεδομένα π.χ. {Βαθμοί στα Μαθηματικά | Βαθμοί στα Αγγλικά} Διατακτικά Δεδομένα π.χ. {F, D, C, B, A} Όχι Διατακτικά; Ναι Όχι Κατηγορικά Δεδομένα Κατάταξε την σειρά των δεδομένων Χωρίς κατάταξη στην σειρά των δεδομένων

11 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Ιεραρχία των Δεδομένων … Διαστημικά Οι τιμές είναι πραγματικοί αριθμοί. Όλοι οι υπολογισμοί επιτρέπονται. Τα δεδομένα μπορούμε να τα αναλύσουμε ως ονομαστικά ή διατακτικά. Διατακτικά Οι τιμές πρέπει να παριστάνουν την ταξινομημένη τάξη των δεδομένων. Μόνο υπολογισμοί που σχετίζονται με την κατάταξη των δεδομένων επιτρέπονται. Τα δεδομένα μπορούμε να τα αναλύσουμε ως ονομαστικά αλλά όχι ως διαστημικά. Ονομαστικά Οι τιμές είναι αυθαίρετοι αριθμοί που παριστάνουν κατηγορίες. Μόνο υπολογισμοί που σχετίζονται με την συχνότητα των δεδομένων επιτρέπονται. Τα δεδομένα δεν μπορούμε να τα αναλύσουμε ως διαστημικά ή διατακτικά.

12 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Γραφικά & Πίνακες για Ονομαστικά Δεδομένα … Ο μόνος επιτρεπόμενος υπολογισμός για ονομαστικά δεδομένα είναι να καταμετρήσουμε τη συχνότητα για κάθε τιμή της μεταβλητής. Μπορούμε να συνοψίσουμε τα δεδομένα σε έναν πίνακα ο οποίος παρουσιάζει τις κατηγορίες με τις συχνότητες τους, καλώντας τον πίνακας ή κατανομή συχνοτήτων. Ο πίνακας ή η κατανομή σχετικών συχνοτήτων καταγράφει τις κατηγορίες και την αναλογία με την οποία η καθεμία εμφανίζεται.

13 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Πίνακας Συχνοτήτων ή Σχετικών Συχνοτήτων Περιοχή Συχνότητα Σχετική Συχνότητα

14 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Ονομαστικά Δεδομένα (Συχνότητα) Τα ραβδογράμματα συχνά χρησιμοποιούνται για να παρουσιάσουν συχνότητες Ραβδόγραμμα (Bar Charts) Περιοχή Εργασίας

15 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Ονομαστικά Δεδομένα (Σχετική Συχνότητα) Τα Κυκλικά Διαγράμματα δείχνουν σχετικές συχνότητες … Κυκλικό Διάγραμμα (Pie Chart)

16 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Ονομαστικά Δεδομένα Και τα τρία δείχνουν την ίδια πληροφόρηση, (βασισμένα στα ίδια δεδομένα). Απλά διαφορετική παρουσίαση. Περιοχή Συχνότητα Σχετική Συχνότητα Κυκλικό Διάγραμμα Ραβδόγραμμα

17 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Γραφικές Τεχνικές για Διαστημικά Δεδομένα Υπάρχουν αρκετοί γραφικοί μέθοδοι οι οποίοι χρησιμοποιούνται όταν τα δεδομένα είναι διαστημικά (π.χ. αριθμητικά, όχι κατηγορικά). Η πιο σημαντική από αυτές τις γραφικές μεθόδους είναι το ιστόγραμμα. Το ιστόγραμμα δεν είναι μόνο μία αποτελεσματική γραφική τεχνική η οποία χρησιμοποιείται για να συνοψίσει διαστημικά δεδομένα, αλλά επίσης χρησιμοποιείται και για να εξηγήσουμε πιθανότητες.

18 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Κατασκευάζοντας Ένα Ιστόγραμμα … Συλλέξτε τα Δεδομένα Δημιουργήστε μία κατανομή συχνοτήτων για τα δεδομένα … Πως; α) Καθορίστε τον αριθμό των τάξεων … Πως; -> Κοιτάξτε τον παρακάτω πίνακα Με 200 παρατηρήσεις, θα πρέπει να έχουμε μεταξύ 7 & 10 τάξεις… Εναλλακτικά, μπορούμε να χρησιμοποιήσουμε τον τύπο του Sturges: Αριθμός των τάξεων = log 10 (n) Αριθμός των Παρατηρήσεων Αριθμός Τάξεων < >

19 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Κατασκευάζοντας Ένα Ιστόγραμμα … (συνεχεία) Συλλέξτε τα Δεδομένα Δημιουργήστε μία κατανομή συχνοτήτων για τα δεδομένα … Πως; α) Καθορίστε τον αριθμό των τάξεων [8] β) Καθορίστε το μήκος της κάθε τάξης … Πως; Κοιτάξτε το εύρος των δεδομένων, δηλαδή, Εύρος = Μέγιστη Παρατήρηση – Ελάχιστη Παρατήρ. Εύρος = $ – $0 = $ Τότε κάθε τάξη θα έχει μήκος: Εύρος ÷ (# τάξεις) = ÷ 8 ≈ 15

20 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Κατασκευάζοντας Ένα Ιστόγραμμα …(συνεχεία) Συλλέξτε τα Δεδομένα Δημιουργήστε μία κατανομή συχνοτήτων για τα δεδομένα … Πως; α) Καθορίστε τον αριθμό των τάξεων [8] β) Καθορίστε το μήκος της κάθε τάξης [15] γ) Τοποθέτησε τα δεδομένα στις τάξεις … Κάθε παρατήρηση μπορεί να ανήκει σε μόνο μία τάξη, Οι τάξεις περιέχουν παρατηρήσεις κάτω φραγμάτων < και ≤ άνω φραγμάτων.

21 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Κατασκευάζοντας Ένα Ιστόγραμμα … συνεχεία) Συλλέξτε τα Δεδομένα Δημιουργήστε μία κατανομή συχνοτήτων για τα δεδομένα 3) Σχεδιάστε ένα ιστόγραμμα … Φράγματα τάξεων Συχνότητα

22 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Κατασκευάζοντας Ένα Ιστόγραμμα …(συνεχεία) Συλλέξτε τα Δεδομένα Δημιουργήστε μία κατανομή συχνοτήτων για τα δεδομένα Σχεδιάστε ένα ιστόγραμμα … Φράγματα τάξεων Συχνότητα Ιστόγραμμα Μακροπρόθεσμων Λογαριασμών Λογαριασμοί

23 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Ερμηνεία… Σχεδόν μισοί (71+37=108) από τους λογαριασμούς είναι «μικροί», π.χ. μικρότεροι από $30 Υπάρχουνε μόνο μερικοί τηλεφωνικοί λογαριασμοί στη μέση. ( =60)÷200 = 30% π.χ. σχεδόν ‘ένα τρίτο των τηλεφωνικών λογαριασμών είναι $90 ή περισσότερο. Ιστόγραμμα Μακροπρόθεσμων Λογαριασμών Λογαριασμοί

24 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Μορφές Ιστογραμμάτων … Συμμετρία Ένα ιστόγραμμα λέγεται να είναι συμμετρικό εάν, όταν τραβήξουμε μία κάθετη γραμμή στο κέντρο του ιστογράμματος, τα δύο χωρισμένα κομμάτια είναι ακριβώς τα ίδια σε μορφή και σε μέγεθος: Frequency Variable Frequency Variable Frequency Variable

25 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Μορφές Ιστογραμμάτων … Λοξότητα Ένα λοξό ιστόγραμμα είναι αυτό που έχει μια εκτεταμένη μακριά ουρά προς τα αριστερά ή προς τα δεξιά: Frequency Variable Frequency Variable Λοξή προς τα ΔεξιάΛοξή προς τα Αριστερά

26 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Μορφές Ιστογραμμάτων … Κορυφές Ένα μονόκορφο ιστόγραμμα είναι ένα ιστόγραμμα με μία κορυφή, ενώ ένα δίκορφο ιστόγραμμα είναι ένα ιστόγραμμα με δύο κορυφές: Συχνότητα Μεταβλητή Μονόκορφο Συχνότητα Μεταβλητή Δίκορφο Η κλάση κορυφής είναι η κλάση με τον μεγαλύτερο αριθμό παρατηρήσεων

27 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Μορφές Ιστογραμμάτων … Σχήμα Καμπάνας Μία ειδική περίπτωση ενός συμμετρικού και μονόκορφου ιστογράμματος είναι αυτό με το σχήμα της καμπάνας: Συχνότητα Μεταβλητή Σχήμα Καμπάνας Πολλές στατιστικές τεχνικές απαιτούν ότι ο πληθυσμός έχει το σχήμα της καμπάνας. Σχεδιάζοντας το ιστόγραμμα βοηθάει να επαληθεύσουμε την μορφή του πληθυσμού υπό εξέταση.

28 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Σύγκριση Ιστογραμμάτων … Συγκρίνουμε και αντιπαραθέτουμε τα ακόλουθα ιστογράμματα βασισμένοι σε δεδομένα Παράδειγμα 2.6 Παράδειγμα 2.6 & Παράδειγμα 2.7.Παράδειγμα 2.7 Τα δύο μαθήματα έχουν διαφορετικές μορφές ιστογραμμάτων … μονόκορφο & δίκορφο Το εύρος των βαθμών (στενότερο | πλατύτερο)

29 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Απεικόνιση Στελεχών-Φύλλων … Διατηρεί πληροφορίες σχετικά με ατομικές παρατηρήσεις που θα χανόταν με την δημιουργία ενός ιστογράμματος. Διασπάστε κάθε παρατήρηση σε δύο μέρη, σε ένα στέλεχος και σε ένα φύλλο. Π.χ. Τιμή Παρατήρησης: Υπάρχουν αρκετοί τρόποι να την διασπάσουμε … Μπορούμε να την διασπάσουμε στο κόμμα: Ή να την διασπάσουμε στην θέση των «δεκάδων» (ενώ στρογγυλοποιούμε στον κοντινότερο ακέραιο, στην θέση «μονάδων») ΣτέλεχοςΦύλλο

30 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Απεικόνιση Στελεχών-Φύλλων … Συνεχίστε την διαδικασία για όλες τις παρατηρήσεις. Ύστερα χρησιμοποιήστε τα «φύλλα» για τις ομάδες και κάθε φύλλο γίνεται μέρος του ιστογράμματος, π.χ. στο παρακάτω παράδειγμά: Στελέχη Φύλλα Έτσι, έχουμε ακόμα πρόσβαση στις τιμές των αρχικών δεδομένων!

31 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Ιστόγραμμα και Στελέχη & Φύλλα …

32 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Η Καμπύλη S … Είναι ένα γράφημα της κατανομή αθροιστικών συχνοτήτων. Κατασκευάζουμε μια καμπύλη S σε τρία βήματα … Πρώτον, από την κατανομή συχνοτήτων που αναφέραμε πριν, υπολογίζουμε τις σχετικές συχνότητες: Σχετική Συχνότητα = # των παρατηρήσεων σε μία ομάδα Συνολικός # των παρατηρήσεων

33 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Σχετικές Συχνότητές … Για παράδειγμα, έχουμε 71 παρατηρήσεις στην πρώτη τάξη (τηλεφωνικοί λογαριασμοί από $0.00 ως $15.00). Έτσι, η σχετική συχνότητα για αυτήν την τάξη είναι 71 ÷ 200 (ο συνολικός αριθμός λογαριασμών) = (ή 35.5%)

34 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Η Καμπύλη S … Είναι ένα γράφημα μιας κατανομής αθροιστικών συχνοτήτων. Κατασκευάζουμε μία καμπύλη σε τρία βήματα … 1) Υπολογίστε σχετικές συχνότητες. 2) Υπολογίστε αθροιστικές σχετικές συχνότητες προσθέτοντας στην σχετική συχνότητα της τρέχων ομάδας την αθροιστική σχετική συχνότητα της προηγούμενης ομάδας. (Για την πρώτη ομάδα, η αθροιστική σχετική συχνότητα είναι απλά ίση με την σχετική συχνότητα)

35 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Αθροιστικές Σχετικές Συχνότητες … Πρώτη τάξη… Επόμενη τάξη: =.540 Τελευταία τάξη: =1.00 :::: Παράδειγμα

36 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Η Καμπύλη S … Είναι ένα γράφημα μιας κατανομής αθροιστικών συχνοτήτων. 1) Υπολογίστε σχετικές συχνότητες. 2) Υπολογίστε αθροιστικές σχετικές συχνότητες. 3) Σχεδιάστε σε γράφημα τις αθροιστικές σχετικές συχνότητες …

37 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Η Καμπύλη S … Η καμπύλη S μπορεί να χρησιμοποιηθεί για να απαντήσει ερωτήσεις όπως: Τι ποσό τηλεφώνου είναι το 50 ο ποσοστημόριο; “περίπου $35”

38 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Δύο Ονομαστικές Μεταβλητές … Μέχρι τώρα έχουμε κοιτάξει σε τεχνικές πινάκων και γραφικές για μία μεταβλητή (για ονομαστικά ή για διαστημικά δεδομένα). Ένας πίνακας συνάφειας χρησιμοποιείται για να περιγράψει την σχέση μεταξύ δύο ονομαστικών μεταβλητών. Ένας πίνακας συνάφειας καταγράφει την συχνότητα για κάθε παρατήρηση των τιμών των δύο μεταβλητών …

39 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Πίνακας Συνάφειας … Παράδειγμα:, ένα δείγμα αναγνωστών εφημερίδων ρωτήθηκε να αναφέρει ποια εφημερίδα διαβάζουν: Globe και Mail (1), Post (2), Star (3), ή Sun (4), και να υποδείξουν αν ήταν εργάτες (blue-collar worker) (1), υπάλληλοι (white-collar worker) (2), ή επαγγελματίες (professional) (3). Αυτή η απάντηση των αναγνωστών βρίσκετε ως μέρος του συνολικού αριθμού στον πίνακα συνάφειας …

40 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Πίνακας Συνάφειας … Ερμηνεία: Η σχετική συχνότητα στις στήλες 2 & 3 είναι παραπλήσιες, αλλά υπάρχουν μεγάλες διαφορές ανάμεσα στις στήλες 1 και 2 και ανάμεσα στις στήλες 1 και 3. Αυτό μας λέει ότι οι εργάτες έχουν την τάση να διαβάζουν διαφορετικές εφημερίδες από τους υπαλλήλους και τους επαγγελματίες, και οι υπάλληλοι και οι επαγγελματίες έχουν κοινές προτιμήσεις για εφημερίδες. ανόμοια παραπλήσια

41 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Γράφημα για τη Σχέση Μεταξύ Δύο Ονομαστικών μεταβλητών … Χρησιμοποιούμε τα δεδομένα από τον πίνακα συνάφειας για να δημιουργήσουμε τις ράβδους (μπάρες) … Οι επαγγελματίες κλίνουν να διαβάζουν την Globe & Mail περισσότερο από το διπλάσιο από ότι την Star ή την Sun…

42 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Γράφημα για τη Σχέση Μεταξύ Δύο Διαστημικών μεταβλητών … Πηγαίνοντας από ονομαστικά σε διαστημικά δεδομένα, μας ενδιαφέρει συχνά πως δύο διαστημικές μεταβλητές συσχετίζονται. Για να εξετάσουμε αυτή τη σχέση, κατασκευάζουμε ένα διάγραμμα διασποράς (scatter diagram ή scatterplot), το οποίο σχεδιάζει την μία μεταβλητή σε σχέση με την άλλη. Η ανεξάρτητη μεταβλητή συμβολίζεται με X και συνήθως τοποθετείται στον οριζόντιο άξονα, ενώ η άλλη μεταβλητή καλείται εξαρτημένη και παριστάνεται με Y στον κάθετο άξονα.

43 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Διάγραμμα Διασποράς … Παράδειγμά: Ένας μεσίτης σπιτιών επιθυμεί να ξέρει σε ποιο βαθμό η τιμή αγοράς συσχετίζεται με το μέγεθος του σπιτιού … 1)Συλλέξτε τα δεδομένα 2)Καθορίστε την ανεξάρτητη μεταβλητή (X – μέγεθος σπιτιού) και την εξαρτημένη μεταβλητή (Y – τιμή αγοράς) 3)Χρησιμοποιήστε το Excel για να σχεδιάσετε ένα «διάγραμμα διασποράς» (scatter diagram) …

44 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Διάγραμμα Διασποράς … Φαίνεται ότι πράγματι υπάρχει μία σχέση, δηλαδή, όσο ποιο μεγάλο είναι το μέγεθος του σπιτιού τόσο υψηλότερη είναι η τιμή αγοράς …

45 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Διάγραμμα Διασποράς … Γραμμικότητα και Κατεύθυνση είναι δύο έννοιες που μας ενδιαφέρουν Θετική Γραμμική ΣχέσηΑρνητική Γραμμική Σχέση Ασθενή ή Μη-γραμμική Σχέση

46 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Δεδομένα Χρονολογικών Σειρών … Παρατηρήσεις οι οποίες παίρνονται την ίδια χρονική στιγμή ονομάζονται διαστρωματικά δεδομένα. Παρατηρήσεις οι οποίες παίρνονται σε διαδοχικές χρονικές στιγμές καλούνται δεδομένα χρονολογικών σειρών. Δεδομένα χρονολογικών σειρών παρουσιάζονται με χρονοδιαγράμματα (line chart), τα οποία σχεδιάζουν την τιμή της μεταβλητής στον κάθετο άξονα σε σχέση ως προς τις χρονικές περιόδους στον οριζόντιο άξονα.

47 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Χρονοδιάγραμμα … Σχεδιάζουμε τα συνολικά ποσά φόρων εισοδημάτων (income tax) των ΗΠΑ για τα έτη (year) 1987 μέχρι 2002…

48 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Χρονοδιάγραμμα … Από το ’87 ως το ’92, οι φόροι ήταν σχεδόν στάσιμοι. Ξεκινώντας το ’93, υπήρχε μία ταχεία αύξηση στους φόρους μέχρι το Τελικά, υπήρχε μία κάθοδο το 2002.

49 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Περίληψη I… Παράγοντες που Προσδιορίζουν Πότε να Χρησιμοποιούμε Πίνακες Συχνοτήτων και Σχετικών Συχνοτήτων, Ραβδογράμματα και Κυκλικά Διαγράμματα 1. Στόχος: Να περιγράψουμε δεδομένα μιας μεταβλητής. 2. Τύπος Δεδομένων: Ονομαστικά Παράγοντες που Προσδιορίζουν Πότε να Χρησιμοποιούμε Ιστόγραμμα, Καμπύλη S, ή Απεικόνιση Στελεχών-Φύλλων 1. Στόχος: Να περιγράψουμε δεδομένα μιας μεταβλητής. 2. Τύπος Δεδομένων: Διαστημικά Παράγοντες που Προσδιορίζουν Πότε να Χρησιμοποιούμε Πίνακες Συνάφειας, ή Ραβδογράμματα 1. Στόχος: Να περιγράψουμε την σχέση δύο μεταβλητών. 2. Τύπος Δεδομένων: Ονομαστικά Παράγοντες που Προσδιορίζουν Πότε να Χρησιμοποιούμε ένα Διάγραμμα Διασποράς 1. Στόχος: Να περιγράψουμε την σχέση δύο μεταβλητών. 2. Τύπος Δεδομένων: Διαστημικά

50 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Περίληψη II… Διαστημικά Δεδομένα Ονομαστικά Δεδομένα Δεδομένα μιας Μεταβλητής. Ιστόγραμμα, Καμπύλη S, ή Απεικόνιση Στελεχών-Φύλλων Πίνακες Συχνοτήτων και Σχετικών Συχνοτήτων, Ραβδογράμματα και Κυκλικά Διαγράμματα Σχέση Μεταξύ Δύο Μεταβλητών Διάγραμμα Διασποράς Πίνακες Συνάφειας, ή Ραβδογράμματα

51 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Περισσότερα σε Περιγραφική Στατιστική Θυμηθείτε, που χρησιμοποιήσαμε γραφικές τεχνικές για να περιγράψουμε δεδομένα: Ενώ αυτό το ιστόγραμμα δίνει κάποια νέα πληροφόρηση, άλλα ενδιαφέροντα ερωτήματα (π.χ. ποιος είναι ο μέσος όρος της τάξης;) δεν απαντιέται.

52 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Αριθμητικές Περιγραφικές Τεχνικές … Μέτρα Κεντρικής Θέσης Μέση Τιμή (Mean), Διάμεσος (Median), Κορυφή (Mode) Μέτρα Μεταβλητότητας Εύρος (Range), Τυπική Απόκλιση (Standard Deviation), Διακύμανση (Variance), Συντελεστής Μεταβλητότητας (Coefficient of Variation) Μέτρα Σχετικής Τοποθεσίας Ποσοστημόρια (Percentile), Τεταρτημόρια (Quartile) Μέτρα Γραμμικής Σχέσης Συνδιακύμανση (Covariance), Συσχέτιση (Correlation), Ευθεία Ελάχιστων Τετραγώνων (Least Square Line)

53 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Μέτρα Κεντρικής Θέσης … Η αριθμητική μέση τιμή, μέσος όρος, η απλά μέση τιμή, είναι το πιο δημοφιλή και χρήσιμο μέτρο κεντρικής θέσης. Υπολογίζεται απλά προσθέτοντας όλες τις παρατηρήσεις και διαιρώντας με τον συνολικό αριθμό των παρατηρήσεων: Άθροισμα των Παρατηρήσεων Αριθμός των Παρατηρήσεων Μέση Τιμή =

54 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Συμβολισμός … Όταν αναφερόμαστε στον αριθμό των παρατηρήσεων ενός πληθυσμού, χρησιμοποιούμε το κεφαλαίο γράμμα N. Όταν αναφερόμαστε στον αριθμό των παρατηρήσεων ενός δείγματος, χρησιμοποιούμε το μικρό γράμμα n. Η μέση τιμή του πληθυσμού συμβολίζεται με το ελληνικό γράμμα μ: Η μέση τιμή του δείγματος συμβολίζεται με:

55 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Συμβολισμός … ΠληθυσμόςΔείγμα Μέγεθος Nn Μέση Τιμή

56 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Αριθμητική Μέση Τιμή … Μέση Τιμή Πληθυσμού Μέση Τιμή Δείγματος

57 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Συμβολισμός … ΠληθυσμόςΔείγμα Μέγεθος Nn Μέση Τιμή

58 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Αριθμητική Μέση Τιμή … …είναι κατάλληλη για να περιγράψουμε δεδομένα μετρήσεων, π.χ. ύψη ανθρώπων, βαθμοί από εξετάσεις, κλπ. …επηρεάζεται σοβαρά από «ακραίες τιμές». Π.χ. εφόσον ένας εκατομμυριούχος μετακομίζει σε μία γειτονιά, ο μέσο οικογενειακό εισόδημα αυξάνει πολύ από πριν και δίνει λανθασμένη εντύπωση.

59 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Μέτρα Κεντρικής Θέσης … Η διάμεσος υπολογίζεται βάζοντας όλες τις παρατηρήσεις στην σειρά. Η μεσαία παρατήρηση είναι η διάμεσος. Δεδομένα: {0, 7, 12, 5, 14, 8, 0, 9, 22} N=9 (μονός αριθμός) Τα ταξινομούμε από το μικρότερο ως προς το μεγαλύτερο, και βρίσκουμε την κεντρική τιμή: Δεδομένα: {0, 7, 12, 5, 14, 8, 0, 9, 22, 33} N=10 (ζυγός) Τα ταξινομούμε από το μικρότερο ως προς το μεγαλύτερο, και υπάρχουν δύο κεντρικές τιμές (8 και 9) από τις οποίες παίρνουμε τον μέσο όρο Διάμεσος = (8+9)÷2 = 8.5 Οι διάμεσοι του δείγματος και του πληθυσμού υπολογίζονται κατά τον ίδιο τρόπο.

60 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Μέτρα Κεντρικής Θέσης … Η κορυφή ενός συνόλου παρατηρήσεων είναι η τιμή που εμφανίζεται πιο συχνά. Ένα σύνολο δεδομένων ενδέχεται να έχει μία κορυφή ή δύο, ή περισσότερες κορυφές. Η κορυφή είναι χρήσιμη για όλους τους τύπους δεδομένων, και βασικά για ονομαστικά δεδομένα. Οι κορυφές του δείγματος και του πληθυσμού υπολογίζονται κατά τον ίδιο τρόπο.

61 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Κορυφή … Π.χ. Δεδομένα: {0, 7, 12, 5, 14, 8, 0, 9, 22, 33} N=10 Ποια παρατήρηση εμφανίζεται ποιο συχνά; Η κορυφή για αυτό το σύνολο δεδομένων είναι 0. Πως αυτό είναι ένα μέτρο κεντρικής θέσης; Συχνότητα Μεταβλητή Η κορυφή

62 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc =MODE(range) στο Excel… Σημειώστε: εάν χρησιμοποιείται Excel για να αναλύσετε τα δεδομένα σας τα οποία είναι με αρκετές κορυφές (όχι απλά μία κορυφή), το Excel απλά υπολογίζει την μικρότερη από αυτές. Θα πρέπει να χρησιμοποιήσουμε άλλες τεχνικές (π.χ. ιστογράμματα) για να καθορίσετε εάν τα δεδομένα σας είναι δίκορφα (bimodal), τρίκορφα (trimodal), etc.

63 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Μέση τιμή, Διάμεσος … Εάν η κατανομή είναι συμμετρική, η μέση τιμή, και η διάμεσος συμπίπτουν … Μέση τιμή διάμεσος

64 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Μέση τιμή, Διάμεσος, … Εάν η κατανομή είναι ασύμμετρη, ας πούμε λοξή προς τα αριστερά ή προς τα δεξιά, τα τρία μέτρα θα διαφέρουν, π.χ. Μέση τιμή διάμεσος

65 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Μέση τιμή, Διάμεσος … Εάν τα δεδομένα είναι συμμετρικά, η μέση τιμή, και η διάμεσος θα είναι προσεγγιστικά τα ίδια. Εάν τα δεδομένα είναι πολύκορφα, αναφέρεται την μέση τιμή, την διάμεσος, και/ή την κορυφή για κάθε υποομάδα που αντιστοιχεί σε μία κορυφή. Εάν τα δεδομένα είναι λοξά αναφέρεται την διάμεσος.

66 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Μέση τιμή, Διάμεσος, Κορυφές για Διατακτικά & Ονομαστικά Δεδομένα… Για διατακτικά και ονομαστικά δεδομένα ο υπολογισμός της μέσης τιμής δεν είναι έγκυρος. Η Διάμεσος είναι κατάλληλη για διατακτικά δεδομένα. Για ονομαστικά δεδομένα, ο υπολογισμός της κορυφής είναι χρήσιμος για να καθορίσει την μεγαλύτερη συχνότητα αλλά όχι την «κεντρική θέση».

67 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Γεωμετρικός Μέσος … Ο γεωμετρικός μέσος χρησιμοποιείται όταν η μεταβλητή είναι ρυθμός αύξησης (growth rate) ή ρυθμός αλλαγής (rate of change), όπως η τιμή μιας επένδυσης για διάφορες χρονικές περιόδους. Εάν R i είναι ο ρυθμός απόδοσης στην περίοδο i (i = 1, 2, …, n), τότε Ο γεωμετρικός μέσος R g των αποδόσεων R 1, R 2, … R n ορίζεται ως: Λύνοντας ως προς R g παράγουμε τον ακόλουθο τύπο:

68 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Παράδειγμα από τα Χρηματοοικονομικά … Υποθέστε μία διετή επένδυση των $1,000 αυξάνει κατά 100% σε $2,000 την πρώτη χρονιά, αλλά χάνει 50% από $2,000 πίσω στά $1,000 την δεύτερη χρονιά. Ποια είναι η μέση απόδοση; Χρησιμοποιώντας την αριθμητική μέση τιμή, έχουμε Αυτό θα σήμαινε ότι θα είχαμε $1,250 στο τέλος της επένδυσης, όχι $1,000. Λύνοντας τον γεωμετρικό μέσο δίνει απόδοση 0%, η οποία είναι λογική. Παριστάνει το γινόμενο όρων…

69 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Μέτρα Κεντρικής Θέσης Περίληψη … Υπολογίστε την Μέση Τιμή στην Περιγραφή κεντρικής θέσης ενός συνόλου διαστημικών δεδομένων Υπολογίστε την Διάμεσο στην Περιγραφή κεντρικής θέσης ενός συνόλου διαστημικών ή διατακτικών δεδομένων Υπολογίστε την Κορυφή στην Περιγραφή κεντρικής θέσης ενός συνόλου ονομαστικών δεδομένων Υπολογίστε τον Γεωμετρικό Μέσο στην Περιγραφή κεντρικής θέσης ενός συνόλου διαστημικών δεδομένων που δείχνουν ρυθμό αύξησης, ποσοστά, αποδόσεις, κλπ

70 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Μέτρα Μεταβλητότητας … Τα μέτρα της κεντρικής θέσης δεν μας δίνουν όλα τα χαρακτηριστικά για μία κατανομή. Δηλαδή, πόσο πολύ είναι οι παρατηρήσεις απλωμένες γύρω από κέντρο; Για παράδειγμα, βαθμοί από δύο διαφορετικές τάξεις δίνονται. Η μέση τιμή (=50) είναι η ίδια και για τις δύο τάξεις … Αλλά, η κόκκινη τάξη έχει μεγαλύτερη μεταβλητότητα από την μπλε τάξη.

71 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Εύρος … Το εύρος είναι το απλούστερο μέτρο μεταβλητότητας, υπολογίζεται ως: Εύρος = Μεγαλύτερη παρατήρηση – Μικρότερη παρατήρηση Π.χ. Δεδομένα: {4, 4, 4, 4, 50}Εύρος = 46 Δεδομένα : {4, 8, 15, 24, 39, 50}Εύρος = 46 Το εύρος είναι το ίδιο και στις δύο περιπτώσεις, αλλά τα σύνολα των δεδομένων έχουν πολύ διαφορετικές κατανομές …

72 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Εύρος … Τα πλεονέκτημα του είναι η ευκολία με την οποία μπορεί να υπολογιστεί. Το βασικό μειονέκτημα είναι ότι δεν δίνει καμία πληροφορία για την διασπορά των παρατηρήσεων ανάμεσα στα δύο ακραία σημεία (min και max). Επομένως χρειαζόμαστε ένα μέτρο που να ενσωματώνει όλα τα δεδομένα και όχι μόνο δύο παρατηρήσεις. Επομένως …

73 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Διακύμανση … Η διακύμανση και το παρεμφερή της μέτρο, τυπική απόκλιση είναι από τις πιο σημαντικές στατιστικές ποσότητες. Χρησιμοποιούνται για να μετρήσουν μεταβλητότητα, και επίσης παίζουν ένα κρίσιμο ρόλο σε όλες σχεδόν τις στατιστικές διαδικασίες για συμπερασματολογία (επαγωγή). Η διακύμανση του πληθυσμού συμβολίζεται με σ 2. (μικρό Ελληνικό γράμμα) Η διακύμανση του δείγματος συμβολίζεται με s 2. (μικρό “S” στο τετράγωνο)

74 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Συμβολισμός … ΠληθυσμόςΔείγμα Μέγεθος Nn Μέση Τιμή Διακύμανση

75 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Διακύμανση… Η διακύμανση του πληθυσμού είναι: Η διακύμανση του δείγματος είναι: Μέση τιμή του πληθυσμού Μέση τιμή του δείγματος Σημειώστε ότι ο παρανομαστής είναι το μέγεθος του δείγματος (n) μείον 1 Μέγεθος πληθυσμού

76 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Διακύμανση… Όπως μπορούμε να δούμε, έχουμε να υπολογίσουμε την μέση τιμή (x-παύλα) για να υπολογίσουμε την διακύμανση του δείγματος. Εναλλακτικά, υπάρχει ένας πιο σύντομος τύπος για να υπολογίσουμε την διακύμανση του δείγματος άμεσα από τα δεδομένα χωρίς να έχουμε το ενδιάμεσο βήμα του υπολογισμού της μέσης τιμής. Αυτός ο τύπος δίνεται από:

77 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Εφαρμογή … Παράδειγμα: Το ακόλουθο δείγμα αποτελείται από τον αριθμό των εργασιών για τις οποίες έχουν κάνει αίτηση έξι φοιτητές: 17, 15, 23, 7, 9, 13. Βρείτε την μέση της τιμή και την διακύμανση. Τι θέλουμε να υπολογίσουμε; Το ακόλουθο δείγμα αποτελείται από τον αριθμό των εργασιών των 6 φοιτητών: 17, 15, 23, 7, 9, 13. Βρείτε την μέση της τιμή και την διακύμανση. …σε αντίθεση με  ή  2

78 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Μέση Τιμή & Διακύμανση … Μέση τιμή Διακύμανση του δείγματος Διακύμανση του δείγματος (σύντομη μέθοδο)

79 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Τυπική Απόκλιση … Η τυπική απόκλιση είναι απλά η τετραγωνική ρίζα της διακύμανσης, έτσι: Η τυπική απόκλιση του πληθυσμού: Η τυπική απόκλιση του δείγματος:

80 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Συμβολισμός … ΠληθυσμόςΔείγμα Μέγεθος Nn Μέση Τιμή Διακύμανση Τυπική Απόκλιση

81 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Τυπική Απόκλιση … Παράδειγμά: Θεωρήστε έναν κατασκευαστή για κλαμπ του γκολφ ο οποίος θέλει να καθορίσει εάν το νέο κλαμπ είναι πιο συνεπή (π.χ. με μικρότερη μεταβλητότητα) από το παλαιό κλαμπ. Χρησιμοποιώντας Tools > Data Analysis… > Descriptive Statistics στο Excel, παίρνουμε τους ακόλουθους πίνακες για ερμηνεία … Παίρνουμε πιο συνεπή απόσταση με το νέο κλαμπ.

82 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Ερμηνεύοντας την Τυπική Απόκλιση … Η τυπική απόκλιση μπορεί να χρησιμοποιηθεί για την σύγκριση της μεταβλητότητας αρκετών κατανομών και τον χαρακτηρισμό της γενικής μορφής μιας κατανομής. Εάν το ιστόγραμμα έχει το σχήμα της καμπάνας, μπορούμε να χρησιμοποιήσουμε τον Εμπειρίκο Κανόνα, ο οποίος λέει: 1)Προσεγγιστικά 68% των παρατηρήσεων βρίσκονται εντός (  ) μιας τυπικής απόκλισης από την μέση τιμή. 2)Προσεγγιστικά 95% των παρατηρήσεων βρίσκονται εντός (  ) δύο τυπικών αποκλίσεων από την μέση τιμή. 3)Προσεγγιστικά 99.7% των παρατηρήσεων βρίσκονται εντός (  ) τρεις τυπικές αποκλίσεις από την μέση τιμή.

83 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Ο Εμπειρικός Κανόνας … Προσεγγιστικά 68% των παρατηρήσεων βρίσκονται εντός (  ) μιας τυπικής απόκλισης από την μέση τιμή. Προσεγγιστικά 95% των παρατηρήσεων βρίσκονται εντός (  ) δύο τυπικών αποκλίσεων από την μέση τιμή. Προσεγγιστικά 99.7% των παρατηρήσεων βρίσκονται εντός (  ) τρεις τυπικές αποκλίσεις από την μέση τιμή.

84 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Το Θεώρημα του Chebysheff’s … Μία πιο γενική ερμηνεία της τυπικής απόκλισης εξάγεται από το θεώρημα του Chebysheff’s, το ποιο εφαρμόζεται σε όλες τις κατανομές με οποιαδήποτε μορφή. Το ποσοστό των παρατηρήσεων στο δείγμα πέφτει εντός (  ) k τυπικών αποκλίσεων από την μέση τιμή είναι τουλάχιστον: Για k=2 π.χ. το θεώρημα αναφέρει ότι τουλάχιστον 3/4 από όλες τις παρατηρήσεις πέφτουν 2 τυπικές αποκλίσεις από την μέση τιμή. Αυτό είναι ένα «κάτω φράγμα» (σε σύγκριση με την προσέγγιση του Εμπειρικο Κανόνα (95%).

85 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Συντελεστής Μεταβλητότητας … Ο συντελεστής μεταβλητότητας ενός συνόλου παρατηρήσεων είναι η τυπική απόκλιση των παρατηρήσεων διαιρούμενη με την μέση τιμή, δηλαδή: Ο συντελεστής μεταβλητότητας του πληθυσμού = CV = Συντελεστής Μεταβλητότητας του δείγματος = cv =

86 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Συμβολισμός … ΠληθυσμόςΔείγμα Μέγεθος Nn Μέση Τιμή Διακύμανση Τυπική Απόκλιση S Συντελεστής Μεταβλητότητας CVcv

87 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Συντελεστής Μεταβλητότητας … Αυτός ο συντελεστής δείχνει ένα αναλογικό μέτρο της μεταβλητότητας, π.χ. Η τυπική απόκλιση του 10 ενδέχεται να ληφθεί ως μεγάλη όταν η μέση τιμή είναι 100, αλλά μόνο ως μέτρια όταν η μέση τιμή είναι 500.

88 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Μέτρα Μεταβλητότητας … Εάν τα δεδομένα είναι συμμετρικά, χωρίς ακραίες τιμές, χρησιμοποιήστε το εύρος και την τυπική απόκλιση. Εάν συγκρίνουμε την μεταβλητότητα ανάμεσα σε δύο σύνολα δεδομένων χρησιμοποιήστε τον συντελεστής μεταβλητότητας. Τα μέτρα μεταβλητότητας που εισήχθην σε αυτή την ενότητα μπορούν να χρησιμοποιηθούν μόνο για διαστημικά δεδομένα.

89 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Μέτρα Σχετικής Τοποθεσίας & Box Plots Μέτρα Σχετικής Τοποθεσίας σχεδιάζονται για να προβάλουν πληροφόρηση σχετικά με την τοποθεσία κάποιων συγκεκριμένων τιμών σε σχέση με ολόκληρο το σύνολο των δεδομένων. Ποσοστημόριο: το P ο ποσοστημόριο είναι η τιμή από την οποία P ποσοστό των τιμών είναι μικρότερο από την τιμή αυτή και (100-P)% είναι μεγαλύτερο από την τιμή αυτή. Υποθέστε ότι το σκορ σας είναι το 60 ο ποσοστημόριο στο GMAT τεστ, το οποίο σημαίνει ότι το 60% των άλλων σκορ ήταν κάτω από το δικό σας, ενώ το 40% των άλλων σκορ ήταν κάτω από το δικό σας.

90 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Ποσοστημόριο … Έχουμε ειδικά ονόματα για το 25 ο, 50 ο, και 75 ο ποσοστημόριο, χαρακτηριστικά τεταρτημόρια. Το πρώτο τεταρτημόριο χαρακτηρίζει Q 1 = 25 ο ποσοστημόριο. Το δεύτερο τεταρτημόριο, Q 2 = 50 ο ποσοστημόριο (το οποίο είναι επίσης η διάμεσος). Το τρίτο τεταρτημόριο, Q 3 = 75 ο ποσοστημόριο. Μπορούμε επίσης να αντιστοιχίσουμε ποσοστημόρια σε πεμπτημόρια (quintiles, fifths) και δεκατημόρια (deciles, tenths).

91 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Χρήσιμα Ποσοστημόρια … Πρώτο δεκατημόριο= 10 ο ποσοστημόριο Πρώτο τεταρτημόριο, Q 1,= 25 ο ποσοστημόριο Διάμεσος, Q 2, = 50 ο ποσοστημόριο Τρίτο τεταρτημόριο, Q 3, = 75 ο ποσοστημόριο Ένατο δεκατημόριο = 90 ο ποσοστημόριο Σημειώστε: Εάν ο βαθμό σου σε φέρνει στο 80 ο ποσοστημόριο, αυτό δεν σημαίνει ότι απάντησες το 80% των ερωτήσεων σωστά – αυτό σημαίνει ότι το 80% των συμφοιτητών σου είχε σκορ χαμηλότερο από το δικό σου. Δείχνει την θέση σου σε σχέση με τους άλλους.

92 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Θέση των Ποσοστημορίων … Ο ακόλουθος τύπος μας επιτρέπει να προσεγγίσουμε την θέση του κάθε ποσοστημορίου: Όπου L p είναι η θέση του P ο ποσοστημόριου

93 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Θέση των Ποσοστημορίων … Θεωρήστε τα δεδομένα: Ποια είναι η θέση του 25 ο ποσοστημορίου. Δηλαδή, σε ποιο σημείο είναι το 25% των τιμών μικρότερες και 75% των τιμών μεγαλύτερες; L 25 = (10+1)(25/100) = Το 25 ο ποσοστημόριο είναι τρία-τέταρτα της απόστασης μεταξύ της δεύτερης (που είναι 0) και της τρίτης (που είναι 5) παρατήρησης. Τα τρία-τέταρτα της απόστασης είναι: (.75)(5 – 0) = 3.75 Επειδή η δεύτερη παρατήρηση είναι 0, το 25 ο ποσοστημόριο είναι = 3.75

94 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Θέση των Ποσοστημορίων … Ποιο είναι το τρίτο τεταρτημόριο; L 75 = (10+1)(75/100) = Τοποθετείτε ένα-τέταρτο της απόστασης ανάμεσα στην όγδοη και ένατη παρατήρηση, οι οποίες είναι 14 και 22, αντίστοιχα. Το πρώτο τέταρτο της απόστασης είναι: (.25)( ) = 2, το οποίο σημαίνει ότι το 75 ο ποσοστημόριο είναι: = 16

95 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Θέση των Ποσοστημορίων … Παρακαλώ θυμηθείτε … 0 0 | | L p καθορίζει την θέση στο σύνολο των δεδομένων όπου η τιμή του ποσοστημορίου βρίσκεται, όχι την τιμή του ποσοστημορίου θέση 8.25 θέση 2.75

96 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Ενδοτεταρτημοριακό Εύρος … Τα τεταρτημόρια μπορούν να χρησιμοποιηθούν για να δημιουργήσουν ένα άλλο μέτρο μεταβλητότητας, το ενδοτεταρτημοριακό εύρος το οποίο ορίζεται ως εξής: Ενδοτεταρτημοριακό Εύρος = Q 3 – Q 1 Το ενδοτεταρτημοριακό εύρος μετράει το άπλωμα του 50% των μεσαίων παρατηρήσεων. Μεγάλες τιμές αυτής της στατιστικής σημαίνουν ότι το 1 ο και 3 ο τεταρτημόριο απέχουν υποδεικνύοντας υψηλό επίπεδο μεταβλητότητας.

97 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Θηκόγραμμα (Box Plot)… Το θηκόγραμμα (box plot) είναι μία γραφική τεχνική η οποία σχεδιάζει πέντε στατιστικές: την μικρότερη και την μεγαλύτερη παρατήρηση, και το πρώτο, δεύτερο, και τρίτο τεταρτημόριο. Μύστακας (1.5*(Q 3 –Q 1 )) Μύστακας Οι προεκτεινόμενες γραμμές στα αριστερά και στα δεξιά καλούνται μύστακες (whiskers). Κάθε σημείο που πέφτει έξω από τους μύστακες καλείται ακραία τιμή (outlier). Οι μύστακες επεκτείνονται προς τα έξω στο μικρότερο από το (1.5 φορά το ενδοτεταρτημοριακό εύρος) ή στην ποιο τελευταία τιμή η οποία δεν είναι ακραία.

98 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Θηκόγραμμα (Box Plot)… Αυτά τα θηκογράμματα είναι από δεδομένα με χρόνος εξυπηρέτησης πελατών. Ο χρόνος εξυπηρέτησης στα Wendy’s είναι ο μικρότερος και λιγότερο μεταβλητός. Στα Hardee’s o χρόνος εξυπηρέτησης έχει την μεγαλύτερη μεταβλητότητα, ενώ στα Jack-in-the-Box έχει τον μεγαλύτερο χρόνος εξυπηρέτησης.

99 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Μέτρα για Γραμμική Συσχέτιση … Παριστάνουμε τώρα δύο αριθμητικά μέτρα για γραμμική σχέση που δίνουν πληροφορία για την ισχύ & κατεύθυνση της γραμμικής σχέσης ανάμεσα σε δύο μεταβλητές (αν υπάρχει). Αυτά είναι η συνδιακύμανση και ο συντελεστής συσχέτισης.  Συνδιακύμανση – υπάρχει κάποια σχέση που να δημιουργείται καθώς οι δύο μεταβλητές κινούνται μαζί;  Συντελεστής συσχέτισης - πόσο ισχυρή είναι η γραμμική σχέση μεταξύ των δύο μεταβλητών;

100 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Συνδιακύμανση … Μέσες τιμές του πληθυσμού X, Y Μέσες τιμές του δείγματος X, Y Σημειώστε: ο παρανομαστής είναι n-1, όχι n όπως θα περιμέναμε. Συνδιακυμανση του Πληθυσμού = Συνδιακυμανση του Δείγματος =

101 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Συνδιακύμανση … Με τον ίδιο τρόπο που υπήρχε ένας «σύντομος» τύπος για τον υπολογισμό της διακύνμανσης του δείγματος χωρίς να απαιτείται ο υπολογισμός της μέσης τιμής, υπάρχει και εδώ ένας «σύντομος» τύπος για τον υπολογισμό της συνδιακύνμανσης του δείγματος χωρίς να απαιτείται ο υπολογισμός των μέσων τιμών:

102 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Συμβολισμός … ΠληθυσμόςΔείγμα Μέγεθος Nn Μέση Τιμή Διακύμανση S2S2 Τυπική Απόκλιση S Συντελεστής Μεταβλητότητας CVcv Συνδιακύμανση S xy

103 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Υπολογισμός της Συνδιακύμανσης … Θεωρήστε τα ακόλουθα τρία σύνολα δεδομένων … Σε κάθε σύνολο, οι τιμές των X είναι οι ίδιες, και οι τιμές του Y είναι οι ίδιες. Το μόνο που αλλάζει είναι η σειρά των Y’s. Στο σύνολο #1, καθώς το X αυξάνει, αυξάνει και το Y; S xy είναι μεγάλη και θετική Στο σύνολο #2, καθώς το X αυξάνει, το Y μειώνετε; S xy είναι μεγάλη και αρνητική Στο σύνολο #3, καθώς το X αυξάνει, το Y δεν έχει συγκεκριμένη φορά; S xy είναι μικρή

104 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Συνδιακύμανση … (Μιλώντας Γενικά) Όταν δύο μεταβλητές κινούνται προς την ίδια κατεύθυνση (και τα δύο αυξάνουν ή μειώνουν,) η συνδιακύμανση είναι μεγάλη και θετική. Όταν δυο μεταβλητές κινούνται προς την αντίθετη κατεύθυνση η συνδιακύμανση είναι μεγάλη και αρνητική. Όταν δεν υπάρχει κάποια σχέση, η συνδιακύμανση είναι μικρή, δηλαδή κοντα στο 0.

105 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Συντελεστής Συσχέτισης … Ο συντελεστής συσχέτισης ορίζεται ως η συνδιακύμανση διαιρούμενη με τις τυπικές αποκλίσεις των μεταβλητών: Το Ελληνικό «ρ» Ο συντελεστής απαντάει στην ερώτηση: Πόσο ισχυρή είναι η σχέση μεταξύ του X και Υ; Ο συντελεστής συσχέτισης του πληθυσμού = Ο συντελεστής συσχέτισης του δείγματος =

106 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Συμβολισμός … ΠληθυσμόςΔείγμα Μέγεθος Nn Μέση Τιμή Διακύμανση S2S2 Τυπική Απόκλιση S Συντελεστής Μεταβλητότητας CVcv Συνδιακύμανση S xy Συντελεστής Συσχέτισης r

107 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Συντελεστής Συσχέτισης … Το πλεονέκτημα του συντελεστή συσχέτισης σε σχέση με την συνδιακύμανση είναι ότι κυμαίνεται πάντα μεταξύ -1 και +1, έτσι: Εάν οι δύο μεταβλητές είναι πολύ ισχυρά και θετικά συσχετιζόμενες, ο συντελεστής θα είναι κοντά στο +1 (ισχυρή θετική γραμμική σχέση). Εάν οι δύο μεταβλητές είναι πολύ ισχυρά και αρνητικά συσχετιζόμενες, ο συντελεστής θα είναι κοντά στο -1 (ισχυρή αρνητική γραμμική σχέση). Μη γραμμική σχέση υποδηλώνεται από έναν συντελεστή κοντά στο 0.

108 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Συντελεστής Συσχέτισης …  ή r = +1 0 Ισχυρή θετική γραμμική σχέση Καμία σχέση Ισχυρή αρνητική γραμμική σχέση

109 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Συντελεστής Συσχέτισης (Εφαρμογή) Βαθμοί (μέσοι όροι) από MBA συγκρίνονται με βαθμούς από GMAT. Είναι ένας βαθμός από το GMAT καλή πρόβλεψη για επιτυχία σε MBA; Excel: Tools > Data Analysis… > Covariance Tools > Data Analysis… > Correlation

110 Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc Ερμηνεία των Τεστ GMAT & GPA … Η συνδιακύμανση είναι και ο συντελεστής συσχέτισης είναι Αυτά τα δύο στατιστικά μας λένε ότι υπάρχει μία θετική γραμμική σχέση ανάμεσα στο βαθμό του GMAT και του μέσου όρου του ΜΒΑ. Ο συντελεστής συσχέτισης μας λέει ότι η γραμμική σχέση δεν είναι «αρκετά» ισχυρή.


Κατέβασμα ppt "Copyright © 2005 Brooks/Cole, a division of Thomson Learning, Inc. 2.1 Κεφάλαιο 2 Περιγραφική Στατιστική."

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google