Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Βαςικα Στατιςτικα Μετρα

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "Βαςικα Στατιςτικα Μετρα"— Μεταγράφημα παρουσίασης:

1 Βαςικα Στατιςτικα Μετρα
Στατιςτικη Συμπεραςματολογια με Στατιςτικα Πακετα Σταματης Πουλακιδακος

2 Ειδη Μεταβλητων Ειδη Μεταβλητων
Κατηγορικές ή ποιοτικές μεταβλητές (nominal): Η απλούστερη μορφή κωδικοποίησης τιμών χωρίς τις έννοιες της διάταξης και της διαφοράς. Κάθε τιμή προσδιορίζει μια ξεχωριστή κατηγορία. Δεν μπορούν να εφαρμοσθούν αριθμητικές πράξεις όπως πρόσθεση, πολλαπλασιασμός κλπ. Διατεταγμένες μεταβλητές (ordinal): Μεταβλητή της οποίας οι τιμές έχουν χωριστεί με βάση το επίπεδο της διάταξης, αλλά δε μπορεί να προσδιοριστεί ποσοτική απόσταση μεταξύ των κατηγοριών π.χ. επίπεδο εκπαίδευσης (οι απόφοιτοι λυκείου είναι υψηλότερης εκπαίδευσης από τους απόφοιτους δημοτικού, αλλά χαμηλότερης σε σχέση με τους απόφοιτους πανεπιστημίου Ποσοτικές μεταβλητές διαστήματος (interval): Εκτός από την κατάταξη μπορεί να προσδιοριστεί και η απόσταση μεταξύ των κατηγοριών (αλλά όχι η αναλογία). Π.χ. τιμές της κλίμακας ρίχτερ. Τα 3 με τα 6 ρίχτερ απέχουν 3 ρίχτερ αλλά το δεύτερο δεν είναι το διπλάσιο του πρώτου Ποσοτικές μεταβλητές αναλογίας (ratio): Υπάρχει η έννοια της αναλογικότητας των τιμών εκτός των ιδιοτήτων της διάταξης και της διαφοράς (ύψος, απόσταση, βάρος κλπ). Μπορούν να γίνουν όλες οι αριθμητικές πράξεις και να υπολογιστούν όλα τα στατιστικά μέτρα Ποιοτικές μεταβλητές με δύο κατηγορίες-Διχοτομικές (dichotomies): Έχουμε μόνο δύο κατηγορίες (π.χ. Ναι, Όχι). Έχουν την έννοια της κατάταξης και της απόστασης, αλλά δεν είναι αναλογικές Κατηγορικές ή ποιοτικές μεταβλητές (nominal): Η απλούστερη μορφή κωδικοποίησης τιμών χωρίς τις έννοιες της διάταξης και της διαφοράς. Κάθε τιμή προσδιορίζει μια ξεχωριστή κατηγορία. Δεν μπορούν να εφαρμοσθούν αριθμητικές πράξεις όπως πρόσθεση, πολλαπλασιασμός κλπ. Διατεταγμένες μεταβλητές (ordinal): Μεταβλητή της οποίας οι τιμές έχουν χωριστεί με βάση το επίπεδο της διάταξης, αλλά δε μπορεί να προσδιοριστεί ποσοτική απόσταση μεταξύ των κατηγοριών π.χ. επίπεδο εκπαίδευσης (οι απόφοιτοι λυκείου είναι υψηλότερης εκπαίδευσης από τους απόφοιτους δημοτικού, αλλά χαμηλότερης σε σχέση με τους απόφοιτους πανεπιστημίου Ποσοτικές μεταβλητές διαστήματος (interval): Εκτός από την κατάταξη μπορεί να προσδιοριστεί και η απόσταση μεταξύ των κατηγοριών (αλλά όχι η αναλογία). Π.χ. τιμές της κλίμακας ρίχτερ. Τα 3 με τα 6 ρίχτερ απέχουν 3 ρίχτερ αλλά το δεύτερο δεν είναι το διπλάσιο του πρώτου Ποσοτικές μεταβλητές αναλογίας (ratio): Υπάρχει η έννοια της αναλογικότητας των τιμών εκτός των ιδιοτήτων της διάταξης και της διαφοράς (ύψος, απόσταση, βάρος κλπ). Μπορούν να γίνουν όλες οι αριθμητικές πράξεις και να υπολογιστούν όλα τα στατιστικά μέτρα Ποιοτικές μεταβλητές με δύο κατηγορίες-Διχοτομικές (dichotomies): Έχουμε μόνο δύο κατηγορίες (π.χ. Ναι, Όχι). Έχουν την έννοια της κατάταξης και της απόστασης, αλλά δεν είναι αναλογικές

3 Δυο Βαςικες κατηγοριες ςτατιςτικων μετρων
Στατιστικά μέτρα θέσης Μας δίνουν (με διαφορετικό τρόπο το καθένα) την τάση που ακολουθούν τα δεδομένα. Τα μέτρα θέσης είναι οι πλέον αντιπροσωπευτικές τιμές που χαρακτηρίζουν το σύνολο των μετρήσεων μίας στατιστικής σειράς Στατιστικά μέτρα διασποράς Στοχεύουν στον προσδιορισμό της μεταβλητότητας (ή ετερογένειας) που παρουσιάζουν οι στατιστικές σειρές δεδομένων. Χρησιμοποιούνται σε συνδυασμό με τα μέτρα θέσης και από κοινού περιγράφουν κατανομές στατιστικών παρατηρήσεων

4 Μετρα θεςης (η κεντρικης ταςης)
Επικρατούσα τιμή (mode): τιμή μιας μεταβλητής με τη μέγιστη συχνότητα Στην περίπτωση αυτή ο καλύτερος ίσως τρόπος για να περιγράψει κανείς ένα «τυπικό» μέλος του κοινοβουλίου είναι να επιλέξει κάποιον από το κόμμα με τους περισσότερους βουλευτές- που συμβαίνει πιο συχνά- αυτή είναι η επικρατούσα τιμή Κόμμα Συχνότητα Σοσιαλδημοκράτες 79 Συντηρητικοί 35 Χριστιανοδημοκράτες 63 Πράσινοι 15 Νεοφιλελεύθεροι 8 Σύνολο 200

5 Πότε χρησιμοποιείται η επικρατούσα τιμή
Από ανάγκη: όταν η μεταβλητή που θέλουμε να εξετάσουμε είναι ονομαστική, μόνο η επικρατούσα τιμή μπορεί να δείξει την κεντρική τάση Όταν θέλουμε να περιγράψουμε την πιο συχνή τιμή μιας μεταβλητής/κατανομής Πότε ΔΕΝ χρησιμοποιείται η επικρατούσα τιμή Μπορεί να υπάρχουν περισσότερες από μία επικρατούσες τιμές. Σε αυτή την περίπτωση είναι λιγότερο χρήσιμη Όταν η μεταβλητή είναι διατεταγμένη (ordinal), ή ποσοτική μεταβλητή αναλογίας (ratio), ή ποσοτική μεταβλητή διαστήματος (interval). Η επικρατούσα τιμή μπορεί να είναι παραπλανητική

6 Ώρες μελέτης ανά εβδομάδα
Συχνότητα 17 2 6 3 11 4 12 5 16 7 15 8 14 9 10 18 1 Σύνολο 131 Εδώ η επικρατούσα τιμή είναι το 0, που δίνει όμως παραπλανητική εικόνα για το σύνολο των ωρών που οι περισσότεροι μελετούν

7 Η διάμεσος (median) Η τιμή η οποία όταν το σύνολο των αριθμητικών παρατηρήσεων διαταχθούν σε αύξουσα σειρά βρίσκεται ακριβώς στο κέντρο τους, έχοντας από αριστερά της το 50% του συνόλου των παρατηρήσεων και από δεξιά της το υπόλοιπο 50% Π.χ. Τυχαίο δείγμα πολιτών ερωτάται για την άποψή του για τη νομισματική ένωση και προκύπτει ο ακόλουθος πίνακας: Ας φανταστούμε όλες τις τιμές (1001) τοποθετη- μένες σε μια μεγάλη γραμμή που ξεκινά από τα χαμηλότερα σκορ (1) και φτάνει στα υψηλότερα (6). Πάμε στο άτομο που βρίσκεται στην 501η θέ- ση και μόλις βρήκαμε το διάμεσο Απάντηση Συχνότητα Εξαιρετικά ανεπιθύμητη (1) 109 Ανεπιθύμητη (2) 181 Σχετικά ανεπιθύμητη (3) 268 Σχετικά επιθυμητή (4) 261 Επιθυμητή (5) 101 Εξαιρετικά επιθυμητή (6) 81 Σύνολο 1001

8 Πού πέφτει στον πίνακα αυτό ο 501ος;
Πολύ πιο εύκολο με έναν πίνακα που να δείχνει και τις αθροιστικές συχνότητες (cumulative frequencies): Πού πέφτει στον πίνακα αυτό ο 501ος; Σημείωση: Επειδή εδώ έχουμε περιττό αριθμό παρατηρήσεων (1001) δεν έχουμε πρόβλημα να βρούμε το διάμεσο. Αν έχουμε άρτιο πλήθος παρατηρήσεων, παίρνουμε τις δύο τιμές που είναι πιο κοντά στο διάμεσο τις προσθέτουμε και διαιρούμε το άθροισμά τους δια του 2 (παίρνουμε το μέσο όρο) Απάντηση Συχνότητα Αθροιστική συχνότητα Εξαιρετικά ανεπιθύμητη (1) 109 Ανεπιθύμητη (2) 181 290 Σχετικά ανεπιθύμητη (3) 268 558 Σχετικά επιθυμητή (4) 261 819 Επιθυμητή (5) 101 920 Εξαιρετικά επιθυμητή (6) 81 1001 Σύνολο

9 Πότε χρησιμοποιείται η διάμεσος
Όταν η μεταβλητή είναι είτε διατεταγμένη (ordinal), είτε ποσοτική μεταβλητή διαστήματος ή αναλογίας (interval/ratio) Όταν ο μέσος όρος θα μας έδινε παραπλανητική τιμή π.χ. Κατηγορικές (nominal) μεταβλητές

10 Η Μέση Τιμή (mean): Είναι ο αριθμητικός μέσος όρος μιας σειράς αριθμητικών παρατηρήσεων.
Ορίζεται ως το άθροισμα των τιμών των αριθμητικών παρατηρήσεων διαιρούμενο δια του συνολικού τους αριθμού. Σε περίπτωση ταξινομημένων δεδομένων (π.χ. ομαδοποιημένες ηλικίες), η μέση τιμή υπολογίζεται ως ο μέσος όρος των κεντρικών τιμών των τάξεων. Ας υποθέσουμε ότι θέλουμε να εξετάσουμε τον αριθμό των επιθέσεων σε 15 διαφορετικές γειτονιές: Θα μπορούσαμε να βρούμε την επικρατούσα τιμή: 21 Θα μπορούσαμε να βρούμε το διάμεσο: 22 Ή θα μπορούσαμε να βρούμε τη μέση τιμή: 22.4 Όταν μιλάμε για πληθυσμό (Ν) η μέση τιμή συμβολίζεται με το μ. Όταν μιλάμε για δείγμα (n) η μέση τιμή συμβολίζεται με το Γειτονιά 1 13 Γειτονιά 2 15 Γειτονιά 3 16 Γειτονιά 4 18 Γειτονιά 5 20 Γειτονιά 6 21 Γειτονιά 7 Γειτονιά 8 22 Γειτονιά 9 24 Γειτονιά 10 25 Γειτονιά 11 26 Γειτονιά 12 27 Γειτονιά 13 36 Γειτονιά 14 38 Γειτονιά 15 41

11 Πότε χρησιμοποιείται η μέση τιμή Πότε ΔΕΝ χρησιμοποιείται η μέση τιμή
Όταν έχουμε δεδομένα σε ποσοτικές μεταβλητές διαστήματος και αναλογίας (interval/ratio) Όταν ΔΕΝ υπάρχουν ακραίες τιμές σε όποιο από τα δύο άκρα της κατανομής των δεδομένων Πότε ΔΕΝ χρησιμοποιείται η μέση τιμή Όταν υπάρχουν ακραίες τιμές σε οποιοδήποτε άκρο της κατανομής των δεδομένων

12 Γιατί η μέση τιμή είναι σημαντικό στατιστικό μέτρο:
Στη συνέχεια των ενοτήτων θα δείτε ότι η μέση τιμή είναι δομικό στοιχείο πολλών άλλων στατιστικών υπολογισμών. Εάν αθροίσετε τις διαφορές μεταξύ της μέσης τιμής και κάθε άλλης τιμής στην κατανομή το άθροισμα θα είναι 0 Εάν αθροίσετε τα τετράγωνα των διαφορών μεταξύ της μέσης τιμής και κάθε άλλης τιμής στην κατανομή, θα έχετε σαν αποτέλεσμα αριθμό μικρότερο από τη χρήση οποιουδήποτε άλλου σημείου στην κατανομή

13 Τεταρτημόρια- Δεκατημόρια- Εκατοστημόρια
Τα τεταρτημόρια αποτελούν τιμές οι οποίες χωρίζουν την κατανομή των τιμών σε τέσσερα (4) ίσα μέρη. Υπάρχουν 3 τεταρτημόρια (1ο, 2ο 3ο), τα οποία βρίσκονται στο 25%, 50% και 75% του συνόλου των παρατηρήσεων αντίστοιχα Τα δεκατημόρια είναι οι τιμές που χωρίζουν σε 10 ίσα μέρη τις τιμές μιας μεταβλητής Τα εκατοστημόρια είναι οι τιμές εκείνες που χωρίζουν σε 100 ίσα μέρη τις τιμές μιας μεταβλητής

14 Μετρα διαςπορας Τα μέτρα θέσης (ή κεντρικής τάσης) αποτελούν ένα μόνο είδος περιγραφής μιας κατανομής και μας προσφέρουν μια ατελή εικόνα Σκεφτείτε ότι θέλετε να δείτε την κατανομή των βαθμών σε 3 διαφορετικές τάξεις: Τάξη 1: Τάξη 2: Τάξη 3: Σε όλες τις περιπτώσεις η μέση τιμή και η διάμεσος είναι το 6. Αλλά θα μπορούσαμε να πούμε ότι είναι όλες οι τάξεις ίδιες; Προφανώς ΌΧΙ: Η τάξη 1 είναι εντελώς ομοιογενής Η τάξη 2 είναι πολύ διεσπαρμένη Η τάξη 3 δεν είναι ομοιογενής, αλλά είναι και αρκετά συγκεντρωμένη Αυτό που χρειαζόμαστε είναι κάποιο μέτρο (ή μέτρα) αυτής της διασποράς Τα μέτρα διασποράς προσδιορίζουν τη μεταβλητότητα που παρουσιάζουν στατιστικές σειρές δεδομένων και δρουν σε συνδυασμό με τα μέτρα θέσης για να περιγράψουν κατανομές στατιστικών παρατηρήσεων

15 Εύρος (range): Είναι το πιο απλό και πασιφανές μέτρο διασποράς των τιμών μιας κατανομής Αποτελεί τη διαφορά μεταξύ της μέγιστης και της ελάχιστης τιμής ενός συνόλου στατιστικών παρατηρήσεων Για την τάξη 1 το εύρος είναι 0, για την τάξη 2 είναι 9 και για την τάξη 3 είναι 4 Σε ταξινομημένα δεδομένα το εύρος μπορεί να υπολογιστεί με δύο τρόπους: Ως η διαφορά μεταξύ του ανώτατου ορίου της μεγαλύτερης τάξης τιμών και του ελάχιστου ορίου της μικρότερης τάξης τιμών Ως η διαφορά μεταξύ της κεντρικής τιμής της μεγαλύτερης τάξης τιμών και της κεντρικής τιμής της μικρότερης τάξης τιμών

16 Πλεονεκτήματα του εύρους Μειονεκτήματα του εύρους
Είναι απλό στον υπολογισμό και την ερμηνεία του Μειονεκτήματα του εύρους Αγνοείται μεγάλη ποσότητα πληροφορίας, καθώς ουσιαστικά χρησιμοποιούνται μόνο δύο (ακραίες) τιμές Είναι επιρρεπές σε ακραίες τιμές που διαφοροποιούνται πολύ των υπολοίπων Δεν μπορεί να προσδιορίσει πόσο απέχει η μέση ή τυπική τιμή από το μέσο της κατανομής

17 Πλεονεκτήματα ενδοτεταρτημοριακού εύρους
Ενδοτεταρτημοριακό εύρος Είναι η διαφορά μεταξύ του 3ου και του 1ου τεταρτημορίου μιας κατανομής (δεν περιλαμβάνουμε το πρώτο 25% και το τελευταίο 25% των παρατηρήσεων) Πλεονεκτήματα ενδοτεταρτημοριακού εύρους Είναι απλό στον υπολογισμό και την ερμηνεία του Δεν επηρεάζεται από ακραίες τιμές Μειονεκτήματα ενδοτεταρτημοριακού εύρους Αγνοείται μεγάλη ποσότητα πληροφορίας, καθώς ουσιαστικά χρησιμοποιούνται μόνο δύο τιμές Δεν μπορεί να προσδιορίσει πόσο απέχει η μέση ή τυπική τιμή από το μέσο της κατανομής

18 Μέτρα απόκλισης (measures of deviation): μέση απόκλιση (average deviation)
Απόκλιση είναι οι αποστάσεις των τιμών μιας κατανομής από τη μέση τιμή. Όσο πιο ετερογενείς οι τιμές, τόσο πιο μεγάλη η απόκλιση. Ένας τρόπος να μετρήσουμε όλες τις αποκλίσεις στην κατανομή είναι να αθροίσουμε τις διαφορές τους. Το άθροισμα όμως αυτό μας δίνει 0 (βλ. διαφάνεια 12). Τι κάνουμε τώρα; Παίρνουμε τα αθροίσματα των απόλυτων τιμών των διαφορών, μετατρέποντας τις αρνητικές τιμές σε θετικές. Πρόβλημα και εδώ όμως: όσο μεγαλύτερος είναι ο αριθμός των τιμών σε μια μεταβλητή, τόσο μεγαλύτερη θα είναι και η απόκλιση, όχι λόγω μεγαλύτερης απόκλισης της τυπικής τιμής από τη μέση τιμή, αλλά διότι υπάρχουν περισσότερες τιμές και συνεπώς περισσότερες αποκλίσεις για να αθροιστούν Λύση και εδώ: διαιρούμε το «απόλυτο» άθροισμα των αποκλίσεων με το πλήθος των τιμών της μεταβλητής και έχουμε τη μέση απόκλιση

19 Πλεονεκτήματα μέσης απόκλισης Μειονεκτήματα μέσης απόκλισης
Είναι απλή στον υπολογισμό και την ερμηνεία της Ο υπολογισμός λαμβάνει υπόψη όλες τις τιμές των παρατηρήσεων Δεν επηρεάζεται από ακραίες τιμές Μειονεκτήματα μέσης απόκλισης Ο υπολογισμός της είναι δύσκολος σε μεγάλο πλήθος παρατηρήσεων Οι απόλυτες τιμές είναι δύσκολο να χρησιμοποιηθούν αλγεβρικά (για συγκρίσεις), οπότε η μέση απόκλιση δεν χρησιμοποιείται

20 Τα προβλήματα της μέσης απόκλισης έρχονται να διορθώσουν η διακύμανση (variance) και η τυπική απόκλιση (standard deviation) Η διακύμανση χρησιμοποιεί τα τετράγωνα του αθροίσματος των αποκλίσεων (αντί για τις απόλυτες τιμές) διαιρούμενα με το πλήθος των τιμών της κατανομής Ουσιαστικά αποτελεί μία μέτρηση των τετραγωνισμένων αποκλίσεων από τη μέση τιμή (Τάξη 1=0, Τάξη 2= 11.69, Τάξη 3= 1.692) Θέλουμε, όμως να έχουμε ένα μέτρο διασποράς στη λογική των αρχικών τιμών της μεταβλητής και όχι των τετραγώνων τους. Οπότε απλά κρατάμε την τετραγωνική ρίζα των τετραγώνων (η ύψωση στο τετράγωνο δεν αποφεύγεται διότι το άθροισμα θα ήταν μηδενικό) (Τάξη 1=0, Τάξη 2=3.419, Τάξη 3=1.301) Η τυπική απόκλιση είναι το σημαντικότερο, πλέον αξιόπιστο και πλέον χρησιμοποιούμενο μέτρο διασποράς (συμβολίζεται με σ- για πληθυσμό, με τα αρχικά του αγγλικού ονόματός της SD, ή s- για δείγμα)

21 Μετρα ςχηματικης μορφης
Η ασυμμετρία (Skewness) είναι ένα μέτρο συμμετρίας, ή καλύτερα έλλειψης συμμετρίας. Μία κατανομή είναι συμμετρική όταν παρουσιάζει την ίδια εικόνα στα δεξιά και στα αριστερά του κεντρικού της σημείου. Η κύρτωση (Kurtosis) είναι μέτρο που μας δείχνει εάν τα δεδομένα σχηματίζουν κορυφή ή είναι επίπεδα σε σχέση με μια κανονική κατανομή. Συνεπώς, σετ δεδομένων με υψηλή κύρτωση, έχουν μια διακριτή κορυφή κοντά στη μέση τιμή, πέφτουν σχετικά απότομα, και έχουν έντονη «ουρά». Δεδομένα με χαμηλή κύρτωση έχουν επίπεδη κορυφή κοντά στη μέση τιμή, παρά οξεία. Μια ομοιογενής κατανομή είναι η ακραία κατάσταση χαμηλής κύρτωσης.


Κατέβασμα ppt "Βαςικα Στατιςτικα Μετρα"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google