Περιγραφική Στατιστική Μπουντζιούκα Βασιλική, MSc Βιοστατιστικός Εξωτ. Συνεργάτης ΕΣΔΥ Εθνική Σχολή Δημόσιας Υγείας, 09-11-2009
Αντικείμενο Στατιστικής Η στατιστική ασχολείται με: Συλλογή στοιχείων από επιλεγμένο δείγμα (ομοιογενές σύνολο ατόμων) από τον πληθυσμό Οργάνωση των στοιχείων Παρουσίαση των στοιχείων σε πίνακες, διαγράμματα Ανάλυση των στοιχείων βάσει στατιστικής συμπερασματολογίας σύμφωνα με κάποια μοντέλα Οι πληροφορίες είναι ως επί το πλείστον αριθμητικές και ονομάζονται παρατηρήσεις/ μετρήσεις/ δεδομένα
Βήματα Στατιστικής Ανάλυσης Δειγματοληψία: επιλογή του δείγματος από τον πληθυσμό βάσει καταλληλότητας αυτού σε σχέση με το υπό εξέταση χαρακτηριστικό Χρήση Η/Υ και προγραμμάτων (π.χ. excel, SPSS, Minitab, Stata κτλ) για την καταχώρηση και οργάνωση των δεδομένων Παρουσίαση και περιγραφή δεδομένων (περιγραφική στατιστική) Συμπερασματολογία (αναλυτική στατιστική)
Σχεδιάγραμμα
Οργάνωση Στατιστικών Δεδομένων Τα δεδομένα αποτελούνται από ένα πλήθος στοιχείων που αφορούν τον πληθυσμό του ενδιαφέροντός μας Τα στοιχεία οργανώνονται σε μορφή πινάκων Τύποι δεδομένων (μεταβλητών) Ποσοτικές: μόνο αριθμητικά δεδομένα Διακριτές: π.χ. αριθμός παιδιών οικογένειας Συνεχείς: π.χ. ηλικία Ποιοτικές: δεν εκφράζουν κάτι μετρήσιμο Κατηγορικές: π.χ. φύλο (άνδρες, γυναίκες) Διατάξιμες: π.χ. κατάσταση υγείας
Τύποι μεταβλητών (Ι)
Τύποι μεταβλητών (ΙΙ) Κατηγορική Διατάξιμη Συνεχής Διακριτή ύπαρξη διαφορών μεταξύ των κατηγοριών το σύνολο των τιμών δεν έχει καμία ιδιότητα χρώμα ματιών, οικογενειακή κατάσταση Διατάξιμη προσδιορισμός κατηγορίας καθόλου, σπάνια, συχνά, καθημερινά Συνεχής υποσύνολο τιμών στο σύνολο των πραγματικών αριθμών βάρος, ύψος, ηλικία Διακριτή υποσύνολο τιμών στο σύνολο των φυσικών αριθμών αριθμός παιδιών, αυτοκινήτων
Πίνακες Συχνοτήτων (Ι) Χρήσιμο μέσο για την σαφή και κατανοητή παρουσίαση των δεδομένων περιγραφή των δεδομένων (π.χ. εύρος τιμών, έλεγχος συμμετρικότητας, ύπαρξη ακραίων τιμών) Τα δεδομένα ενός δείγματος για μια τμ Χ που παίρνει τιμές σε ένα σύνολο τιμών (κατηγορίες, αριθμητικές τιμές) μπορούν να παρουσιαστούν σε ένα πίνακα συχνοτήτων
Πίνακες Συχνοτήτων (ΙΙ) Ο πίνακας συχνοτήτων παρουσιάζει πόσες φορές εμφανίζεται (συχνότητα εμφάνισης fi) η τιμή (xi) της τμ Χ στο σύνολο του δείγματος (n) Σχετική συχνότητα (pi) ορίζεται ως ο λόγος της συχνότητας εμφάνισης (fi) μιας τιμής (xi) στο σύνολο του δείγματος (n): Αθροιστική συχνότητα (Fi) μιας τιμής (xi) είναι το άθροισμα των συχνοτήτων όλων των τιμών που είναι μικρότερες ή ίσες της xi
Παράδειγμα
Γραφικές Μέθοδοι Παρουσίασης (Ι) Παρουσίαση ποιοτικών δεδομένων Ραβδόγραμμα (barchart): οι κατηγορίες της τμ παρουσιάζονται ως ράβδοι με ισομήκη μεταξύ τους διαστήματα στον οριζόντιο άξονα, ενώ οι συχνότητες (ή οι σχετικές συχνότητες) παρουσιάζονται στον κάθετο άξονα Κυκλικό διάγραμμα (piechart): χρησιμοποιούν για την παράσταση δεδομένων έναν κύκλο χωρισμένο σε τμήματα
Γραφικές Μέθοδοι Παρουσίασης (ΙΙ) Παρουσίαση ποσοτικών δεδομένων Διάγραμμα συχνοτήτων: αντίστοιχο με το ραβδόγραμμα, αλλά αντί για συμπαγή ορθογώνια (ράβδους) υψώνουμε σε κάθε τιμή μια κάθετη γραμμή με μήκος ίσο με τη συχνότητα Κυκλικό διάγραμμα (διακριτές): ομοίως με το κυκλικό διάγραμμα των ποιοτικών χαρακτηριστικών Ιστόγραμμα συχνοτήτων: αποτελείται από διαδοχικά ορθογώνια των οποίων το ύψος επιλέγεται έτσι ώστε το εμβαδόν του ορθογωνίου να είναι ίσο με τη συχνότητα της τιμής στην οποία αναφέρεται
Παράδειγμα (Ι)
Παράδειγμα (ΙΙ)
Αριθμητικά Περιγραφικά Μέτρα Συνοπτική εικόνα δεδομένων με χρήση πολύ μικρού πλήθους αριθμητικών στοιχείων Μέτρα θέσης (κεντρικής τάσης): περιγραφή της θέσης της κατανομής απ’ όπου προέρχονται τα δεδομένα Μέτρα διασποράς (μεταβλητότητας): εκφράζουν τις αποκλίσεις των τιμών μιας μεταβλητής γύρω από τα μέτρα θέσης
Μέτρα Θέσης Προσδιορίζουν ένα κεντρικό σημείο γύρω από το οποίο τείνουν να συγκεντρώνονται τα δεδομένα Τα κυριότερα μέτρα θέσης είναι: Μέση τιμή (δειγματικός μέσος όρος, αριθμητικός μέσος) Διάμεσος Επικρατούσα τιμή Ποσοστημόρια
Μέση τιμή (Ι) Μέση τιμή δείγματος ορίζεται το άθροισμα των τιμών των παρατηρήσεων του δείγματος, προς το πλήθος των παρατηρήσεων Το άθροισμα του συνόλου των τιμών της ποσοτικής μεταβλητής διαιρημένου δια του πλήθους τους «εκπρόσωπος» των παρατηρήσεων
Μέση τιμή (ΙΙ) Ευαίσθητη σε ακραίες παρατηρήσεις Η παρουσία ακραίων παρατηρήσεων καθιστά τη μέση τιμή ως μη αντιπροσωπευτική του δείγματος Υπολογίζεται από όλες τις τιμές Δεν υπολογίζεται για ποιοτικά δεδομένα
Διάμεσος (Ι) Το σημείο εκείνο κάτω από το οποίο βρίσκεται το 50% των παρατηρήσεων και πάνω από το οποίο βρίσκεται το άλλο 50% των παρατηρήσεων Η τιμή που διαιρεί το δείγμα (σε διατεταγμένες τιμές) σε δύο ακριβώς ίσα τμήματα Αν ν: περιττός Αν ν: άρτιος Σημ: η διάμεσος υπολογίζεται αν οι παρατηρήσεις διαταχθούν σε αύξουσα σειρά
Διάμεσος (ΙΙ) Δεν επηρεάζεται από ακραίες τιμές Είναι μοναδική σε κάθε σύνολο δεδομένων Δεν χρησιμοποιούνται όλες οι τιμές Δεν υπολογίζεται για κατηγορικά δεδομένα
Επικρατούσα τιμή (κορυφή) Η παρατήρηση με τη μεγαλύτερη συχνότητα (διακριτά δεδομένα) Η κεντρική τιμή της ομάδας (κλάσης) με τη μεγαλύτερη συχνότητα (ομαδοποιημένα δεδομένα) Δεν υπολογίζεται από όλες τις τιμές Δεν επηρεάζεται από ακραίες παρατηρήσεις Υπολογίζεται κ’ για ποιοτικά δεδομένα
Ποσοστημόρια Το p-ποσοστημόριο είναι η παρατήρηση εκείνη η οποία είναι μεγαλύτερη από το 100p% των παρατηρήσεων για p=1/2, το 50% είναι η διάμεσος p=1/4: 1ο ποσοστημόριο (Q1/4) p=3/4: 3ο ποσοστημόριο (Q3/4) Το σημείο της κατανομής για το οποίο α% των παρατηρήσεων είναι από αυτό και το υπόλοιπο (1-α)% είναι > από αυτό
Μέτρα Διασποράς Όταν τα δεδομένα είναι πολύ σκορπισμένα, τα μέτρα θέσης δεν δίνουν καλή περιγραφή των δεδομένων Τα κυριότερα μέτρα διασποράς είναι: Εύρος Διασπορά (διακύμανση) Τυπική απόκλιση Ενδοτεταρτημοριακή απόκλιση-θηκόγραμμα
Εύρος τιμών Η διαφορά (απόσταση) της μέγιστης από την ελάχιστη παρατήρηση Σε ταξινομημένα δεδομένα το εύρος προκύπτει ως η διαφορά του κατώτερου ορίου από το ανώτερο όριο Εξαρτάται από τις ακραίες τιμές
Διασπορά Δηλώνει πόσο μακριά από τη μέση τιμή απέχουν οι παρατηρήσεις Μέτρο της απόστασης των παρατηρήσεων από το μέσο όρο Όταν οι τιμές απέχουν πολύ από τη μέση τιμή η διασπορά είναι μεγάλη Όταν οι τιμές δεν διαφέρουν πολύ από τη μέση τιμή, η διασπορά είναι μικρή
Τυπική απόκλιση Η τυπική απόκλιση ορίζεται ως η τετραγωνική ρίζα της διασποράς Αποτελεί μέτρο μεταβλητότητας Εκφράζεται στη μονάδα μέτρησης του χαρακτηριστικού
Ενδοτεταρτημοριακή απόκλιση Η διαφορά μεταξύ του 3ου και 1ου τεταρτημορίου Q3/4 - Q1/4 Στο μεταξύ τους διάστημα περιέχεται το 50% των τιμών του δείγματος Μικρό διάστημα μεγάλη συγκέντρωση τιμών μικρή διασπορά τιμών
Θηκόγραμμα (boxplot) Γραφικός τρόπος απεικόνισης των κυριότερων χαρακτηριστικών μιας κατανομής Βήματα Βρίσκουμε Q1/4, Q3/4 και διάμεσο Κατασκευάζουμε ένα ορθογώνιο με κάτω βάση στο Q1/4 και πάνω βάση στο Q3/4 Η διάμεσος είναι μια κάθετη στο ορθογώνιο Άνω τιμή: Q3/4+1.5 Κάτω τιμή: Q1/4-1.5 Έξω από αυτά τα όρια: έκτροπες παρατηρήσεις Δίνει το κεντρικό διάστημα με το 50% των παρατηρήσεων
Παράδειγμα
Διάστημα εμπιστοσύνης Διάστημα εμπιστοσύνης (1-α)100% για την αληθή τιμή της παραμέτρου Θ στον πληθυσμό είναι το: Κάτω άκρο: θ - συντελεστής εμπιστοσύνης * s Άνω άκρο: θ + συντελεστής εμπιστοσύνης * s Αν ο πληθυσμός είναι κανονικός και ο συντελεστής ίσος με 1,96, τότε το διάστημα προσφέρει 95% εμπιστοσύνη για την αληθή τιμή της παραμέτρου Θ
Μέτρα Σχετικής Μεταβλητότητας Ο συντελεστής μεταβλητότητας (coefficient of variation, CV) εκφράζει το λόγο της τυπικής απόκλισης (s) προς τη μέση τιμή ( ) Μπορεί να χρησιμοποιηθεί για συγκρίσεις ομάδων τιμών οι οποίες είτε εκφράζονται σε διαφορετικές μονάδες μέτρησης, είτε έχουν διαφορετικές μέσες τιμές Ομοιογένεια του δείγματος αν CV≤10%
Συντελεστής ασυμμετρίας Η κατανομή ενός πληθυσμού μπορεί να είναι συμμετρική ή μη-συμμετρική Μη συμμετρική: η κορυφή χωρίζει την κατανομή σε δύο μέρη τα οποία δεν περιέχουν ίσο αριθμό παρατηρήσεων Θετική ασυμμετρία: το πλήθος των παρατηρήσεων βρίσκεται δεξιά της κορυφής Αρνητική ασυμμετρία: το πλήθος των παρατηρήσεων βρίσκεται αριστερά της κορυφής
Συντελεστής κυρτότητας Οι καμπύλες συχνοτήτων (κατανομές) χαρακτηρίζονται από το βαθμό συγκέντρωσης των παρατηρήσεων στα στο μέσο και στα άκρα Λεπτόκυρτες, μεσόκυρτες (κανονική), πλατύκυρτες
Ευχαριστώ!!!