Κατέβασμα παρουσίασης
Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε
1
ΕΙΣΑΓΩΓΗ - ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ
ΕΘΝΙΚΟ ΚΑΙ ΚΑΠΟΔΙΣΤΡΙΑΚΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΑΘΗΝΩΝ ΤΜΗΜΑ ΠΛΗΡΟΦΟΡΙΚΗΣ & ΤΗΛΕΠΙΚΟΙΝΩΝΙΩΝ ΠΡΟΓΡΑΜΜΑ ΜΕΤΑΠΤΥΧΙΑΚΩΝ ΣΠΟΥΔΩΝ ΤΕΧΝΟΛΟΓΙΕΣ ΠΛΗΡΟΦΟΡΙΚΗΣ ΣΤΗΝ ΙΑΤΡΙΚΗ ΚΑΙ ΤΗ ΒΙΟΛΟΓΙΑ ΜΑΘΗΜΑ : ΒΙΟΣΤΑΤΙΣΤΙΚΗ ΕΙΣΑΓΩΓΗ - ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ ΔΙΟΝΥΣΗΣ ΛΙΝΑΡΔΑΤΟΣ 5 ΟΚΤΩΒΡΙΟΥ 2017
2
Εισαγωγή - Βασικές έννοιες
Βασικές Έννοιες Περιγραφική στατιστική ανάλυση Βασικές κατανομές συχνοτήτων
3
1. Εισαγωγή Στατιστική Η επιστήμη της συλλογής, ανάλυσης και ερμηνείας δεδομένων, τα οποία αναφέρονται σε ιδιότητες / χαρακτηριστικά φυσικών, κοινωνικών και λοιπών φαινομένων. Συλλογή : συλλογή – ταξινόμηση – παρουσίαση Ανάλυση : επεξεργασία - ανάλυση / χρησιμοποίηση κατάλληλων (για κάθε περίπτωση) στατιστικών μεθόδων Ερμηνεία : ερμηνεία- γενίκευση συμπερασμάτων
4
1. Εισαγωγή Τομείς Στατιστικής Περιγραφική Στατιστική
Επαγωγική Στατιστική Έχει ως αντικείμενο τη συστηματική ποσοτική περιγραφή των φυσικών, κοινωνικών και λοιπών φαινομένων. Έχει ως αντικείμενο τη γενίκευση των συμπερασμάτων που προκύπτουν από τις περιγραφικές στατιστικές αναλύσεις για όλο το σύνολο.
5
1. Εισαγωγή Εφαρμογές της Στατιστικής
Σε όλες τις ανθρώπινες δραστηριότητες: Ιατρική και Βιολογία Οικονομία Τηλεπικοινωνίες ….
6
1. Εισαγωγή Βιοστατιστική
Η επιστήμη της συλλογής, ανάλυσης και ερμηνείας δεδομένων, τα οποία αναφέρονται σε ιδιότητες / χαρακτηριστικά βιολογικών και ιατρικών φαινομένων. Κλινικές δοκιμές φαρμάκου Σχέση μεταξύ του καπνίσματος και του καρκίνου του πνεύμονα Η επιβίωση των πασχόντων από μία νόσο ….
7
Εισαγωγή - Βασικές έννοιες
Περιγραφική στατιστική ανάλυση Βασικές κατανομές συχνοτήτων
8
2. Βασικές έννοιες (Στατιστικός) Πληθυσμός
Οι μετρήσεις που αναφέρονται σε ένα πλήθος όντων ή αντικειμένων που έχουν ένα ή περισσότερα κοινά χαρακτηριστικά, τα οποία μας ενδιαφέρει να μελετήσουμε, ή αλλιώς, το σύνολο των τιμών που εκφράζει ποσοτικά το υπό μελέτη χαρακτηριστικό. Παραδείγματα Το σύνολο των υψών του ανθρώπινου πληθυσμού Το σύνολο των επιπέδων σακχάρου στους ανθρώπους
9
2. Βασικές έννοιες Συλλογή δεδομένων
Η διαδικασία της μέτρησης χαρακτηριστικών ιδιοτήτων των μονάδων ενός συνόλου (ή τμήματος αυτού) και η καταγραφή των αριθμητικών δεδομένων που προκύπτουν. Με απογραφή Συγκέντρωση στοιχείων από όλες τις ομάδες του πληθυσμού Με τη μέθοδο της δειγματοληψίας Άντληση των στοιχείων από ένα τμήμα των μονάδων του πληθυσμού
10
2. Βασικές Έννοιες Δείγμα
Το μέρος του πληθυσμού από το οποίο συλλέγονται οι πληροφορίες Μέθοδος της δειγματοληψίας Ο τρόπος με τον οποίο γίνεται η επιλογή του δείγματος. Παραδείγματα μεθόδων δειγματοληψίας Απλή τυχαία δειγματοληψία Κατά στρώματα (τυχαία) δειγματοληψία Κατά συστάδες (τυχαία) δειγματοληψία Συστηματική (τυχαία) δειγματοληψία Δειγματοληψία κρίσης
11
2. Βασικές Έννοιες Απλή τυχαία δειγματοληψία
Η επιλογή του δείγματος γίνεται με εντελώς τυχαίο τρόπο με αποτέλεσμα κάθε μέλος του πληθυσμού να έχει την ίδια πιθανότητα επιλογής με οποιοδήποτε άλλο μέλος. Κατά στρώματα (τυχαία) δειγματοληψία Ο πληθυσμός χωρίζεται σε μη επικαλυπτόμενες ομάδες (στρώματα) και στη συνέχεια επιλέγεται ένα τυχαίο δείγμα από κάθε ομάδα. Τα στρώματα παρουσιάζουν μεταξύ τους ανομοιογένεια, ενώ τα στοιχεία κάθε στρώματος είναι ομοιογενή.
12
2. Βασικές Έννοιες Κατά συστάδες (τυχαία) δειγματοληψία
Ο πληθυσμός χωρίζεται σε όσο το δυνατό ομοιογενείς μεταξύ τους ομάδες (συστάδες) με ανομοιογενή στοιχεία η κάθε μία, και στη συνέχεια γίνεται επιλογή από τις συστάδες ενός τυχαίου δείγματος με απλή τυχαία δειγματοληψία. Συστηματική (τυχαία) δειγματοληψία Η επιλογή των μελών του δείγματος από τον πληθυσμό γίνεται με κάποιο βήμα κάνοντας ένα τυχαίο ξεκίνημα. Δειγματοληψία κρίσης Η επιλογή του δείγματος γίνεται με βάση την κρίση του δειγματολήπτη είτε με βάση την ευκολία πρόσβασης στα μέλη του πληθυσμού που επιλέγονται για να αποτελέσουν το δείγμα.
13
2. Βασικές έννοιες (Τυχαία) Μεταβλητή
Εκφράζει το χαρακτηριστικό του πληθυσμού (ή υποσυνόλου του) που μπορεί να προσδιοριστεί ή μετρηθεί. Η ονομασία της μεταβλητής Η τιμή της μεταβλητής Η τιμή της μεταβλητής που έχει μια μονάδα του υπό εξέταση πληθυσμού ή δείγματος. Παράδειγμα Ονομασία μεταβλητής : Αριθμός τσιγάρων ανά ημέρα Τιμές της μεταβλητής : 3 για τον ασθενή Α.Β, 16 για τον ασθενή Α.Γ. κλπ
14
2. Βασικές έννοιες (Τυχαία) Μεταβλητή (συνέχεια)
Κατηγοριοποίηση (Κριτήριο : επιδέχονται αριθμητικές μετρήσεις ?) Ποιοτικές μεταβλητές (qualitative ή categorical ή string variables) Δεν επιδέχονται αριθμητικές μετρήσεις, αλλά περιγράφονται οι κατηγορίες στις οποίες ταξινομούνται οι παρατηρήσεις. Παραδείγματα : το φύλο, η παρουσία/απουσία συγκεκριμένου παθολογικού χαρακτηριστικού κλπ Παρατήρηση : Συνήθως γίνεται κωδικοποίηση των τιμών των ποιοτικών μεταβλητών. Ποσοτικές μεταβλητές (quantitative ή numerical variables) Επιδέχονται αριθμητικές μετρήσεις. Παραδείγματα : χοληστερόλη, σάκχαρο, βάρος, ανάστημα κλπ Παρατήρηση : Οι ποσοτικές μεταβλητές μπορούν να μετατραπούν σε ποιοτικές ενώ το αντίθετο δεν είναι κατά βάση δυνατό.
15
2. Βασικές έννοιες (Τυχαία) Μεταβλητή (συνέχεια)
Κατηγοριοποίηση των ποσοτικών μεταβλητών (Κριτήριο : μπορούν να λάβουν όλες τις τιμές των πραγματικών αριθμών?) Ασυνεχείς (ή διακριτές) μεταβλητές (discrete variables) Μπορούν να λάβουν ορισμένες αριθμητικές τιμές. Παραδείγματα : ο ημερήσιος αριθμός νοσηλευομένων στις ορθοπεδικές κλινικές των νοσοκομείων πανελλαδικά, ο αριθμός καρδιακών επεισοδίων ασθενή κλπ Συνεχείς μεταβλητές (continuous variable) Μπορούν να λάβουν (θεωρητικά) όλες τις τιμές των πραγματικών αριθμών (τουλάχιστον σε ένα διάστημα). Παραδείγματα : χοληστερόλη, σάκχαρο, βάρος, ανάστημα κλπ Παρατήρηση : Οι συνεχείς μεταβλητές μετρούνται με καθορισμένη εκ των προτέρων ακρίβεια.
16
2. Βασικές έννοιες (Τυχαία) Μεταβλητή (συνέχεια)
Κλίμακα Μέτρησης (scale of measurement) Αποτελείται από ένα σύνολο κανόνων, οι οποίοι δείχνουν τον τρόπο αντιστοίχησης ενός αριθμού σε ένα αντικείμενο. Οι κλίμακες μέτρησης μπορούν να διακριθούν με βάση τις μαθηματικές ιδιότητες της διάταξης, της απόστασης και της ύπαρξης του μηδενός. Υπάρχουν τέσσερις τύποι κλιμάκων μέτρησης : 1. Ονομαστική κλίμακα (nominal scale) 2. Διατεταγμένη κλίμακα (ordinal scale) 3. Κλίμακα διαστήματος (interval scale) και 4. Αναλογική κλίμακα (ratio scale)
17
2. Βασικές έννοιες (Τυχαία) Μεταβλητή (συνέχεια)
Ονομαστική κλίμακα μέτρησης Τα αντικείμενα μέτρησης ομαδοποιούνται σε κατηγορίες και κάθε αντικείμενο δεν μπορεί να ανήκει ταυτόχρονα σε παραπάνω από μία υποκατηγορία (οι υποκατηγορίες είναι αμοιβαία αποκλειόμενες). Για κάθε αντικείμενο συγκεκριμένης υποκατηγορίας αντιστοιχίζεται ένας αριθμός. Δεν περιλαμβάνει ούτε τη διάταξη ούτε την απόσταση. Παραδείγματα : η οικογενειακή κατάσταση, το φύλο, κλπ Η απλούστερη μορφή της ονομαστικής κλίμακας είναι η δίτιμη κλίμακα. Οι δυνατές κατηγορίες της δίτιμης κλίμακας είναι μόνο δύο. Παράδειγμα μεταβλητής δίτιμης κλίμακας είναι το φύλο γιατί έχει μόνο δύο δυνατές κατηγορίες (γυναίκα ή άνδρας).
18
2. Βασικές έννοιες (Τυχαία) Μεταβλητή (συνέχεια)
Διατεταγμένη κλίμακα μέτρησης Οι κατηγορίες ταξινομούνται με μια αποδεκτή και κατανοητή σειρά. Η διατεταγμένη κλίμακα έχει την ιδιότητα της διάταξης αλλά δεν έχει την ιδιότητα της απόστασης. Παράδειγμα μεταβλητής που εμπίπτει στη διατεταγμένη κλίμακα μέτρησης αποτελεί η έκφραση συμφωνίας ή διαφωνίας με ένα θέμα που εξετάζεται. Η μεταβλητή λαμβάνει τιμές από την κλίμακα «Συμφωνώ απόλυτα» - «Συμφωνώ» - «Ούτε συμφωνώ ούτε διαφωνώ»- «Διαφωνώ» και «Διαφωνώ απόλυτα», η οποία περιλαμβάνει τη διαβάθμιση από την πολύ θετική γνώμη μέχρι την πολύ αρνητική γνώμη για το υπό εξέταση θέμα.
19
2. Βασικές έννοιες (Τυχαία) Μεταβλητή (συνέχεια)
Κλίμακα μέτρησης διαστήματος Επιτρέπει τη διάταξη των κατηγοριών και προσδιορίζει την ακριβή απόσταση μεταξύ τους. Η κλίμακα διαστήματος δεν έχει προσδιορισμένο σημείο για το μηδέν και χαρακτηρίζεται από έλλειψη αναλογικότητας. Παράδειγμα αποτελεί η κλίμακα με τιμές 1, 2, 3, 4 και 5 που μετρά το επίπεδο ικανοποίησης παρεχόμενων υπηρεσιών υγείας.
20
2. Βασικές έννοιες (Τυχαία) Μεταβλητή (συνέχεια)
Αναλογική κλίμακα μέτρησης Χαρακτηρίζεται από τις ιδιότητες της διάταξης, της απόστασης και του μηδενικού στοιχείου. Μηδενικό στοιχείο : Για ένα αντικείμενο μέτρησης που δεν έχει καθόλου την ιδιότητα που εξετάζεται τότε σε αυτό αντιστοιχίζεται η τιμή μηδέν. Στην αναλογική κλίμακα είναι επιτρεπτές όλες οι μαθηματικές πράξεις του συνόλου των πραγματικών αριθμών. Παράδειγμα αποτελεί η κλίμακα με τιμές 0 έως 100 που μετρά την τιμή χρέωσης παρεχόμενων υπηρεσιών υγείας.
21
2. Βασικές έννοιες ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ
Παράδειγμα συλλογής δεδομένων : Με ερωτηματολόγιο ΕΡΩΤΗΜΑΤΟΛΟΓΙΟ 1. Κωδικός ασθενή : …… 2. Έχει υποστεί Καρδιακό επεισόδιο; Κανένα Αιφνίδιος θάνατος Όχι θανάσιμο έμφραγμα μυοκαρδίου Θανάσιμο έμφραγμα μυοκαρδίου Άλλο Καρδιακό Επεισόδιο 3. Σε ποια ηλικία συνέβη το πρώτο Καρδιακό Επεισόδιο; …… 4. Ποια είναι η μέση τιμή της διαστολικής αρτηριακής πίεσης το 2011; …… 5. Ποια είναι τα επίπεδα χοληστερόλης στον ορό σε mg/dl το 2011; …… 6. Ποιος είναι ο αριθμός τσιγάρων ανά ημέρα το 2011; …… 7. Ποιο είναι το σωματικό βάρος σε Kg το 2011; …… 8. Υπήρξε ιστορικό Καρδιακού Επεισοδίου στην οικογένεια; Ναι Όχι
22
2. Βασικές έννοιες Παράδειγμα συλλογής δεδομένων (συνέχεια) : Κωδικοποίηση δεδομένων Μεταβλητή Τιμές Παρατηρήσεις Κωδικός ασθενή Η μεταβλητή περιέχει τον κωδικό του ασθενή Καρδιακό Επεισόδιο (Κ.Ε.) 1 = Κανένα επεισόδιο 2 = Αιφνίδιος θάνατος 3 = Όχι θανάσιμο έμφραγμα μυοκαρδίου 4 = Θανάσιμο έμφραγμα μυοκαρδίου 5 = Άλλο Καρδιακό Επεισόδιο Ηλικία πρώτου Κ.Ε. Μέση διαστολική αρτηριακή πίεση Επίπεδα χοληστερόλης (mg/dl) Αριθμός τσιγάρων ανά ημέρα Σωματικό βάρος (Kg) Οικογενειακό Ιστορικό Κ.Ε. 0 = Όχι, 1 = Ναι Επιβίωση μετά από 10 χρόνια 0 = Επιβίωση, 1 = Μη-επιβίωση
23
Εισαγωγή - Βασικές έννοιες
Εισαγωγή - Βασικές έννοιες Εισαγωγή Βασικές έννοιες Περιγραφική στατιστική ανάλυση Βασικές κατανομές συχνοτήτων
24
3. Περιγραφική στατιστική ανάλυση
Συχνότητα (εμφάνισης) Εκφράζει πόσες φορές εμφανίζεται η τιμή μιας μεταβλητής στα δεδομένα. (Απόλυτη) συχνότητα Ισούται με το πλήθος εμφάνισης της τιμής της μεταβλητής στα δεδομένα. Παράδειγμα : Η συχνότητα της τιμής «8» στο δείγμα {8,6,12,8,4,8,21,16,7,18} για τη μεταβλητή «Αριθμός τσιγάρων ανά ημέρα» είναι 3. Σχετική συχνότητα Ισούται με την (απόλυτη) συχνότητα διαιρεμένη με το μέγεθος του δείγματος. Παράδειγμα : Η σχετική συχνότητα του «8» στο προηγούμενο παράδειγμα είναι 3/10=30%.
25
3. Περιγραφική στατιστική ανάλυση
Πίνακας συχνοτήτων Παρουσιάζει τις συχνότητες όλων των τιμών μιας μεταβλητής στα δεδομένα. Παράδειγμα : Ο πίνακας συχνοτήτων της μεταβλητής «φύλο» παρουσιάζει το πλήθος των ανδρών και των γυναικών στο δείγμα. Απεικόνιση συχνοτήτων Με ραβδογράμματα Διαγράμματα που παρουσιάζουν τις συχνότητες ως ξεχωριστές ράβδους μεταβλητού ύψους Με διαγράμματα πίττας Με ιστογράμματα Χρησιμοποιείται για ποσοτικές μεταβλητές. Οι στήλες εμφανίζονται κατά σειρά μεγέθους των τιμών και δεν χωρίζονται με κενά.
26
3. Περιγραφική στατιστική ανάλυση
Συναρτήσεις στο MATLAB n = hist(Y,nbins) bar(x,Y) % παρουσιάζει μία ράβδο για κάθε στοιχείο του Υ στις θέσεις που προσδιορίζονται από το x pie(X)
27
3. Περιγραφική στατιστική ανάλυση
Κατανομή συχνοτήτων (distribution function) Αποτελεί το σύνολο όλων των πιθανών τιμών που μπορεί να πάρει μια τυχαία μεταβλητή μαζί με τις αντίστοιχες συχνότητες εμφάνισης κάθε τιμής. Αθροιστική κατανομή συχνοτήτων (cumulative distribution function) Αναπαριστά την πιθανότητα η τυχαία μεταβλητή να λαμβάνει τιμές μικρότερες ή ίση με συγκεκριμένη τιμή x. Χαρακτηριστικές τιμές των κατανομών συχνοτήτων Μέτρα τάσης συγκέντρωσης τιμών (measures of central tendency) Μέση τιμή (average) Διάμεσος (median) Επικρατούσα τιμή (most frequent value)
28
3. Περιγραφική στατιστική ανάλυση
Χαρακτηριστικές τιμές των κατανομών συχνοτήτων (συνέχεια) Μέτρα διασποράς (measures of spread) Εύρος (range) Ενδοτεταρτομοριακό εύρος (interquartile range) Διασπορά (variance) Τυπική απόκλιση (standard deviation) Κεντρικές Ροπές (central moments) Συντελεστής μεταβλητότητας (dispersion factor) Μέτρα σχήματος (measures of shape) Συντελεστής ασυμμετρίας (skewness) Συντελεστής κύρτωσης (kurtosis)
29
3. Περιγραφική στατιστική ανάλυση
Μέση τιμή Πληθυσμιακή μέση τιμή Δειγματική μέση τιμή Συμμετρική κατανομή : οι τιμές της μεταβλητής διατάσσονται συμμετρικά γύρω από τη μέση τιμή.
30
3. Περιγραφική στατιστική ανάλυση
Διάμεσος Είναι η τιμή που χωρίζει το δείγμα σε δύο ισοπλήθη μέρη όταν έχουν διαταχθεί οι τιμές κατ’ αύξουσα σειρά. Άρα οι μισές τιμές είναι μεγαλύτερες από τη διάμεσο και οι άλλες μισές τιμές μικρότερες. Αν το πλήθος των αριθμών είναι άρτιος, ως διάμεσος λαμβάνεται η μέση τιμή των δύο μεσαίων τιμών. Παράδειγμα: Η διάμεσος των τιμών {6,6,8,8,10,10,10,17} είναι 9. Επικρατούσα τιμή Είναι η συχνότερα εμφανιζόμενη τιμή στα δεδομένα. Σε ένα σύνολο τιμών είναι δυνατόν να υπάρξουν περισσότερες της μιας επικρατούσες τιμές. Παράδειγμα: Η επικρατούσα τιμή των {6,6,8,8,10,10,10,17} είναι το 10.
31
3. Περιγραφική στατιστική ανάλυση
Συναρτήσεις στο Matlab Μέση τιμή : mean(x) Διάμεσος : median(x) Επικρατούσα τιμή : mode(x) Παρατήρηση : Εάν το όρισμα x είναι πίνακας, τότε οι συναρτήσεις δίνουν το ζητούμενο αποτέλεσμα για κάθε μία από τις στήλες του x. Παράδειγμα 1: x=[ ]; % διατάσσοντας τα στοιχεία έχουμε x=[ ] mean(x) = median(x) = 4 mode(x) = 1
32
3. Περιγραφική στατιστική ανάλυση
Επίδραση των απομονωμένων τιμών (outliers) στα μέτρα τάσης συγκέντρωσης τιμών Οι απομονωμένες τιμές (outliers) υπάρχουν σχεδόν σε όλα τα δεδομένα του πραγματικού κόσμου. Η (δειγματική) μέση τιμή είναι ευαίσθητη στην παρουσία των απομονωμένων τιμών. Η ύπαρξη μιας τέτοιας τιμής μπορεί να μετακινήσει τη μέση τιμή πολύ μακριά από το μέσο των υπόλοιπων δεδομένων. Αντίθετα, η διάμεσος και η επικρατούσα τιμή είναι ανθεκτικές στην παρουσία των απομονωμένων τιμών. Η παρουσία τέτοιων τιμών μεταβάλλει ελάχιστα τη διάμεσο. Παράδειγμα 1 (συνέχεια): x=[ ]; % διατάσσοντας τα στοιχεία έχουμε x=[ ] mean(x) = 13.7 median(x) = 4.5 mode(x) = 1
33
3. Περιγραφική στατιστική ανάλυση
Σχέση Μέση τιμής – Διάμεσου – Επικρατούσας Τιμής Γενικά τα τρία χαρακτηριστικά δεν συμπίπτουν. Συμπίπτουν μόνο όταν η κατανομή είναι συμμετρική και έχει μόνο μία κορυφή. Αν η κατανομή δεν είναι συμμετρική και έχει μόνο μία κορυφή, τότε η μέση τιμή επηρεάζεται από τις ουρές της κατανομής και απομακρύνεται από το κέντρο της κατανομής προς τις ουρές, ενώ η διάμεσος βρίσκεται μεταξύ επικρατούσας τιμής (αντιστοιχεί στην κορυφή) και μέσης τιμής.
34
3. Περιγραφική στατιστική ανάλυση
Εύρος Είναι η διαφορά μεταξύ της μέγιστης μείον την ελάχιστη τιμή των δεδομένων. Ενδοτεταρτομοριακό εύρος Είναι η απόσταση του 75ου από το 25ο ποσοστιαίο σημείο. Διασπορά (ή διακύμανση) Είναι η μέση τιμή των τετραγώνων της απόστασης κάθε τιμής από τη μέση τιμή. Πληθυσμιακή διασπορά Δειγματική διασπορά
35
3. Περιγραφική στατιστική ανάλυση
Διασπορά (συνέχεια) Όσο μεγαλύτερη είναι η διασπορά τόσο περισσότερο διασκορπισμένες είναι οι τιμές. Αν η διασπορά είναι μηδενική, τότε όλες οι παρατηρήσεις έχουν την ίδια τιμή. Τυπική απόκλιση Είναι η τετραγωνική ρίζα της διασποράς. Πληθυσμιακή τυπική απόκλιση Δειγματική τυπική απόκλιση
36
3. Περιγραφική στατιστική ανάλυση
Τυπική απόκλιση (συνέχεια) Όσο μεγαλύτερη είναι η τυπική απόκλιση τόσο περισσότερο διασκορπισμένες είναι οι τιμές. Αν η τυπική απόκλιση είναι μηδενική, τότε όλες οι παρατηρήσεις έχουν την ίδια τιμή. Παρατήρηση : Η τυπική απόκλιση (όπως και η διασπορά) δίνει μεγαλύτερη βαρύτητα σε εκείνες τις τιμές που απέχουν περισσότερο από τη μέση τιμή και μικρότερη σε εκείνες που βρίσκονται κοντά στη μέση τιμή. Κεντρικές Ροπές Η k-τάξης κεντρική ροπή υπολογίζεται από τη σχέση : Συντελεστής μεταβλητότητας Είναι η τυπική απόκλιση ως ποσοστό της μέσης τιμής.
37
3. Περιγραφική στατιστική ανάλυση
Συναρτήσεις στο Matlab Εύρος : range(x) Ενδοτεταρτομοριακό εύρος : iqr(x) Διασπορά : var(x) Τυπική απόκλιση : std(x) Κεντρικές Ροπές : moment(x,order) Συντελεστής μεταβλητότητας : std(x)/mean(x) Παρατήρηση : Εάν το όρισμα x είναι πίνακας, τότε οι συναρτήσεις δίνουν το ζητούμενο αποτέλεσμα για κάθε μία από τις στήλες του x. Παράδειγμα 1 (συνέχεια): x=[ ]; range(x) = 7 iqr(x) = var(x) = std(x) = moment(x,2) =
38
3. Περιγραφική στατιστική ανάλυση
Επίδραση των απομονωμένων τιμών (outliers) στα μέτρα διασποράς Το εύρος επηρεάζεται σημαντικά από τις απομονωμένες τιμές. Η τυπική απόκλιση, η διασπορά και οι κεντρικές ροπές επηρεάζονται σημαντικά από τις απομονωμένες τιμές. Μια τέτοια τιμή μπορεί να αυξήσει τα εν λόγω μέτρα κατά πολύ. Αντίθετα το ενδοτεταρτομοριακό εύρος δεν επηρεάζεται από την ύπαρξη απομονωμένων τιμών. Παράδειγμα 1 (συνέχεια): x=[ ]; range(x) = 99 iqr(x) = 5 var(x) = std(x) = moment(x,2) =
39
3. Περιγραφική στατιστική ανάλυση
Σημασία μέσης τιμής και τυπικής απόκλισης Με τη βοήθεια της τυπικής απόκλισης υπολογίζεται το ποσοστό των τιμών των δεδομένων που συγκεντρώνονται σε συγκεκριμένες αποστάσεις γύρω από τη μέση τιμή. Οι αποστάσεις αυτές μετρώνται σε πολλαπλάσια της τυπικής απόκλισης. Ανισότητα Chebyshev Ανεξάρτητα από τη μορφή της κατανομής των δεδομένων ισχύουν τα ακόλουθα : Τουλάχιστον το 75% των παρατηρήσεων βρίσκονται στο διάστημα Τουλάχιστον το 88,8% των παρατηρήσεων βρίσκονται στο διάστημα
40
3. Περιγραφική στατιστική ανάλυση
Σημασία μέσης τιμής και τυπικής απόκλισης (συνέχεια) Η μέση τιμή αποτελεί το σημείο αναφοράς με το οποίο συγκρίνονται οι υπόλοιπες παρατηρήσεις. Η θέση κάθε παρατήρησης υπολογίζεται από το τυπικό αποτέλεσμα (z score) που ορίζεται ως Το τυπικό αποτέλεσμα δείχνει σε μονάδες τυπικής απόκλισης πόσο διαφέρει μια παρατήρηση πάνω ή κάτω από τη μέση τιμή. Παράδειγμα : Αν το τυπικό αποτέλεσμα μιας τιμής είναι 2, αυτό σημαίνει ότι είναι μεγαλύτερη κατά 2 τυπικές αποκλίσεις από τη μέση τιμή. Αν το τυπικό αποτέλεσμα μιας τιμής είναι -1, αυτό σημαίνει ότι είναι μικρότερη κατά 1 τυπική απόκλιση από τη μέση τιμή.
41
3. Περιγραφική στατιστική ανάλυση
Συντελεστής ασυμμετρίας (λοξότητα) Δηλώνει το βαθμό ασυμμετρίας μιας κατανομής skewness=0 : Κανονική κατανομή skewness>0 : Κατανομή με ουρά προς τα δεξιά skewness<0 : Κατανομή με ουρά προς τα αριστερά |skewness|>1 : Κατανομή που διαφέρει σημαντικά από την Κανονική.
42
3. Περιγραφική στατιστική ανάλυση
Συντελεστής κύρτωσης Μετρά το βαθμό συγκέντρωσης των τιμών της μεταβλητής γύρω από τη μέση τιμή (πόσο επιρρεπής είναι η κατανομή στην ύπαρξη outliers) kurtosis = 0 : Κανονική κατανομή (μεσόκυρτη καμπύλη) kurtosis > 0 : Κατανομή στην οποία οι παρατηρήσεις συγκεντρώνονται περισσότερο γύρω από τη μέση τιμή σε σχέση με την κανονική κατανομή (λεπτόκυρτη καμπύλη) kurtosis < 0 : Κατανομή στην οποία οι παρατηρήσεις συγκεντρώνονται λιγότερο γύρω από τη μέση τιμή σε σχέση με την κανονική (πλατύκυρτη καμπύλη)
43
3. Περιγραφική στατιστική ανάλυση
Συναρτήσεις στο Matlab Συντελεστής ασυμμετρίας : skewness(x) Συντελεστής κύρτωσης : kurtosis(x) Παρατήρηση 1: Εάν το όρισμα x είναι πίνακας, τότε οι συναρτήσεις δίνουν το ζητούμενο αποτέλεσμα για κάθε μία από τις στήλες του x. Παρατήρηση 2: Η συνάρτηση kurtosis(x) δεν αφαιρεί το 3 από τον υπολογισμό της κύρτωσης (άρα η κανονική κατανομή έχει κύρτωση=3) Παρατήρηση 3 : Οι δύο συντελεστές επηρεάζονται από την ύπαρξη απομονωμένων τιμών (outliers). Παράδειγμα 1 (συνέχεια): x=[ ]; skewness(x) = kurtosis(x) = x=[ ]; skewness(x) = kurtosis(x) =
44
3. Περιγραφική στατιστική ανάλυση
Το διάγραμμα boxplot (ή θηκόγραμμα) Βοηθά στη γραφική απεικόνιση της κατανομής των δεδομένων. Παρουσιάζει : το 25ο τεταρτημόριο το 75ο τεταρτημόριο τη διάμεσο το ενδοτεταρτομοριακό εύρος (R) τις απομονωμένες τιμές (outliers) τη μέγιστη τιμή (δεν συμπεριλαμβάνονται οι απομονωμένες τιμές) την ελάχιστη τιμή (δεν συμπεριλαμβάνονται οι απομονωμένες τιμές) Απομονωμένες τιμές (outliers) ονομάζονται αυτές που απέχουν >1,5R πάνω από το 75ο τεταρτημόριο ή κάτω από το 25ο τεταρτημόριο. Ακραίες τιμές ονομάζονται αυτές που απέχουν >3 R πάνω από το 75ο τεταρτημόριο ή κάτω από το 25ο τεταρτημόριο.
45
3. Περιγραφική στατιστική ανάλυση
Το διάγραμμα boxplot (συνέχεια) Matlab : boxplot(x), x : πίνακας, του οποίου οι στήλες περιλαμβάνουν τα δείγματα μέγιστη τιμή δείγματος (εκτός outliers) 75ο τεταρτημόριο διάμεσος ενδοτεταρτομοριακό εύρος 25ο τεταρτημόριο ελάχιστη τιμή δείγματος (εκτός outliers) απομονωμένες τιμές (outliers)
46
3. Περιγραφική στατιστική ανάλυση
Το διάγραμμα boxplot (συνέχεια) Πληροφορίες που εξάγονται από το διάγραμμα boxplot : Η θέση της διαμέσου δείχνει που βρίσκεται μια κεντρική τιμή των δεδομένων Το ύψος του κουτιού δίνει μια πρώτη οπτική εκτίμηση της μεταβλητότητας των δεδομένων Αν η γραμμή της διαμέσου δε βρίσκεται στο κέντρο του κουτιού, η κατανομή δεν είναι συμμετρική. Αν η διάμεσος είναι πιο κοντά στο πάνω άκρο τότε η κατανομή έχει ουρά προς τα αρνητικά. Αν η διάμεσος είναι πιο κοντά στο κάτω άκρο τότε η κατανομή έχει ουρά προς τα θετικά.
47
Εισαγωγή - Βασικές έννοιες
Περιγραφική στατιστική ανάλυση Βασικές κατανομές συχνοτήτων
48
4. Βασικές κατανομές συχνοτήτων
Βασικές κατανομές (συχνοτήτων) Κατανομή Poisson Εκθετική Κατανομή Κανονική Κατανομή Κατανομή Weibul Κατανομή Bernouli Διωνυμική Κατανομή Κατανομή Βήττα
49
4. Βασικές κατανομές συχνοτήτων
Κατανομή Poisson με παράμετρο λ Για ασυνεχή τυχαία μεταβλητή Χ Χ~P(x) αν λαμβάνει τις τιμές 0, 1, 2, …. με πιθανότητες που ορίζονται από τη συνάρτηση Παραδείγματα μεταβλητών που ακολουθούν την κατανομή Poisson: Ο αριθμός των βακτηριδίων που παρατηρούνται στο μικροσκόπιο σε τετραγωνίδιο ορισμένου εμβαδού Ο αριθμός των ατυχημάτων κατά τη διάρκεια μιας χρονικής περιόδου σε δεδομένη χώρα Ο αριθμός των ασθενών που προσέρχονται προς εξέταση (όχι με ραντεβού) στα εξωτερικά ιατρεία κατά τη διάρκεια μιας χρονικής περιόδου, π.χ. μεταξύ 9-12π.μ.
50
4. Βασικές κατανομές συχνοτήτων
Κατανομή Poisson με παράμετρο λ (συνέχεια) Χαρακτηριστικές τιμές κατανομής Poisson Μέση τιμή = Διάμεσος = Επικρατούσα τιμή = (εκτός αν λ ακέραιος, οπότε λ-1) Διασπορά = Skewness = Kurtosis =
51
4. Βασικές κατανομές συχνοτήτων
Εκθετική Κατανομή Για συνεχή τυχαία μεταβλητή Χ Χ~f(x) αν λαμβάνει μη αρνητικές τιμές με συνάρτηση πυκνότητας πιθανότητας που ορίζεται από τη συνάρτηση Παραδείγματα μεταβλητών που ακολουθούν την Εκθετική Κατανομή: Ο χρόνος μεταξύ των κτύπων του μετρητή Geiger Ο χρόνος μέχρι την επόμενη τηλεφωνική κλήση μας Ο χρόνος εξέτασης των ασθενών από ένα γιατρό
52
4. Βασικές κατανομές συχνοτήτων
Εκθετική Κατανομή (συνέχεια) Χαρακτηριστικές τιμές Εκθετικής Κατανομής Μέση τιμή = Διάμεσος = Επικρατούσα τιμή = Διασπορά = Λοξότητα = Κύρτωση =
53
4. Βασικές κατανομές συχνοτήτων
Κανονική Κατανομή (Γκαουσσιανή Κατανομή) Για συνεχή τυχαία μεταβλητή Χ Χ~f(x) με συνάρτηση πυκνότητας πιθανότητας που ορίζεται από τη συνάρτηση Παραδείγματα μεταβλητών που ακολουθούν την Κανονική Κατανομή: Τα σφάλματα των μετρήσεων Η ένταση της ακτινοβολίας του laser Ο λογάριθμος της ισοτιμίας συναλλάγματος Ο λογάριθμος του βάρους του ανθρώπου Ο λογάριθμος μεγεθών που αφορούν τους ιστούς Το μήκος των μαλλιών
54
4. Βασικές κατανομές συχνοτήτων
Κανονική Κατανομή (συνέχεια) Χαρακτηριστικές τιμές Κανονικής Κατανομής Mέση τιμή = Διάμεσος = Επικρατούσα τιμή = Διασπορά = Λοξότητα = Κύρτωση =
55
4. Βασικές κατανομές συχνοτήτων
Κατανομή Weibul Για συνεχή τυχαία μεταβλητή Χ Χ~f(x) αν λαμβάνει μη αρνητικές τιμές με συνάρτηση πυκνότητας πιθανότητας που ορίζεται από τη συνάρτηση κ : παράμετρος σχήματος λ : παράμετρος κλίμακας Παραδείγματα μεταβλητών που ακολουθούν την κατανομή Weibul O χρόνος κατασκευής ενός μηχανήματος από τη βιομηχανία Η ταχύτητα του ανέμου Ο χρόνος εμφάνισης βλάβης σε μηχάνημα Ο χρόνος επιβίωσης
56
4. Βασικές κατανομές συχνοτήτων
Κατανομή Weibul (συνέχεια) Χαρακτηριστικές τιμές Κατανομής Weibul Μέση τιμή = Διάμεσος = Επικρατούσα τιμή = Διασπορά = Λοξότητα =
57
4. Βασικές κατανομές συχνοτήτων
Κατανομή Bernouli Για ασυνεχή τυχαία μεταβλητή Χ Χ~P(x) αν λαμβάνει τις τιμές 0 και 1 με πιθανότητες που ορίζονται από τη συνάρτηση Παραδείγματα μεταβλητών που ακολουθούν την κατανομή Bernouli: Κάθε περίπτωση πειράματος, το αποτέλεσμα του οποίου είναι τυχαίο και μπορεί να είναι ένα από δύο δυνατά αποτελέσματα.
58
4. Βασικές κατανομές συχνοτήτων
Κατανομή Bernouli (συνέχεια) Χαρακτηριστικές τιμές κατανομής Bernouli Μέση τιμή = Διάμεσος = εξαρτάται από το p Επικρατούσα τιμή = 0 ή 1 (εξαρτάται από το p) Διασπορά = Λοξότητα = Κύρτωση =
59
4. Βασικές κατανομές συχνοτήτων
Διωνυμική Κατανομή Για ασυνεχή τυχαία μεταβλητή Χ Χ~P(x) αν λαμβάνει τις τιμές 0, 1, 2, …, n με πιθανότητες που ορίζονται από τη συνάρτηση Παραδείγματα μεταβλητών που ακολουθούν τη διωνυμική κατανομή: Κάθε περίπτωση πειράματος που συνίσταται σε ακολουθία n ανεξάρτητων πειραμάτων, καθένα από τα οποία δίνει ένα από δύο δυνατά αποτελέσματα με πιθανότητες p και (1-p). (Υπόθεση: 5% του πληθυσμού έχει πράσινα μάτια). Επιλέγονται τυχαία 100 άνθρωποι. Ο αριθμός των ατόμων με πράσινα μάτια ακολουθεί τη διωνυμική κατανομή με n = 100 και p = 0.05.
60
4. Βασικές κατανομές συχνοτήτων
Διωνυμική Κατανομή (συνέχεια) Χαρακτηριστικές τιμές διωνυμικής κατανομής Μέση τιμή = Διάμεσος = Επικρατούσα τιμή = Διασπορά = Λοξότητα = Κύρτωση =
61
4. Βασικές κατανομές συχνοτήτων
Κατανομή Βήττα (Beta) Για συνεχή τυχαία μεταβλητή Χ Χ~f(x) με συνάρτηση πυκνότητα πιθανότητες που ορίζεται από τη συνάρτηση Παραδείγματα μεταβλητών που ακολουθούν την κατανομή Βήττα: Η Βήττα κατανομή χρησιμοποιείται για να περιγράψει γεγονότα που πρέπει να συμβούν εντός συγκεκριμένου διαστήματος που ορίζεται από μία ελάχιστη και μία μέγιστη τιμή. Στην περίπτωση διαχείρισης έργων, η Βήττα κατανομή χρησιμοποιείται για να περιγράψει το χρόνο που απαιτείται για την ολοκλήρωση ενός έργου.
62
4. Βασικές κατανομές συχνοτήτων
Κατανομή Βήττα (συνέχεια) Χαρακτηριστικές τιμές κατανομής Βήττα Μέση τιμή = Διάμεσος = εξαρτάται από τα α και β Επικρατούσα τιμή = Διασπορά = Λοξότητα =
63
4. Βασικές κατανομές συχνοτήτων
Οικογένειες εκθετικών κατανομών Με τον όρο οικογένεια εκθετικών κατανομών αναφερόμαστε στο σύνολο των κατανομών, οι οποίες έχουν την ακόλουθη γενική μορφή : όπου οι h(x), n(θ), T(x) και A(θ) είναι γνωστές συναρτήσεις. Ισχύει και για συνεχή και για ασυνεχή τυχαία μεταβλητή Χ Η κανονική, η εκθετική, η βήττα, η Bernouli, η διωνυμική, η Poisson και η Weibul κατανομές είναι όλες εκθετικές κατανομές.
64
4. Βασικές κατανομές συχνοτήτων
Συναρτήσεις MATLAB για κανονική κατανομή P = normcdf(X,MU,SIGMA) Υπολογίζει την αθροιστική συνάρτηση πυκνότητας πιθανότητας της κανονικής κατανομής σε κάθε μία από τις τιμές του Χ, χρησιμοποιώντας για την κατανομή τις παραμέτρους MU και SIGMA. Παράδειγμα : Η πιθανότητα P μια παρατήρηση που προέρχεται από κανονική κατανομή με μέση τιμή 2 και τυπική απόκλιση 1 να βρίσκεται στο διάστημα [1 3] είναι: x = normcdf([1 3],2,1); P=x(2) -x(1) = Με άλλα λόγια το 68% των παρατηρήσεων που προέρχονται από την εν λόγω κανονική κατανομή βρίσκονται στο διάστημα [1 3] ή αλλιώς απέχουν μία τυπική απόκλιση από τη μέση τιμή. Y = normpdf(X,MU,SIGMA) Υπολογίζει τη συνάρτηση πυκνότητας πιθανότητας της κανονικής κατανομής σε κάθε μία από τις τιμές του Χ, χρησιμοποιώντας για την κατανομή τις παραμέτρους MU και SIGMA. R = normrnd(MU,SIGMA,m,n) % Οι διαστάσεις του R είναι mxn Παράγει τυχαίους αριθμούς από κανονική κατανομή με παραμέτρους MU και SIGMA. Ανάλογες συναρτήσεις υπάρχουν και για τις υπόλοιπες κατανομές (π.χ. για την κατανομή Poisson υπάρχουν οι: poisscdf, poisspdf, poissrnd κ..λπ.)
65
4. Βασικές κατανομές συχνοτήτων
Η εντολή : cdfplot Παρουσιάζει το διάγραμμα της εμπειρικής αθροιστικής συνάρτησης κατανομής των δεδομένων στο διάνυσμα X. Παράδειγμα 2 x=normrnd(3,1,100,1); cdfplot(x)
66
4. Βασικές κατανομές συχνοτήτων
Οι εντολές : disttool - randtool Η disttool σχεδιάζει τις κατανομές πιθανοτήτων (cdf και pdf). Η disttool παρέχει μία γραφική διεπαφή για την ανακάλυψη των επιπτώσεων της αλλαγής των παραμέτρων στη γραφική παράσταση των cdf και pdf. Με την disttool μπορεί κανείς αλληλεπιδραστικά να υπολογίσει τις τιμές των cdf και pdf. Η randtool εγκαθιστά μία γραφική διεπαφή για τη μελέτη των επιπτώσεων της αλλαγής των παραμέτρων και του μεγέθους του δείγματος στο ιστόγραμμα των τυχαίων δειγμάτων. Με την randtool μπορούμε να εξάγουμε το τρέχον δείγμα σε μία μεταβλητή του MATLAB workspace.
67
4. Βασικές κατανομές συχνοτήτων
Οι εντολές : disttool – randtool (συνέχεια)
68
4. Βασικές κατανομές συχνοτήτων
Οι εντολές : disttool – randtool (συνέχεια)
69
4. Βασικές κατανομές συχνοτήτων
Οι εντολές : disttool – randtool (συνέχεια)
70
4. Βασικές κατανομές συχνοτήτων
Οι εντολές : disttool – randtool (συνέχεια)
Παρόμοιες παρουσιάσεις
© 2024 SlidePlayer.gr Inc.
All rights reserved.