ΣΤΑΤΙΣΤΙΚΗ Η επιστήμη που ασχολείται με την συλλογή δεδομένων,ανάλυση και ερμηνεία αυτών Η επιστήμη με τη χρήση της οποίας λαμβάνουμε αποφάσεις κάτω από συνθήκες αβεβαιότητας Βασικό γνώρισμα των διαφόρων πειραμάτων η μεταβλητότητα των δεδομένων
Η επεξεργασία των εισαγόμενων δεδομένων με το κατάλληλο θεωρητικό υπόβαθρο και την χρήση των στατιστικών πακέτων οδηγεί στην εξαγωγή των αποτελεσμάτων και την ερμηνεία αυτών
ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Πληθυσμός: ένα σύνολο στοιχείων που μας ενδιαφέρει να μελετήσουμε Δείγμα: υποσύνολο ενός πληθυσμού Παράμετρος: αριθμητική ποσότητα που εκφράζει ένα χαρακτηριστικό του πληθυσμού Στατιστική συνάρτηση: μια συνάρτηση των στοιχείων του δείγματος
ΒΑΣΙΚΕΣ ΕΝΝΟΙΕΣ Στατιστική μεταβλητή: μια καλά ορισμένη μετρήσιμη έκφραση ενός χαρακτηριστικού του πληθυσμού που μας ενδιαφέρει Σκοπός είναι η χρησιμοποίηση ενός δείγματος για την εκτίμηση των παραμέτρων του προβλήματος μέσω στατιστικής συμπερασματολογίας και η αναγωγή των αποτελεσμάτων στον πληθυσμό ΔΕΙΓΜΑ ΠΛΗΘΥΣΜΟΣ Εκτίμηση παραμέτρων Στατιστική συμπερασματολογία
ΕΙΔΗ ΔΕΔΟΜΕΝΩΝ Ποιοτικά: Τα δεδομένα παίρνουν διακριτές τιμές και ανήκουν σε κατηγορίες Έμφαση στη συχνότητα κάθε κατηγορίας Χωρίζονται σε δεδομένα διάταξης ή ονομαστικής κλίμακας Ποσοτικά: Τα δεδομένα των οποίων οι μεταβλητές παίρνουν πάντα συνεχείς τιμές Αριθμητικές παρατηρήσεις Χωρίζονται σε δεδομένα διαστήματος ή λόγου
ΠΟΙΟΤΙΚΑ ΔΕΔΟΜΕΝΑ Παραδείγματα Οικογενειακή κατάσταση (παντρεμένη, ανύπαντρη, χωρισμένη) Βαθμολογία στο μάθημα της στατιστικής (κακή, μέτρια, καλή, πολύ καλή, άριστη) Ακτινοβολία κινητών (ελάχιστη, μερική, υψηλή) Επίπεδα εκπαίδευσης (μέση, ανώτερη, ανώτατη)
ΠΟΣΟΤΙΚΑ ΔΕΔΟΜΕΝΑ Παραδείγματα Μέτρηση του ύψους των ανθρώπων Μέτρηση του βάρους των ανθρώπων Μέτρηση του εισοδήματος κάθε οικογένειας Αριθμός γεννήσεων σε κάθε νομό της Ελλάδος Συνολικά κέρδη εταιρειών από το χρηματιστήριο
ΠΕΡΙΓΡΑΦΗ ΔΕΔΟΜΕΝΩΝ Γραφική Περιγραφή μέσω γραφικής απεικόνισης των δεδομένων Ενδιαφέρει η κατανομή τους, δηλαδή πως ταξινομούνται αυτά Αριθμητική Περιγραφή μέσω αριθμητικών ποσοτήτων Είναι συνήθως τιμές συναρτήσεων
ΠΑΡΑΔΕΙΓΜΑ ΓΙΑ ΠΟΣΟΤΙΚΑ ΔΕΔΟΜΕΝΑ Το ετήσιο κέρδος μικρομεσαίας εταιρείας από το 1961 έως το 2000 παρουσιάζεται στον παρακάτω πίνακα:(σε χιλιάδες Ευρώ)
ΠΕΡΙΓΡΑΦΗ ΜΕ ΓΡΑΦΙΚΕΣ ΜΕΘΟΔΟΥΣ Διάγραμμα σημείων – DOT DIAGRAM Eυθύγραμμο τμήμα πάνω στο οποίο τοποθετούνται οι διαθέσιμες τιμές Αν υπάρχουν ίδιες τιμές τοποθετούνται η μία πάνω στην άλλη
Διάγραμμα μίσχου φύλλου - Stem and leaf plot Γράφημα στο οποίο χωρίζεται κάθε παρατήρηση σε δυο μέρη (μίσχος, φύλλο) Ομαδοποίηση των δεδομένων βάσει κοινού μίσχου
Ιστόγραμμα - Histogram Γράφημα κατανομής των συχνοτήτων των δεδομένων Χωρισμός δεδομένων σε ίσου μήκους διαστήματα και καταγραφή συχνότητας σε κάθε διάστημα
Πολύγωνο συχνότητας – Frequency polygon Ίδιος τρόπος παρουσίασης και κατασκευής με το ιστόγραμμα Σημειώνεται η συχνότητα πάνω από τον μέσο κάθε διαστήματος Τα διαδοχικά σημεία ενώνονται με γραμμή
Πολύγωνο αθροιστικής συχνότητας – cumulative frequency polygon Ίδιος τρόπος παρουσίασης με το πολύγωνο συχνότητας Υπολογίζεται αθροιστικά η συχνότητα κάθε κατηγορίας
ΠΑΡΑΔΕΙΓΜΑ ΓΙΑ ΠΟΙΟΤΙΚΑ ΔΕΔΟΜΕΝΑ Αριθμός εταιρειών που εισήχθησαν σε συγκεκριμένους κλάδους χρηματιστηρίου ανά κατηγορία
Κυκλικό διάγραμμα – Pie chart Γράφημα για ποιοτικά δεδομένα Εύρεση ποσοστού κάθε κατηγορίας Χωρισμός κύκλου σε τομείς ανάλογα με κάθε ποσοστό
Ραβδόγραμμα – Bar chart Γράφημα για ποιοτικά δεδομένα Εύρεση συχνότητας κάθε κατηγορίας Κατασκευή ράβδων ανάλογα με κάθε συχνότητα
ΠΕΡΙΓΡΑΦΗ ΜΕ ΑΡΙΘΜΗΤΙΚΕΣ ΜΕΘΟΔΟΥΣ Αριθμητικός μέσος: ενός συνόλου n παρατηρήσεων είναι ο μέσος του δείγματος Επηρεάζεται από ακραίες τιμές Αποτελεί εκτίμηση του μέσου μ του πληθυσμού Τύπος υπολογισμού:
Υπολογισμός μέσου του παραπάνω παραδείγματος με το ετήσιο κέρδος εταιρείας: Άρα το μέσο ετήσιο κέρδος της εταιρείας για τα χρόνια 1961 έως 2000 είναι 188.652 χιλιάδες ευρώ
Σταθμισμένος αριθμητικός μέσος – Weighted Mean: ενός συνόλου n παρατηρήσεων είναι ο αριθμητικός μέσος που προκύπτει σταθμίζοντας κάθε παρατήρηση με συγκεκριμένη βαρύτητα w Αν όλες οι σταθμίσεις είναι ίδιες τότε προκύπτει ο αριθμητικός μέσος Τύπος υπολογισμού:
Σταθμίζοντας κάθε παρατήρηση του παραπάνω παραδείγματος ανά δεκαετία με σταθμίσεις αντίστοιχα εκφράζοντας αντίστοιχα το ποσοστό των κερδών που διατέθηκαν για επενδύσεις στο χρηματιστήριο Υπολογισμός σταθμισμένου μέσου: Άρα το μέσο σταθμισμένο κέρδος ανά δεκαετία που διατίθεται για επένδυση στο χρηματιστήριο είναι ίσο με 187.249,69
Γεωμετρικός μέσος – Geometric mean: ενός συνόλου n παρατηρήσεων είναι η νιοστή ρίζα του γινομένου των παρατηρήσεων Δεν χρησιμοποιείται όταν υπάρχουν μηδενικές τιμές παρατηρήσεων Μέτρο ανθεκτικό στις ακραίες τιμές Τύπος υπολογισμού: Υπολογισμός γεωμετρικού μέσου: Το μέσο γεωμετρικό ετήσιο κέρδος της εταιρείας για την περίοδο 1961 έως 2000 είναι περίπου ίσο με 185.000 χιλιάδες ευρώ
Αρμονικός μέσος – Harmonic mean: ενός συνόλου n παρατηρήσεων είναι το αντίστροφο του αριθμητικού μέσου των αντίστροφων παρατηρήσεων Μέτρο κατάλληλο για ρυθμούς μεταβολής Τύπος υπολογισμού:
Υπολογισμός αρμονικού μέσου του παραπάνω παραδείγματος: Άρα το μέσο αρμονικό ετήσιο κέρδος της εταιρείας για την περίοδο 1961 έως 2000 είναι 183.234,08 χιλιάδες ευρώ
Διάμεσος – median: ενός συνόλου n διατεταγμένων κατ’ αύξουσα σειρά παρατηρήσεων είναι η κεντρική τιμή αν n περιττός και το ημιάθροισμα των δυο κεντρικών παρατηρήσεων αν n άρτιος Μέτρο κατάλληλο για ποσοτικά δεδομένα Ανθεκτικό στις ακραίες τιμές
Υπολογισμός διαμέσου: (άρτιος αριθμός παρατηρήσεων) Άρα το διάμεσο ετήσιο κέρδος της εταιρείας για την περίοδο 1961 έως 2000 είναι ίσο με 185.793 χιλιάδες ευρώ
Επικρατούσα τιμή – mode: ενός συνόλου n παρατηρήσεων είναι η παρατήρηση με την μεγαλύτερη συχνότητα εμφάνισης Δεν είναι απαραίτητο να υπάρχει Μπορεί να υπάρχουν περισσότερες της μιας Υπολογισμός επικρατούσας τιμής: Οι τιμές των παρατηρήσεων με τη μεγαλύτερη συχνότητα είναι οι 157.422 (6η και 7η), 160.125 (9η και 10η) και 206.369 (31η και 32η παρατήρηση)
Διασπορά – variance: ενός συνόλου n παρατηρήσεων είναι η τιμή εκείνη που δείχνει τον βαθμό απλώματος των δεδομένων από την μέση τιμή Αποτελεί εκτίμηση της διακύμανσης του πληθυσμού Τύπος υπολογισμού:
Υπολογισμός διασποράς των δεδομένων του παραπάνω παραδείγματος: Άρα το μέσο τετραγωνικό ετήσιο κέρδος της εταιρείας για την περίοδο 1961 έως 2000 είναι 1.192.018.163 τετραγωνικές χιλιάδες ευρώ
Εύρος – Range: ενός συνόλου n παρατηρήσεων είναι η διαφορά της ελάχιστης τιμής από την μέγιστη τιμή Επηρεάζεται από ακραίες τιμές Εύκολος υπολογισμός Τύπος υπολογισμού: Υπολογισμός εύρους του παραπάνω παραδείγματος: Άρα το εύρος του ετήσιου κέρδους της εταιρείας την περίοδο 1961 έως 2000 είναι 176.169 χιλιάδες ευρώ
Τυπική απόκλιση – standard deviation: ενός συνόλου n παρατηρήσεων είναι η θετική τετραγωνική ρίζα της διακύμανσης Τύπος υπολογισμού: Υπολογισμός τυπικής απόκλισης των δεδομένων του παραπάνω προβλήματος: Άρα η τυπική απόκλιση του ετήσιου κέρδους είναι 34.526 χιλιάδες ευρώ
Μέση απόλυτη απόκλιση – mean absolute deviation: ενός συνόλου N παρατηρήσεων είναι ο μέσος των απόλυτων αποκλίσεων των παρατηρήσεων από την μέση τιμή Ανθεκτικό σε ακραίες τιμές Τύπος υπολογισμού:
Υπολογισμός της μέσης απόλυτης απόκλισης για το παραπάνω πρόβλημα: Άρα η μέση απόλυτη απόκλιση για το ετήσιο κέρδος της εταιρείας είναι ίση με 26.177,93 χιλιάδες ευρώ
Συντελεστής μεταβλητότητας – variation coefficient : είναι ο συντελεστής εκείνος ο οποίος μετρά το βαθμό απλώματος των παρατηρήσεων σε σχέση με το μέσο Συντελεστής μεταβλητότητας για τον πληθυσμό είναι ο Συντελεστής μεταβλητότητας για το δείγμα είναι ο Μερικές φορές πολλαπλασιάζεται με το 100 και συνεπώς εκφράζει ποσοστό Σύγκριση περιπτώσεων όπου οι μονάδες είναι διαφορετικές
Υπολογισμός του συντελεστή μεταβλητότητας για τα δεδομένα του παραδείγματος: Άρα συμπεραίνουμε ότι η μεταβλητότητα του ετήσιου κέρδους της εταιρείας για την περίοδο από 1961 έως 2000 σε σχέση με το μέσο ετήσιο κέρδος είναι ίση με 18,3%
Ποσοστιαία σημεία – quantiles: ενός συνόλου διατεταγμένων παρατηρήσεων είναι αριθμοί οι οποίοι χωρίζουν το δείγμα σε ομάδες με όσο το δυνατόν ίσο αριθμό παρατηρήσεων Υπάρχουν εκατοστημόρια, δεκατημόρια κτλ Τεταρτημόρια: πρώτο τεταρτημόριο δεύτερο τεταρτημόριο τρίτο τεταρτημόριο Χωρίζουν την κατανομή σε τέσσερα ίσα μέρη Το είναι η διάμεσος
Υπολογισμός ποσοστιαίων σημείων (τεταρτημόρια) του παραπάνω παραδείγματος: Έχοντας διατάξει τα δεδομένα του παραδείγματος κατ’ αύξουσα σειρά τα χωρίζουμε σε τέσσερα ίσα μέρη βάσει τάξης μεγέθους (Ν).Αντίστοιχα: Άρα το πρώτο τεταρτημόριο είναι το =160.805 και το τρίτο τεταρτημόριο είναι το =206.201 Το δεύτερο τεταρτημόριο είναι η διάμεσος δ=185.793
Ενδοτεταρτημοριακό εύρος – interquartile range : ενός συνόλου n παρατηρήσεων είναι η διαφορά του πρώτου από το τρίτο τεταρτημόριο Δεν επηρεάζεται από ακραίες τιμές Τύπος υπολογισμού: Υπολογισμός ενδοτεταρτημοριακού εύρους των δεδομένων του παραδείγματος Άρα η απόκλιση των δεδομένων από την διάμεσο είναι ίση με 45.396 χιλιάδες ευρώ
Τυποποιημένος συντελεστής ασυμμετρίας – standardized coefficient of skewness: ενός συνόλου n παρατηρήσεων ονομάζεται η αριθμητική ποσότητα Αν Α>0 τότε θετική ή δεξιά ασυμμετρία Αν Α=0 τότε συμμετρία Αν Α<0 αρνητική ή αριστερή ασυμμετρία
Είδη κατανομών ως προς τη συμμετρία Συμμετρική κατανομή
Δεξιά ασύμμετρη ή θετική ασύμμετρη
Αριστερή ή αρνητική ασύμμετρη
Συντελεστής κύρτωσης – coefficient of kurtosis: ενός συνόλου παρατηρήσεων ονομάζεται η αριθμητική ποσότητα Αν Β=0 τότε η κατανομή είναι μεσόκυρτη Αν Β>0 τότε η κατανομή είναι λεπτόκυρτη Αν Β<0 τότε η κατανομή είναι πλατύκυρτη
Είδη κατανομών ως προς την κύρτωση Λεπτόκυρτη κατανομή
Πλατύκυρτη κατανομή
Μεσόκυρτη κατανομή
Υπολογισμός συντελεστή ασυμμετρίας και συντελεστή κύρτωσης στο παραπάνω παράδειγμα: Ο συντελεστής ασυμμετρίας στο παράδειγμα είναι ίσος με 1,218 Άρα η κατανομή είναι θετικά ασύμμετρη Ο συντελεστής κύρτωσης είναι ίσος με 2,35 Άρα η κατανομή του παραδείγματος είναι λεπτόκυρτη
Διάγραμμα πλαισίου απολήξεων – boxplot Διάγραμμα για ποσοτικά δεδομένα Δίνει πληροφορίες σχετικά με τα εξής μέτρα: Το 50% των τιμών βρίσκεται μέσα στο πλαίσιο ενώ 25% στην αριστερή απόληξη και 25% στην δεξιά απόληξη Διευκολύνει αρκετές συγκρίσεις δεδομένων Δίνει ενδείξεις για ύπαρξη ή όχι ασυμμετρίας
Υπολογισμός διαγράμματος πλαισίου και απολήξεων για το προαναφερθέν παράδειγμα: