Μεθοδολογία έρευνας και στατιστική – Δείγμα – Πληθυσμός Μεθοδολογία έρευνας και στατιστική – Δείγμα – Πληθυσμός Αν. Καθηγητής ΔΠΘ Δ. Κομίλης Κυριακή 5 Μαρτίου 16:00-19:00 Ώρα για εξ’ αποστάσεως συνεργασία Τετάρτη 13:00-14:00 Μέσο επικοινωνίας: Τηλέφωνο 25410 79391 ή skype: dkomilis
Πληθυσμός και δείγμα Πληθυσμός – ένα μεγάλο σετ από Ν παρατηρήσεις (πιθανά δεδομένα) από το οποίο το δείγμα λαμβάνεται. Δείγμα – Σετ n παρατηρήσεων που είναι διαθέσιμα για στατιστική ανάλυση. Το δείγμα είναι σετ που αντιπροσωπεύει τον πληθυσμό. .
Πληθυσμός και δείγμα Δείγμα:n Πληθυσμός: Ν n << N 12/4/2017 Πληθυσμός και δείγμα Δείγμα:n Πληθυσμός: Ν n << N Τυχαία μεταβλητή: 1) «Τιμή της επόμενης παρατήρησης σε ένα πείραμα». 2) «Η μετρηθείσα της τιμή μπορεί να μεταβάλλεται μεταξύ επαναληπτικών μετρήσεων του πειράματος».
Τυχαία μεταβλητή Μία παρατήρηση είναι η γέννηση μιάς τυχαίας μεταβλητής. Τυχαίο σημαίνει: “Δεν επηρεάζεται από την προηγούμενη ή επόμενη παρατήρηση που γίνεται.“ “Κάθε στοιχείο ενός πληθυσμού έχει την ίδια πιθανότητα να επιλεχθεί για μέτρηση.” .
Παράμετροι Οι πληθυσμοί χαρακτηρίζονται από παραμέτρους, που είναι συνήθως άγνωστες και μη παρατηρήσιμες. Οι στατιστικές τιμές είναι εκτιμήσεις των παραμέτρων. Οι στατιστικές τιμές υπολογίζονται από τα διαθέσιμα δεδομένα.
Παράμετροι & Στατιστικές τιμές Παράμετρος – Ιδανική ποσότητα που χαρακτηρίζει τον πληθυσμό (συχνά μη γνωστή). Στατιστική τιμή – ποσότητα που υπολογίζεται από δεδομένα που έχουν συλλεχθεί για να μελετηθεί ένας πληθυσμός. Οι παράμετροι εκτιμώνται από τις στατιστικές τιμές. Σύμβολα: Παράμετροι (parameter)- Ελληνικά: a, b, q, x, g, h Στατιστικές τιμές (statistic) - Λατινικά: a, b, x, y
Πληθυσμός Μέση τιμή πληθυσμού: Διασπορά πληθυσμού: μονάδες μ2 12/4/2017 Πληθυσμός Μέση τιμή πληθυσμού: Διασπορά πληθυσμού: μονάδες μ2 Tυπική απόκλιση πληθυσμού: μονάδες μ
Δείγμα Μέσος όρος δείγματος: εκτίμηση του μ 12/4/2017 Δείγμα Μέσος όρος δείγματος: εκτίμηση του μ Διασπορά δείγματος: μονάδες 2 Βαθμοί ελευθερίας: 1) οι παραπάνω από μία παρατηρήσεις που απαιτούνται για τον υπολογισμό μίας παραμέτρου. 2) ο αριθμός των μεταβλητών που μπορούν να είναι ελεύθερες να έχουν διακύμανση όταν έχει μπει ένας περιορισμός στις τιμές.
Δείγμα Τυπική απόκλιση δείγματος: μονάδες 12/4/2017 Δείγμα Τυπική απόκλιση δείγματος: μονάδες Τυπική διασπορά μέσου όρου (για δείγμα): Τυπικό σφάλμα του μέσου όρου (για δείγμα):
Πειραματικό σφάλμα Σφάλμα δεν υπονοεί κάποιο λάθος ή γκάφα. Διακυμάνσεις λόγω τυχαίου σφάλματος είναι αναπόφευκτες. Ελαχιστοποίηση του μεγέθους του σφάλματος δίνοντας προσοχή κατά τη δειγματοληψία και τις μετρήσεις. Ελαχιστοποίησε την επίδραση του τυχαίου πειραματικού σφάλματος με ένα καλό πειραματικό σχεδιασμό.
Πειραματικό σφάλμα Σε όλες τις μετρήσεις εισέρχεται το πειραματικό σφάλμα (σφάλμα μετρήσεων). Επειδή οι μετρήσεις έχουν σφάλματα, και οι στατιστικές τιμές έχουν σφάλματα εκτίμησης. Ποσοτικοποιείται από τη διασπορά, τυπική απόκλιση και το τυπικό σφάλμα. Ρόλος της στατιστικής Ποσοτικοποίησε και χαρακτήρισε το σφάλμα. Λάβε το υπόψη όταν γίνεται χρήση δεδομένων για να ληφθούν αποφάσεις.
Παρατηρούμενη τιμή = yi Πραγματική τιμή = μ Πειραματικό σφάλμα = ei Πειραματικό σφάλμα – διακυμάνσεις σε επαναληπτικές παρατηρήσεις από ένα πείραμα στο άλλο. Μετρήσεις με πραγματική τιμή h δεν είναι ποτέ ίδιες, ακόμα και αν ο αναλυτής διατηρεί τις συνθήκες μέτρησης όσο περισσότερο όμοιες γίνεται. Παρατηρούμενη τιμή = yi Πραγματική τιμή = μ Πειραματικό σφάλμα = ei yi = μ + ei
Πειραματικά σφάλματα επ = ετ + εσ επ i = ετ i + εσ i επ = y - μ 12/4/2017 Πειραματικά σφάλματα επ = y - μ επi = yi - μ τυχαία σφάλματα (random errors ή ετ), αναπόφευκτα (κανονική κατανομή) συστηματικά σφάλματα (systematic errors ή εσ), προέρχονται από ατέλειες στη διεξαγωγή της μέτρησης, τη βαθμονόμηση ή τεχνική. επ = ετ + εσ επ i = ετ i + εσ i
Πειραματικά σφάλματα επ = ετ + εσ επ i = ετ i + εσ i επ = ŷ - μ 12/4/2017 Πειραματικά σφάλματα επ = ŷ - μ επi = yi - μ τυχαία σφάλματα (random errors ή ετ), αναπόφευκτα (κανονική κατανομή) συστηματικά σφάλματα (systematic errors ή εσ), προέρχονται από ατέλειες στη διεξαγωγή της μέτρησης, τη βαθμονόμηση ή τεχνική. επ = ετ + εσ επ i = ετ i + εσ i
Τυχαία σφάλματα (random errors, ετ) 12/4/2017 Τυχαία σφάλματα (random errors, ετ) Tα τυχαία σφάλματα οφείλονται απλά στην ύπαρξη μη προσδιορισμένων λαθών (τυχαίων σφαλμάτων) που εμφανίζονται σε οποιαδήποτε μέτρηση. Η κατανομή των τυχαίων σφαλμάτων είναι κανονική, εφόσον και η κατανομή των μετρούμενων τιμών είναι κανονική. Οι πολλές επαναλαμβανόμενες μετρήσεις του ιδίου δείγματος είναι ο τρόπος ποσοτικοποίησης των τυχαίων σφαλμάτων. > 20-30 μετρήσεις προσεγγίζω πραγματική τιμή και μηδενίζω τυχαίο σφάλμα
Συστηματικά σφάλματα (systematic errors ή bias, εσ) 12/4/2017 Συστηματικά σφάλματα (systematic errors ή bias, εσ) Τα συστηματικά σφάλματα έχουν καθορισμένη τιμή και ουσιαστικά ταυτίζονται με την έννοια της απόκλισης (bias), όπως αυτή θα οριστεί στη συνέχεια. Τα συστηματικά σφάλματα λοιπόν είναι υπεύθυνα για την απόκλιση μετρήσεων από την πραγματική τιμή και δεν ελαχιστοποιούνται με επαναλαμβανόμενες μετρήσεις. Ελαχιστοποιούνται μόνο αν ελέγξουμε και βαθμονομήσουμε τα όργανα και είμαστε προσεκτικοί στη διεξαγωγή του πειράματος. σφάλματα οργάνων προσωπικά σφάλματα σφάλματα μεθόδου
Συστηματικά σφάλματα (systematic errors ή bias, εσ) 12/4/2017 Συστηματικά σφάλματα (systematic errors ή bias, εσ) Παράδειγμα 1 Έστω οτι επαναλαμβάνουμε 50 μετρήσεις ενός μόνο δείγματος (π.χ. συγκέντρωση κάποιας παραμέτρου που μετράται γρήγορα και εύκολα με ένα φασματοφωτόμετρο) και βρούμε μία μέση τιμή ίση με y = 0.482 ppm. Λόγω του μεγάλου μεγέθους του δείγματος, θεωρούμε οτι η μέση τιμή = 0.482 ppm είναι ίση με την πραγματική μέση τιμή μ, και συνεπώς το τυχαίο σφάλμα ετ= y - μ = 0. Αν επιλέξω περιορισμένο αριθμό μετρήσεων (π.χ. 3 μετρήσεις με τιμές 0.488, 0.480, 0.486 τότε η μέση τους τιμή είναι 0.485. Το τυχαίο σφάλμα της μέσης τιμής 0.485 είναι: ετ = 0.485 – 0.482 = +0.003.
Συστηματικά σφάλματα (systematic errors ή bias, εσ) 12/4/2017 Συστηματικά σφάλματα (systematic errors ή bias, εσ) Παράδειγμα 1 (συν.) Αυτή η προσέγγιση θεωρεί οτι έχουν εξαλειφθεί (με πολύ προσοχή) τα συστηματικά σφάλματα. Αν δεν εξαλειφθούν τα συστηματικά σφάλματα, τότε το απόλυτο σφάλμα της μέσης τιμής των 3 μετρήσεων περιλαμβάνει τα τυχαία σφάλματα και τα συστηματικά σφάλματα, ώστε να πούμε τελικά οτι επ=ετ+εσ = +0.003.
4 βασικές ιδιότητες πειραματικών σφαλμάτων Πειραματικό (αληθές) σφάλμα = ei yi = h + ei Τα σφάλματα είναι: Ανεξάρτητα μεταξύ τους Τυχαία Κανονικά κατανεμημένα Σταθερή διασπορά
Πειραματικό σφάλμα (επ) =Τυχαίο σφάλμα (ετ)+Συστηματικό σφάλμα (εσ) 12/4/2017 ΘΕΜΕΛΙΩΔΕΙΣ ΣΤΑΤΙΣΤΙΚΕΣ ΕΝΝΟΙΕΣ Ορθότητα (accuracy) είναι το πειραματικό σφάλμα (επ) των μετρήσεων και αποτελείται από: ακρίβεια (precision) -> τυχαίο σφάλμα (ετ) απόκλιση (bias) -> συστηματικό σφάλμα (εσ) Πειραματικό σφάλμα (επ) =Τυχαίο σφάλμα (ετ)+Συστηματικό σφάλμα (εσ) Ακρίβεια (precision): τυχαία σφάλματα, που οφείλονται στην ύπαρξη μη προσδιορισμένων λαθών (τυχαίων λαθών), διαφορές επαναληπτικών μετρήσεων μεταξύ τους. Απόκλιση (bias) : απόκλιση από αληθινή / πραγματική τιμή (π.χ. τιμή προτύπου)
Ακρίβεια Η ακρίβεια σχετίζεται με τη διασπορά μεταξύ επαναλαμβανόμενων/επαναληπτικών μετρήσεων. Η διασπορά οφείλεται στα πειραματικά σφάλματα των μετρήσεων. Ακριβή αποτελέσματα έχουν μικρά τυχαία σφάλματα. Τυχαία σφάλματα δεν μπορούν να εξαλειφθούν ποτέ. Τυχαία σφάλματα μπορούν να ελαχιστοποιηθούν με χρήση προσεκτικών τεχνικών και αύξηση του μεγέθους του δείγματος.
Ακρίβεια Ακρίβεια (precision): 12/4/2017 Ακρίβεια Ακρίβεια (precision): άπλωμα μεταξύ επαναλαμβανόμενων μετρήσεων διαφορές μεμονωμένων μετρήσεων μεταξύ τους υπολογίζεται με s (τυπική απόκλιση) 6.5 7.0 7.5 8.0 8.5 9.0 Μετρήσεις από το ίδιο δείγμα (α) Μετρήσεις από πέντε διαφορετικά δείγματα που προήλθαν από την ίδια πηγή (β)
Απόκλιση (bias) Απόκλιση (bias) οφείλεται σε: Λάθη οργάνων 12/4/2017 Απόκλιση (bias) Απόκλιση (bias) οφείλεται σε: Λάθη οργάνων Προσωπικά λάθη Λάθη μεθόδου Υπάρχουν δύο τρόποι «χειρισμού» της απόκλισης, όσον αφορά την ορθότητα των μετρήσεων: Να είναι το y κοντά στο μ Να είναι τα yi κοντά στο μ (προτιμότερο)
Έκφραση ακρίβειας τυπική απόκλιση (s, standard deviation) 12/4/2017 Έκφραση ακρίβειας τυπική απόκλιση (s, standard deviation) διασπορά (s2, variance) και, συντελεστής διασποράς (CV, coefficient of variation).
Ορθότητα ↑ = Ακρίβεια ↑ + Απόκλιση ↓ 12/4/2017 Ορθότητα μετρήσεων Ορθότητα ↑ = Ακρίβεια ↑ + Απόκλιση ↓ ή Ορθότητα ↑ = Τυπική απόκλιση (s) ↓ + Απόκλιση ↓
12/4/2017 Ορθότητα μετρήσεων
2 επιπλέον αρχές ορθότητας (accuracy) 12/4/2017 2 επιπλέον αρχές ορθότητας (accuracy) Επαναληψιμότητα: απόκλιση μεταξύ αποτελεσμάτων ανεξάρτητων μετρήσεων, εντός του ιδίου εργαστηρίου, που υλοποιούνται σε σχετικά σύντομο χρονικό διάστημα από τον ίδιο τεχνικό με ένα συγκεκριμένο σετ χημικού εξοπλισμού, ο οποίος χρησιμοποιεί δείγματα που λαμβάνονται από μία συγκεκριμένη ποσότητα ομογενούς υλικού. Αναπαραγωγικότητα: απόκλιση μεταξύ μεμονωμένων μετρήσεων που λήφθηκαν τυχαία και υπό διαφορετικές συνθήκες από το ίδιο ομογενές υλικό με χρήση της ιδίας μεθόδου μέτρησης. Οι διαφορετικές συνθήκες μπορούν πιθανά να είναι διαφορετικοί εργαστηριακοί υπάλληλοι εντός του ιδίου εργαστηρίου ή μπορούν να είναι μετρήσεις που πραγματοποιήθηκαν σε διαφορετικά εργαστήρια (πάντα με το ίδιο αρχικό υλικό).
Παράδειγμα 2 n = 27 Πρότυπο: 8.0 mg/L 12/4/2017 Παράδειγμα 2 n = 27 Πρότυπο: 8.0 mg/L 6.9, 7.8, 8.9, 5.2, 7.7, 9.6, 8.7, 6.7, 4.8, 8.0, 10.1, 8.5, 6.5, 9.2, 7.4, 6.3, 5.6, 7.3, 8.3, 7.2, 7.5, 6.1, 9.4, 5.4, 7.6, 8.1 και 7.9 mg/L Παράδειγμα Excel
Αφαίρεση συστηματικού σφάλματος και διόρθωση μετρήσεων
Συνήθως η ακρίβεια μετράται ως: Συνέχεια Απόκλιση (συστηματικό σφάλμα) είναι η διαφορά μεταξύ της μετρηθείσας τιμής και της πραγματικής τιμής. Η ακρίβεια (τυχαίο σφάλμα) έχει να κάνει με διακυμάνσεις στις παρατηρήσεις. Συνήθως η ακρίβεια μετράται ως: τυπική απόκλιση του δείγματος: s = 1.38 mg/L
Τα σφάλματα μέτρησης είναι τυχαία σε σχέση με τη σειρά παρατήρησης. Γραφήματα πάντα χρήσιμα 25 20 15 10 5 -4 -3 -2 -1 1 2 3 Σειρά παρατήρησης Σφάλμα μέτρησης (mg/L) Τα σφάλματα μέτρησης είναι τυχαία σε σχέση με τη σειρά παρατήρησης.
Χρονική σειρά παρατηρήσεων Σφάλματα (mg/L) 30 20 10 Χρονική σειρά παρατηρήσεων -4 4
Πιθανοί διαφορετικοί χημικοί -4 -2 2 4 Χημικός A Σφάλματα (mg/L) Χημικός B Ταυτότητα δείγματος
Ανεξαρτησία των σφαλμάτων μετρήσεων Ανεξαρτησία συχνά απούσα σε περιβαλλοντικά δεδομένα: Σφάλματα εξαρτώνται από χρόνο ή τόπο Δύσκολο ή και αδύνατο να τυχαιοποιήσεις δειγματοληψία Δεν είναι επιθυμητό να τυχαιοποιήσεις επειδή κυκλικά ή εποχικά φαινόμενα επικρατούν. Μην θεωρήσεις ότι υπάρχει ανεξαρτησία.
Χρονική (σειριακή) συσχέτιση μετρήσεων Γειτονικές παρατηρήσεις νιτρικών είναι ανεξάρτητες Μέτρηση i-1 Μέτρηση i