Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ"— Μεταγράφημα παρουσίασης:

1 ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
Δ. Τσιπλακίδης (βασισμένο στις σημειώσεις παραδόσεων Π.Νικήτα-Σ. Σωτηρόπουλου) ∙ web: users.auth.gr/dtsiplak

2 To πρόβλημα Σε πολλούς κλάδους της χημείας, όπως στη Βιομηχανική Χημεία, Βιοχημεία, Χημεία τροφίμων και Περιβάλλον, είμαστε πολλές φορές αναγκασμένοι να δημιουργούμε μεγάλα δείγματα για να μπορέσουμε να αποκτήσουμε μια καλή εικόνα του πληθυσμού από τον οποίον προέρχονται τα δείγματα. Στην επόμενη διαφάνεια δίνονται δύο τέτοια δείγματα. Το ένα αφορά τα επίπεδα της ολικής χοληστερόλης (σε mg/dL) σε 30 ενήλικες μιας ορισμένης γεωγραφικής περιοχής και το άλλο την τάση θραύσης (σε Mpa) 24 υάλινων ράβδων.

3 To πρόβλημα Χοληστερόλη mg/dL 290 238 220 195 266 305 277 395 316 222 260 214 211 219 279 330 245 403 183 255 246 205 358 190 264 340 172 Τάση θραύσης Mpa 0.73 0.68 0.70 0.62 0.59 0.79 0.81 0.75 0.48 0.77 0.69 0.38 0.86 0.92 0.83 0.55 0.64 0.49 0.54 Παρατηρώντας τα δύο δείγματα είναι αδύνατο να βγάλουμε συμπεράσματα σχετικά με τα επίπεδα της χοληστερόλης στον συγκεκριμένο πληθυσμό ή την τάση θραύσης των υάλινων ράβδων. Συνεπώς χρειαζόμαστε έναν πιο αποτελεσματικό και πιο περιληπτικό τρόπο παρουσίασης των αποτελεσμάτων.

4 ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
O κλάδος της Στατιστικής που ασχολείται με τη μελέτη των χαρακτηριστικών των δειγμάτων με στόχο την παρουσίαση της πληροφορίας που έχουν με τον πιο περιληπτικό και πιο αποτελεσματικό τρόπο, ονομάζεται Περιγραφική Στατιστική (descriptive Statistics).

5 Δείγματα και πληθυσμός
Η Στατιστική και συνεπώς και η Περιγραφική Στατιστική χρησιμοποιεί δύο βασικές έννοιες: την έννοια του δείγματος και την έννοια του πληθυσμού. Ονομάζουμε δείγμα (sample) μια συλλογή ομοειδών αποτελεσμάτων που προέρχονται από επαναλαμβα- νόμενες μετρήσεις ή παρατηρήσεις σε ένα ή περισσότερα του ενός συστήματα. Το σύνολο όλων των δυνατών αποτελεσμάτων ονομάζεται πληθυσμός (population). Ο πληθυσμός μπορεί να έχει άπειρα ή πεπερασμένα στοιχεία.

6 Δείγματα και πληθυσμός
Παράδειγμα. Έστω ότι προσδιορίζουμε την περιεκτικότητα σε λιπαρά μιας παρτίδας 50 δοχείων γάλακτος. Για το σκοπό αυτό επιλέγουμε τυχαία πέντε δοχεία και σε αυτά προσδιορίζουμε τη συγκέντρωση των λιπαρών. Πληθυσμός είναι το σύνολο των δοχείων γάλακτος της συγκεκριμένης παρτίδας, ή ορθότερα το πλήθος των τιμών των συγκεντρώσεων των λιπαρών στα 50 δοχεία γάλακτος. Δείγμα είναι το πλήθος των πέντε τιμών των συγκεντρώσεων των λιπαρών στα δοχεία που επιλέχτηκαν.

7 Δείγματα και πληθυσμός
Πληθυσμός = το σύνολο των δοχείων γάλακτος ή ορθότερα το πλήθος των τιμών των συγκεντρώσεων των λιπαρών στα 50 δοχεία γάλακτος

8 Δείγματα και πληθυσμός
Δείγμα δοχείων 3.6%, 3.5%, 3.5%, 3.7%, 3.3% Δείγμα τιμών

9 Δείγματα και πληθυσμός
Αν τώρα για να προσδιορίσουμε τη συγκέντρωση των λιπαρών σε ένα δοχείο εκτελούμε 3 μετρήσεις για να πάρουμε το μέσο όρο τους, οι τρείς αυτές τιμές αποτελούν ένα άλλο δείγμα του οποίου ο πληθυσμός έχει άπειρο πλήθος τιμών, δεδομένου ότι μπορούμε να εκτελέσουμε, εν δυνάμει, άπειρο πλήθος μετρήσεων προσδιορισμού της συγκέντρωσης των λιπαρών σε κάθε δοχείο.

10 Δείγματα και πληθυσμός
Η δημιουργία δειγμάτων δεν είναι αυτοσκοπός, αλλά το πρώτο βήμα για να αποκτήσουμε πληροφορίες για τον (άγνωστο) πληθυσμό από τον οποίον προέρχεται το δείγμα. Γιατί όμως μας ενδιαφέρει ο πληθυσμός και όχι το δείγμα?

11 Δείγματα και πληθυσμός
Όταν προσδιορίζουμε την τιμή μιας ποσότητας, pH, c, d,…, εξ ορισμού η πραγματική της τιμή είναι η μέση τιμή της στον αντίστοιχο πληθυσμό και όχι η μέση τιμή της στο δείγματος. Για παράδειγμα, δημιουργούμε ένα δείγμα τιμών pH με στόχο να εκτιμήσουμε τη μέση τιμή του πληθυσμού από τον οποίον προέρχεται το δείγμα, επειδή η μέση τιμή αυτού του πληθυσμού είναι η πραγματική τιμή του pH του διαλύματος.

12 Δείγματα και πληθυσμός
Όταν συγκρίνουμε δύο ή περισσότερα δείγματα, η σύγκριση γίνεται μέσω των πληθυσμών από τους οποίους προέρχονται τα δείγματα. Για παράδειγμα, έστω ότι έχουμε δύο δείγματα με τους αέριους ρύπους δύο περιοχών. Για να δούμε σε ποια περιοχή υπάρχει μεγαλύτερη ρύπανση, ελέγχουμε αν οι αντίστοιχοι πληθυσμοί (από τους οποίους προέρχονται τα δείγματα) διαφοροποιούνται και αν διαφοροποιούνται ελέγχουμε σε ποια περιοχή ο πληθυσμός έχει μεγαλύτερη ρύπανση.

13 Χαρακτηριστικά δείγματος
Μια πρώτη εικόνα του πληθυσμού αποκτούμε ελέγχοντας τα χαρακτηριστικά του δείγματος, αν δηλαδή υπάρχει ή δεν υπάρχει κάποια συμμετρική κατανομή των τιμών στο δείγμα, αν υπάρχει ή όχι μεγάλη διασπορά τιμών, κ.ο.κ. O πιο άμεσος και απλός τρόπος για να αποκτήσουμε μια εικόνα των χαρακτηριστικών ενός δείγματος είναι να κάνουμε το ιστόγραμμα των τιμών του δείγματος.

14 Ιστογράμματα Για να κατασκευάσουμε το ιστόγραμμα των τιμών ενός δείγματος, πρώτα προσδιορίζουμε την ελάχιστη και τη μέγιστη τιμή των τιμών του δείγματος, έστω xmin και xmax. Ακολούθως διαιρούμε το διάστημα xmax - xmin σε k υποδιαστήματα που ονομάζονται κλάσεις και σε κάθε κλάση υπολογίζουμε το πλήθος των τιμών του δείγματος που ανήκουν σ’ αυτή.

15 Ιστογράμματα Η ποσότητα αυτή, που προφανώς είναι ένας φυσικός αριθμός, είναι η συχνότητα της κλάσης. Το ιστόγραμμα είναι αντίστοιχο του ραβδογράμματος, μόνο που στον οριζόντιο άξονα τοποθετούμε τις κλάσεις που δημιουργήσαμε και σε κάθε κλάση αντιστοιχούμε ένα ορθογώνιο με ύψος ίσο με τη συχνότητα της κλάσης.

16 Βήματα σχηματισμού ιστογράμματος
Ιστογράμματα Βήματα σχηματισμού ιστογράμματος Συχνότητα xmin Δx xmin xmax X Συχνότητα

17 Χαρακτηριστικά δείγματος
Ιστόγραμμα του δείγματος των τιμών της χοληστερόλης.

18 Χαρακτηριστικά δείγματος
Ιστόγραμμα του δείγματος των τιμών της τάσης θραύσης υάλινων ράβδων.

19 Χαρακτηριστικά δείγματος
Τα ιστογράμματα δίνουν μια καλή εποπτική εικόνα της κατανομής των τιμών ενός δείγματος, με την προϋπόθεση ότι τα δείγματα είναι μεγάλα. Αν το δείγμα δεν είναι μεγάλο τότε η εικόνα αυτή μπορεί να είναι παραπλανητική.

20 Χαρακτηριστικά δείγματος
Ιστογράμματα δείγματος 15 (αριστερά) και (δεξιά) τιμών δυναμικού ενός στοιχείου Weston

21 Χαρακτηριστικά δείγματος
Αντίστοιχες πληροφορίες με τα ιστογράμματα, αλλά ποσοτικού χαρακτήρα, μας δίνουν μια σειρά από αριθμητικά μέτρα ή δείκτες. Τα βασικότερα από μέτρα αυτά ομαδοποιούνται σε δύο κατηγορίες: Μέτρα θέσης και μέτρα διασποράς.

22 Χαρακτηριστικά δείγματος
Τα μέτρα θέσης δίνουν πληροφορίες που σχετίζονται με τη θέση των δεδομένων αν θεωρήσουμε ότι θέτουμε τα δεδομένα σε έναν άξονα. Τα μέτρα διασποράς ελέγχουν πόσο διασκορπισμένα είναι τα δεδομένα στον άξονα αυτόν. Δείγμα με τιμές της τάσης θραύσης σε Mpa 24 υάλινων ράβδων

23 Αριθμητικά περιγραφικά μέτρα
Τα βασικότερα αριθμητικά περιγραφικά μέτρα είναι τα ακόλουθα: Μέτρα θέσης Μέτρα διασποράς Μέση τιμή (Mean) Διάμεσος (Median) Πρώτο τεταρτημόριο (First quartile) Τρίτo τεταρτημόριο (Third quartile) Διασπορά (Variance) Τυπική απόκλιση (Standard deviation) Μέγιστη τιμή (Maximum) Ελάχιστη τιμή (Minimum) Ενδοτεταρτημοριακό εύρος (Interquartile range)

24 Μέση τιμή (mean ή average value)
Έστω το δείγμα τιμών x1, x2, ..., xm. Η μέση τιμή του δείγματος ορίζεται από τη σχέση: x = (x1 + x2 + ...  + xm)/ m _ Η μέση τιμή είναι η τιμή γύρω από την οποία βρίσκονται συγκεντρωμένες οι τιμές του δείγματος με την προϋπόθεση ότι δεν υπάρχουν ακραίες τιμές. Συμβολίζεται εναλλακτικά με: <x>.

25 Διάμεσος (median) H Διάμεσος είναι η “μεσαία” τιμή ενός δείγματος με την εξής έννοια. Οι μισές τιμές του δείγματος είναι μικρότερες ή ίσες με αυτή και οι υπόλοιπες μισές μεγαλύτερες ή ίσες με τη διάμεσο. Για παράδειγμα, έστω το δείγμα Δ = (x1, x2, x3, x4, x5), όπου οι τιμές xi βαίνουν αυξανόμενες από το x1 στο x5. Η διάμεσος είναι η τιμή xm = x3. Αντίθετα στο δείγμα Δ = (x1, x2, x3, x4, x5, x6), όπου και πάλι οι τιμές xi βαίνουν αυξανόμενες από το x1 στο x6, η διάμεσος υπολογίζεται από τη σχέση xm = (x3 + x4)/2. Συμβολίζεται συνήθως με d.

26 Διάμεσος (median) Η διάμεσος εκφράζει την κεντρική θέση της κατανομής των δεδομένων, όπως και η μέση τιμή. Όμως η διάμεσος δεν επηρεάζεται από ακραίες τιμές. Έτσι, για την περιγραφή δεδομένων που εμφανίζουν ακραίες τιμές προτιμάται ως μέτρο θέσης από τη μέση τιμή, η οποία επηρεάζεται πολύ από ακραίες τιμές.

27 Διάμεσος (median) Για παράδειγμα, έστω το δείγμα
2, 3, 5, 3.5, 6, 2.5, 4, 4.5, 55, 6.5 Η μέση τιμή είναι 9.2 λόγω της ακραίας και πιθανόν εσφαλμένης τιμής 55. Είναι προφανές ότι οι τιμές του δείγματος δε βρίσκονται συγκεντρωμένες γύρω από την τιμή 9.2. Στο δείγμα αυτό η διάμεσος είναι 4.25 και είναι η τιμή γύρω από την οποία συγκεντρώνονται οι τιμές του δείγματος με εξαίρεση την ακραία τιμή.

28 Διάμεσος (median) Διάμεσος Μέση τιμή

29 Διασπορά ή διακύμανση (variance)
Η δειγματική διασπορά συμβολίζεται με Var(x) ή s2 και δείχνει τη διασπορά των τιμών ενός δείγματος γύρω από τη μέση του τιμή. Αν η s2 έχει μεγάλες τιμές, τότε υπάρχει μεγάλη διασπορά στις τιμές του δείγματος. Η διασπορά ορίζεται από τη σχέση: Var(x)  s2 = ________________________ (x1 – x)2 + (x2 – x)2 + … + (xm – x)2 m-1 -

30 Τυπική απόκλιση (standard deviation)
Είναι φανερό ότι και η τυπική απόκλιση είναι μέτρο των αποκλίσεων, δηλαδή της διασποράς των τιμών ενός δείγματος γύρω από τη μέση τιμή του.

31 Τυπικό σφάλμα (του <χ>) (standard error)
Τυπικό σφάλμα της μέσης τιμής <χ> τυχαίου δείγματος ονομάζεται η τυπική απόκλιση των τιμών αυτής (της <χ>) για διάφορα δείγματα και ισούται με s/√m (όπου m το πλήθος των τιμών του δείγματος). Γενικά, η πραγματική τιμή/μέση τιμή μ του πληθυσμού είναι: με πιθανότητα 95% <χ>± 2 s/√m με πιθανότητα 99% <χ>± 3 s/√m

32 Βασική παρατήρηση Για να διακρίνεται η μέση τιμή <x>, η διασπορά s2, και η τυπική απόκλιση s ενός δείγματος από αυτές του αντίστοιχου πληθυσμού, η μέση τιμή, η διασπορά και η τυπική απόκλιση του πληθυσμού συμβολίζονται με μ, σ2 και σ, αντίστοιχα.

33 Πρώτο, τρίτο τεταρτημόριο (first, third quartile)
Κάθε δείγμα έχει τρία τεταρτημόρια (quartiles). Το πρώτο τεταρτημόριο (Q1) είναι η τιμή του δείγματος για την οποία ισχύει ότι το 25% των τιμών του δείγματος είναι μικρότερες ή ίσες με αυτή. Το τρίτο τεταρτημόριο (Q3) είναι η τιμή του δείγματος για την οποία ισχύει ότι το 75% των τιμών του δείγματος είναι μικρότερες ή ίσες με αυτή. Η διάμεσος θεωρείται το δεύτερο τεταρτημόριο, Q2.

34 Ενδοτεταρτημοριακό εύρος (interquartile range)
Η διαφορά Q3-Q1 είναι το ενδοτεταρτημοριακό εύρος. Τα τεταρτημόρια χρησιμοποιούνται σχεδόν αποκλειστικά για την κατασκευή θηκογραμμάτων, όπως θα δούμε παρακάτω.

35 Παράδειγμα Στο παράδειγμα με την τάση θραύσης των υάλινων ράβδων εάν διατάξουμε τις τιμές σε αύξουσα σειρά τo πρώτο τεταρτημόριο είναι η έκτη τιμή (24*0.25 = 6), δηλαδή Q1 = 0.59, τo τρίτο τεταρτημόριο είναι η πεντηκοστή έκτη τιμή (24*0.75 = 18), δηλαδή Q3 = , ενώ το ενδοτεταρτημοριακό εύρος ισούται με Q3-Q1 = 0.18.

36 Παράδειγμα Τάση θραύσης Mpa 0.73 0.68 0.70 0.62 0.59 0.79 0.81 0.75 0.48 0.77 0.69 0.38 0.86 0.92 0.83 0.55 0.64 0.49 0.54 Τάση θραύσης Mpa 0.38 0.48 0.49 0.54 0.55 0.59 0.62 0.64 0.68 0.69 0.7 0.73 0.75 0.77 0.79 0.81 0.83 0.86 0.92 Q1 Q3

37 Παράδειγμα

38 Παράδειγμα Q1 Q3 d

39 Παράδειγμα 1.5(Q3 - Q1)

40 Παράδειγμα Κεραία ή φράκτης

41 Θηκόγραμμα (boxplot) Q3 +1.5(Q3 - Q1) Q3 Διάμεσος Q1 Q1 -1.5(Q3 - Q1)
Μέγιστη τιμή Q3 Διάμεσος Q1 Ελάχιστη τιμή

42 Ιστόγραμμα και θηκόγραμμα δείγματος με τάσεις θραύσης υάλινων ράβδων
Παράδειγμα Ιστόγραμμα και θηκόγραμμα δείγματος με τάσεις θραύσης υάλινων ράβδων

43 Ιστόγραμμα και θηκόγραμμα δείγματος ρύπων
Παράδειγμα Ιστόγραμμα και θηκόγραμμα δείγματος ρύπων

44 Μέτρα (δείκτες) δείγματος του Excel
Συνάρτηση Περιγραφή AVERAGE(x) MEDIAN(x) QUARTILE(x,quart) VAR(x) STDEV(x) Υπολογίζει τη μέση τιμή του x = (x1, x2, ..., xm) Υπολογίζει τη διάμεσο του x. Με quart = 1 υπολογίζει το πρώτο τεταρτημόριο, με quart = 2 τη διάμεσο και με quart = 3 το τρίτο τεταρτημόριο. Υπολογίζει τη διασπορά. Υπολογίζει την τυπική απόκλιση s. Ακολουθούμε τη διαδικασία: Δεδομένα (Data)  Ανάλυση Δεδομένων (Data Analysis)  Περιγραφικά Στατιστικά (Descriptive Statistics) (Αν δεν υπάρχει η Ανάλυση Δεδομένων την εισάγουμε ως πρόσθετο/addin)

45 Υπολογισμός στατιστικών μέτρων με το SPSS
Ακολουθούμε τη διαδικασία: Analyze → Descriptive Statistics → Frequencies


Κατέβασμα ppt "ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google