Στατιστικές Υποθέσεις III (Ερευνητικά Ερωτήματα / Υποθέσεις προς επιβεβαίωση)
Περίπτωση 3: Ποιοτική με Ποιοτική Έστω ότι η μία ερώτηση Q1 είναι ποιοτική και η Q2 είναι ποιοτική (τα χαρακτηριστικά μπορεί να είναι και τα δύο ονομαστικά ή και τα δύο διατάξιμα ή ένα ονομαστικό κι ένα διατάξιμο) Τότε ΣΧΕΣΗ μεταξύ των ερωτήσεων, σημαίνει τα ποσοστά των διαφόρων κατηγοριών της Q1, ΔΕΝ είναι τα ίδια σε όλες τις κατηγορίες της Q2 Δηλαδή??
Παράδειγμα 1 Πίνακας Συνάφειας ή Διπλής Εισόδου (CROSSTAB) Τα δεδομένα του πίνακα παρουσιάζουν 531 περιστατικά προσαγωγής ανηλίκων σε δικαστήρια με διάφορες κατηγορίες, που καταγράφηκαν σε μια πόλη της Ευρώπης. Στον πίνακα αναφέρονται οι ηλικίες των παιδιών και το είδος της κατηγορίας <= 8 ετών 9-12 ετών 13-17 ετών Κλοπή 21 50 155 Ναρκωτικά 7 13 157 Διάφορα άλλα 10 20 98 Πίνακας Συνάφειας ή Διπλής Εισόδου (CROSSTAB)
Το Σύνθετο Ραβδόγραμμα
Ερώτημα: Έχει σχέση η ηλικία (ποιοτική) με το είδος αδικήματος (ποιοτική); Τι σημαίνει «σχέση»; - ας δούμε τα ποσοστά ανά κατηγορία στο δείγμα μας:
Πως βρίσκουμε ποσοστά σε ένα πίνακα διπλής εισόδου; 1. Χρειαζόμαστε τα ΣΥΝΟΛΑ, γραμμών και στηλών <= 8 ετών 9-12 ετών 13-17 ετών ΣΥΝΟΛΟ Κλοπή 21 50 155 226 Ναρκωτικά 7 13 157 177 Διάφορα άλλα 10 20 98 128 38 83 410 531 2. Στη συνέχεια αποφασίζουμε αν θα βγάλουμε ποσοστά ως προς τις γραμμές (rows) ή ως προς τις στήλες (columns) 3. Αν αποφασίσουμε να βρούμε ποσοστά ως προς τις στήλες, τότε ΔΙΑΙΡΟΥΜΕ τις συχνότητες που έχουμε στον πίνακα με τα αντίστοιχα σύνολα των στηλών (και πολλαπλασιάζουμε με το 100) – π.χ. 21/38*100, 7/38*100 κ.λ.π.
οπότε φτάνουμε στον πίνακα ποσοστών <= 8 ετών 9-12 ετών 13-17 ετών Κλοπή 55,30% 60,20% 37,80% Ναρκωτικά 18,40% 15,70% 38,30% Διάφορα άλλα 26,30% 24,10% 23,90% ΣΥΝΟΛΟ 100%
Όταν τα ποσοστά κατανέμονται με τον ίδιο τρόπο στις τρείς ηλικιακές κατηγορίες, ΤΟΤΕ ΔΕΝ υπάρχει σχέση ανάμεσα στο είδος αδικήματος και την ηλικία, δηλαδή αν ήταν κάπως έτσι: <= 8 ετών 9-12 ετών 13-17 ετών Κλοπή 43% Ναρκωτικά 33% Διάφορα άλλα 24% ΣΥΝΟΛΟ 100%
Στο παράδειγμα μας όμως έχουμε 1η ηλικιακή ομάδα 55%-18%-26% 2η ηλικιακή ομάδα 60%-16%-24% 3η ηλικιακή ομάδα 38%-38%-24% Φαίνεται η κατανομή των ποσοστών να μην είναι η ίδια, άρα φαίνεται να υπάρχει μια σχέση ΣΤΟ ΔΕΙΓΜΑ. Το θέμα είναι αν η σχέση αυτή μπορεί να θεωρηθεί στατιστικά σημαντική ή όχι.
πως ελέγχεται η σημαντικότητα της σχέσης; Υπάρχει πάλι το μαγικό νούμερο p (p-value), που μας δίνει την απάντηση (κατάλληλη διαδικασία: έλεγχος X2 – Chi Square Test): Αν p<0,05, τότε τα ποσοστά είναι διαφορετικά και στον πληθυσμό, άρα τα χαρακτηριστικά που μελετήσαμε έχουν κάποια σχέση! (τα αποτελέσματα μας ήταν στατιστικά σημαντικά) Αν p>0,05, τότε τα ποσοστά στον πληθυσμό είναι πιθανόν να είναι τα ίδια, άρα τα χαρακτηριστικά που μελετήσαμε δεν έχουν κάποια σχέση! (τα αποτελέσματα μας ήταν τυχαία)
Αποτελέσματα (SPSS output) ειδος_αδικήματος * ηλικία Crosstabulation ηλικία Total <=8 ετων 9-13 ετών 13-17 ετών ειδος_αδικήματος κλοπή 21 50 155 226 ναρκωτικά 7 13 157 177 διάφορα 10 20 98 128 38 83 410 531 Chi-Square Tests Value df Asymp. Sig. (2-sided) Pearson Chi-Square 23,135 4 ,000 Likelihood Ratio 24,667 Linear-by-Linear Association 4,322 1 ,038 N of Valid Cases 531 Τιμή X2 p-value
H απόφαση μας Αφού p<<0,05 τότε μπορούμε με ασφάλεια να πούμε πως ηλικία και το είδος αδικήματος που διέπραξαν οι ανήλικοι, έχουν κάποια σχέση Από τη μελέτη των ποσοστών του πίνακα, φαίνεται ότι οι μικρότεροι σε ηλικία ανήλικοι είναι πιο επιρρεπείς σε κλοπές και όχι σε ναρκωτικά, ενώ οι μεγαλύτεροι σε ηλικία ανήλικοι, έχουν την ίδια τάση για τα δύο αυτά αδικήματα
Κυριότερη ασχολία στον ελεύθερο χρόνο Παράδειγμα 2 Σε μια έρευνα που έγινε σε μαθητές Λυκείου, μελετήθηκε η ΚΥΡΙΟΤΕΡΗ ΑΣΧΟΛΙΑ τους τον ελεύθερο χρόνο και ο ΤΟΠΟΣ ΚΑΤΟΙΚΙΑΣ Τόπος Κατοικίας * Κυριότερη ασχολία στον ελεύθερο χρόνο Crosstabulation Κυριότερη ασχολία στον ελεύθερο χρόνο ΣΥΝΟΛΟ Υπολογιστές Αθλητισμός Μουσική / χορός Τηλεόραση / Κιν/φος Εξωσχολικα βιβλία Τόπος Κατοικίας Ηράκλειο 3 6 8 2 1 20 Ρέθυμνο 5 4 13 Χανιά 15 7 12 48
Ποσοστά για το Παράδειγμα 2 Κυριότερη ασχολία στον ελεύθερο χρόνο Total Υπολογιστές Αθλητισμός Μουσική / χορός Τηλεόραση / Κιν/φος Διάβασμα εξωσχολικών βιβλίων Τόπος Κατοικίας Ηράκλειο 15,0% 30,0% 40,0% 10,0% 5,0% 100,0% Ρέθυμνο 0% 38,5% 15,4% 30,8% Χανιά 26,7% 6,7% 33,3% Παρατηρούμε ότι τα ποσοστά, είναι εντελώς διαφορετικά σε κάθε γραμμή του πίνακα. Αυτό σημαίνει πως γενικά είναι διαφορετικές οι κύριες ασχολίες των μαθητών σε κάθε πόλη. Αυτό σημαίνει ΣΧΕΣΗ των ερωτήσεων στο Δείγμα φυσικά!
Αποτελέσματα Τιμή p Value df Asymp. Sig. (2-sided) Pearson Chi-Square 14,152 8 ,078 Likelihood Ratio 16,410 ,037 Linear-by-Linear Association 1,024 1 ,312 N of Valid Cases 48 Τιμή p
Συμπέρασμα Αφού το p=0,078 > 0,05, άρα οι ερωτήσεις δεν έχουν σχέση μεταξύ τους. Αυτό σημαίνει πως αυτό που βρήκαμε στο δείγμα μας ήταν τυχαίο. Δηλαδή, οι ασχολίες των παιδιών μπορούν να θεωρηθούν γενικά ίδιες, ανεξάρτητα από την πόλη που κατοικούν.