Ανάλυση κατηγορικών δεδομένων Χ2 – έλεγχοι Ανεξαρτησίας
Παραδείγματα κατηγορικών δεδομένων Κατάταξη ατόμων με βάση το γενότυπο (AA, Aa, aa) Κατάταξη του εδάφους ανάλογα με το pH “όξινο”, “αλκαλικό” ή “ουδέτερο” Το χρώμα ενός άνθους Ο τόπος κατοικίας (αστικές, ημιαστικές ή αγροτικές περιοχές) κ.λ.π.
Οι κατηγορίες Κάθε άτομο πρέπει να κατατάσεται οπωσδήποτε σε κάποια από τις υπάρχουσες κατηγορίες Και σε μόνο μία από αυτές!! A1 A2 A5 A3 A4
Πίνακας συχνοτήτων Παράδειγμα 1 AA 13 17.8% Aa 40 54.8% aa 20 27,4% Κατηγορίες Συχνότητα Σχετική συχνότητα (%) AA 13 17.8% Aa 40 54.8% aa 20 27,4% σύνολο 73 100% Εκτίμηση των πιθανοτήτων Στον πληθυσμό 95%-Διαστήματα Εμπιστοσύνης (βλ. αντίστοιχο κεφάλαιο)
Πίνακες συνάφειας (contigency) Πίνακες διπλής εισόδου B A 1 2 ... c σύνολα f11 f12 f1c R1 f21 f22 f2c R2 r fr1 fr2 frc Rr C1 C2 Cc n
Πίνακες συνάφειας fij είναι η κοινή παρατηρηθείσα συχνότητα των κατηγοριών Ai και Bj. Τα αθροίσματα γραμμών (Ri) και στηλών (Cj) ονομάζονται περιθωριακά αθροίσματα αρσενικά θηλυκά σύνολα AA 13 28 41 Aa 40 29 69 aa 20 11 31 73 68 141 Παράδειγμα 2
Η υπόθεση της ανεξαρτησίας Είναι τα χαρακτηριστικά Α και Β ανεξάρτητα; Για το παράδειγμα 2, η ερώτηση γίνεται: είναι οι αναλογίες των γενοτύπων ανεξάρτητες από το φύλο;
Η υπόθεση της ανεξαρτησίας Για να ελέγξουμε μια τέτοια υπόθεση, οι παρατηρηθείσες συχνότητες θα συγκριθούνε με κάποιες αναμενόμενες Οι αναμενόμενες προκύπτουν από την υπόθεση ότι τα χαρακτηριστικά είναι ανεξάρτητα
Οι “αναμενόμενες” συχνότητες Οι “αναμενόμενες” συχνότητες η “πιθανότητα” να ανήκεις στην κατηγορία Ai και στην Bj ταυτόχρονα, είναι ίση με το γινόμενο Της πιθανότητας να ανήκεις στην Ai και Της πιθανότητας να ανήκεις στην Bj.
Η συνάρτηση X2 Αφού υπολογιστούν όλες οι αναμενόμενες συχνότητες για τα r.c κελιά του πίνακα, κατασκευάζεται η συνάρτηση X2
Ο έλεγχος και το p Για το X2 ο υπολογιστής μας δίνει μια τιμή p, την οποία συγκρίνουμε με το 0,05 όπως σε όλες τις περιπτώσεις Aν p<0,05 υπάρχει σχέση ανάμεσα στα χαρακτηριστικά που μελετήσαμε Αν p>0,05 δεν υπάρχει καμιά σχέση και τα ευρήματα του δείγματος είναι τυχαία
Υπολογισμοί για το παράδειγμα 2 Αναμενόμενες συχνότητες (Α) αρσενικά θηλυκά σύνολα AA 21,23 19,77 41 Aa 35,72 33,28 69 aa 16,05 14,95 31 73 68 141 Υπολογισμός π.χ. Για το πρώτο κελί: 41*73 / 141 = 21,23
Υπολογισμοί για το παράδειγμα 2 και το p=0,0078 (από το EXCEL)
Η απόφαση Αφού p=0,0078 < 0,05 μπορούμε να πούμε ότι υπάρχει σχέση ανάμεσα στο γενότυπο και το φύλο. Οι αναλογίες των γενοτύπων στα δύο φύλα είναι διαφορετικές