آزمون فرضهای آماری
فهرست مطالب تعریف فرضیه تعریف آزمون فرض آماری تعریف فرض صفر و فرض یک خطاهای آزمون آزمون فرض یک دنباله و دو دنباله مراحل آزمون یک فرض آماری آزمون های فرض: آزمون میانگین دریک جامعه آزمون نسبت موفقیت در یک جامعه آزمون اختلاف میانگین های دو جامعه آزمون اختلاف نسبت های دو جامعه آزمون برابری واریانس های دو جامعه آزمون خی دو(کای دو)
فرضیه چیست؟ فرضیه معمولا بصورت تفکری ناشی از مشاهده ی پدیده ها در طبیعت است. به عبارتی دیگر حدس یا اظهار نظری در مورد پارامترهای جامعه است. مثال: سیگار موجب سرطان ریه می شود. قد مردان از زنان بلند تر است. ورزش روزانه به طور متوسط 30 دقیقه ، موجب کاهش استرس می شود.
آزمون فرضیه فنون آماری مناسب برای بررسی صحت فرضیه ها را آزمون فرضیه گویند. در آزمون فرضیه بر مبنای داده های نمونه درباره صحت فرضیه ها با اطمینان معینی قضاوت می کنیم.
تعریف فرض صفر و فرض یک حدس یا ادعای ممکن است صحیح یا غلط باشد که دو فرض مکمل در ذهن به وجود می آید: H0: ادعا غلط است. :HA ادعا صحیح است. معمولا سوال پژوهش یا ادعای محقق در قالب فرض HA بیان می شود، بنابر این هدف پژوهشگر رد H0 و اثبات HA است.ولی همیشه فرض صفر دربرگیرنده تساوی است! مثال ص:89 عادل آذر
فرضیه صفر (Null Hypothesis) (H0): فرضیه ای که باید مورد آزمون قرار گیردو عدم تفاوت و یا یکسان بودن را در جامعه نشان می دهد . فرضیه جانشین : (H1) (Alternative Hypothesis) این فرضیه برخلاف فرضیه H0 بیان می شود وادعای محقق را نشان می دهد .
مثال : میزان عوارض داروی A و داروی B یکسان نیست.
مثال: میانگین وزن نوزادان در طبقات مرفه جامعه، حداقل gr3000 است .
آزمون فرض یک دامنه(دنباله) و دو دامنه با توجه به فرض یک (HA)، یک دامنه یا دو دامنه بودن آزمون فرض مشخص می شود. مثال ص 96 عادل اذر
فرضیه یک طرفه (one-tailed Hypothesis) : در فرض یک، پارامتر جامعه، کوچکتر یا بزرگتر از مقداری را نشان می دهد . فرضیه دو طرفه : (Two-tailed Hypothesis) در فرض یک ، پارامتر جامعه مخالف مقداری از پیش تعیین شده را بیان می کند.
خطاهای آزمون چون آزمون فرضیه بر مبنای داده های نمونه می باشد بنابراین ممکن است در تصمیم گیری دچار خطا شویم .
دو نوع خطا در آزمون فرضیه داریم: 1- خطای نوع اول: رد فرضیه H0 وقتی آن درست می باشد . 2- خطای نوع دوم: قبول فرضیه H0 وقتی آن غلط می باشد . احتمال ارتکاب خطای نوع اول را با نشان می دهیم و سطح معنی داری نیز گفته می شود . احتمال ارتکاب خطای نوع دوم را با نشان می دهیم .
مراحل آزمون یک فرض آماری تعیین فرض صفر و یک آزمون تعیین آماره آزمون(ملاک آزمون) تعیین ناحیه بحرانی مقایسه آماره آزمون با ناحیه بحرانی
در این حالت فرضیه های صفرو یک، یکی از حالتهای زیر می توان باشد: آزمون فرضیه مقایسه میانگین جامعه باعدد ثابت معلوم (واریانس جامعه) مجهول در این حالت فرضیه های صفرو یک، یکی از حالتهای زیر می توان باشد:
انتخاب آماره آزمون آماره آزمون آماره آزمون الف-وقتی واریانس جامعه معلوم و داده ها توزیع نرمال دارند : آماره آزمون ب-وقتی واریانس جامعه مجهول و داده ها توزیع نرمال دارند : مثال :ص102 کاظم محمد و مثال :ص106 کاظم محمد آماره آزمون
آماره آزمون به صورت زیر محاسبه می شود : (مقدار پارامتر با قبول H0 – آماره در نمونه) (خطای معیارآماره نمونه )
قاعده تصمیم گیری برای 1: قاعده تصمیم گیری برای 2: قاعده تصمیم گیری برای 3:
مثال در یک نمونه 10 نفری میانگین سطح آنزیم 22 به دست آمده است. در مورد میانگین سطح یک آنزیم در جمعیت معینی با توزیع نرمال، این سوال مطرح است که آیا می توان گفت میانگین سطح آنزیم مورد نظر مقدار 25 است یا خیر؟ ( ( در سطح خطای 0.05 محاسبه کنید. مفروضات: واریانس جامعه برابر 45 فرض می شود.
بنابر این فرضیه H0 : µ=25 رابا اطمینان %95 نمی توان رد کرد. فرضیه ها: H0 : µ=25 در برابر HA : µ≠25 بنابر این فرضیه H0 : µ=25 رابا اطمینان %95 نمی توان رد کرد.
, σ = 10 (معلوم) عددبحرانی زیرا
یک روش درمانی جدید برای جلوگیری از نوزادان کم وزن ابداع شده است. مثال: یک روش درمانی جدید برای جلوگیری از نوزادان کم وزن ابداع شده است. دریک مطالعه اولیه بر روی 20 خانم باردار که از این دارو استفاده کرده بودند، میانگین وزن نوزادان متولد شده 3500 گرم با انحراف معیار 500 گرم بود. اگرمیانگین وزن نوزادان کم وزن درکل جامعه برابر 2800 گرم باشدآیامی توان ادعا نمودکه این داروباعث افزایش وزن نوزادان شده است؟ 1.72 =t
مقایسه نسبت جامعه با یک عدد ثابت استنباط در مورد پارامتری است که برای صفات کیفی به کار می رود. فرضیات صفرو مقابل عبارتند از:
آماره آزمون عبارت است از : در حالتی که حجم نمونه به اندازه کافی بزرگ باشد 5np> و 5n(1-P)> آماره آزمون عبارت است از :
ناحیه رد برای آزمون یک طرفه : ناحیه رد برای آزمون دو طرفه :
مثال : پيش از آن كه برنامه مصون سازي سرخچه در بخش مديترانه اي صورت گيرد، مطالعه اي نشان مي دهد كه 150 نفر از ميان 500 كودك دبستاني در بخش مزبورعليه اين بيماري مصون سازي شده اند. آيا داده ها با اين اعتقاد كه حدود 50 درصد از كودكان دبستاني در بخش مديترانه اي عليه سرخچه مصون شده اند سازگار است؟ مقدار فرض شود.
مثال: نسبت چندقلوزایی بطور تقریب 1 درصد می باشد تصور می شود که چند قلوزایی تحت تاثیر عواملی مانند سن، نژاد، رتبه تولد می باشد. برای آزمون تاثیر سن بر چندقلوزایی تعداد 2000 نفر از زنان باردار که سن آنها زیر 20 سال بوده است را مورد بررسی قرار دادیم و ده مورد چند قلوزایی مشاهده گردید. در مورد تاثیر سن بر چند قلوزایی چه می توان گفت؟
آزمون فرضیه مقایسه میانگین دو جامعه (تفاوت میانگین دوجامعه) - آزمونهای قبلی براساس یک نمونه از جامعه بوده اند. - در آزمونهای دو جامعه (دو نمونه ای ) پارامترهای موردنظر دردو جامعه متفاوت مقایسه می شوند .
مثال: میانگین سطح کلسترول در بچه هایی که والدین آنها بیماری قلبی دارند بیشتر از افراد سالم است. کودکانی که در مناطق نزدیک کارخانه سرب زندگی می کنند ،سطح سرب خون آنها بالاتر از سایر کودکان است.
در این حالت فرضیات مورد بررسی به صورت زیر فرمول بندی می شوند :
یعنی هرعضو نمونه اول باعضوی منحصر به فرد از نمونه دوم جور شده باشد. دوحالت برای آزمون مقایسه میانگین دوجامعه وجود دارد : 1- دو نمونه منتخب از دو جامعه وابسته اند. یعنی هرعضو نمونه اول باعضوی منحصر به فرد از نمونه دوم جور شده باشد. مانند: - اندازه پاسخ قبل و بعد از دارو - اندازه پاسخ در چشم راست و چپ - آگاهی قبل و بعد از آموزش
یعنی نمونه ها از دو جامعه متفاوت اند و ارتباطی بهم ندارند مانند : 2- دو نمونه منتخب از دو جامعه مستقل می باشند : یعنی نمونه ها از دو جامعه متفاوت اند و ارتباطی بهم ندارند مانند : - پاسخ به درمان در افراد بیمار و سالم - فشار خون در مردان و زنان
در این حالت داده ها به صورت وابسته مثلاً قبل و بعد ارائه می شود مقایسه میانگین دو نمونه ازدوجامعه وابسته در این حالت داده ها به صورت وابسته مثلاً قبل و بعد ارائه می شود برای انجام آزمون: 1- اختلاف مشاهدات قبل و بعد را محاسبه می کنیم. 2- میانگین و انحراف معیار تفاوتها را بدست می آوریم .
با استفاده از آزمون t مقدار آماره ازمون رامحاسبه می کنیم: بقیه مراحل مشابه حالتهای قبل می باشد.
مثال: جدول زیر اندازه های فشارخون قبل و بعد از شش ماه مصرف قرصهای OC را در زنان 45-15 سال نشان می دهد. آیا می توان ادعا نمود مصرف قرصهای OC باعث افزایش فشارخون می شود .
3.32=t
مقایسه میانگین دو جامعه مستقل : 1- دو نمونه تصادفی انتخاب شده از دو جامعه مستقل می باشند . 2- جامعه ها دارای توزیع نرمال می باشند. واریانسهای دو جامعه معلوم - مجهول الف-مساوی هستند ب-مساوی نیستند
الف: آماره آزمون در صورت معلوم بودن واریانس ها:
ناحیه بحرانی:
مثال در بررسی سطوح میانگین اسید اوریک سرم بین افراد سالم و افراد مبتلا به مونگلیسم، اطلاعات زیر به دست آمده است: میانگین اسید اوریک سرم در 12 فرد بیمار و 15 فرد سالم به ترتیب برابر 4/5 و 3/4 میلی گرم در صد میلی لیتر بوده است. با فرض آن که انحراف معیار سطوح اسید اوریک سرم هر دو جامعه 1 میلی گرم در صد میلی لیتر باشد. آیا می توان با اطمینان 95% نتیجه گرفت که میانگین اسید اوریک سرم بین افراد سالم و افراد مبتلا به مونگلیسم متفاوت است؟
حل H0: µ1 = µ2 در مقابل HA: µ1 ‡ µ2 نتیجه گیری: میانگین سطح اسید اوریک سرم در افراد مبتلا به مونگلیسم به طور معنا داری متفاوت از افراد سالم است.
فاصله اطمینان
آزمون فرضیه مساوی بودن واریانس دو جامعه = حجم نمونه از جامعه اول = واریانس نمونه از جامعه اول = حجم نمونه از جامعه دوم = واریانس نمونه از جامعه دوم
آماره آزمون و ناحیه بحرانی : آماره آزمون و ناحیه بحرانی : R H0
آیا با اطمینان 95% ، میانگین نمره هوش در دو گروه متفاوت است ؟ مثال : مطالعه اي به منظور مشاهده اثر مواجهه مداوم با سرب بر IQ طراحی گردید. بدین منظور يك گروه از کودکان یک منطقه كه در معرض سرب بودند و يك گروه كنترل از كودكان همان منطقه مشخص گرديدند . آزمايش IQ بر روي 34 كودك 5 ساله و بالاتر در در معرض سرب و 36 كودك همسن آنها درگروه كنترل انجام شد كه اطلاعات آن درجدول زير داده شده است . گروه اندازه نمونه انحراف معیار میانگین IQ در معرض سرب 34 13/74 96/4 کنترل 36 17/87 103/29 آیا با اطمینان 95% ، میانگین نمره هوش در دو گروه متفاوت است ؟
n1 - 1= 36-1=35 n2 - 1= 34-1=33 1.88≈ (33و35و975/0.)F
مقایسه میانگین دو جامعه (در صورتی که فرض مساوی بودن واریانسها پذیرفته شود) = حجم نمونه از جامعه اول = میانگین نمونه از جامعه اول = واریانس نمونه از جامعه اول = حجم نمونه از جامعه دوم = میانگین نمونه از جامعه دوم = واریانس نمونه از جامعه دوم
ناحیه بحرانی :
گروه اندازه نمونه انحراف معیار میانگین IQ جذب کننده سرب 34 13/74 96/4 کنترل 36 17/87 103/29
فاصله اطمینان
آزمون اختلاف نسبتها یا تساوی دو نسبت چنانچه و به ترتيب معرف نسبت صفت مورد مطالعه در جامعه اول و جامعه دوم باشند، آزموني كه به منظور مقايسه اين دو نسبت صورت مي گيرد يك آزمون دو دامنه بوده و فرضيه آزمون به صورت زير خواهد بود:
آماره آزمون و ناحیه بحرانی : آماره آزمون و ناحیه بحرانی :
مثال در يك كارآزمايي باليني، 20 نفر از 240 نفري كه واكسن آنفلانزا دريافت كرده اند و 80 نفر از 220 نفري كه شبه واكسن دريافت كرده اند، مبتلا شدهاند. آيا ميتوان با اطمینان 95% گفت نسبت ابتلا در دوگروه با هم يكسان است؟
فرض صفر رد ميشود. يعني واكسن، ميزان شيوع آنفلانزا را به طور قابل ملاحظهاي كاهش ميدهد.
فاصله اطمینان
تا چه اندازه توزيع فراواني مشاهده شده بر توزيع فراواني نظري آزمون تطابق توزیع نمونه با توزیع نظری : با استفاده از ملاک (کای دو) تا چه اندازه توزيع فراواني مشاهده شده بر توزيع فراواني نظري منطبق مي شود يا برازنده است؟
فراواني مشاهده شده: منظور تعداد افرادي از نمونه كه در يك گروه خاص قرار گرفته اند. فراواني مورد انتظار: فراواني براساس قبول فرضيه صفر (تطابق نمونه با توزيع نظري) را فراواني مورد انتظار گويند كه براي محاسبه فراواني منتظره اين گروه بايد احتمال مربوط به آن گروه را كه از توزيع نظري براساس فرضيه صفر محاسبه مي شود در تعداد مشاهدات (n) ضرب كنيم.
فراوانی مشاهده شده (ni) فراوانی مورد انتظار (ei) گروه فشارخون سیستولیک فراوانی مشاهده شده (ni) فراوانی مورد انتظار (ei) 1 کمتراز90 2/12 2 120-90 15 24/64 3 150-120 57 51/47 4 بالاتراز150 28 21/77
فرض آزمون: : توزيع نمونه با توزيع موردنظر تطابق دارد (مثلاً نرمال است) : توزيع نمونه با توزيع موردنظر تطابق ندارد. آماره آزمون عبارتست از: ni : فراواني مشاهده شده ei : فراواني مورد انتظار k : تعداد گروههاي مختلف متغیر مورد بررسی
آماره آزمون: ni : فراواني مشاهده شده ei : فراواني مورد انتظار k : تعداد طبقات مختلف متغیر(صفت) مورد بررسی
ناحيه بحراني براي اين آزمون عبارتست از: فرضيه H0 رد مي شود (محاسبه شده) درجه آزادي موردنظر براي اين آزمون به صورت df = k-1-m محاسبه مي شود. (m تعداد پارامترهاي برآورد شده جامعه است؛ به عبارتی تعداد پارامترهایی که مجهول اند.)
مثال اطلاعات جدول زیر که مربوط به فشارخون سیستولیک نمونه ای ازمردان 35 سال به بالای روستایی است رادرنظربگیرید. اگرمیانگین وانحراف معیار نمونه به ترتیب برابر 133/25و21/27 متر جیوه است .در سطح خطای 0.01 تطابق توزیع صفت فشارخون رادراین جامعه باتوزیع نظری نرمال آزمون کنید .
توزیع فشار خون سیستولیک در جامعه مورد مطالعه نرمال است :H0 گروه فشارخون سیستولیک فراوانی مشاهده شده (ni) احتمال مربوط به هرگروه فراوانی مورد انتظار (ei) 1 کمتراز90 0/0212 2/12 2 120-90 15 2464 /0 24/64 3 150-120 57 0/5147 51/47 4 بالاتراز150 28 0/2177 21/77 جمع 100
. . . . . . احتمال مربوط به گروه 1 احتمال مربوط به گروه 4 فراوانی مورد انتظار گروه 1 . . . فراوانی مورد انتظارگروه4
:K تعدادگروهها m : تعداد پارامترهای مستقلی است که توسط نمونه برای توزیع نظری برآورد شده است . نتیجه: توزیع فشار خون درجامعه مورد مطالعه دارای توزیع نرمال نیست .
نکته: فواصل گروه ها چنان انتخاب شود که هیچ یک از فراوانی های نظری کمتر از 1 نباشند و حداقل 80% فراوانی های نظری بزرگتر از 5 باشند!
مثال : روزها حوادث مشاهده شده شنبه یکشنبه دوشنبه سه شنبه چهارشنبه اطلاعات جدول زیر متضمن مطالعه ای از147حادثه صنعتی است که مراقبتهای پزشکی لازم دارند.این ادعا را در سطح خطای 0.05 آزمون کنید که حوادث در روزهای هفته به صورت زیرتوزیع شده اند . 30% درروز شنبه ، 15% درروزیکشنبه ، 15%درروزدوشنبه ، 20% درروزسه شنبه و 20% درروزچهارشنبه . روزها حوادث مشاهده شده شنبه یکشنبه دوشنبه سه شنبه چهارشنبه 31 42 18 25
. . . فرض صفراین ادعاست که درصدهای بیان شده درست هستند، پس فرض صفروفرض مقابل به صورت زیر است:. حداقل یکی ازنسبتهای قبلی مساوی مقدار ادعا شده نیست . محاسبه فراوانیهای مورد انتظار : فراوانی مورد انتظار روز شنبه . . . فراوانی مورد انتظار روز چهارشنبه
تعدادحوادث موردانتظار روزها شنبه یکشنبه دوشنبه سه شنبه چهارشنبه تعدادحوادث مشاهده شده 31 42 18 25 تعدادحوادث موردانتظار 44.1 22.05 29.4 شواهدکافی برای رد این ادعاکه حوادث مطابق درصدهای داده شده توزیع شده اندوجوددارد.
Any question?