آزمون فرض
اهمیت آزمون فرض امکان تعمیم نتایج حاصل از نمونه تحت مطالعه به جامعه ی مرجع بنابراین هدف محقق از آزمون فرضیه: اثبات معنی داری نتایج مطالعه قبول یا رد این گفته که نتایج مشاهده شده، صرفا به دلیل شانس روی نداده اند بلکه به دلیل رابطه ی صحیح بین متغیرهای وابسته و مستقل روی داده اند.
مثال پژوهشگری رابطه ی بین مصرف سیگار و پیشرفت سرطان ریه را مورد مطالعه قرار می دهد. در این مطالعه: فرضیه صفر H0: هیچ تفاوتی بین افراد سیگاری و غیرسیگاری از نظر بروز سرطان ریه وجود ندارد و هر نوع تفاوت مشاهده شده صرفا به دلیل شانس است. فرضیه تحقیق HA: بین افراد سیگاری و غیرسیگاری در رابطه با خطر بروز سرطان ریه تفاوت وجود دارد و تفاوت های مشاهده شده به دلیل شانس نیست. سرطان ریه دارد ندارد + A B - C D مصرف سیگار
نکته اگر یافته های مطالعه از لحاظ آماری معنی دار تلقی شوند و فرضیه صفر صحیح نباشد آنگاه می توان فرضیه صفر را رد و فرض مقابل آن یعنی HAرا پذیرفت.
انواع خطاها خطای نوع اول اگر فرضیه ی صفر واقعا صحیح باشد و یافته های مشاهده شده از لحاظ آماری معنی دار نباشند قبول فرضیه صفر تصمیم صحیحی است. در مقابل در صورتی که فرض صفر صحیح باشد و یافته های مشاهده شده از لحاظ آماری معنی دار باشند تصمیم به رد فرض صفر نادرست است و سبب بروز خطا میگردد این نوع خطا را خطای نوع اول یاآلفا مینامند بنابراین: خطای نوع اول را تعریف کنید. خطای نوع اول عبارت است از رد کردن فرض صفر در حالی که صحیح است.
انواع خطاها عبارت است از قبول فرض صفر در حالی که غلط است. خطای نوع دوم اگر فرضیه ی صفر واقعا غلط باشد و یافته های مشاهده شده از لحاظ آماری معنی دار باشند رد فرضیه صفر تصمیم صحیحی است. در مقابل در صورتی که فرض صفر غلط باشد و یافته های مشاهده شده از لحاظ آماری معنی دار نباشند تصمیم به قبول فرض صفر نادرست است و سبب بروز خطا میگردد این نوع خطا را خطای نوع دوم یا بتا مینامند بنابراین، خطای نوع دوم را تعریف کنید. عبارت است از قبول فرض صفر در حالی که غلط است.
H0 صحیح H0 غلط قبول H0 درست خطای نوع دوم رد H0 خطای نوع اول واقعیت تصمیم H0 صحیح H0 غلط قبول H0 درست خطای نوع دوم رد H0 خطای نوع اول H0 صحیح = از لحاظ آماری معنی دار نیست. H0 غلط = از لحاظ آماری معنی دار است. قبول Ho = از لحاظ آماری معنی دار نیست. رد H0 = از لحاظ آماری معنی دار است.
سطح معنی داری احتمال ارتکاب به خطای نوع اول یا α را سطح اطمینان یا سطح معنیدار بودن آزمون مینامند. انتخاب این سطح اختیاری است ولی غالباً سطوح ۰/۰۵ و ۰/۰۱ بهعنوان سطح قابل قبولی بهوسیله پژوهشگران انتخاب میشود. بهعبارت دیگر درصورتی که با احتمال ۹۵ درصد اختلاف ، مثلاً بین دو میانگین ، بهعلت خطای نمونهگیری نباشد اختلاف را معنیدار میگویند و فرض صفر رد میشوند.
توجه اگرچه معنی دار بودن آماری دال بر وجود یک رابطه ی واقعی و درست است؛ ولی گاهی اوقات این معنی داری بدلیل وجود عوامل مخدوش کننده، روابط ساختگی و کاذبی را نیز ایجاد می کنند. بنابراین معنی دار بودن آماری لزوما دال بر رابطه ی علیتی یا معنی دار بودن بالینی نیست.
اگر در بررسی تفاوت یا رابطه متغیرها عدد P کمتر از 5% باشد، سطح معنی داری که به آن ارزش p یاp-value گفته می شود که در گزارشهای آماری در spss به صورت sig.value نمایش داده می شود. اگر در بررسی تفاوت یا رابطه متغیرها عدد P کمتر از 5% باشد، احتمال شانسی بودن این تفاوت یا رابطه خیلی کم است. می توان نتیجه گرفت که تفاوت یا رابطه مورد نظر معنی دار است.
اگر P بیشتر از 5% باشد احتمال شانسی بودن نتیجه، بسیار است. رابطه یا تفاوت متغیرها معنی دار نیست.
پرسش در این مطالعه فرض صفر H0 بیانگر چیست؟ فرضیه تحقیق HA بیانگر چیست؟ در یک ژورنال پزشکی، میزان مرگ و میر مشاهده شده در بین افراد سیگاری و غیرسیگاری برای کارسینوم سلول های پوششی نای از لحاظ آماری معنی دار (P<0.05) گزارش شده است؛ در این مطالعه فرض صفر H0 بیانگر چیست؟ فرضیه تحقیق HA بیانگر چیست؟ عدد P چه مطلبی را نشان می دهد؟
آزمون یک دامنه (one-tailed testing) آزمون یک دامنه ، جهت رابطه ی بین متغیرها (مستقل و وابسته ) را مشخص می کند. (A>B) یا (A<B) مثال: سیگار کشیدن باعث افزایش شیوع بیماری های قلبی عروقی می شود؛ یا سیگار کشیدن باعث کاهش شیوع بیماری های قلبی عروقی می شود.
آزمون دو دامنه (two-tailed testing) آزمون دو دامنه ، تنها وجود یک رابطه را بدون در نظر گرفتن سمت و جهت آن بیان می کند. مثال: سیگار کشیدن با شیوع بیماری های قلبی عروقی ارتباط دارد.
آزمون های آماری آزمون t-student کاربرد آزمون t چه زمانی است؟ آزمون تی برای مقایسه ی میانگین دو نمونه ی مستقل و کوچک ( N < 30 ) و با هدف تعیین معنی داری آماری (p value) نتایج مشاهده شده به کار میرود. s t = X - µ n
X - µ t = s n برای تعیین معنی داری نتیجه ی یک مشاهده سه جزء لازم است: که در آن : Xمیانگین نمونه µ میانگین جامعه ی استاندارد S انحراف معیار N اندازه ی نمونه درجه ی آزادی (df) = اندازه ی نمونه منهای 1 (n-1) جدول استاندارد توزیع t (فهرست مقادیر بحرانی t و درجه ی آزادی همراه با رقم P مطابق با آن ها). s t = X - µ n
مثال 1 درجه ی حرارت بدن 26 بیمار طی 48 ساعت بعد از عمل جراحی ثبت گردید. میانگین و انحراف معیار درجه حرارت این گروه بیماران به ترتیب 99.1 درجه فارنهایت و یک درجه فارنهایت بود. میانگین درجه ی حرارت طبیعی( استاندارد) دمای بدن 98.6 درجه ی فارنهایت است. یک رزیدنت می خواهد بداند که آیا از نظر آماری تفاوت معنی داری بین درجه ی حرارت بیماران با میانگین درجه ی حرارت طبیعی دمای بدن وجود دارد یا خیر؟ نتیجه گیری یافته های این مطالعه نشان می دهند که از نظر آماری، تفاوت معنی داری بین درجه ی حرارت بیماران پس از عمل جراحی و میانگین درجه حرارت استاندارد وجود دارد. P value کمتر از 0.05 از نظر آماری معنی دار تلقی می گردد. توجه ممکن است نخواهید که ملاک t را محاسبه کنید ولی باید نحوه ی تعیین سطح معنی داری را با استفاده از جدول t فرا بگیرید.
مثال 2 یک بررسی تغذیه ای به منظور اندازه گیری سطح کلسترول سرم افراد برای تعیین خطر احتمالی ابتلا به بیماری عروق تاجی قلب انجام شد، میانگین و انحراف معیار سطح کلسترول سرم دو گروه از دانشجویان پزشکی محاسبه گردید و نتایج آن در جدول زیر خلاصه شده است. میانگین انحراف معیار گروه اول: 176 25 میلیگرم در دسی لیتر گروه دوم: 225 35 میلیگرم در دسی لیتر ملاک t = 2.78 درجه آزادی (df)= 25
پرسش: در مثال فوق مقدار p value برابر است با: الف) 0.50 > 0.10 0.05 0.01 1 6.31 12.71 63.66 5 0.727 2.02 2.57 4.03 10 0.7 1.81 2.23 3.17 20 0.687 1.71 2.06 2.79 25 0.684 0.674 1.64 1.96 2.58 پرسش: در مثال فوق مقدار p value برابر است با: الف) 0.50 > ب ) 0.10 > ج ) 0.05 > د ) 0.01 > ه ) 0.001 >
آزمون F ( تجزیه و تحلیل واریانس) کاربرد آزمون F در چه مواردی است؟ آزمون F برای مقایسه ی میانگین های 3 گروه یا بیشتر از سه گروه و با هدف تعیین سطح معنی داری یافته های مشاهده شده به کار می رود. این روش مقایسه میانگین های سه گروه یا بیشتر را تجزیه و تحلیل واریانس ANOVA می نامند. اگر چه محاسبات مربوط به F مد نظر نیستند ولی باید مناسبت های کاربرد آن را در پزشکی بالینی درک کرد.
پرسش چهار گروه خونی A, B, O و AB به منظور مقایسه ی تفاوت های کمی سرولوژیک در ساختار آنتی ژن آن ها مورد بررسی قرار گرفتند. مناسب ترین آزمون آماری برای تعیین این تفاوت عبارتست از : الف) آزمون t ب) آزمون F (ANOVA) ج) تجزیه و تحلیل همبستگی د) تجزیه و تحلیل رگرسیون
بستگی بین صفات در تحلیل همبستگی همیشه دو متغیر را در نظر می گیریم. یکی متغیر وابسته و دیگری را متغیر مستقل می گویند. حالات همبستگی: همبستگی مثبت: اگر تغییرات دو متغیر بطور کلی یا در بیشتر موارد در جهت هم باشند، همبستگی بین دو متغیر را مثبت می نامند. همبستگی صفر: اگر تغییرات دو متغیر هم در جهت موافق و هم در جهت مخالف یکدیگر باشند، بطوری که نتوان مشخص کرد که در بیشتر موارد درکدام جهت تغییر می نمایند؛ چنین همبستگی را همبستگی صفر می نامند. همبستگی منفی: اگر تغییرات دو متغیر بطور کلی در جهت مخالف یکدیگر باشند، همبستگی بین دو متغیر منفی خواهد بود.
ضریب همبستگی، تجزیه و تحلیل رگرسیون خطی رابطه ی بین دو متغیر ( X , Y ) را می توان با استفاده از ضریب همبستگی نشان داد: ضریب همبستگی ( Correlation Coefficient ) : ضریب همبستگی ابزاری آماری برای تعیین نوع (مستقیم یا معکوس) و درجه رابطه (شدت رابطه) یک متغیر کمی با متغیر کمی دیگر است. این ضریب بین ۱ تا ۱- است و در صورت عدم وجود رابطه بین دو متغیر، برابر صفر است. تجزیه و تحلیل رگرسیون ( Regression Analysis) : معادله ای را منتج می شود که بر اساس آن می توان تغییر در کتغیر وابسته (Y) در ازای هر واحد تغییر در متغیر مستقل (X) را برآورد کرد.
ضریب همبستگی (r) قدرت رابطه ی بین دو متغیر را اندازه گیری می کند (ضریب پیرسون). دامنه ی تغییر ضریب همبستگی (r) بین 1- تا 1+ است. 1+ : همبستگی مستقیم یا مثبت – برای مثال، مصرف سیگار و سرطان ریه 1- : همبستگی معکوس یا منفی – برای مثال، تحرک و خطر ابتلا به بیماری قلبی 0 : همبستگی 0 (عدم وجود رابطه) – برای مثال، قد و هوش
محدودیت های ضریب همبستگی اگرچه تجزیه و تحلیل همبستگی در تعیین درجه ( قدرت) رابطه ی بین دو متغیر بسیار مفید واقع می شود ولی هنگامی که تعداد مشاهدات در یک مطالعه ، کوچک باشد (n < 30) بسیار غیرکارا است. هنگامی که نمودار پراکندگی یک نمونه ی کوچک ترسیم می گردد، مقادیر پرت ( مشاهداتی که خارج از دامنه ی طبیعی هستند) اثرات قابل ملاحظه ای بر روی ضریب همبستگی می گذارند و اغلب منجر به نتایج گمراه کننده ای می شوند.
پرسش در بررسی رابطه ی بین سطوح پلاسمای رنین و تغییرات فشارخون، پژوهشگر با استفاده از کدامیک از روش های زیر می تواند بهترین استفاده را از داده ها ببرد؟ آزمون t- استیودنت آزمون F تجزیه و تحلیل همبستگی
ضریب تعیین ضریب تعیین (Coefficient of Determination) (r ) عبارتست از مجذور ضریب همبستگی .(r) ضریب تعیین بیانگر نسبت کلیه ی تغییرات در متغیر وابسته است که بوسیله ی متغیر مستقل توجیه می گردد یا با متغیر مستقل در ارتباط است. 2
مثال پژوهشگری در بررسی رابطه ی بین دی اتیل استیل پوسترول (DES) و ایجاد سرطان های مربوط به واژن گزارش داد که ضریب همبستگی (r) برابر 0.91 و ضریب تعیین برابر 82% است. به عبارت دیگر 82% تغییرات در بروز سرطان های مربوط به واژن ( متغیر وابسته) می تواند با دی اتیل استیل پوسترول (متغیر مستقل) مرتبط باشد. 18% دیگر تغییرات قابل توجیه نیست وممکن است به دلیل سایر عوامل که در تجزیه تحلیل مطالعه در نظر گرفته نشده اند باشد.
رگرسیون در رگرسيون يك متغير كه تاثير پذير (Y) از ساير متغيرهاست متغير پاسخ (متغير وابسته ) ناميده مي شود. متغير يا متغيرهايي كه بر متغير پاسخ اثر مي گزارند (X) متغير توضيحي (متغير مستقل ) ناميده مي شود.
توجه گاهي تخمين تغيير در يك متغير با تغيير متغير ديگر براي ما مهم است كه ضريب همبستگي نمي تواند تخميني از اين تغييرات ارائه دهد. براي پاسخ به سئوالات فوق بايد به سراغ رگرسيون رفت. ضريب همبستگي نشان دهنده ارتباط دو متغير است اما زماني كه بدنبال اثر يك متغير بر متغير ديگر هستيم نمي تواند از آن استفاده كنيم.
رگرسيون خطي، ساده ترين و پركاربردترين نوع رگرسيون است رگرسيون خطي، ساده ترين و پركاربردترين نوع رگرسيون است. به اين دليل آنرا ساده گويند چون نمودار آن نشان دهنده يك خط راست است. نمودار Scatter Plot ايده اي اوليه درباره اين موضوع مي دهد. با ديدن اين نمودار اين ايده به ذهن مي رسد كه با افزايش x متغير y هم افزايش مي يابد و بلعكس.
نکته: رگرسیون به دنبال یافتن یک رابطه ی خطی بین دو صفت مورد بررسی بصورت y = a + bx می باشد که در آن a عرض از مبدا (یا مقدار ثابت) و b شیب خط یا ضریب خط رگرسیون نامیده می شود.