Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

Η παρουσίαση φορτώνεται. Παρακαλείστε να περιμένετε

رگرسیون چندگانه Multiple Regression

Παρόμοιες παρουσιάσεις


Παρουσίαση με θέμα: "رگرسیون چندگانه Multiple Regression"— Μεταγράφημα παρουσίασης:

1 رگرسیون چندگانه Multiple Regression
موسوی ندوشنی بهار 1387 دانشگاه صنعت آب و برق

2 مدل چند متغیره در رگرسیون چند متغیره رابطه به شرح زیر است:
که می‌توان آن را مانند یک متغیره برای حالت چند متغیره نوشت: که در ŷ برآورد مقدار y است. اگر مشاهده‌ اول برابر واحد فرض شود، مقدار b0 همان مقدار ثابت (در حالت خطی برابر عرض از مبداء) است. دانشگاه صنعت آب و برق

3 عملیات رگرسیون با نشان‌گذاری ماتریسی
معادله رگرسیون را می‌توان به‌صورت زیر نوشت: که نمایش ماتریسی آن به‌صورت زیر است: دانشگاه صنعت آب و برق

4 ماتریس واریانس-کوواریانس
در این ماتریس متقارن، عناصر قطری واریانس و بقیه عناصر کوواریانس هستند. دانشگاه صنعت آب و برق

5 دنباله عملیات رگرسیون با نشان‌گذاری ماتریسی
فرم ماتریسی CiY یعنی کوواریانس بین Xi و Y به‌صورت زیر است. بنابراین برآورد مقادیر  به‌صورت زیر است. دانشگاه صنعت آب و برق

6 عملیات رگرسیون با نشان‌گذاری ماتریسی روش دوم
اگر معادله رگرسیون به صورت زیر باشد. اگر ماتریس داده‌های خام به صورت زیر باشد. معادله فوق را می‌توان با استفاده از ضرایب همبستگی حل نمود. دانشگاه صنعت آب و برق

7 دنباله عملیات رگرسیون با نشان‌گذاری ماتریسی روش دوم
دستگاه معادلات زیر را می‌توان به صورت زیر داشت. که در آن αi ضرایب، rij همبستگی‌های میان متغیرهای مستقل و ryj همبستگی‌های بین متغیرهای مستقل و متغیر وابسته یعنی Y است. دانشگاه صنعت آب و برق

8 دنباله عملیات رگرسیون با نشان‌گذاری ماتریسی روش دوم
اگر دستگاه معادلات را به فرم ماتریسی بنویسید نتیجه می‌شود. Rijαj=Ryj و برای محاسبه bj از فرمول زیر استفاده می‌شود. bj ضرایب رگرسیون sy انحراف معیار متغیر وابسته sj انحراف معیار متغیرهای مستقل ضمنا رابطه R2 و rykها دانشگاه صنعت آب و برق

9 دنباله عملیات رگرسیون با نشان‌گذاری ماتریسی روش دوم
و سرانجام مقدار ثابت معادله به صورت زیر است. همانطور که قبلا نیز مشاهده شد، ضریب تعیین به شرح زیر است. دانشگاه صنعت آب و برق

10 دنباله عملیات رگرسیون با نشان‌گذاری ماتریسی
باقی‌مانده به صورت e=y- ŷ است. متوسط خطاها یعنی E(e)ē=0 و واریانس خطا برابر با Var(e)=eTe است. واریانس ضرایب () عبارتست از: به ازاء یک X خاص می‌توان یک مقدار برای Y پیشگویی نمود. دانشگاه صنعت آب و برق

11 فاصله اطمینان برای ضرایب معادله
فاصله اطمینان  100(1-) برای ضرایب j عبارتست از: که در آن Cjj عناصر قطری (XTX)-1 است و واریانس خطای برآورد برابر است با: که m تعداد ضرایب برآورد شده است. دانشگاه صنعت آب و برق

12 فاصله اطمینان برای مقادیر برآورد شده
فاصله اطمینان 100(1-) برای یک مقدار y0 که توسط یک نقطه x0 در فضای چند بعدی تولید شده و مقدار برآورد شده آن ŷ0 است که عبارتست از: دانشگاه صنعت آب و برق

13 مثال 1 به داده‌های زیر توجه کنید.
X1: 2,2,1,1,3,4,5,5,7,6,4,3,6,6,8,9,10,9,4,4 X2: 4,4,4,3,6,6,3,4,3,3,5,5,9,8,6,7,5,5,7,7 Y: 2,1,1,1,5,4,7,6,7,8,3,3,6,6,10,9,6,6,9,10 معادله رگرسیون حاصل از داده‌ها به شرح زیر است: ضریب تعیین برابر R2= است. آزمون F: دانشگاه صنعت آب و برق

14 تحلیل رگرسیون در مثال 1 وقتی بیش از یک متغیر در معادله رگرسیون قرار دارد، آنگاه تحلیل رگرسیون پیچیده‌تر می‌شود. اولین بررسی آنچه را که X1 و X2 (با هم و جدا از هم) به رگرسیون می‌افزایند به وضوح نشان می‌دهد. آیا اضافه کردن X2 به معادله رگرسیون پیش‌بینی Y را به طرز معنی‌داری بالا می‌برد؟ اکنون فقط متغیر X1 در نظر گرفته می‌شود. که معنی دار است. دانشگاه صنعت آب و برق

15 دنباله تحلیل رگرسیون در مثال 1
اکنون فقط متغیر X2 در نظر گرفته می‌شود. در سطح مرسوم 0.05 معنی‌دار نمی‌شود. اما در سطح حدود 0.08 معنی‌دار است. بنابراین می‌توان موضوع را دنبال نمود. با بررسی جداگانه X1 و X2 معلوم شد که X1 بسیار بهتر از X2 متغیر وابسته یعنی Y را پیش‌بینی می‌کند. اما یک سوال را می‌توان مطرح کرد و راجع به آن تامل نمود. سوال این است: آیا اضافه کردن X2 بر X1 پیش‌بینی را بالا می‌برد. قبلا ملاحظه شد که R2y.1=0.45 و R2y.12=0.51 است. بنابراین، با اضافه کردن X2 بر X1، R2 به مقدار بالا می‌رود. با این وجود این مشارکت اضافی در رگرسیون به لحاظ آماری معنی‌دار نیست. اما به تفاوت دقت کنید. در رگرسیون Y تنها بر X2، R2 به مقدار 0.16 به دست می‌آید. در حالی که اضافه کردن X2 بر X1، ٔR2 را فقط 0.05 بالا برد. این تفاوت یکی از خصوصیات مهم رگرسیون چندگانه را نشان می‌دهد. دانشگاه صنعت آب و برق

16 بیان بعضی از ملاحظات درباره رگرسیون چندگانه
اگر همبستگی بین X1 و X2 معادل صفر باشد، r2 بین X1 و Y را می‌‌توان بر r2 بین X2 و Y افزود و R2y.12 را بدست آورد. ولی، این حالت کمتر رخ می‌دهد.که همبستگی بین دو متغیر، معادل صفر باشد. دانشگاه صنعت آب و برق

17 تجزیه و تحلیل مدل رگرسیون stepwise
همانطور که قبلا نیز اشاره شد در رگرسیون از مدل زیر استفاده می‌شود. اما این که کدامیک از Xiها مهم‌تر هستند معلوم نیست. البته در یک سیستم علت و معلولی کاملا معین، این سوال مطرح نیست. ولی در هیدرولوژی قضیه همیشه روش نیست. جریان ماهانه در یک ایستگاه را در نظر بگیرید، این جریان می‌تواند متاثر از بارندگی این ماه باشد اما با توجه به سیستم تاخیر بارندگی-رواناب، بارندگی ماه قبل نیز می‌تواند در ایجاد رواناب موثر واقع شود. هدف از رگرسیون stepwise این است که معادله پیشگویی را بر اساس متغیرهای موثرتر بسط دهیم. دانشگاه صنعت آب و برق

18 مثال 2 به داده‌های زیر توجه کنید.
X1: 2,2,1,1,3,4,5,5,7,6,4,3,6,6,8,9,10,9,4,4 X2: 5,4,5,3,6,4,6,4,3,3,3,6,9,8,9,6,4,5,8,9 X3: 1,2,4,4,5,6,3,3,7,7,8,9,5,4,5,5,7,8,8,7 Y: 2,1,1,1,5,4,7,6,7,8,3,3,6,6,10,9,6,6,9,10 معادله رگرسیون حاصل از داده‌ها به شرح زیر است: ضریب تعیین برابر R2= است. با آزمون F=10.526<3.239 رگرسیون معنی‌دار است. دانشگاه صنعت آب و برق

19 تحلیل رگرسیون در مثال 2 در آزمون آماری معنی‌دار بودن دو شیوه ذکر می‌شود. اولین روش از نسبت‌های t (یا نسبت‌های F) استفاده می‌کند. دومین روش از R2ها و نسبت‌های F سود می‌جوید. در باره کاربرد نسبت t برای آزمون معنی‌دار بودن آماری وزن‌های رگرسیون سوال مهمی پیش می‌آید: آیا رگرسیون متغیر وابسته بر یک متغیر مستقل معین، پس از به حساب آوردن تاثیرات متغیرهای مستقل دیگر، به لحاظ آماری معنی‌دار است؟ دانشگاه صنعت آب و برق

20 دنباله تحلیل رگرسیون در مثال 2
خطای استاندارد برآورد خطای استاندارد ضریب‌های b را می‌توان به چند روش محاسبه نمود که یکی از آن‌ها به شرح زیر است. که SEbj خطای استاندارد j امین وزن b است. SE2est مجذور خطای استاندارد است. ssxj مجموع مجذورات متغیر j است. R2 مجذور همبستگی چند متغیری بین متغیر j (متغیر وابسته) و بقیه متغیرهای مستقل است. دانشگاه صنعت آب و برق

21 دنباله تحلیل رگرسیون در مثال 2
در مورد ضریب اول می‌توان نوشت: برای بدست آوردن R2j (مجذور همبستگی چند متغیری بین j امین متغیر مستقل و متغیرهای مستقل دیگر است.) می‌توان نوشت. rjj مقادیر واقع روی قطر وارون ماتریس همبستگی میان متغیرهای مستقل است. نسبت t دارای n-k-1 درجه آزادی دانشگاه صنعت آب و برق

22 دنباله تحلیل رگرسیون در مثال 2
R2 های لازم به صورت زیر محاسبه می‌شوند. اکنون SEbj به صورت زیر محاسبه می‌شوند. دانشگاه صنعت آب و برق

23 دنباله تحلیل رگرسیون در مثال 2
اولین نسبت t عبارتست از: دومین نسبت t عبارتست از: دانشگاه صنعت آب و برق

24 دنباله تحلیل رگرسیون در مثال 2
سومین نسبت t عبارتست از: ضریب‌های b1 و b2 با درجه آزادی 16 در سطح 0.05 معنی‌دار هستند ولی b3 در این سطح معنی‌دار نیست. معنی‌دار بودن آماری متغیرهای اضافه شده به معادله رگرسیون فرض کنید که فقط X1 و X2 یعنی اولین و دومین متغیر مستقل و متغیر وابسته، Y مورد نظر قرار گیرد و یک تحلیل رگرسیون برای داده‌ها انجام شود. در این صورت شاخص‌های آماری ضروری به شرح زیر است. دانشگاه صنعت آب و برق

25 دنباله تحلیل رگرسیون در مثال 2
معادله رگرسیون مقدار F و R2y.12 عبارتست از: با توجه به F با درجه آزادی‌های 2 و 17 در سطح 0.05 معنی‌دار است. وقتی هر سه متغیر مستقل در معادله بودند R2 و F به قرار زیر بدست آمدند. اکنون باید به این سوال پاسخ داد: آیا اضافه کردن X3 دقت پیش‌بینی را به طرز معنی‌داری بالا می‌برد؟ برای پاسخ به این سوال باید یک نسبت F دیگر محاسبه شود. دانشگاه صنعت آب و برق

26 دنباله تحلیل رگرسیون در مثال 2
فرمول نسبت F چنین است: نسبت F حاصله معنی‌دار نیست. بنابراین، متغیر X3 پیش‌بینی Y را به طرز معنی‌داری بالا نمی‌برد. برای نشان‌دادن تعمیم‌پذیری آزمون مزبور، که حایز اهمیت است، معادله دارای شکل زیر است. دانشگاه صنعت آب و برق

27 دنباله تحلیل رگرسیون در مثال 2
اکنون اضافه شدن متغیر X2 را بر X1 آزموده می‌شود. نسبت F به شرح زیر است: نسبت F حاصله، با 1 و 17 درجه آزادی، در سطح 0.05 معنی‌دار است. بنابراین، متغیر 2، رگرسیون را به طرز معنی‌داری بالا می‌برد. دانشگاه صنعت آب و برق


Κατέβασμα ppt "رگرسیون چندگانه Multiple Regression"

Παρόμοιες παρουσιάσεις


Διαφημίσεις Google