يادگيري تقويتي يادگيري تقويتي, يك واژه قرض گرفته شده از مجموعه كلمات مربوط به يادگيري حيوانات، به وسيله مينسكي, مي باشد در مقايسه با يادگيري تحت سرپرستي.

Slides:



Advertisements
Παρόμοιες παρουσιάσεις
7.
Advertisements

((پیشگفتار)) *پیش درآمد:
برنامه ریزی خطی پیشرفته (21715) Advanced Linear Programming Lecture 5
ضریب طول موثر ستونها پروژه درس پایداری استاد : دکتر حسین پرستش
به نام خدا سنسورهای سنجش شتاب.
حجم نمونه Sample Size 1.
تحقيق، بررسي و مطالعه كوانتومي مواد جاذب رادار
مباني ماشينهاي الكتريكي جريان مستقيم
روشهای حل معادلات کان - شم
انواع تحقيقات و روش هاي تحقيق
مقدمه.
اقتصاد خرد (1) کارشناسی اقتصاد نام درس: سطح و رشته :
سیگنال ها و سیستم ها درس هفدهم حمیدرضا پوررضا.
ضمیمه III: اثر قیمت و قانون تقاضا.
پديدة گذار فاز پديده‌‌اي است كه با بروز يك ناپيوستگي در ترموديناميك يك دستگاه همراه است. گذار فاز مرتبة اول: مشتق اول پتانسيل گيبس در عبور از مرز.
به نام خدا فصل پنجم نوسان سازها
به نام خدا اندازه گيری حلاليت سه تايی ايزومرهای ساختاری بوتانل در دی اکسيد کربن فوق بحراني ارائه دهنده: معصومه امير آبادی استاد راهنما: دکتر قاضی عسکر.
بنام خدا دانشگاه صنعتي اميرکبير
روش عناصر محدود غیرخطی II Nonlinear Finite Element Procedures II
Normal distribution z.Shjajari.
تئوری الاستیسیته Theory of Elasticity كريم عابدي.
Finite Element Procedures
مدارهای الکتریکی 1 فصل‌4 – روش های تحلیل مدارهای مقاومتی
رشته هاي حسابداري و مديريت سایت دانشجویان رشته حسابداری ایران
مباني نظري مدل رابطه‌اي
آزمون فرض.
به نام پروردگار.
دبیر مربوط :سرکار خانم رجبی
تاليف: امير سامان محسنی
به نام خدا.
تصاویر استریوگرافی کریستالوگرافی/ دانشگاه حکیم سبزواری/دکتر جباره.
به نام خداوند بخشنده مهربان
تجزیه و تحلیل تصمیم گیری
روش‌های اندازه‌گیری میزان تخلخل و سطوح موثر
به نام خدا.
فناوري سلول هاي خورشيدي شفاف Transparent solar cells
دانشگاه صنعتي مالك اشتر
ترازیابی تعریف ترازیابی
به نام خدا.
عناوین فصل مقدمه تجزیه و تحلیل رفتار هزینه
بسم الله الر حمن الرحیم.
اقتصاد مدیریت تعریف.
H.R. POURREZA بینایی ماشین آنالیز بافت حمیدرضا پوررضا.
رشد توابع توابع بازگشتي
مدارهاي الكتريكي مدارهای الکتریکی.
گروه كارشناسي ارشد مديريت فنآوري اطلاعات(واحد الكترونيكي تهران)
سیگنال ها و سیستم ها درس هجدهم حمیدرضا پوررضا.
آزمون فرض‌های آماری.
سیستمهای فازی وکاربرد آن درپزشکی
نفیسه شریفی بازتاب‌سنج پرتو ایکس.
به نام خدا.
هوش مصنوعي فصل سوم حل مسئله با جستجو.
بررسي علل بروز استرنوتومي مجدد به دليل خونريزي پس از CABG
رسوب سختی آلیاژهای آلومینیوم
تئوری الاستیسیته Theory of Elasticity كريم عابدي.
Efficient Of Markets.
متابوليسم و بيوانرژتيك
سیستمهای فازی استاد محترم : جناب آقای دکتر توحید خواه ارائه دهندگان:
يادآوری: سیستم مجموعه ای یک یا چند فازی است که میتواند شامل چندین جزء باشد. سیستم میتواند با محیط انرژی ( کار و حرارت) و ماده مبادله نماید. انواع سیستم:
سیگنال ها و سیستم ها درس دهم حمیدرضا پوررضا.
رگرسیون چندگانه Multiple Regression
آماده سازی نمونه دسته ای از واکنش های فیزیکی شیمیایی است که نهایتا آلاینده شغلی یا محیطی را از بین عوامل مداخله گر موجود در ماتریکس اولیه جدا می سازد.
تبدیل فوریه سیستم های زمان گسسته
سیگنال ها و سیستم ها درس هشتم حمیدرضا پوررضا.
Mechatronics فصل چهارم سیگنال‎های آنالوگ و دیجیتال
e e e e e بررسی فرآیند های الکترودی
سیگنال ها و سیستم ها درس نوزدهم حمیدرضا پوررضا.
طرح تحقیق و نمونه طرح تحقیق
سیگنال ها و سیستم ها درس پنجم حمیدرضا پوررضا.
بسم الله الرحمن الرحيم.
Μεταγράφημα παρουσίασης:

يادگيري تقويتي يادگيري تقويتي, يك واژه قرض گرفته شده از مجموعه كلمات مربوط به يادگيري حيوانات، به وسيله مينسكي, مي باشد در مقايسه با يادگيري تحت سرپرستي كه در آن براي هر xكه نمايش دهنده محيط باشد، سيستم يادگيري, مقدار P(x) را تدارك مي بيند, يادگيري تقويتي سخت تراست زيرا بايد با بازخورد (feed Back) خيلي كمتري از محيط كار كند كه به كلاسي از الگوريتم ها و كارهاي آموزشي ويادگيري گفته مي شود, كه درآنها سيستم يادگيري, يك نگاشت رابطه اي A→ P:X (  )را با ماكزيمم كردن يك ارزش عددي(امتياز), از عملكردش در محيط، فرا مي گيرد.

يادگيري تقويتي آني يك x از مجموعه X در يك زمان معين داده شود اين امتياز مشخص مي كند كه a چقدر از P(x) دور است سيستم تلاش مي كند كه يك a از مجموعه A را بيابد محيط بلافاصله يك امتياز عددي از زوج (x, a) باز مي گرداند

اين امتياز سر جمع شده مجموعه يادگيري تقويتي تاخيري محيط, فقط يك امتياز و ارزش عددي مي دهد عمليات يادگيري تقويتي تأخيري, در كنترل بهينگي سيستم هاي پويا و مسائل طرح ريزي (planning) هوش مصنوعي, به كار مي روند يك توالي از (x,a) ها كه در خلال عملكرد سيستم اتفاق مي افتند براي مطالعه مسائل مربوط به يادگيري تقويتي تأخيري, نياز به مطالعه مسائل يادگيري تقويتي فوري داريم

خانه هاي بي رنگ, محدوده ديوارها را نشان مي دهند و جزء وضعيتها نيستند يك مثال: كاوش روبات در دنياي روبات سلول سياه بر روي شبكه توري در شكل, يك وضعيت (State) ناميده مي‌شود هدف رسيدن به خانه G, از طريق هر وضعيت, در كمترين تعداد گامهاي زماني ممكن است فرض مي كنيم كه X, مجموعه فضاي وضعيتها باشد خانه G وضعيت هدف است. اعمال A ={ N, S, E, W}, چهار حركت ممكن در مسيرهاي هماهنگ را مشخص مي كنند. عمل كاوش, با استفاده از چهار عمل ( Action), انجام مي شود.

فرض كنيد كه روبات در وضعيت x باشد و عمل N انتخاب شود يك مثال: كاوش روبات در دنياي روبات قوانين گذار(Transition Rules)، به شكل زير تعريف مي شوند وضعيت بعدي،يعني y، وضعيت مستقيم شمال xاست، اگر چنين وضعيتي وجود داشته باشد، در غير اينصورت y = x در مسائل كلي تر قوانين گذار مي تواند اتفاقي باشد

در گام زماني t، وقتي كه روبات در وضعيت يك مثال: كاوش روبات در دنياي روبات روبات، در زمان گسسته ( عددي صحيح ) كه از صفر آغاز مي شود، حركت مي كند در نتيجه، روبات، براي هر گام زماني كه در وضعيتي غير از هدف صرف كند، جريمه مي شود يك پاداش فوري را به شكل زير تعريف مي شود

يك مثال: كاوش روبات در دنياي روبات حداكثر نمودن كل پاداش بر زمان، معادل به دست آوردن كمترين زمان كاوش، با شروع از وضعيت كل پاداش به صورت زير نمايش داده مي شود

يك مثال: كاوش روبات در دنياي روبات فرض كنيم V*(x)، بيشترين مقدار قابل دستيابي (مقدار بهينه ) از V(x) باشد مي خواهيم يك سياست پس گرد X → P:A را پيدا كنيم، چنانكه، اگر از هر وضعيت شروعي آغاز كنيم و اعمال را با استفاده ازسياست P انتخاب كنيم، همواره در كمترين تعداد گامهاي زماني به هدف برسيم

مدل يادگيري تقويتي در مدل يادگيري تقويتي استاندارد يك عامل از طريق دريافت ها و اعمال با محيط ارتباط برقرار می نمايد

در هر مرحله، وضعيت فعلي محيط يعنی s، فرموله مي شود عامل، به عنوان خروجي يك عمل a را برمي‌گزيند و به صورت ورودی i ، دراختيار عامل مي‌گيرد مدل يادگيري تقويتي اين عمل، وضعيت محيط را تغيير مي‌دهد و ارزش اين تغيير وضعيت، از طريق سيگنال ارزيابي r، به عامل منتقل مي‌گردد انتخاب اعمال توسط عامل، با استفاده از سياست B، انجام می شود

مدل يادگيري تقويتي. به طور خلاصه مدل شامل اجزاي زير است: يك مجموعه گسسته از حالات ، X. يك مجموعه گسسته از اعمال ، A. يك مجموعه از سيگنالهاي ارزيابي عددی،

يادگيري تقويتي تأخيري مرسوم، ^V را به عنوان تخميني از تابع بهينه* V، نگه مي دارد اگر عمل a، در وضعيت x انجام گيرد و منجر به وضعيت y شود، در اينصورت (x)^V مي تواند به عنوان يك ارزيابي فوري (تخميني)، از زوج (x,a) محسوب شود مقايسه انواع يادگيری تقويتی براي حل يك مسأله يادگيري تقويتي فوري، از اين تابع ارزيابي استفاده مي كنيم، تا بتوانيم يك سياست شبه بهينه، براي يادگيري تقويتي تأخيري به دست آوريم

مسايل يادگيري تقويتي تأخيري، از مسائل يادگيري تقويتي فوري، از نظر حل سخت تر هستند. فرض كنيد در مثال 1، توالي اعمال، مطابق با سياستي انتخاب شود كه روبات را به مقصد برساند مقايسه انواع يادگيری تقويتی براي بهتر كردن سياست، با استفاده از تجربه، ما نياز داريم كه ميزان برازندگي هر عمل انجام شده را ارزيابي كنيم كل پاداش بدست آمده، يك اثر كلي و سر جمع شده از همه اعمال انجام شده را به ما مي دهد بايد طرحي يافت كه بر اساس آن ارزش سر جمع شده را، به طور منطقي، به هر يك از اعمال انجام شده، تقسيم كنيم تخصيص اعتبار زماني Temporal Credit Assignment

برنامه ريزي پويا، يك ابزار شناخته شده، براي حل مسائلي از قبيل مثال 1 است برنامه ريزي پويا، يك روش OffLine است كه نياز به دسترسي به تمامي محيط دارد برنامه ريزي پويا مشاهده می کنيم كه روبات، هيچ دانشي راجع به محيط ندارد تنها راه ممكن برای درست عمل کردن روبات، فراگيري به وسيله تجربه OnLineاز انجام اعمال مختلف و در نتيجه، ملاقات وضعيت هاي فراوان است دريادگيري تقويتي تاخيري نياز به روش متفاوتي داريم

1-سيستم يادگيري را مقداردهي اوليه كن 2-اعمال زير را تكرار كن 2-1 – اگر در وضعيت x قرار داري عمل a را مطابق با يك سياست اكتشاف انتخاب وبه سيستم اعمال كن 2-2 – محيط پاداش r را بر ميگرداند و وضعيت بعدي y را نيز مي دهد 2-3 – از تجربه (x,a,r,y) براي به هنگام كردن سيستم يادگيري استفاده كن 2-4- قرار بده: x := y الگوريتم هاي يادگيري تأخيري

حتي زمانيكه مدل محيط در دست باشد، غالباً بهتر است كه از روشهاي Offline، از قبيل برنامه ريزي پويا اجتناب شود و به جاي آن، از يك الگوريتم يادگيري تقويتي تأخيري استفاده شود. اين امر به اين خاطر است كه، در مسائل بسياري، فضاي وضعيتها بسيار بزرگ است؛ در حاليكه برنامه ريزي پويا، با تمامي فضاي وضعيت كار مي كند، يك الگوريتم يادگيري تقويتي تأخيري، فقط بر روي قسمتي از فضاي وضعيتها عمل مي كند كه بيشترين ارتباط را با عملكرد سيستم دارد. الگوريتم هاي يادگيري تأخيري

در بيشتر كاربردها ارائه توابعي همچون V* و  امكان ندارد. يك جايگزين مناسب استفاده از توابع تقريب زننده پارامتري(parametric function approximator)، مانند شبكه هاي اتصالي(Connectionist Network) است. چنين تقريب زننده هايي، بايد به طور مناسب، براي استفاده در الگوريتم يادگيري تقويتي تأخيري، انتخاب شوند. براي روشن كردن موضوع، اجازه دهيدكه V*رادر نظربگيريم و به عنوان نمونه يك تقريب زننده تابع V^ (.;w) : X → Rبراي آن در نظر بگيريم. در اينجا R، نشان دهنده مقاديرحقيقي و w، مشخص كننده برداري از پارامترهاست كه بايد چنان يادگيري را انجام دهند كه V^ به خوبي V* را تخمين بزند. الگوريتم هاي يادگيري تأخيري

معمولاً درالگوريتم يادگيري تقويتي تأخيري، سيستم يادگيري، از تجربه براي بالا آمدن با يك جهتη استفاده مي كند، كه در آن V^(x;w) بايد براي بهتر شدن عملكرد، تغيير كند. براي يك ß مفروض، تقريب زننده تابع بايد w را با يك مقدار جديد wnew جايگزين كند، چنانكه V^ (x ; wnew ) = V^ (x ; w ) + ßη (1) براي مثال، در پرسپترون چند لايه w مجموعه وزنها را در شبكه مشخص مي كند و براي به روز كردن آنها از انتشار به عقب (BackPropagation )استفاده مي شود. از اين پس ما عمل به روز رساني در فرمول (1) را به صورت V^ (x ; w ) = V^ (x ; w ) + ßη (2) نشان مي دهيم و با عنوان قانون يادگيري، به آن ارجاع مي دهيم. الگوريتم هاي يادگيري تأخيري

معمولاً درالگوريتم يادگيري تقويتي تأخيري، سيستم يادگيري، از تجربه براي بالا آمدن با يك جهتη استفاده مي كند، كه در آن V^(x;w) بايد براي بهتر شدن عملكرد، تغيير كند. براي يك ß مفروض، تقريب زننده تابع بايد w را با يك مقدار جديد wnew جايگزين كند، چنانكه V^ (x ; wnew ) = V^ (x ; w ) + ßη (1) براي مثال، در پرسپترون چند لايه w مجموعه وزنها را در شبكه مشخص مي كند و براي به روز كردن آنها از انتشار به عقب (BackPropagation )استفاده مي شود. از اين پس ما عمل به روز رساني در فرمول (1) را به صورت V^ (x ; w ) = V^ (x ; w ) + ßη (2) نشان مي دهيم و با عنوان قانون يادگيري، به آن ارجاع مي دهيم. الگوريتم هاي يادگيري تاخيري

يادگيري تقويتي فوري، به يادگيري يك نگاشت رابطه اي  : X → A گفته مي شود، كه توسط يك ارزيابي كننده امتياز داده مي شود. براي يادگيري، سيستم يادگيرنده، در يك حلقه بسته، با محيط در تراكنش قرار مي گيرد. در هر گام زماني، محيط يك x  X را انتخاب مي كند و سيستم يادگيري، از تابع تقريب زننده  ^(.;w) ، براي انتخاب يك عمل استفاده مي كند ؛ يعني a =  ^ (x;w). بر اساس a و x محيط يك ارزيابي يا امتياز r (x,a)  R باز مي گرداند. به صورت ايده آل سيستم فراگيرنده بايد wطوري را تنظيم نمايد كه به ازاي هر x بزرگترين مقدار ممكن r فراهم شود : به عبارت ديگر، براي حل مسأله بهينه سازي سراسري پارامتري، از  ^ استفاده مي كنيم. الگوريتم هاي يادگيري فوري

يادگيري با نظارت, يك نمونه مرسوم, براي نگاشت هاي رابطه اي يادگير است. در يادگيري با نظارت, براي هر xنشان داده شده ، ناظر,سيستم يادگيري را با مقدار  (x) فراهم كند.

يادگيري تقويتي فوري و يادگيري با نظارت در دو مسير مهم زير متفاوتند. 1 – در يادگيري با نظارت, وقتي يك x نشان داده مي شود و ناظر عمل a =  (x) را تدارك مي بيند, سيستم يادگيري ، اطلاعات هدايت شده را سازمان مي دهد،  =a-  ^(x;w), و از قانون يادگيري استفاده مي كند :  ^(x;w) =  ^(x;w) + αη جائيكه,  يك اندازه گام (مثبت‌ ) باشد. چنين اطلاعات هدايت شده اي براي يادگيري تقويتي فوري در دسترس نمي باشد و در نتيجه, بايد استراتژي هاي خاصي را براي به دست آوردن چنين اطلاعاتي, به كار برد. الگوريتم هاي يادگيري فوري

2 – در يادگيري تحت سرپرستي, سيستم يادگير, مي تواند به سادگي چك كند كه آيا  = 0 برقرار است يا نه و براساس آن, تصميم بگيرد كه آيا مقدار نگاشت درست ، به وسيله  ^ در xتشكيل شده است يا خير. اما در يادگيري تقويتي فوري, چنين نتيجه گيري، بدون كاوش و اكتشاف مقادير r (x,a), به ازاي تمام اعمال a, نمي تواند انجام گيرد. الگوريتم هاي يادگيري فوري

بنابراين, يادگيري تقويتي فوري و مسائل آن, براي حل كردن, سخت تر از مسائل يادگيري با نظارت هستند. الگوريتم هاي يادگيري فوري

فرض مي كنيم كه Rm نشان دهنده فضاي حقيقي m بعدي باشد. تقريب زننده  ^, معمولاً به صورت تركيبي از دو تابع سازماندهي مي شود : يك تابع تقريب زننده g, به صورت g(.;w):X→Rm و يك تابع ثابت M, به فرم M:Rm →A. ايده اين سازماندهي به صورت زير است: براي هر x داده شده Z = g (x;w)  Rm, يك بردار از مقاديرمختلف aI را مي دهد. فرض كنيم نشان دهنده K امين عضو Z باشد. بردار مستحق Z داده شده, و a = M (z) به وسيله انتخاب كننده بيشترين ، تشكيل شده است. الگوريتم هاي يادگيري فوري

اكنون, اجازه دهيد به موضوع يادگيري بياييم. ( مثلاً انتخاب يك w ) در يك مرحله اجازه دهيد x, ورودي و z, بردار برازنده بازگردانده شده به وسيله g, باشد و ak عملي باشد كه بزرگترين بردار مناسب را دارد. محيط امتياز r(x,ak) را باز مي گرداند. براي يادگيري ما نياز به ارزيابي ميزان خوبي ( و بنابراين ميزان برازندگي و خوبي ak ) داريم. مسلماً ما نمي توانيم اين كار را با استفاده از اطلاعات موجود انجام دهيم. ما نياز به يك تقريب زننده -با نامr^(x;w) – داريم,كه يك تخمين از r* (k) مهيا مي كند. تفاضل r(x,ak) – r^(x,ν), يك اندازه گيري, از ميزان خوبي ak است. پس يك قانون يادگيري ساده به صورت زير به دست مي آيد: الگوريتم هاي يادگيري فوري

يادگيري r^ نيازبه اين داردكه تمامي اعضاي A, به وسيله محيط درهر وضعيتx ارزيابي شوند. مسلماً انتخابگر بيشترين (4), براي چنين اكتشافي مناسب نيست.براي نمونه, اگردر برخي گامهاي يادگيري, براي برخيx ها, تابع g بزرگترين مقدارمناسب رابه عمل اشتباهي, مثلاً ak, تخصيص دهد,r^,يك مقدار اشتباه,يعني مقداركمتراز r (x, ak) را مشخص مي كند. در اينصورت هيچ عملي, به غير از ak توسط سيستم يادگيري, دروضعيتx داده شده, ساخته نمي شود. بنابراين (4 ), را با يك انتخابگر عمل اتفاقي كنترل شده, جايگزين مي كنيم كه, زمانيكه يادگيري شروع شده و روشهاي (4), به عنوان يادگيري كامل شده باشند, اعمال را به صورت تصادفي مي سازد.يك انتخابگر اتفاقي مرسوم, بر اساس توزيع بولتزمن, ارائه شده است. الگوريتم هاي يادگيري فوري

يادگيري تقويتي تأخيري, بر روي حل مسائل كنترل بهينه اتفاقي, متمركز مي شود. در اين بخش, اساس چنين مسائلي را بررسي مي كنيم و راه حل هاي يادگيري تقويتي تأخيري را نشان مي دهيم. از آنجا كه موارد و روشهاي حل يادگيري تقويتي تأخيري مي تواند به سادگي براي مسائل گسسته توضيح داده شود، از اين رو، به طور عمده, مسائلي كه در آنها وضعيتها و فضاهاي كنترل, مجموعه هاي متناهي هستند ، مورد بررسي قرار مي گيرند و اشاره مختصري نيز به فضاي وضعيت و فضاي عمل پيوسته مي شود. يادگيري تقويتي تأخيري

يك سيستم پوياي اتفاقي گسسته زماني را با يك مجموعه متناهي مانند X از وضعيتهايش, در نظر مي گيريم. فرض مي كنيم كه سيستم, عمل خود را در زمان t = 0 شروع مي كند. در زمان t,عامل, وضعيت را ملاحظه مي كند و عمل را انتخاب ( و اجرا ) مي نمايد, كه عمل, از مجموعه متناهي,كه شامل تمام اعمال ممكن در وضعيت است ، انتخاب مي گردد. ( در اينجا توضيح اين مسأله ضروري است كه اگر وضعيت محيط, به طور كامل, قابل ملاحظه براي عامل نباشد, در اينصورت, بايد تابعي را به كار بريم كه از وضعيت هاي قابل ملاحظه توسط عامل, استفاده كند و اطلاعات قبلي را نيز به ياد آورد و فراخواني نمايد. ) فرض مي كنيم كه سيستم داراي خاصيت ماركوف باشد يعني : يادگيري تقويتي تأخيري

سياست نيز, همانگونه كه مي دانيم, روشي است كه عامل, يك عمل را بر اساس آن بر مي گزيند. هدف عمل تصميم گيري, يافتن يك سياست بهينه, مطابق با يك حالت شناخته و تعريف شده, است. در حالت كلي, عملي كه از طريق سياست عامل, انتخاب مي شود, مي تواند به كل گذشته سيستم وابسته باشد. در اينجا توجه خود را محدود به مواردي مي كنيم كه در آنها, انتخاب يك عمل, فقط به وضعيت جاري سيستم وابسته است. يك سياست اتفاقي  براي هر x  X, يك توزيع احتمال بر روي مجموعه اعمال ممكن در وضعيت x تعريف مي كند ؛ به اين ترتيب كه مقادير Prob{  (x) = a} را به ازاي هر a  A(x) نسبت مي دهد. يك سياست قطعي  براي هر x  X يك عمل  (x)  A(x) را تعريف مي كند. يادگيري تقويتي تأخيري

به خاطر حفظ سادگي نوشتاري تنها به توضيح سياست هاي قطعي مي پردازيم. همه ايده ها, به سادگي قابل گسترش و تعميم به سياستهاي اتفاقي ، با استفاده از نوشتار دقيق و مناسب هستند. اگر در وضعيت x,عامل, عمل a را انجام دهد ، يك پرداخت يا پاداش فوري دريافت مي كند كه آنرا با r(x,a) نمايش مي دهيم. براي سياست داده شده  ، تابع ارزيابي V  (x):X → R را به اين صورت تعريف مي كنيم : يادگيري تقويتي تأخيري