يادگيري تقويتي يادگيري تقويتي, يك واژه قرض گرفته شده از مجموعه كلمات مربوط به يادگيري حيوانات، به وسيله مينسكي, مي باشد در مقايسه با يادگيري تحت سرپرستي كه در آن براي هر xكه نمايش دهنده محيط باشد، سيستم يادگيري, مقدار P(x) را تدارك مي بيند, يادگيري تقويتي سخت تراست زيرا بايد با بازخورد (feed Back) خيلي كمتري از محيط كار كند كه به كلاسي از الگوريتم ها و كارهاي آموزشي ويادگيري گفته مي شود, كه درآنها سيستم يادگيري, يك نگاشت رابطه اي A→ P:X ( )را با ماكزيمم كردن يك ارزش عددي(امتياز), از عملكردش در محيط، فرا مي گيرد.
يادگيري تقويتي آني يك x از مجموعه X در يك زمان معين داده شود اين امتياز مشخص مي كند كه a چقدر از P(x) دور است سيستم تلاش مي كند كه يك a از مجموعه A را بيابد محيط بلافاصله يك امتياز عددي از زوج (x, a) باز مي گرداند
اين امتياز سر جمع شده مجموعه يادگيري تقويتي تاخيري محيط, فقط يك امتياز و ارزش عددي مي دهد عمليات يادگيري تقويتي تأخيري, در كنترل بهينگي سيستم هاي پويا و مسائل طرح ريزي (planning) هوش مصنوعي, به كار مي روند يك توالي از (x,a) ها كه در خلال عملكرد سيستم اتفاق مي افتند براي مطالعه مسائل مربوط به يادگيري تقويتي تأخيري, نياز به مطالعه مسائل يادگيري تقويتي فوري داريم
خانه هاي بي رنگ, محدوده ديوارها را نشان مي دهند و جزء وضعيتها نيستند يك مثال: كاوش روبات در دنياي روبات سلول سياه بر روي شبكه توري در شكل, يك وضعيت (State) ناميده ميشود هدف رسيدن به خانه G, از طريق هر وضعيت, در كمترين تعداد گامهاي زماني ممكن است فرض مي كنيم كه X, مجموعه فضاي وضعيتها باشد خانه G وضعيت هدف است. اعمال A ={ N, S, E, W}, چهار حركت ممكن در مسيرهاي هماهنگ را مشخص مي كنند. عمل كاوش, با استفاده از چهار عمل ( Action), انجام مي شود.
فرض كنيد كه روبات در وضعيت x باشد و عمل N انتخاب شود يك مثال: كاوش روبات در دنياي روبات قوانين گذار(Transition Rules)، به شكل زير تعريف مي شوند وضعيت بعدي،يعني y، وضعيت مستقيم شمال xاست، اگر چنين وضعيتي وجود داشته باشد، در غير اينصورت y = x در مسائل كلي تر قوانين گذار مي تواند اتفاقي باشد
در گام زماني t، وقتي كه روبات در وضعيت يك مثال: كاوش روبات در دنياي روبات روبات، در زمان گسسته ( عددي صحيح ) كه از صفر آغاز مي شود، حركت مي كند در نتيجه، روبات، براي هر گام زماني كه در وضعيتي غير از هدف صرف كند، جريمه مي شود يك پاداش فوري را به شكل زير تعريف مي شود
يك مثال: كاوش روبات در دنياي روبات حداكثر نمودن كل پاداش بر زمان، معادل به دست آوردن كمترين زمان كاوش، با شروع از وضعيت كل پاداش به صورت زير نمايش داده مي شود
يك مثال: كاوش روبات در دنياي روبات فرض كنيم V*(x)، بيشترين مقدار قابل دستيابي (مقدار بهينه ) از V(x) باشد مي خواهيم يك سياست پس گرد X → P:A را پيدا كنيم، چنانكه، اگر از هر وضعيت شروعي آغاز كنيم و اعمال را با استفاده ازسياست P انتخاب كنيم، همواره در كمترين تعداد گامهاي زماني به هدف برسيم
مدل يادگيري تقويتي در مدل يادگيري تقويتي استاندارد يك عامل از طريق دريافت ها و اعمال با محيط ارتباط برقرار می نمايد
در هر مرحله، وضعيت فعلي محيط يعنی s، فرموله مي شود عامل، به عنوان خروجي يك عمل a را برميگزيند و به صورت ورودی i ، دراختيار عامل ميگيرد مدل يادگيري تقويتي اين عمل، وضعيت محيط را تغيير ميدهد و ارزش اين تغيير وضعيت، از طريق سيگنال ارزيابي r، به عامل منتقل ميگردد انتخاب اعمال توسط عامل، با استفاده از سياست B، انجام می شود
مدل يادگيري تقويتي. به طور خلاصه مدل شامل اجزاي زير است: يك مجموعه گسسته از حالات ، X. يك مجموعه گسسته از اعمال ، A. يك مجموعه از سيگنالهاي ارزيابي عددی،
يادگيري تقويتي تأخيري مرسوم، ^V را به عنوان تخميني از تابع بهينه* V، نگه مي دارد اگر عمل a، در وضعيت x انجام گيرد و منجر به وضعيت y شود، در اينصورت (x)^V مي تواند به عنوان يك ارزيابي فوري (تخميني)، از زوج (x,a) محسوب شود مقايسه انواع يادگيری تقويتی براي حل يك مسأله يادگيري تقويتي فوري، از اين تابع ارزيابي استفاده مي كنيم، تا بتوانيم يك سياست شبه بهينه، براي يادگيري تقويتي تأخيري به دست آوريم
مسايل يادگيري تقويتي تأخيري، از مسائل يادگيري تقويتي فوري، از نظر حل سخت تر هستند. فرض كنيد در مثال 1، توالي اعمال، مطابق با سياستي انتخاب شود كه روبات را به مقصد برساند مقايسه انواع يادگيری تقويتی براي بهتر كردن سياست، با استفاده از تجربه، ما نياز داريم كه ميزان برازندگي هر عمل انجام شده را ارزيابي كنيم كل پاداش بدست آمده، يك اثر كلي و سر جمع شده از همه اعمال انجام شده را به ما مي دهد بايد طرحي يافت كه بر اساس آن ارزش سر جمع شده را، به طور منطقي، به هر يك از اعمال انجام شده، تقسيم كنيم تخصيص اعتبار زماني Temporal Credit Assignment
برنامه ريزي پويا، يك ابزار شناخته شده، براي حل مسائلي از قبيل مثال 1 است برنامه ريزي پويا، يك روش OffLine است كه نياز به دسترسي به تمامي محيط دارد برنامه ريزي پويا مشاهده می کنيم كه روبات، هيچ دانشي راجع به محيط ندارد تنها راه ممكن برای درست عمل کردن روبات، فراگيري به وسيله تجربه OnLineاز انجام اعمال مختلف و در نتيجه، ملاقات وضعيت هاي فراوان است دريادگيري تقويتي تاخيري نياز به روش متفاوتي داريم
1-سيستم يادگيري را مقداردهي اوليه كن 2-اعمال زير را تكرار كن 2-1 – اگر در وضعيت x قرار داري عمل a را مطابق با يك سياست اكتشاف انتخاب وبه سيستم اعمال كن 2-2 – محيط پاداش r را بر ميگرداند و وضعيت بعدي y را نيز مي دهد 2-3 – از تجربه (x,a,r,y) براي به هنگام كردن سيستم يادگيري استفاده كن 2-4- قرار بده: x := y الگوريتم هاي يادگيري تأخيري
حتي زمانيكه مدل محيط در دست باشد، غالباً بهتر است كه از روشهاي Offline، از قبيل برنامه ريزي پويا اجتناب شود و به جاي آن، از يك الگوريتم يادگيري تقويتي تأخيري استفاده شود. اين امر به اين خاطر است كه، در مسائل بسياري، فضاي وضعيتها بسيار بزرگ است؛ در حاليكه برنامه ريزي پويا، با تمامي فضاي وضعيت كار مي كند، يك الگوريتم يادگيري تقويتي تأخيري، فقط بر روي قسمتي از فضاي وضعيتها عمل مي كند كه بيشترين ارتباط را با عملكرد سيستم دارد. الگوريتم هاي يادگيري تأخيري
در بيشتر كاربردها ارائه توابعي همچون V* و امكان ندارد. يك جايگزين مناسب استفاده از توابع تقريب زننده پارامتري(parametric function approximator)، مانند شبكه هاي اتصالي(Connectionist Network) است. چنين تقريب زننده هايي، بايد به طور مناسب، براي استفاده در الگوريتم يادگيري تقويتي تأخيري، انتخاب شوند. براي روشن كردن موضوع، اجازه دهيدكه V*رادر نظربگيريم و به عنوان نمونه يك تقريب زننده تابع V^ (.;w) : X → Rبراي آن در نظر بگيريم. در اينجا R، نشان دهنده مقاديرحقيقي و w، مشخص كننده برداري از پارامترهاست كه بايد چنان يادگيري را انجام دهند كه V^ به خوبي V* را تخمين بزند. الگوريتم هاي يادگيري تأخيري
معمولاً درالگوريتم يادگيري تقويتي تأخيري، سيستم يادگيري، از تجربه براي بالا آمدن با يك جهتη استفاده مي كند، كه در آن V^(x;w) بايد براي بهتر شدن عملكرد، تغيير كند. براي يك ß مفروض، تقريب زننده تابع بايد w را با يك مقدار جديد wnew جايگزين كند، چنانكه V^ (x ; wnew ) = V^ (x ; w ) + ßη (1) براي مثال، در پرسپترون چند لايه w مجموعه وزنها را در شبكه مشخص مي كند و براي به روز كردن آنها از انتشار به عقب (BackPropagation )استفاده مي شود. از اين پس ما عمل به روز رساني در فرمول (1) را به صورت V^ (x ; w ) = V^ (x ; w ) + ßη (2) نشان مي دهيم و با عنوان قانون يادگيري، به آن ارجاع مي دهيم. الگوريتم هاي يادگيري تأخيري
معمولاً درالگوريتم يادگيري تقويتي تأخيري، سيستم يادگيري، از تجربه براي بالا آمدن با يك جهتη استفاده مي كند، كه در آن V^(x;w) بايد براي بهتر شدن عملكرد، تغيير كند. براي يك ß مفروض، تقريب زننده تابع بايد w را با يك مقدار جديد wnew جايگزين كند، چنانكه V^ (x ; wnew ) = V^ (x ; w ) + ßη (1) براي مثال، در پرسپترون چند لايه w مجموعه وزنها را در شبكه مشخص مي كند و براي به روز كردن آنها از انتشار به عقب (BackPropagation )استفاده مي شود. از اين پس ما عمل به روز رساني در فرمول (1) را به صورت V^ (x ; w ) = V^ (x ; w ) + ßη (2) نشان مي دهيم و با عنوان قانون يادگيري، به آن ارجاع مي دهيم. الگوريتم هاي يادگيري تاخيري
يادگيري تقويتي فوري، به يادگيري يك نگاشت رابطه اي : X → A گفته مي شود، كه توسط يك ارزيابي كننده امتياز داده مي شود. براي يادگيري، سيستم يادگيرنده، در يك حلقه بسته، با محيط در تراكنش قرار مي گيرد. در هر گام زماني، محيط يك x X را انتخاب مي كند و سيستم يادگيري، از تابع تقريب زننده ^(.;w) ، براي انتخاب يك عمل استفاده مي كند ؛ يعني a = ^ (x;w). بر اساس a و x محيط يك ارزيابي يا امتياز r (x,a) R باز مي گرداند. به صورت ايده آل سيستم فراگيرنده بايد wطوري را تنظيم نمايد كه به ازاي هر x بزرگترين مقدار ممكن r فراهم شود : به عبارت ديگر، براي حل مسأله بهينه سازي سراسري پارامتري، از ^ استفاده مي كنيم. الگوريتم هاي يادگيري فوري
يادگيري با نظارت, يك نمونه مرسوم, براي نگاشت هاي رابطه اي يادگير است. در يادگيري با نظارت, براي هر xنشان داده شده ، ناظر,سيستم يادگيري را با مقدار (x) فراهم كند.
يادگيري تقويتي فوري و يادگيري با نظارت در دو مسير مهم زير متفاوتند. 1 – در يادگيري با نظارت, وقتي يك x نشان داده مي شود و ناظر عمل a = (x) را تدارك مي بيند, سيستم يادگيري ، اطلاعات هدايت شده را سازمان مي دهد، =a- ^(x;w), و از قانون يادگيري استفاده مي كند : ^(x;w) = ^(x;w) + αη جائيكه, يك اندازه گام (مثبت ) باشد. چنين اطلاعات هدايت شده اي براي يادگيري تقويتي فوري در دسترس نمي باشد و در نتيجه, بايد استراتژي هاي خاصي را براي به دست آوردن چنين اطلاعاتي, به كار برد. الگوريتم هاي يادگيري فوري
2 – در يادگيري تحت سرپرستي, سيستم يادگير, مي تواند به سادگي چك كند كه آيا = 0 برقرار است يا نه و براساس آن, تصميم بگيرد كه آيا مقدار نگاشت درست ، به وسيله ^ در xتشكيل شده است يا خير. اما در يادگيري تقويتي فوري, چنين نتيجه گيري، بدون كاوش و اكتشاف مقادير r (x,a), به ازاي تمام اعمال a, نمي تواند انجام گيرد. الگوريتم هاي يادگيري فوري
بنابراين, يادگيري تقويتي فوري و مسائل آن, براي حل كردن, سخت تر از مسائل يادگيري با نظارت هستند. الگوريتم هاي يادگيري فوري
فرض مي كنيم كه Rm نشان دهنده فضاي حقيقي m بعدي باشد. تقريب زننده ^, معمولاً به صورت تركيبي از دو تابع سازماندهي مي شود : يك تابع تقريب زننده g, به صورت g(.;w):X→Rm و يك تابع ثابت M, به فرم M:Rm →A. ايده اين سازماندهي به صورت زير است: براي هر x داده شده Z = g (x;w) Rm, يك بردار از مقاديرمختلف aI را مي دهد. فرض كنيم نشان دهنده K امين عضو Z باشد. بردار مستحق Z داده شده, و a = M (z) به وسيله انتخاب كننده بيشترين ، تشكيل شده است. الگوريتم هاي يادگيري فوري
اكنون, اجازه دهيد به موضوع يادگيري بياييم. ( مثلاً انتخاب يك w ) در يك مرحله اجازه دهيد x, ورودي و z, بردار برازنده بازگردانده شده به وسيله g, باشد و ak عملي باشد كه بزرگترين بردار مناسب را دارد. محيط امتياز r(x,ak) را باز مي گرداند. براي يادگيري ما نياز به ارزيابي ميزان خوبي ( و بنابراين ميزان برازندگي و خوبي ak ) داريم. مسلماً ما نمي توانيم اين كار را با استفاده از اطلاعات موجود انجام دهيم. ما نياز به يك تقريب زننده -با نامr^(x;w) – داريم,كه يك تخمين از r* (k) مهيا مي كند. تفاضل r(x,ak) – r^(x,ν), يك اندازه گيري, از ميزان خوبي ak است. پس يك قانون يادگيري ساده به صورت زير به دست مي آيد: الگوريتم هاي يادگيري فوري
يادگيري r^ نيازبه اين داردكه تمامي اعضاي A, به وسيله محيط درهر وضعيتx ارزيابي شوند. مسلماً انتخابگر بيشترين (4), براي چنين اكتشافي مناسب نيست.براي نمونه, اگردر برخي گامهاي يادگيري, براي برخيx ها, تابع g بزرگترين مقدارمناسب رابه عمل اشتباهي, مثلاً ak, تخصيص دهد,r^,يك مقدار اشتباه,يعني مقداركمتراز r (x, ak) را مشخص مي كند. در اينصورت هيچ عملي, به غير از ak توسط سيستم يادگيري, دروضعيتx داده شده, ساخته نمي شود. بنابراين (4 ), را با يك انتخابگر عمل اتفاقي كنترل شده, جايگزين مي كنيم كه, زمانيكه يادگيري شروع شده و روشهاي (4), به عنوان يادگيري كامل شده باشند, اعمال را به صورت تصادفي مي سازد.يك انتخابگر اتفاقي مرسوم, بر اساس توزيع بولتزمن, ارائه شده است. الگوريتم هاي يادگيري فوري
يادگيري تقويتي تأخيري, بر روي حل مسائل كنترل بهينه اتفاقي, متمركز مي شود. در اين بخش, اساس چنين مسائلي را بررسي مي كنيم و راه حل هاي يادگيري تقويتي تأخيري را نشان مي دهيم. از آنجا كه موارد و روشهاي حل يادگيري تقويتي تأخيري مي تواند به سادگي براي مسائل گسسته توضيح داده شود، از اين رو، به طور عمده, مسائلي كه در آنها وضعيتها و فضاهاي كنترل, مجموعه هاي متناهي هستند ، مورد بررسي قرار مي گيرند و اشاره مختصري نيز به فضاي وضعيت و فضاي عمل پيوسته مي شود. يادگيري تقويتي تأخيري
يك سيستم پوياي اتفاقي گسسته زماني را با يك مجموعه متناهي مانند X از وضعيتهايش, در نظر مي گيريم. فرض مي كنيم كه سيستم, عمل خود را در زمان t = 0 شروع مي كند. در زمان t,عامل, وضعيت را ملاحظه مي كند و عمل را انتخاب ( و اجرا ) مي نمايد, كه عمل, از مجموعه متناهي,كه شامل تمام اعمال ممكن در وضعيت است ، انتخاب مي گردد. ( در اينجا توضيح اين مسأله ضروري است كه اگر وضعيت محيط, به طور كامل, قابل ملاحظه براي عامل نباشد, در اينصورت, بايد تابعي را به كار بريم كه از وضعيت هاي قابل ملاحظه توسط عامل, استفاده كند و اطلاعات قبلي را نيز به ياد آورد و فراخواني نمايد. ) فرض مي كنيم كه سيستم داراي خاصيت ماركوف باشد يعني : يادگيري تقويتي تأخيري
سياست نيز, همانگونه كه مي دانيم, روشي است كه عامل, يك عمل را بر اساس آن بر مي گزيند. هدف عمل تصميم گيري, يافتن يك سياست بهينه, مطابق با يك حالت شناخته و تعريف شده, است. در حالت كلي, عملي كه از طريق سياست عامل, انتخاب مي شود, مي تواند به كل گذشته سيستم وابسته باشد. در اينجا توجه خود را محدود به مواردي مي كنيم كه در آنها, انتخاب يك عمل, فقط به وضعيت جاري سيستم وابسته است. يك سياست اتفاقي براي هر x X, يك توزيع احتمال بر روي مجموعه اعمال ممكن در وضعيت x تعريف مي كند ؛ به اين ترتيب كه مقادير Prob{ (x) = a} را به ازاي هر a A(x) نسبت مي دهد. يك سياست قطعي براي هر x X يك عمل (x) A(x) را تعريف مي كند. يادگيري تقويتي تأخيري
به خاطر حفظ سادگي نوشتاري تنها به توضيح سياست هاي قطعي مي پردازيم. همه ايده ها, به سادگي قابل گسترش و تعميم به سياستهاي اتفاقي ، با استفاده از نوشتار دقيق و مناسب هستند. اگر در وضعيت x,عامل, عمل a را انجام دهد ، يك پرداخت يا پاداش فوري دريافت مي كند كه آنرا با r(x,a) نمايش مي دهيم. براي سياست داده شده ، تابع ارزيابي V (x):X → R را به اين صورت تعريف مي كنيم : يادگيري تقويتي تأخيري