بالانس بین مکاشفه و استفاده از تجربیات در محیط های قطعی و تصادفی در آموزش تقویتی

فاطمه, سعادت جو; ولی, درهمی; وحید, جوهری مجد

بالانس بین مکاشفه و استفاده از تجربیات در محیط های قطعی و تصادفی در آموزش تقویتی

عنوان مقاله: بالانس بین مکاشفه و استفاده از تجربیات در محیط های قطعی و تصادفی در آموزش تقویتی
شناسه ملی مقاله: ACCSI11_063
منتشر شده در یازدهمین کنفرانس سالانه انجمن کامپیوتر ایران در سال 1384

مشخصات نویسندگان مقاله:

فاطمه سعادت جو - گروه کامپیوترموسسه آموزش عالی جهاد دانشگاهی یزد
ولی درهمی - بخش مهندسی برق- دانشکده فنی دانشگاه تربیت مدرس
وحید جوهری مجد - بخش مهندسی برق- دانشکده فنی دانشگاه تربیت مدرس

خلاصه مقاله:

تعادل بین مکاشفه و استفاده از تجربیات به دست آمده درانتخاب عمل یکی از موضوعات مهم در آموزش تقویتی است. این مقاله به بررسی کارایی معروفترین سیاست های انتخاب عمل greedy, (greedy,e - softmax و ارائه ایده هایی برای بهبود انتخاب عمل، از لحاظ برقراری تعادل مناسب می پردازد. این ایده ها از پارامترهایی چون نرخ تغییرات مقادیرQ حذف عمل ها با Qی منفی در انتخاب عمل، و تعداد دفعات ملاقات هر حالت در تعیین مقدار ضریب دما برایروشsoftmax بهره می برند. برای مقایسه عملکرد روش ها از شبیه سازی حرکت یک ربات در یک محیط مارپیچ قطعی و نیز یک محیط تصادفی استفاده شده است. کارایی و نحوه عملکرد روش های ارائه شده و روشهای موجود از لحاظ تعداد گام های رسیدن به هدف، سرعت آموزش، دفعات انتخاب راه بهینه و ... با هم مقایسه می گردند. نتایج شبیه سازی حاکی از بهبود کارآیی در صورت بکارگیری راهکارهای ارائه شده در این مقاله می باشد.

کلمات کلیدی:

آموزشQ،مکاشفه، استفاده از تجربه، آموزش تقویتی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/127152/