بالانس بین مکاشفه و استفاده از تجربیات در محیط های قطعی و تصادفی در آموزش تقویتی

فاطمه سعادت جو; ولی درهمی; وحید جوهری مجد

بالانس بین مکاشفه و استفاده از تجربیات در محیط های قطعی و تصادفی در آموزش تقویتی

محل انتشار: یازدهمین کنفرانس سالانه انجمن کامپیوتر ایران

سال انتشار: 1384

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 1,152

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/127152

شناسه ملی سند علمی:

ACCSI11_063

تاریخ نمایه سازی: 5 آذر 1390

چکیده مقاله:

تعادل بین مکاشفه و استفاده از تجربیات به دست آمده درانتخاب عمل یکی از موضوعات مهم در آموزش تقویتی است. این مقاله به بررسی کارایی معروفترین سیاست های انتخاب عمل greedy, (greedy,e - softmax و ارائه ایده هایی برای بهبود انتخاب عمل، از لحاظ برقراری تعادل مناسب می پردازد. این ایده ها از پارامترهایی چون نرخ تغییرات مقادیرQ حذف عمل ها با Qی منفی در انتخاب عمل، و تعداد دفعات ملاقات هر حالت در تعیین مقدار ضریب دما برایروشsoftmax بهره می برند. برای مقایسه عملکرد روش ها از شبیه سازی حرکت یک ربات در یک محیط مارپیچ قطعی و نیز یک محیط تصادفی استفاده شده است. کارایی و نحوه عملکرد روش های ارائه شده و روشهای موجود از لحاظ تعداد گام های رسیدن به هدف، سرعت آموزش، دفعات انتخاب راه بهینه و ... با هم مقایسه می گردند. نتایج شبیه سازی حاکی از بهبود کارآیی در صورت بکارگیری راهکارهای ارائه شده در این مقاله می باشد.

کلیدواژه ها:

آموزشQ ، مکاشفه ، استفاده از تجربه ، آموزش تقویتی

نویسندگان

فاطمه سعادت جو

گروه کامپیوترموسسه آموزش عالی جهاد دانشگاهی یزد

ولی درهمی

بخش مهندسی برق- دانشکده فنی دانشگاه تربیت مدرس

وحید جوهری مجد

بخش مهندسی برق- دانشکده فنی دانشگاه تربیت مدرس

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

Sutton, R. S., and Barto, A.G., Reiمforcement _ _ nroductio, ...
Hasegawa, Y., Fukuda, T. and Shimojima, K., Self-scaling reinforcemen learning ...
Kaelbling, L. P., Littman, M. L, and Moore, A. W., ...
Thurn, S. B., Eficent erporatiog ir _ _ Technical Report ...
_ _ _ environment. _ _ Neura/ _ (2001), 1014-1018. ...
Yan, G., and Hickey, T., Reinforcement learning algorithms for robotic ...
Iwata, K., Ito, N., Yarnauchi K., and Ishii, N., Exploration ...
Horiuchi, T.. Fujion, A., Katai, O., and Sawaragi, T., Q-PSP ...
John, G. H., _ best move _ 4optia/ Q-L wib ...
Ross, S. M., Stoc%astic Processes, John Willey, 1996. ...
Watkins, C., and Dayan, P., Q-Learning. Machine _ 8, (1992) ...
Miyazaki, K., Yamamura M., and Kobayashi, S., K- certainty exploration ...

نمایش کامل مراجع