تسریع فرایند یادگیری تقویتی با شکل دهی پاداش به کمک تحلیل گراف محیط

مریم مرعشی; علیرضا خلیلیان; محمدابراهیم شیری

تسریع فرایند یادگیری تقویتی با شکل دهی پاداش به کمک تحلیل گراف محیط

محل انتشار: کنگره ملی مهندسی برق، کامپیوتر و فناوری اطلاعات

سال انتشار: 1392

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 1,378

فایل این مقاله در 5 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/210992

شناسه ملی سند علمی:

CECIT01_569

تاریخ نمایه سازی: 14 شهریور 1392

چکیده مقاله:

یادگیری تقویتی به مجموعه روشهایی گفته میشود که درآن عامل هوشمند با استفاده ازتعامل پویا با محیط و دریافت سیگنالهای تقویتی رفتار خود را بهبود می بخشد اما این فرایند اغلب بسیارزمان گیر هزینه بر و گاهی پرخطر است پاداش ساختگی روشی موفق در افزایش سرعت یادگیری عامل دریادگیری تقویتی است گرچه ایده اصلی این پاداش دادن یک بازخورد عددی به غیرازپاداش محیط به عامل یادگیرنده می باشد اما چگونگی محاسبه این پاداش به نحو موثردرمحیطهای بزرگ و واقعی هنوز یک موضوع چالش برانگیز است الگوریتم پیشنهادی دراین مقاله پاداش ساختگی جدیدی به عامل تزریق می کند تا بتواندسرعت یادگیری آن را افزایش دهد این پاداش براساس ساخت گراف محیط شناسایی اهداف میانی براساس معیار مرکزیت میانگی و شناسایی وضعیت های کم اهمیت با تحلیل خودکارگراف محیط تنظیم میشود میزان موفقیت روش پیشنهادی روی محیطهای محک مختلفی چون maze و برج هانوی ازمایش گردیده است نتایج بدست آمده کارایی این روش را نشان میدهد.

کلیدواژه ها:

بازخوردمصنوعی ، پاداش ساختگی ، یادگیری تقویتی ، یادگیری کیو

نویسندگان

مریم مرعشی

دانشگاه صنعتی امیرکبیر

علیرضا خلیلیان

دانشگاه علم و صنعت ایران

محمدابراهیم شیری

دانشگاه صنعتی امیرکبیر

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

S.Sutton & A.G.Barto, Reinforcement Learning : An Introduction, ...
L.P. Kaelbling, et al. Reinforcement Learning :A Survey Journal Of ...
M. J. Mataric. Reward functions for accelerated learning. In Proceedings ...
A.Epshteyn and G.Dejong, Qualitative Reinforcement Learning, _ _ _ Conference ...
Andrew Y.Ng, Shaping and police search in reinforcement ...
_ _ _ Urbana-Ch ampaign, 2004 ...
_ _ _ international conference _ machine learning(ICML) _ Pages ...
B.Marthi, Automatice shaping and Decomposition of Reward function, Proceedings of ...
J.Asmuth And M.L.Littmar And R.Zinkov, Potential-based shaping in model based ...
Marek Grzes, Daniel Kudenko, Learning Shaping Rewards in Model-based Reinforcement ...
L.P. Kaelbling, et al., Reinforcement Learning : A Survey , ...
Watkin, Watkin Proof of Q-learning Convergence, 1992 ...
G. A. Rummery and M. Niranjan, "On-Line Q-Learning Using Connectionis ...
"" international _ _ learning, _ 471, Morgan Kaufmann, CA. ...
C. M. Bishop, Neural networks for pattern recognition. Oxford University ...
A.Laud, and G.Dejong, The influence of reward on the speed ...
_ International _ _ iearming _ 440-447, 2003 ...
Wiewiora, E., Potential-based shaping and Q-value initialization are equivalent. Journal ...
Pieter Abbe.l and Andrew Y.Ng, Exploration and apprenticeship learming in ...
B.Marthi, S.Russell, Automatice shaping and Decomposition of Reward function., In ...
Marek Grze, Daniel Kudenko., Online learning of shaping rewards in ...

نمایش کامل مراجع