ترکیب یادگیری تقویتی و روش خودسازمانده پویا برای کنترل بازوی ربات

سال انتشار: 1392
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 963

فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

TIAU01_241

تاریخ نمایه سازی: 14 شهریور 1393

چکیده مقاله:

یکی از مسائل مهمی که در مورد یادگیری تقویتی مطرح می شود، بسط و توسعه روش به مسائل واقعی با فضای وضعیت پیوسته است. مدل پیشنهادی در این مقاله، فضای وضعیت و عمل روش یادگیری تقویت ی را با استفاده ازنقشه های خودسازمانده پویا ارائه می کند. نشان داده شده است که نقشه های خودسازمانده پویا عملکرد بهتر ی نسبت به نقشه های خودسازمانده استاندارد در حفظ توپولوژی، حذف نورون های مرده، حل مشکلات پیچ خوردگ یو حالت های بی نظمی، توزیع عادلانه نورون ها و کاهش خطا دارند. نقشه ها ی خودسازمانده پویا، تعمیم فضا ی مسئله را با اضافه و حذف کردن نورون توسط دو نقشه خودسازمانده پویا انجام می دهند. اولین نقشه برا ی ارائه فضای ورودی (وضعیت) و دومین نقشه برای ارائه فضای خروجی (عمل) می باشد. ارتباط این دو نقشه از طریقجدول کیو می باشد. ترکیب یادگیری تقویتی با نقشه خودسازمانده پویا، به دلیل ثابت نبودن تعداد نورون ها ی نقشه به سادگی امکان پذیر نیست و ترکیب این نوع نقشه با الگوریتم هایی که جدول کیو آن در طول زمان ثابتاست، میسر نمی باشد. در این مقاله الگوریتم یادگیری تقویتی جدیدی مبتنی بر نقشه خودسازمانده پویا ارائه شده است که جدول کیو آن در طول زمان بزرگ و کوچک می شود. نشان داده شده است این الگوریتم برای حل مسئله کنترل بازوی ربات از روش نقشه خودسازمان ده استاندارد موفق تر بوده است.

کلیدواژه ها:

نویسندگان

عادله عرب زاده جعفری

برق کنترل، کارشناسی ارشددانشکده مهندسی برق، دانشگاه صنعتی امیرکبیر

علی دوست محمدی

برق کنترل، استادیاردانشکده مهندسی برق، دانشگاه صنعتی امیرکبیر

محمدباقر منهاج

برق کنترل، استاددانشکده مهندسی برق، دانشگاه صنعتی امیرکبیر

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • محمدباقر منهاج، "مبانی شبکه های عصبی"، کتاب هوش محاسباتی، جلد ...
  • R. S. Sutton, and A. G. Barto, "Reinforcemet Learming:An Introduction", ...
  • Tom M. Mitchell, "Machine Learning" , McGraw-Hill S ien ce/E ...
  • D. P. Bertsekas, and J. N. Tsitsiklis, "Neural Dynamic Programming", ...
  • A. J. Smith, "Dynamic generalization of continuous action spaces in ...
  • A. Albers, S. Schillo, D. Sonnleithner, M. Frietsch, P. Meckl, ...
  • T. Oshiro, K. Watanabe, "Motion Simulation of Robot Arm Using ...
  • J. Peters, S. Vijayakumar and S. Schaal, "Reinforcemet Learning for ...
  • L. J. Lin, "Reinforcemet Learning for Robots using Neural Networks", ...
  • solving with reinforcement learning", Ph. D. Dissertation, Engineering Problemء [9] ...
  • W. D. Smart, L. P _ Kaelbling, "Practical reinforcement learning ...
  • J. C. Santamaria, R. S. Sutton, A . Ram, "Experiments ...
  • A. Lazaric, M. Restelli, A. Bonarini, "Reinforcemet learning in continuous ...
  • Sehad, S and Touzet, C, "S elforganrsing map for Reinforcement ...
  • C. Touzet. "Neural reinforcement learming for behaviour symthesis", to appear ...
  • Wedel, J. and Polani, D, "Critic-based leaming of actions with ...
  • H. Montazeri, S. Moradi, R. Safabakhsh, "Continuous State/Action Reinforcemet Learning: ...
  • Smith. A. J, "Application of the self-organising map to reinforcement ...
  • 8]Kaelbling, L. Littman, M. and Moore, A. "Reinforcemet learning: A ...
  • Christopher J. C. H. Watkins and Peter Dayan, " Q-learning". ...
  • W. D. Smart, "Making Reinforcemet Learning Work on Real Robots", ...
  • T. Kohonen, "Self organising maps", Sp ringer-Verlag, B erlin, _ ...
  • K. Shibata, M. Sugisaka, and K. Ito, "Hand Reaching Movement ...
  • نمایش کامل مراجع