ترکیب یادگیری تقویتی و روش خودسازمانده پویا برای کنترل بازوی ربات

عادله, عرب زاده جعفری; علی, دوست محمدی; محمدباقر, منهاج

ترکیب یادگیری تقویتی و روش خودسازمانده پویا برای کنترل بازوی ربات

عنوان مقاله: ترکیب یادگیری تقویتی و روش خودسازمانده پویا برای کنترل بازوی ربات
شناسه ملی مقاله: TIAU01_241
منتشر شده در همایش ملی پژوهش های کاربردی در علوم و مهندسی در سال 1392

مشخصات نویسندگان مقاله:

عادله عرب زاده جعفری - برق کنترل، کارشناسی ارشددانشکده مهندسی برق، دانشگاه صنعتی امیرکبیر
علی دوست محمدی - برق کنترل، استادیاردانشکده مهندسی برق، دانشگاه صنعتی امیرکبیر
محمدباقر منهاج - برق کنترل، استاددانشکده مهندسی برق، دانشگاه صنعتی امیرکبیر

خلاصه مقاله:

یکی از مسائل مهمی که در مورد یادگیری تقویتی مطرح می شود، بسط و توسعه روش به مسائل واقعی با فضای وضعیت پیوسته است. مدل پیشنهادی در این مقاله، فضای وضعیت و عمل روش یادگیری تقویت ی را با استفاده ازنقشه های خودسازمانده پویا ارائه می کند. نشان داده شده است که نقشه های خودسازمانده پویا عملکرد بهتر ی نسبت به نقشه های خودسازمانده استاندارد در حفظ توپولوژی، حذف نورون های مرده، حل مشکلات پیچ خوردگ یو حالت های بی نظمی، توزیع عادلانه نورون ها و کاهش خطا دارند. نقشه ها ی خودسازمانده پویا، تعمیم فضا ی مسئله را با اضافه و حذف کردن نورون توسط دو نقشه خودسازمانده پویا انجام می دهند. اولین نقشه برا ی ارائه فضای ورودی (وضعیت) و دومین نقشه برای ارائه فضای خروجی (عمل) می باشد. ارتباط این دو نقشه از طریقجدول کیو می باشد. ترکیب یادگیری تقویتی با نقشه خودسازمانده پویا، به دلیل ثابت نبودن تعداد نورون ها ی نقشه به سادگی امکان پذیر نیست و ترکیب این نوع نقشه با الگوریتم هایی که جدول کیو آن در طول زمان ثابتاست، میسر نمی باشد. در این مقاله الگوریتم یادگیری تقویتی جدیدی مبتنی بر نقشه خودسازمانده پویا ارائه شده است که جدول کیو آن در طول زمان بزرگ و کوچک می شود. نشان داده شده است این الگوریتم برای حل مسئله کنترل بازوی ربات از روش نقشه خودسازمان ده استاندارد موفق تر بوده است.

کلمات کلیدی:

یادگیری تقویتی، نقشه خودسازمانده پویا، فضای وضعیت و عمل پیوسته، کنترل بازوی ربات

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/290806/