بهبود مقاومت کنترل کننده بهینه تطبیقی با بهره گیری از یادگیری تقویتی

مازیار, احمدشعربافی; آیدا, محمدی نژاد رستی

بهبود مقاومت کنترل کننده بهینه تطبیقی با بهره گیری از یادگیری تقویتی

عنوان مقاله: بهبود مقاومت کنترل کننده بهینه تطبیقی با بهره گیری از یادگیری تقویتی
شناسه ملی مقاله: ICEE15_344
منتشر شده در پانزدهیمن کنفرانس مهندسی برق ایران در سال 1386

مشخصات نویسندگان مقاله:

مازیار احمدشعربافی - دانشگاه تهران و دانشگاه صنعتی خواجه نصیرالدین طوسی
آیدا محمدی نژاد رستی - دانشگاه تهران و دانشگاه صنعتی خواجه نصیرالدین طوسی

خلاصه مقاله:

با توجه به مبتنی بودن روش های کنترل بهینه بر برنامه ر یزی پویا (DP) و همچنین استفاده یادگیری تقویتی از این مفهوم، تلفیق این دو روش و استفاده از مزایای یکی در دیکگری امری مورد انتظار است که در ادبیات این دو رشته نیز به وفور یافته می شود. در این زمینه اکثر تحقیقات انجام شده در جهت استفاده از یادگیری به عنوان وسیله ای در جهت افزایش کارایی کنترل کننده های بهینه تظیر کنترل کننده خطی مربعی گوسی (LQG) و رگولاتور خطی مربعی (LQR) و در راستای بر خط شدن (online) شدن آنها و همچنین تخمین گر فیلتر کالمن انجام شده است. به این ترتیب سعی می شود تا یک کنترل کننده بهینه تطبیقی به دست آید. در این مقاله با استفاده یادگیری کیو (Q-learning) در به روز کردن مقادیر بهره فیدبک دو نتیجه قابل توجه حاصل شده است. نخست آنکه تطبیقی شدن کنترل کننده سبب پاسخ به بروز اتفاقات غیر قابل پیش بینی ، نظیر ورود اغتشاشی که از پیش اطلاعی از آن نداریم. می شود . همچنین کنترل کننده در مقابل تغییرات محدود سیستم که سبب ناپایدار در کنترل کننده LQC متداول می شود مقاوم شده است. به عبارت دیگر مشکل اصلی کنترل کننده LQC که مقاوم بودن آن است که تا حدودی حل شده است.

کلمات کلیدی:

فیلتر کالمن ، کنترل کننده های بهینه نظیر LQR , LQG ، یادگیری تقویتی .(Q-learning, sarsa)

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/25412/