بررسی نرخ موفقیت الگوریتم های یادگیری تقویتی PBPI و API دردامنه های رویت پذیرونیمه رویت پذیرمارکوف

الهه, عبدی; میرمحسن, پدرام

بررسی نرخ موفقیت الگوریتم های یادگیری تقویتی PBPI و API دردامنه های رویت پذیرونیمه رویت پذیرمارکوف

عنوان مقاله: بررسی نرخ موفقیت الگوریتم های یادگیری تقویتی PBPI و API دردامنه های رویت پذیرونیمه رویت پذیرمارکوف
شناسه ملی مقاله: RDERI02_031
منتشر شده در دومین همایش ملی فناوریهای نوین در صنایع برق و رباتیک در سال 1393

مشخصات نویسندگان مقاله:

الهه عبدی - مربی دانشکده فنی و حرفه ای سما دانشگاه آزاد اسلامی واحد اسلامشهر اسلامشهر ایران
میرمحسن پدرام - استادیاردانشگاه خوارزمی دانشگاه واحدحصارک کرج حصارک کرج ایران

خلاصه مقاله:

انتخاب کنش خوب موضوع اصلی درهرگام تصمیم گیری برای رسیدن به موفقیت درسیستم های طبیعی و مصنوعی یادگیری تقویتی به شمار می رود به همین دلیل انتخاب کنش خوب درسیستم های نیمه رویت پذیرمارکوف به منظور رسیدن به راه حلهای بهتر ضروری به نظر می رسد دراین مقاله باتوجه به موضوع حداقل سازی تعداد کنشهای لازم درحین اجرا به منظور رسیدن به سیاست موفق که بیانگر نرخ موفقیت می باشد به بررسی نرخ موفقیت الگوریتم های تکرار سیاست تقریبی API و تکرار سیاست مبتنی بررجحان PBPI درمحیطهای رویت پذیر و نیمه رویت پذیرمارکوف پرداخته شدهاست برای ارزیابی نیز ازسه محیط اموزشی معتبر ماشین - کوهستان پاندول معکوس و ماز استفاده شده است نتایج ازمایشگاهی نرخ بالای موفقیت را درالگوریتم PBPI نسبت به API نشان میدهند که دراولی رتبه بند ودردومی کلاسبند به عنوان سیاست یادگیری عمل می کنند همچنین نتایج بدست آمده نشان میدهد که نرخ موفقیت درمحیطهای رویت پذیر بیشتر ازنرخ موفقیت درمحیطهای نیمه رویت پذیر می باشد

کلمات کلیدی:

نرخ موفقیت ، فرایند تصمیم سازی مارکوف ، یادگیری تقویتی ، تکرار سیاست مبتنی بررجحان ، تکرار سیاست تقریبی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/347067/