تسریع فرایند یادگیری تقویتی با شکل دهی پاداش به کمک تحلیل گراف محیط
محل انتشار: کنگره ملی مهندسی برق، کامپیوتر و فناوری اطلاعات
سال انتشار: 1392
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,214
فایل این مقاله در 5 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CECIT01_569
تاریخ نمایه سازی: 14 شهریور 1392
چکیده مقاله:
یادگیری تقویتی به مجموعه روشهایی گفته میشود که درآن عامل هوشمند با استفاده ازتعامل پویا با محیط و دریافت سیگنالهای تقویتی رفتار خود را بهبود می بخشد اما این فرایند اغلب بسیارزمان گیر هزینه بر و گاهی پرخطر است پاداش ساختگی روشی موفق در افزایش سرعت یادگیری عامل دریادگیری تقویتی است گرچه ایده اصلی این پاداش دادن یک بازخورد عددی به غیرازپاداش محیط به عامل یادگیرنده می باشد اما چگونگی محاسبه این پاداش به نحو موثردرمحیطهای بزرگ و واقعی هنوز یک موضوع چالش برانگیز است الگوریتم پیشنهادی دراین مقاله پاداش ساختگی جدیدی به عامل تزریق می کند تا بتواندسرعت یادگیری آن را افزایش دهد این پاداش براساس ساخت گراف محیط شناسایی اهداف میانی براساس معیار مرکزیت میانگی و شناسایی وضعیت های کم اهمیت با تحلیل خودکارگراف محیط تنظیم میشود میزان موفقیت روش پیشنهادی روی محیطهای محک مختلفی چون maze و برج هانوی ازمایش گردیده است نتایج بدست آمده کارایی این روش را نشان میدهد.
کلیدواژه ها:
نویسندگان
مریم مرعشی
دانشگاه صنعتی امیرکبیر
علیرضا خلیلیان
دانشگاه علم و صنعت ایران
محمدابراهیم شیری
دانشگاه صنعتی امیرکبیر
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :