روش نوینی بر پایه Fuzzy Actor-Critic و اثبات همگرایی آن

سال انتشار: 1391
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,430

فایل این مقاله در 5 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IIEC09_071

تاریخ نمایه سازی: 26 اسفند 1391

چکیده مقاله:

روشهای برگرفته ازیادگیری ماشین machine learning و بهویژه روشهای مبتنی بریادگیری تقویتی که بصورت گسترده برای داده کاوی و کنترل سیستمهای دینامیکی به کارمیرود اصولا برمبنای رهیافت فضای حالت (state spaceطراحیشده و به همین دلیل غالبا ماهیتی گسسته دارند از انجا که بسیاری ازمسائل واقعی درحوزه مهندسی با محیطهای پیوسته سروکار دارند نیاز به روشهای هوشمندی که بدون نیاز به یک مدل دقیق ریاضی ازسیستم و صرفا از طریق یادگیری بتوانند رفتارسیستم را پیش بینی کرده و عملکرد آن را کنترل نمایند روز بروز بیشتر احساس میشود دراین مقاله روش جدیدی برپایه الگوریتم Fuzzy Actor-Critic برای حل مسایل کنترلی درمحیطهای پیوسته ارایه میگردد روش مزبور با استفاده ازتخمین یک تابع ارزش value function جدید رفتار سیستم را بصورت پیوسته شبیهسازی کرده و سیاست policy) بهینه برای رسیدن به هدف را با کمترین هزینه محاسباتی بدست میدهد.

نویسندگان

مهدی ایمانی

دانشجوی کارشناسی ارشد مهندسی برق

سیده فاطمه قریشی

دانشجوی کارشناسی ارشد مهندسی مکانیک

مسعود شریعت پناهی

دانشیار دانشگاه تهران

محسن ایمانی

دانشجوی کارشناسی ارشد مهندسی برق

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • P. Marbach, O. Mihatsch, and J. N. Tsitsiklis, "Call admission ...
  • R. Sun, E. Merrill, and T. Peterson, _ implicit skill ...
  • T. Tesauro, :Practical issues in temporal differencing learning, " Machine ...
  • J. Zhang and T. Dietterich, _ reinforcement learning approach to ...
  • Watkins, C. . C. H. (1989). Learning from Delayed Rewards. ...
  • Szepesv_ari, C. (1997). The asymptotic convergenc e-rate of Q-learning. In ...
  • Even-Dar, E. and Mansour, Y. (2003). Learning rates for Q- ...
  • Sutton, R. S., McAllester, D. A., Singh, S. P., and ...
  • Sutton, R. S., Maei, H. R., Precup, D., Bhatnagar, S., ...
  • Maei, H., Szepesv_ari, C., Bhatnagar, S., Silver, D., Precup, D., ...
  • Maei, H., Szepesv_ari, C., Bhatnagar, S., and Sutton, R. (2010b). ...
  • Sutton, R. S., McAllester, D., Singh, S., & Mansour, Y. ...
  • Baxter, J., & Bartlett, P. (2001). In_nite-horizon policy- gradient estimation. ...
  • Greensmith, E., Bartlett, P., & Baxter, J. (2004). Variance reduction ...
  • Sutton, R. S. (1988). Learning to predict by the methods ...
  • نمایش کامل مراجع