تحلیل یادگیری تقویتی در فرایندهای مارکوف به صورت سیستمهای دیجیتال

سیدمصطفی کلامی هریس; ناصر پریز; محمدباقر نقیبی سیستانی

تحلیل یادگیری تقویتی در فرایندهای مارکوف به صورت سیستمهای دیجیتال

محل انتشار: دومین کنگره مشترک سیستمهای فازی و هوشمند ایران

سال انتشار: 1387

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 1,751

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/204027

شناسه ملی سند علمی:

FJCFIS02_318

تاریخ نمایه سازی: 26 تیر 1392

چکیده مقاله:

فرایند تصمیمگیری مارکوف یاMDPیکی از مسائلی است که دارای کاربردهای وسیعی در زمینههای مختلف علمی، مهندسی،اقتصادی و مدیریت است. بسیاری از فرایندهای تصمیمگیری دارای خاصیت مارکوف میباشند و به صورت یک مسألهی تصمیمگیری مارکوف قابل بیان هستند. یادگیری تقویتی یکی از مسائلی است که برای حلMDPبه کار میرود، که به نوبهی خود از برنامهریزی پویا یاDPاستفاده میکند. در این مقاله معادلهی بازگشتی مورد استفاده در بحث یادگیری تقویتی وDPبرای حلMDP به صورت یک معادلهی دینامیکی یک سیستم دیجیتال یا گسسته-زمان بازنویسی شده است. به این ترتیب این امکان به وجود آمده است که بتوان با بهرهگیری از روشهای موجود در کنترل دیجیتال، به بررسی خواص معادلات به دست آمده پرداخت و تحلیل مناسبی از رفتار عاملیادگیرنده، تحت سیاستهای مختلف، به عمل آورد. به عنوان مثال، روش مذکور برای تحلیل یک مسألهی جدولی استفاده شده است. نتایج به دست آمده، نشان میدهند که یک سیاست بهینه در پارچوب کنترل دیجیتال، به صورت سیستم مرده نَوِشقابل توصیف است

کلیدواژه ها:

برنامهریزی پویا ، سیستمهای کنترل دیجیتال ، فرایندهای تصمیمگیری مارکوف ، کنترل تصادفی ، یادگیری تقویتی

نویسندگان

سیدمصطفی کلامی هریس

دانشجوی کارشناسی ارشد مهندسی کنترل

ناصر پریز

استادیاردانشگاه فردوسی مشهد

محمدباقر نقیبی سیستانی

استادیار دانشگاه فردوسی مشهد

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

R. E. Bellman, Dynamic Programming, Princeton University Press, Princeton, 1957. ...
Richard S. Sutton and Andrew G. Barto, _ Learing: An ...
S. I. Reynolds, "Reinforcement Learning _ _ Ph.D. Thesis, School ...
Leslie Pack Kaelbling, Michael L. Littm@ _ Andrew , Moore, ...
Tom M. Mitchell, Machine Learning. _ _ ...
Martin L. Puterman, Markov Decision _ Discret Stochastic Dynamic Programming, ...
Qiying Hu and Wuyi Yue, Markov Decision Processes _ Their ...
D. P. Bertsekas, Dynamic Programming and Optimal Control, Athena Scientific, ...
D. P. Bertsekas and J. N. Tsitsiklis, Neural Dynamic Programming, ...
H. _ _ (3" Eaition), Prentice Hall, 1988. ...
K. _ _ Control Systems (2" Edition), Prentice Hall, 1994. ...

نمایش کامل مراجع