بررسی اثر یادگیری نوع Q برروی مساله کنترل انبار در زنجیره تامین تصادفی

سال انتشار: 1383
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 965

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ACCSI10_241

تاریخ نمایه سازی: 25 آذر 1390

چکیده مقاله:

از یادگیری تقویتی تاکنون برای حل مساله زیادی که خاصیت مارکوف دارند استفاده شده است اما با کمی تغییر در مشخصههای این نوع یادگیری می توان آن را برای حل مسائلی که خاصیت نیمهمارکوف دارند نیز به کار برد اغلب مسائلی که دردنیای واقعی با آنها سروکار داریم بطور کامل خاصیت مارکوفی ندارند و مسائل مربوط به تولید manufacturing و زنجیره تامین supply chain که امروزه در هوش مصنوعی جایگاه خاصی پیدا کرده اند نیز از نمونه های بارز این دسته می باشند دراین مقاله روشی برای استفاده از یادگیری Q معمولی با استفاده از پاداشهای جزئی و تاخیری برای حل یک مساله کنترل سطح بهینه انبار که دارای خاصیت مارکوفی است و می تواند به عنوان لایه ای از زنجیره تامین مورد استفاده قرار گیرد ارایه و بررسی میشود

نویسندگان

محسن طلایی

آزمایشگاه هوش مصنوعی و رباتیک قطب علمی کنترل و پردازش هوشمند گروه مه

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • L.P. Kaelblirg, M.L. Littman, A.W, Moore, Renforcemet Learming: A Survey. ...
  • M. L. Puterman, Markov [Decision Processes, Wiley Interscience. _ York.LSA. ...
  • [.P. Bertsekas. Dynamic Programming _ Optimal Conrol. Athena Scientific Belmont, ...
  • R. Sutton, D. Pricup, S. Singh, Between NMDPs _ Semi-MDPs: ...
  • Y.C. Wang. Application _ Renforcemet Learming To Multi-Agent Productiton Scheduling, ...
  • نمایش کامل مراجع