یادگیری تقویتی با استفاده از نقشه های خودسازمان ده رشد یابنده

سال انتشار: 1386
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,649

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICEE15_267

تاریخ نمایه سازی: 17 بهمن 1385

چکیده مقاله:

این مقاله ارائه و تعمیم فضای پیوسته وضعیت و عمل را در مساله یادگیری تقویتی بررسی می کند. مدل پیشنهادی فضای وضعیت و عمل روش تقویتی را با استفاده از نقشه های خود سازمان ده رشد یابنده ارائه می کند. نقشه های خود سازمان ده رشد یابنده، تقریب فضای مساله را با حذف و اضافه کردن نورون انجام می دهند. نشان داده شده است که نقشه های رشد یابنده عملکرد بهتری نسبت به نقشه خود سازمان ده استاندارد در حفظ توپولوژی ، کاهش خطای کوانتیزاسیون ، و تقریب توزیع نا ایستا دارند. پیش از این یادگیری تقویتی با استفاده از نقشه های خود سازمان ده استاندارد مورد استفاده قرار گرفته بود، اما علی رغم مزیت نقشه های خود سازمان ده رشد یابنده به نقشه خود سازمان ده استاندارد، ترکیب یادگیری تقویتی با نقشه های خود سازمان ده رشد یابنده به دلیل تعداد متغیر نورون های آن امکانپذیر نبود. در این مقاله الگوریتم یادگیری تقویتی جدیدی مبتنی بر این نوع نقشه ها ارائه شده است که دارای جدول کیو رشد یابنده است که در اننحوه مقدار دهی اولیه، رشد، و بروز رسانی جدول کیومورد بررسی قرار گرفته است. نتایج آزمایشات تجربی که در برکاردی از رباتیک، حاکی ازموفقیت روش ارائه شده است.

کلیدواژه ها:

تعمیم ، فضای وضعیت و عمل پیوسته ، نقشه های خود سازمان ده رشد یابنده ، یادگیری تقویتی

نویسندگان

حسام منتظری

دانشکده کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی امیرکبیر

سجاد مرادی

دانشکده کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی امیرکبیر

رضا صفابخش

دانشکده کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی امیرکبیر

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Sutton, R s and Barto, A, G (1998) Reinforcement Learring. ...
  • Bertsekas, D P and Tsitsiklis, J N., Neural Dyramic Programming ...
  • Smth, A J , Dynamic generalisation of continuous action Spaces ...
  • _ Eagan and etc all, Applying Reinforcement Learning _ Traffic ...
  • B Abdulhai and etc all, Reinforcement Learning for True Adaptive ...
  • Tesauro. G J _ issues in, temporal diff.rence learning Vachire ...
  • P Stone and R s. Sutton, "'Scal ing Reinforcement Learning ...
  • Lin, L J. Reinforcement Learring for Robots using Neural _ ...
  • Sutton, R S Generalization in reinforcement learning: Successful examples using ...
  • Albus, J. A new approach top manipulator control: The cerebellar ...
  • Smith, A _ Applications of the self-organising map to reinforcement ...
  • Sehad, _ and Touzet, C. Self-organising map for reinforcement learning: ...
  • B Fritzke A growing neural gas network learins topologies. In ...
  • B Fritzke, Some Competitive Learning Methods, Systems Biophysics: Institute for ...
  • Kohonen Feature Maps and Growing Cell Structures- a Pertformance Comparison, ...
  • Kohonen, T Self Orgarising Maps s pringer-Verlag, Berlin, 1995, ...
  • B. Fritzke Growing cell structure~ a self-organizing network for unsupervised ...
  • T M Martinetz and K. J. Schulten A "neural-gas" network ...
  • B. Fritzke Growing Self-organizing Networks- Why?, European Symposium on Artificial ...
  • نمایش کامل مراجع