سیستم شناسایی دیداری- شنیداری گفتار برپایه مدل

سال انتشار: 1387
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,958

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICMVIP05_083

تاریخ نمایه سازی: 29 اردیبهشت 1387

چکیده مقاله:

ا توسعه روزافزون کامپیوتر بر اهمیت نحوه ارتباط بین انسان وماشین افزوده است. از آنجایی که گفتار یکی از اصل یترین ابزارانسان در برقراری ارتباط است، لذا توجهی خاص به آن نیز برای ارتباط با ماشین در تحقیقات مشاهده می شود. از بزرگترین اشکالاتی که در سیستم های ماشینی درک گفتار امروزه وجود دارد، حساسیت بالای آنها به اغتشاش صوتی محیط است.راندمان این سیستم ها در چنین محیطی به شدت کاهش می یابد. انسان خود در درک گفتار تنها از اطلاعات صوتی استفاده نمی کند، بلکه بکارگیری اطلاعات دیگری همچون اطلاعات بصری به او کمک می کند تا فهم بهتری از اصوات دریافتی داشته باشد. بر این اساس و به منظور الگو برداری از رفتار انسان، در این مقاله الگوریتمی مبتنی بر اطلاعات دیداری‐ شنیداری برای بازشناسایی و درک گفتار ارائه می شود. اطلاعات دیداری بکار رفته در اینجا حرکات لب است. به منظور دنبال کردن حرکات لب در این مقاله از مدل ظاهر استفاده شده است. مدل بکار رفته ترکیبی از مدل شکل و مدل سطح خاکستری است که ترکیب دو جزء لب و چشم ها را بکار می گیرد. در روش پیشنهادی ابتدا چشم ها و گوشه های لب شناسایی و از آن برای افزایش سرعت انطباق مدل استفاده می شود. پس از انطباق مدل، پارامترهای مدل به همراه ویژگیهای صوتی به عنوان بردار ویژگی برای بازشناسی گقتار به یک شبکه عصبی احتمالاتی (PNN)داده می شود. آزمایش ها نشان میدهند که نرخ شناسایی در استفاده از فقط اطلاعات دیداری و شنیداری بترتیب ۳۷۷ % و ۷۰ % است. این در حالی است که استفاده ازاطلاعات دیداری‐ شنیداری این نرخ را به ۸۵ % افزایش می دهد.

کلیدواژه ها:

سیستم شناسایی گفتار دیداری- شنیداری ، ضرایب کپسترال ، شبکه عصبی احتمالاتی(PNN) ، مدل ظاهر فعال(AAM)

نویسندگان

شبنم شادرو

گروه ارشد هوش مصنوعی دانشگاه آزاد اسلامی گروه کامپیوتردانشکده مهن

حمیدرضا پوررضا

گروه ارشد هوش مصنوعی دانشگاه آزاد اسلامی گروه کامپیوتردانشکده مهن