مروری بر الگوریتم های شناسایی سیگنال گفتار

سال انتشار: 1397
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 996

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CARSE03_171

تاریخ نمایه سازی: 18 خرداد 1398

چکیده مقاله:

تشخیص گفتار فرآیندی است که در آن شخص بر اساس سیگنال های صوتی خود شناخته می شود. صدای انسانی برای هر فرد متمایز است. تشخیص صدا در شناسایی بیومتریک، زمینه های مربوط به امنیت، دسترسی از راه دور به کامپیوترها و غیره اعمال می شود. شناسایی گفتار به طور معمول به یکی از دو دسته روش آوایی و طیفی انجام می شود. در روش نخست، ویژگی های زمان-کوتاه طیف گفتار به صورت یک بردار چند بعدی استخراج می شود؛ سپس مدل آماری این ویژگی ها برای هر زبان بدست می آید. در روش دوم، گفتار با استفاده از مدل مخفی مارکوف یا هر بازشناس دیگر، به دنباله ای از نشانه ها یا آواها تقسیم می شود؛ سپس به یک مدل زبانی روی دنباله زبانی بدست آمده تعلیم داده می شود. این مقاله به مرور کلی از تکنیک های مختلفی که می تواند در تشخیص صدا مورد استفاده قرار گیرند، پرداخته است، مانند LPC, MFCC و LPCC برای استخراج ویژگی های صدا و GMM, HMM, SVM, VQ برای طبقه بندی ویژگی های صدا که امروزه به صورت چشم گیری مورد استفاده قرار می گیرند. همچنین به منظور انتخاب بهترین روش، مقایسه ای بر اساس ویژگی های هر کدام انجام می شود.

نویسندگان

سیما رحمنی

کارشناسی ارشد، گروه کامپیوتر و برق، واحد قزوین، دانشگاه آزاد اسلامی قزوین، ایران

ستار میرزاکوچکی

دانشیار، گروه کامپیوتر و برق، دانشگاه علم و صنعت ایران، تهران، ایران