مقاوم سازی بازشناسی گفتار با استفاده از شبکه باور عمیق برای استخراج ویژگی توسعه یافته PNCC

محمد, عسگری; مهران, آقاگل زاده حاجی; سیده زهرا, جلیل زاده

مقاوم سازی بازشناسی گفتار با استفاده از شبکه باور عمیق برای استخراج ویژگی توسعه یافته PNCC

عنوان مقاله: مقاوم سازی بازشناسی گفتار با استفاده از شبکه باور عمیق برای استخراج ویژگی توسعه یافته PNCC
شناسه ملی مقاله: MTEC15_007
منتشر شده در پانزدهمین اجلاس سراسری فناوری رسانه در سال 1397

مشخصات نویسندگان مقاله:

محمد عسگری - دانشکده صدا و سیمای جمهوری اسلامی ایران
مهران آقاگل زاده حاجی - دانشکده صدا و سیمای جمهوری اسلامی ایران
سیده زهرا جلیل زاده - سازمان صدا و سیما

خلاصه مقاله:

هدف این از این مقاله، استفاده از ویژگی نوین PNCC ( ضرایب کپسترال نرمالیزه شده توان) در ترکیب با شبکه های عصبی عمیق جهت مقاوم سازی بازشناسی گفتار است که شبکه های عصبی عمیق به دو منظور پس پردازش روی ویژگی ها و مدل سازی آکوستیکی مورد استفاده قرار گرفته است. در بخش پس پردازش ویژگی ها از شبکه عصبی باور عمیق و نیز در بخش مدل سازی آکوستیکی از شبکه ی عصبی عمیق DNN استفاده شده است. روش مرجع برای مقایسه ی نتایج به دست آمده، استفاده از الگوریتم استخراج ویژگی MFCC ( ضرایب کپسترال مقیاس مل ) و مدل HMM-DNN با استفاده از ابزار Kaldi می باشد. در آزمایش-های انجام شده مشاهده شده است که به عنوان مثال برای نویز خیابان، استفاده از ویژگی PNCC نسبت به ویژگی MFCC به طور میانگین منجر به بهبود دقت بازشناسی واج حدود 5/8 درصد شده است. همچنین استفاده از شبکه ی باور عمیق به طور میانگین منجر به بهبود دقت بازشناسی واج حدود 94/2 درصد شده است و همچنین استفاده از شبکه ی باور عمیق در SNRهای پایین عملکرد بهتری داشته است.

کلمات کلیدی:

مقاوم سازی، بازشناسی گفتار، استخراج ویژگی، شبکه عصبی باور عمیق، ویژگی PNCC

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/822334/