بکارگیری نرمالسازی اثر طول مسیرصوتی گوینده ها (VTLN) در سیستم بازشناسی گفتار پیوسته فارسی مبتنی بر مدل مخفی مارکوف

باقر باباعلی; حسین صامتی; هادی ویسی

بکارگیری نرمالسازی اثر طول مسیرصوتی گوینده ها (VTLN) در سیستم بازشناسی گفتار پیوسته فارسی مبتنی بر مدل مخفی مارکوف

محل انتشار: سیزدهمین کنفرانس سالانه انجمن کامپیوتر ایران

سال انتشار: 1386

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 1,611

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/41705

شناسه ملی سند علمی:

ACCSI13_111

تاریخ نمایه سازی: 25 آبان 1386

چکیده مقاله:

مقاوم سازی سیستم های بازشناسی در مقابل تغییرات بین گوینده های مختلف جهت حفظ کارایی از جمله مسایل مطرح در مبحث بازشناسی گفتار می باشد. یکی از عوامل اصلی تغییرات بین گوینده های مختلف ناشی از تفاوت موجود در طول مجرای صوتی می باشد . روش نرمال سازی طول مسیر صوتی از روش های رایج برای از بین بردن و یا حداقل کم اثر کردن تغییرات ناشی از طولهای مختلف مسیر صوتی در افراد مختلف است که مورد توجه قرار گرفته است. در این مقاله روش های متداول استخراج و اعمال ضریب پیچش بر روی طیف گفتار جهت نرمال سازی اثر طول مسیر صوتی مورد بررسی و مقایسه قرار گرفته اند. سپس تأثیر استخراج ضریب پیچش با رویکرد مبتنی بر جستجو و اعمال آن بر طیف گفتار به روش پیچش فرکانسی در یک سیستم بازشناسی گفتار پیوسته فارسی مبتنی بر مدل مخفی مارکوف با واژگان بزرگ بررسی شده است. دادگان گفتاری بکار گرفته شده جهت آموزش سیستم، فارس دات تمیز می باشد و دادگان آزمون شامل ۱۴۰ جمله از فارس دات تمیز بهمراه ۴ مجموعه نویزی است. بر مبنای نتایج بدست آمده از انجام آزمایشات بکارگیری نرمال سازی اثر طول مسیر صوتی بر روی دادگان آزمون تمیز ۲% بهبود دقت و بر رخی از مجموعه ها ی نویزی تا ۷% بهبود دقت را بهمراه داشته است. همچنین مشاهده شد که هرچه مقدار ضریب پیچش از مقدار پیش فرض ۱ فاصله بیشتری داشته باشد، بکارگیری نرمال سازی اثر طول مسیرصوتی بهبود بیشتری را به دنبال خواهد داشت چون مقدار پیچش ۱ معادل عدم اعمال پیچش است.

کلیدواژه ها:

بازشاسی گفتار پیوسته ، نرمال سازی اثر طول مسیر صوتی گوینده ، تغییرات گوینده

نویسندگان

باقر باباعلی

مربی دانشگاه آزاد اسلامی واحد دشتسنان

حسین صامتی

استادیار دانشکده کامپیوتر، دانشگاه صنعتی شریف

هادی ویسی

دانشجوی دکتری دانشکده کامپیوتر، دانشگاه صنعتی شریف

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

_ M. Pitz, S. Molau, R. Schl uter, H. Ney, ...
P. Zhan and A. Waibel. Vocal Tract Length Normalization for ...
P. Zhan, M. Westphal, M. Finke, _ Waibel, Speaker Normalization ...
D. Pye and P. C. Woodland. Experiments in speaker normalization ...
L. Welling, R. H aeb-Umbach, X. Aubert, N. Haberland, A ...
Vocal Track Normalization And Speaker Adaptation. IEEE, 1998. ...
E. B. Gouvea, Acoustic- Fea ture-Based Frequency Warping for Speaker ...
T. Claes, I. Dologlou, L. ten Bosch and D. Van ...
L. Welling, H. Ney, S. Kanthak, Speaker Adaptive Modeling by ...
B. Babaali, H. Sameti, The Sharif Speaker Independent Large Vocabulary ...
M. Bijankhan et al., FARSDAT - The Speech Database of ...

نمایش کامل مراجع