بررسی روش های تطبیق به گوینده مبتنی بر فضای ویژه در سیستم های بازشناسی گفتار فارسی

سال انتشار: 1389
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 608

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICBME17_139

تاریخ نمایه سازی: 9 تیر 1392

چکیده مقاله:

از میان الگوریتم های تطبیق به گوینده، تطبیق صدای ویژه (EV) و تطبیق ILIR بر پایه فضای ویژه (EMLLR) به منظور تطبیق به گوینده سریع (با داده تطبیقی کم) مورد استفاده قرار گرفته اند. در این دوالگوریتم، مدل تطبیق یافته به گوینده جدید محدود به تعریف شدن به صورت جمع وزندار بردارهای پایه ای که بر یکدیگر عمودند می شود، به این ترتیب تعداد پارامترهایی که لازم است از داده تطبیقی تخمین زده شوند کاهش می یابد. در این حالت، دست یابی به مدل های دقیق تر با استفاده از داده تطبیقی بیشتر سخت می شود که می توان با استفاده از دسته بندی بهینه پارامترهای مدل این مشکل را برطرف ساخت. نتایج بررسظی های انجام گرفته در این مطالعه روی به کارگیری دو روش EV و EMLLR با استفاده از دادگان فارس دات نشان می دهد که با داشتن داده تطبیقی کوتاه (در حد 5 الی 10 ثانیه)، در حالت سرپرستی شده، هر یک به ترتیب 5/9% و 5/3% و در حالت بدون سرپرستی، 4/6% و 4% بازشناسی واج را بهبود می بخشند در حالی که روش های تطبیق به گوینده متداول نظیر MLLR نمی توانند با داده تطبیقی ک وتاه به درستی عمل کنند. همچنین نشان داده شده است که با استفاده از خوشه بندی فضای ویژه، عملکرد تطبیق EV با داده تطبیقی زیاد در دو حالت سرپرستی شده و بدون سرپرستی بهبود می یابد.

کلیدواژه ها:

آنالیز مؤلفه های اساسی ، تطبیق به گوینده ، صدای ویژه ، فضای ویژه

نویسندگان

زهره انصاری

دانشگاه صنعتی امیرکبیر (پلی تکنیک تهران)، دانشکده مهندسی پزشکی، آزما

فرشاد الماس گنج

دانشگاه صنعتی امیرکبیر (پلی تکنیک تهران)، دانشکده مهندسی پزشکی، آزما

یاسر شکفته

دانشگاه صنعتی امیرکبیر (پلی تکنیک تهران)، دانشکده مهندسی پزشکی، آزما

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • کلی40 39x درجه آزادی در اختیار دارد. همان‌طور که در ...
  • A. Xuedog Hung and B. Hon Acero, Spoken Language Processing, ...
  • _ _ _ study on speaker pp. 806-814, 1991. ...
  • A. C.J. Leggetter and B. P.C. Woodland "Maximum likelihood ...
  • A. R. Kuhn and B. J.C. Junqua, "Rapid speaker adaptation ...
  • _ _ adaptation using eigenspace-b ased maximum likelihood linear regression, ...
  • _ _ _ _ _ eigenspace for improved speaker adaptation" ...
  • I. T. Jolliffe, Principual Component Analysis. Sprin ger-Verlag, 1986. ...
  • A. N.J.-C. Wang and B. S.S.-M. Lee, "Rapid speaker adaptation ...
  • Roger Hsiao Wend Huu, "Kernel eigenspace based MLLR adaptation" Thesis ...
  • نمایش کامل مراجع