تعیین محدوده سنی و زن یا مرد بودن به کمک صدا با استفاده از مدل مخلوط گوسی و شبکه های عصبی

سال انتشار: 1382
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,148

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICEE11_039

تاریخ نمایه سازی: 18 تیر 1391

چکیده مقاله:

با توجه به گسترش استفاده از تلفن و اینترنت برای دسترسی به اطلاعات و خدمات از راه دور، نیاز به تعیین مرد یا زن بودن کاربران برای اِعمال محدودیتهایی در دسترسی به نوع اطلاعات و خدمات احساس می شود . در این مقاله، تعیین مرد یا زن بودن و محدوده سنی گوینده با استفاده از ویژگی های مرتبط با مجرای گفتار و توسط مدل مخلوط گوسی 1 و توسط شبکه عصبی چند لایه پرسپترون 2 صورت گرفته است . در هر دو روش ساختارهای مختلفی در نظر گرفته شدهو کارایی آنها با هم مقایسه گردیده است . از ضرائب کپسترال مبتنی بر آنالیز پیشگوئی خطی و نیز از ضرایب کپسترالمبتنی ب ر معیار مِل و مشتق اول آنها بعنوان روشها یی برای بازنما یی گفتار استفاده شده است . در روش مخلوط گوسی بهترین راندمان برای تشخ یص زن یا مرد بودن گوینده با استفاده از داده های آزمایشی 98/91% برای تشخیص زن و98/41% برای تشخیص مرد بدست آمد . برای تشخیص محدوده سنی نیز راندمان 96/41% بدست آمد . استفاده از مشتق اول بردار های ویژگی در صورت کافی بودن تعداد مخلوط های گوسی منجر به بهتر شدن نتایج میگردد . شبکه عصبی انتخاب شده، شبکه چند لایه پرسپترونی می باشد که در مقایسه ساختارهای مختلف آن، بهترین نتیجه برای شناسایی مرد یا زن بودن با شبکه ای متشکل از یک نورون در لایه خروجی، 24 نورون در لایه ورودی، 24 و 48 نورون در لایه های مخفی بدست آمد . آموزش این شبکه توسط ضرائب MFCC به همراه مشتق اول آن با استفاده از 6 دق یقه داده آموزشی و 6 ثانیه داده آزمایشی منجر به دستیابی به دقت 100 % گردید. نتایج آزمایشات گویای کارائی بهتر ضرائب کپسترال مبتنی بر معیار مل و نیز کارآمدی هر دو روش مخلوط گوسی و شبکه عصبی در مدل کردن جنسیت و محدوده سنی گوینده ها می باشد.

کلیدواژه ها:

تعیین زن یا مرد بودن ، تعیین محدوده سنی ، مدل مخلوط گوسی ، شبکه عصبی چند لایه پرسپترون ، ضرایب کپسترال

نویسندگان

محمدمهدی همایون پور

آزمایشگاه سیستم های هوشمند صوتی و گفتاری دانشکده مهندسی کامپیوتر دا

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • K. Wu, D. G.Childers, "Gender Recognition from Speech part II: ...
  • S. Young, D. Kershaw, J. Odell, D. Ollason, V. Valtchev, ...
  • J. R. Deller, J. G. Proakis, J. H. Hansen, Discrete-Time ...
  • D. Reynolds, A Gaussian Mixture Modeling Approach to Text- Independent ...
  • R. H. Nielsen , Neuro Computing _ Addison-We sley Publishing ...
  • K. Wu, D. G.Childers, "Gender Recognition from Speech part I: ...
  • th ICEE, May 2003, Vol. 1 ...
  • نمایش کامل مراجع