تشخیص نواحی صدادار، بی صدا و سکوت سیگنال گفتار با استفاده از روش استخراج ویژگی مبتنی بر خوشه بندی در فضای طیفی- زمانی

سال انتشار: 1397
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 400

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CMTS02_150

تاریخ نمایه سازی: 29 تیر 1398

چکیده مقاله:

یکی از روش های بازنمایی سیگنال گفتار، بازنمایی طیفی- زمانی گفتار با استفاده از مدل شنیداری می باشد. در این مقاله، از روش های مبتنی بر خوشه بندی فضای طیفی- زمانی، برای بخش بندی گفتار استفاده می شود. در این روش، با استفاده از خوشه بندی مدل WK- Means ، بردارهای میانگین و واریانس مراکز خوشه ها به عنوان ویژگی های ثانویه در هر قاب استخراج می شود. با توجه به اینکه بخش های صدادار نسبت به بخش های بی صدا انرژی بیشتری دارد، در مرحله نخست از میانگین انرژی خوشه اول برای بخش بندی سیگنال گفتار استفاده شده است در این روش برای تفکیک نواحی صدادار، بی صدا و سکوت گفتار، از دو آستانه استفاده شده است. مقادیر این آستانه ها به صورت تجربی به دست آمده و برای تمامی جملات استفاده شده است. به منظور افزایش دقت بخش بندی، ویژگی های دیگر همچون، اختلاف انرژی خوشه اول و سوم و مینیمم مقدار تابع همبستگی نرمالیزه شده خوشه ها در طول قاب های متوالی با میانگین انرژی خوشه اول استفاده شد. در این مرحله، سیستم بخش بندی گفتار به دقت کلی 88/34% دست یافت. نتایج بخش بندی گفتار به دقت 66/66 % دست یافته است و خطای سیستم پیشنهادی نسبت به روش های موجود کاهش یافته است.

کلیدواژه ها:

ویژگی های طیفی- زمانی ، مدل شنیداری ، خوشه بندی ، k میانگین وزندار

نویسندگان

فاطمه جهانی بهنمیری

گروه مهندسی کامپیوتر، واحد امیرکلا، موسسه آموزش عالی آریان، بابل، ایران

نفیسه اسفندیان

گروه مهندسی برق، واحد قائمشهر، دانشگاه آزاد اسلامی، قائمشهر، ایران

سودابه حبیبی بائی

گروه مهندسی برق، واحد امیرکلا، موسسه آموزش عالی آریان، بابل، ایران