بازشناسی ارقام فارسی صفر تا نه با استفاده از تصاویر آکوستیک بر پایه ضرایب مل- کپستروم و شبکه عصبی

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 471

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICIKT08_063

تاریخ نمایه سازی: 5 بهمن 1395

چکیده مقاله:

در این مقاله ابتدا پایگاه داده اعداد صفر تا نه فارسی با استفاده از صدای 50 نفر زن و مرد در محیط ضبط و جمع آوری گردیده است. در روش پیشنهادی ابتدا سیگنال پیش پردازش شده را قاب بندی می کنیم و سپس از پنجره بهبود یافته عبور می دهیم، در گام بعدی وارد بلوک تبدیل فوریه می گردد. حال طیف تبدیل فوریه به بانک فیلتر گوسی داده می شود و بعد از آن طیف توان خروجی فیلتر بانک گوسی از تابع ریشه (Root function) عبور داده شده و سپس با اعمال تبدیل کسینوسی جهت فشرده کردن مولفه ها، ضرایب مل- کپستروم به دست می آید. در مرحله آخر، تصویر آکوستیک به عنوان ماتریس حاوی ویژگی های زمانی و فرکانسی سیگنال گفتار با استفاده از تبدیل معکوس فوریه دوبعدی از ماتریس ضرایب مل- کپستروم تشکیل داده می شود. برای طبقه بندی و آزمایش داده ها، ویژگی های به دست آمده با استفاده از یک الگوریتم بهبود یافته در شبکه عصبی پرسپترون با دولایه پنهان، آموزش داده می شوند و در قسمت پایانی میزان نرخ بازشناسی گزارش می شود. نتایج آزمایش برای سیگنال به نویزهای متفاوت، نشان دهنده ی بهبود نرخ تشخیص سیگنال نویزی توسط روش پیشنهادی است، بطوری که نرخ بازشناسی الگوریتم ارائه شده در حالت بدون نویز 98/85 می باشد.

نویسندگان

مسلم خانه بابائی

گروه الکترونیک، دانشکده مهندسی برق و رباتیک، دانشگاه صنعتی شاهرود، شاهرود، ایران

علی سلیمانی ایوری

دانشیار و عضو هیئت علمی دانشکده مهندسی برق و رباتیک، دانشگاه صنعتی شاهرود، شاهرود، ایران