بازشناسی متن چاپی فارسی بر مبنای جداسازی هوشمند
محل انتشار: سومین کنفرانس بین المللی فناوری اطلاعات و دانش
سال انتشار: 1386
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 2,918
فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ICIKT03_037
تاریخ نمایه سازی: 22 فروردین 1387
چکیده مقاله:
یک روش سریع و دقیق برای بازشناسی متن چاپی فارسی با درجۀ تفکیک 300 نقطه بر اینچ معرفی می شود. این روش مبتنی بر جداسازی زیرکلمات به حروف و زیر حروف سازنده آنها بوده و فرایند بازشناسی در چندین مرحله، با استفاده از طبقه بندهای شبکۀ عصبی تقویت شده انجام می گیرد. جداسازی زیرکلمات، همواره یکی از مشکل ترین بخشهای بازشناسی متون فارسی و عربی بوده است. کمترین اشتباه در فرایند جداسازی ، موجب گسترش خطا در فرایند کلی بازشناسی می شود. در این مقاله علاوه بر ارائۀ روش ساده و سریع برای جداسازی، با استفاده از نتایج مرحلۀ بازشناسی، خطاهای مرحلۀ جداسازی تصحیح می شود. به عبارتی، سیستم دارای یک حلقۀ بازخورد است که باعث افزایش قابلیت اعتماد آن شده است. داده های هدف در این تحقیق، متون فارسی با قلمهای لوتوس، نازنین و میترا بوده است. البته الگوریتم به گونه ایست که برای سایر قلمها قابل توسعه است. این روش روی 8 صفحه متن فارسی با درجۀ تفکیک 300 نقطه بر اینچ آزمایش شده و دقت بازشناسی 99 % حاصل شده است.
کلیدواژه ها:
نویسندگان
حسین خسروی
بخش مهندسی برق، دانشگاه تربیت مدرس
احسان الله کبیر
واحد تحقیق و توسعه شرکت هدی سیستم
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :