بهبود بازشناسی متن فارسی با استفاده از اطلاعات در سطح کلمات
سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 768
فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
IPRIA03_058
تاریخ نمایه سازی: 13 شهریور 1396
چکیده مقاله:
در این مقاله روشی برای بهبود بازشناسی تصاویر متون چاپی فارسی با استفاده از اطلاعات آماری زبان در سطح کلمات ارایه شده است. در این روش ابتدا تصویر براساس روش مبتنی بر شکل کلی زیرکلمات بازشناسی می شود و برای هر زیرکلمه، زیرکلمات محتمل دیگر ازخروجی سیستم OCR دریافت می گردند، سپس تصحیح خطا با استفاده از اطلاعات مدل زبانی بایگرم در سطح کلمه انجام می گردد. در این روشبرای به دست آوردن کلمات محتمل از مدل مخفی مارکوف استفاده شده است. برای آزمایش روش های پیشنهادی، 19 سند با چهار فونتB Lotus, B Mitra, B Nazanin و B Yagut با اندازه های 14، 16، 18، 20 فراهم گردید. بازشناسی در سطح زیر کلمه با دقت حدود 88 درصد و اصلاح خطا در سطح کلمات دقت را به حدود 92 درصد افزایش داده است.
کلیدواژه ها:
نویسندگان
بی تا نامور
دانشجو مقطع کارشناسی ارشد دانشگاه الزهرا (س)
رضا عزمی
دانشیارگروه مهندسی کامپیوتر دانشگاه الزهرا (س)