تشخیص حروف متون با استفاده از ویژگیهای الفبای زبان فارسی

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,604

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

KBEI03_083

تاریخ نمایه سازی: 11 مرداد 1396

چکیده مقاله:

نویسه خوانی نوری OCR عبارت است از بازشناسی اتوماتیک حروف موجود در تصاویر اسناد و تبدیل آنها به متون قابل جستجو و ویرایش توسط رایانه. یکی از مراحل مهم در سیستمهای تشخیص حروف، قطعهبندی و جداسازی حروف میباشد زیرا جداسازی نادرست منجر به تشخیص اشتباه حروف خواهد شد. با وجود کاربرد زیاد الفبای فارسی درسایر زبانها مانند عربی ، اردو و ... ، تحقیقات کمتری بر روی این الفبا نسبت به سایر زبانهای لاتین انجام شده است. پس یافتن الگوریتم مناسب برایاین امر از اهمیت بالایی برخوردار است. روشهای قبل، قطعهبندی حروف را با تعیین مرزهای الفبای زبان فارسی انجام میدهند. در این مقاله یک الگوریتم جدید بهبود یافته معرفی میشود که قطعهبندی را در سه مرحله تعیین خط زمینه، جداسازی کلمات و جداسازی کاراکترهای متن انجام می- دهد. سپس با استفاده از ویژگیهای الفبای زبان فارسی، روشهای هوش مصنوعی و آماری می توان قطعههای بدست آمده را با الفبای زبان فارسی تطبیق داد.

نویسندگان

سیده ملیحه خاتمی

دانشکده فنی و مهندسی، دانشگاه دامغاندامغان، ایران

منصوره معادی

دانشکده فنی و مهندسی، دانشگاه دامغاندامغان، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :