بهبود بازشناسی متن فارسی: ارایه یک روش تکمیلی بر پایه حذف نقاط حروف

سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 894

فایل این مقاله در 5 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IPRIA03_043

تاریخ نمایه سازی: 13 شهریور 1396

چکیده مقاله:

سیستم های (Optical Character Recognition) OCR به سیستم هایی اطلاق می شود که قادرند تصاویر دیجیتالی از متون چاپی را بهکاراکتر های دیجیتالی تبدیل کنند. OCR به روشهای گوناگونی پیاده سازی شده است که در حال حاضر کارآمدترین آنها برای زبان فارسی،استفاده از شبکه عصبی است. در این روش، حروف موجود در عکس به صورت یک به یک به شبکه عصبی ارسال شده و کاراکتر دیجیتالی نظیر هرحرف تشخیص داده میشود. اما یکی از بزرگترین چالش های پیش روی این دست از الگوریتمها وجود نقاط در بالا و پایین حروف در رسم الخطفارسی است. هدف اصلی در این پژوهش ارایه یک متد تکمیلی در OCR فارسی است که با حذف هوشمندانه نقاط حروف، به بهبود کیفیت جداسازیحروف کمک میکند. این روش با تشکیل نمودار هیستوگرام افقی و محاسبه خط مبنا و با استفاده از ایده اصلی روش برچسب گذاری به همراهتغییرات ایجاد شده، نقاط را حذف می کند. نتایج به دست آمده از پیاده سازی این روش نشان دهنده موفقیت در حذف همه نقاط در فونت هایپرکاربرد فارسی و بهبود حداقل % 17 کیفیت تشخیص نسبت به روش مرجع است.

کلیدواژه ها:

نویسندگان

محمدمحسن طلایی

دانشجو، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه پیام نور، تهران، ایران

محسن امامی

مربی، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه پیام نور، تهران، ایران