بهبود بازشناسی متن فارسی: ارایه یک روش تکمیلی بر پایه حذف نقاط حروف

محمدمحسن طلایی; محسن امامی

بهبود بازشناسی متن فارسی: ارایه یک روش تکمیلی بر پایه حذف نقاط حروف

محل انتشار: سومین کنفرانس بین المللی بازشناسی الگو و تحلیل تصویر ایران

سال انتشار: 1396

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 894

فایل این مقاله در 5 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > پردازش تصویر

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/638494

شناسه ملی سند علمی:

IPRIA03_043

تاریخ نمایه سازی: 13 شهریور 1396

چکیده مقاله:

سیستم های (Optical Character Recognition) OCR به سیستم هایی اطلاق می شود که قادرند تصاویر دیجیتالی از متون چاپی را بهکاراکتر های دیجیتالی تبدیل کنند. OCR به روشهای گوناگونی پیاده سازی شده است که در حال حاضر کارآمدترین آنها برای زبان فارسی،استفاده از شبکه عصبی است. در این روش، حروف موجود در عکس به صورت یک به یک به شبکه عصبی ارسال شده و کاراکتر دیجیتالی نظیر هرحرف تشخیص داده میشود. اما یکی از بزرگترین چالش های پیش روی این دست از الگوریتمها وجود نقاط در بالا و پایین حروف در رسم الخطفارسی است. هدف اصلی در این پژوهش ارایه یک متد تکمیلی در OCR فارسی است که با حذف هوشمندانه نقاط حروف، به بهبود کیفیت جداسازیحروف کمک میکند. این روش با تشکیل نمودار هیستوگرام افقی و محاسبه خط مبنا و با استفاده از ایده اصلی روش برچسب گذاری به همراهتغییرات ایجاد شده، نقاط را حذف می کند. نتایج به دست آمده از پیاده سازی این روش نشان دهنده موفقیت در حذف همه نقاط در فونت هایپرکاربرد فارسی و بهبود حداقل % 17 کیفیت تشخیص نسبت به روش مرجع است.

کلیدواژه ها:

پردازش تصویر ، تشخیص متن ، OCR

نویسندگان

محمدمحسن طلایی

دانشجو، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه پیام نور، تهران، ایران

محسن امامی

مربی، گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه پیام نور، تهران، ایران