ارایه روشی جدید برای جداسازی خطوط در اسناد تایپی فارسی به کمک پردازش تصویر

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 388

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CEITECH01_041

تاریخ نمایه سازی: 17 آبان 1396

چکیده مقاله:

هدف این مقاله ارایه روش جدید برای جداسازی خطوط با استفاده از الگوهای استخراج شده از ویژگی ها در اسناد تایپیفارسی می باشد. جداسازی خطوط به عنوان اولین و مهمترین مرحله پیش پردازش جهت آنالیز مکانیابی و بازشناسی کلمات دریک سند است. ابتدا با فرض بر اینکه اسناد موجود برای جداسازی خطوط، باینری میباشد با استفاده از پردازش سند موردنظر توسط تابع نوشته شده و بررسی تک تک پیکسل های آن و مقایسه با الگوهای آماری استخراج شده ابتدا و انتهای یک خطمشخص می گردد و در آرایه ای ذخیره می شود. در پایان از سند اولیه با توجه به مکان های بدست آمده برای ابتدا و انتهایخطوط، مرحله جدا سازی انجام می پذیرد. نتایج بدست آمده از بررسی روش بکاربرده شده برای 55 سند تایپی با فونت هایبیان شده و اندازه های مختلف نشان می دهد که جداسازی برای 100 % خطوط در این اسناد، با فونت های رایج Nazanin, BNazanin, Zar, BZar, Mitra, Lotus, Blotus و همچنین فونت های مشابه با موفقیت انجام می پذیرد.

نویسندگان

احسان قمی

دانش آموخته کارشناسی ارشد مهندسی کامپیوتر گرایش نرم افزار دانشگاه آزاد اسلامی واحد چالوس

رضا طاولی

عضو هیات علمی دانشگاه آزاد اسلامی واحد چالوس گروه مهندسی کامپیوتر