ارایه روشی جدید برای جداسازی خطوط در اسناد تایپی فارسی به کمک پردازش تصویر
محل انتشار: اولین همایش ملی مهندسی کامپیوتر و فناوری اطلاعات
سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 388
فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CEITECH01_041
تاریخ نمایه سازی: 17 آبان 1396
چکیده مقاله:
هدف این مقاله ارایه روش جدید برای جداسازی خطوط با استفاده از الگوهای استخراج شده از ویژگی ها در اسناد تایپیفارسی می باشد. جداسازی خطوط به عنوان اولین و مهمترین مرحله پیش پردازش جهت آنالیز مکانیابی و بازشناسی کلمات دریک سند است. ابتدا با فرض بر اینکه اسناد موجود برای جداسازی خطوط، باینری میباشد با استفاده از پردازش سند موردنظر توسط تابع نوشته شده و بررسی تک تک پیکسل های آن و مقایسه با الگوهای آماری استخراج شده ابتدا و انتهای یک خطمشخص می گردد و در آرایه ای ذخیره می شود. در پایان از سند اولیه با توجه به مکان های بدست آمده برای ابتدا و انتهایخطوط، مرحله جدا سازی انجام می پذیرد. نتایج بدست آمده از بررسی روش بکاربرده شده برای 55 سند تایپی با فونت هایبیان شده و اندازه های مختلف نشان می دهد که جداسازی برای 100 % خطوط در این اسناد، با فونت های رایج Nazanin, BNazanin, Zar, BZar, Mitra, Lotus, Blotus و همچنین فونت های مشابه با موفقیت انجام می پذیرد.
کلیدواژه ها: