مروری بر روش های جستجوی کلمه در اسناد تصویری

سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 53

فایل این مقاله در 15 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CSCONFERENCE01_084

تاریخ نمایه سازی: 22 آذر 1402

چکیده مقاله:

کتابخانه های سرتاسر دنیا حاوی اطلاعات باارزشی هستند که با پیشرفت فناوری دیجیتال و جهت حفظ این منابع باارزش،به صورت اسکن شده (تصویر) درآمده اند. جستجو روی این اسناد تصویری کار بسیار زمان بری است. یک راه حل, استفاده ازبازشناسی کاراکتر نوری (OCR) برای تبدیل اسناد کاغذی اسکن شده به اسناد متنی و استفاده از موتورهای بازیبی متن است.فناوری های بازشناسی کاراکتر نوری موجود در مورد فونت های استاندارد با پس زمینه تمیز خوب کار می کند، اما زمانی کهکیفیت اسناد چاپی افت می کند و همچنین در مورد اسناد دست-نویس نتایج بسیار ضعیفی را نشان می دهد. رهیافت جایگزینبرای اندیس گذاری متون چاپی قدیمی و دست نویسء جستجوی کلمات است. در این مقاله. سعی شده است تا مروری کامل برروش های جستجوی کلمه در اسناد تصویری انجام گیرد. دسته بندی های مختلف از دیدگاه های متخصصین این حوزه و همچنینمزایا و معایب تکنیک های ارائه شده تا به امروز. جهت ایجاد بینش کامل در این زمینه، خصوصا جهت کاربرد در اسناد فارسی،آورده شده است.

کلیدواژه ها:

نویسندگان

مسلم محمدی

استادیار گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه پیام نور تهران

مجید ایرانپورمبارکه

استادیار گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه پیام نور تهران