یک روش ترکیبی برای جست وجوی کلمات درکتب تاریخی دست نویس فارسی

سال انتشار: 1391
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 622

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IPRIA01_092

تاریخ نمایه سازی: 11 مرداد 1393

چکیده مقاله:

جست وجوی کلمات کلیدی در کتب و متون تاریخی دست نویس برای محققان و پژوهشگران علوم مختلف از اهمیت بالایی برخوردار است. از آنجاکه این کتب با گذشت زمان دچار فرسودگی شده اند، لذا تصاویر اسکن شده آنها نیزکیفیت بالایی ندارند و بنابراین روشهای مبتنی بر بازشناسی حروفOCR)برروی این متون خوب کار نمی کنند و دقت عملکرد بسیار پایینی دارند. در این مقاله ، ما یک فرایند کامل برای مکان یابی کلمات در تصاویر اسکن شده ی کتب تاریخیدست نویس فارسی وعربی ارائه می دهیم. دراین فرایند، ابتدا زیرکلمات موجود در صفحات کتاب استخراج شده و اطلاعات مکانی این زیرکلمات ذخیره می شود. درادامه دونوع ویژگی شامل پروفایلها و ناحیه بندی از تصاویر زیرکلمات استخراج می شود. در مرحله ی بعد، با استفاده از یک روش خوشه بندی جدید که در [ 1] مطرحشده است و با در نظر گرفتن معیار شباهت بین این ویژگی ها بصورت ترکیبی از معیارهای انحراف زمانی پویا و فاصله اقلیدسی ، زیرکلمات در خوشه های هم ارز طبقه بندی می شوند. درنهایت هم، خوشه ها برچسب گذاری می شوند. حال اگرکاربر، کلمه ای را درون کتاب مورد جستجو قرار دهد، با داشتن اطلاعات مربوط به تمام زیرکلمات موجود در خوشه ها، مکانهای احتمالی وقوع آن کلمه در کتاب با دقت نسبتا بالایی به کاربر ارائه می گردد. این الگوریتم را برروی یک کتاب تاریخی دست نویس فارسی موجود در کتابخانه ی مرکزی دانشگاه بیرجند مورد آزمایش قراردادیم که دقت بالا و قابل قبولی را نتیجه داد

نویسندگان

محمد علی آبادی

دانشگاه بیرجند، دانشکده مهندسی برق و کامپیوتر، دانشجوی کارشناسی ارشد الکترونیک

جواد صدری

دانشگاه بیرجند، دانشکده مهندسی برق و کامپیوتر، استادیار گروه کامپیوتر

سیدمحمد رضوی

دانشگاه بیرجند، دانشکده مهندسی برق و کامپیوتر، استادیار گروه الکترونیک

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Sadri, J., Suen, C. Y., and Bui, T. D., "A ...
  • Rath, T. M, Manmatha, R. "Word image matching using dynamic ...
  • Rath, T. _ and Manmatha, R., "Word Spotting for Historical ...
  • Adamek, T., Connor, N. E., and Smeaton, A. F., "Word ...
  • Srihari, S. N., Srinivasan, H. Huang, C.. and Shetty, S., ...
  • _ _ _ 2nd Int'1 Workshop on Cross Lingual Information ...
  • Cao, H., Bhardwaj, A., and Govindaraju, V., "A Probabilistic Method ...
  • Rodrguez- Serrano, J. A., Perronnin, F., "Handwritten Word- Spotting Using ...
  • Farrahi -Moghaddam, R., Cheriet, M "Application on Multi- level Classifier ...
  • Perronnin, F., Rodriguez- Serrano, J., "Fisher Kernels for Handwritten Word-spotting", ...
  • _ _ _ of Documents Based on Particle Swarm Optimization", ...
  • نمایش کامل مراجع