An Efficient Set of Parts of Speech in Persian Information Retrieval Systems
سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: انگلیسی
مشاهده: 1,170
فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ITCC01_251
تاریخ نمایه سازی: 9 فروردین 1395
چکیده مقاله:
Even though the ultimate aim of any information retrieval system is to fulfill its users’ expectations, reducing index storage size and enhancing the system performance are sometimes infinitely preferable, especially for small-sized companies suffering from a lack of hardware resources. For such companies, it is of paramount importance to remove noninfomative terms from their indeces. Selecting a proper set of terms makes it possible to reduce the index storage size and consequently enhance the retrieval performance. In this paper, using parts of speech tagging, we show how to reduce the index storage size without losing precision. Through an experimental process and using Hamshahri corpora, we identify the most effective parts of speech in Persian language. Results demonstrate improvements in the resposnse time and precision of the retrieval.
کلیدواژه ها:
نویسندگان
Mohammad Ali Yaghoub Zadeh Fard
Iran University of Science and Technology
Saeed Rahmani
Shiraz University
Omid Kashefi
Iran University of Science and Technology
Behrouz Minaei idgoli
Iran University of Science and Technology
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :