یک روش وزن دهی مبتنی بر موقعیت واژه جهت مشابهت سنجی اسناد

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 498

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ITCC02_215

تاریخ نمایه سازی: 21 شهریور 1395

چکیده مقاله:

اندازه گیری میزان شباهت اسناد موجود در وب، از آن جهت دارای اهمیت است که دربسیاری از زمینه ها، مانندبازیابی اطلاعات، دسته بندی متون، خوشه بندی اسناد، سیستم های تشخیص تقلب و سرقت ادبی، خلاصه سازیمتون، و سایر حوزه ها، نقش مهم و اساسی ایفا می کند. در تمام روشهای مشابهت سنجی اسناد، اصول کار،تشخیص شباهت سندها بر مبنای شناخت دقیق ویژگی های مشترک است. در مدل مشابهت سنجی لغوی، اسنادبه صورت برداری از وزن واژه های آن در یک فضای برداری با ابعاد بالا نمایش داد می شوند. روشهایوزن دهی واژه در استخراج ویژگی های شاخص اسناد و مشابهت سنجی آنها، بسیار تاثیر گذار است. مهمترین وپرکاربردترین طرح وزن دهی واژه در فضای برداری اسناد، طرح TF-IDF است. این طرح اگرچه دارای دقت و فراخوانی بالا است، دارای کاستی هایی است. یکی از موارد مهم که در این طرح در نظر گرفته نمی شود،موقعیت واژه در سند است. در این مقاله، هدف اصلی، ارایه روشی بهبودیافته در وزندهی واژه، برای تعیینمیزان شباهت لغوی اسناد متنی است. روش وزن دهی پیشنهادی بر مبنای طرح TF-IDF و با تاکید بر اهمیت بیشتر واژه های خطوط ابتدایی اسناد، توانسته است، دقت و فراخوانی را در دسته بندی و میزان صحت را در خوشه بندی اسناد مجموعه TDT5 افزایش دهد.

نویسندگان

مریم اسدی لنگرودی

دانشجوی کارشناسی ارشد مهندسی فناوری اطلاعات ، گروه کامپیوتر، پردیس دانشگاه گیلان ، رشت

سیدابوالقاسم میرروشندل

استادیار دانشگاه، گروه کامپیوتر ، دانشگاه گیلان ، رشت

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Junhui, Yang, and Huang Chan. "Keywords Weights Improvement and Application ...
  • Plansangket, Suthira, and John Q. Gan. "A new term weighting ...
  • Wang, Xingheng, Jun Cao, Yao Liu, Shi Gao, and Xue ...
  • نمایش کامل مراجع