بررسی و مقایسه رویکردهای تشخیص اسناد تقریباً تکراری
محل انتشار: همایش ملی مهندسی رایانه و مدیریت فناوری اطلاعات
سال انتشار: 1393
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 711
فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
CSITM01_534
تاریخ نمایه سازی: 10 شهریور 1393
چکیده مقاله:
فهرست اسناد بازیابی شده در موتورهای جستجو شامل درصد بالایی از سندهای تکراری و تقریباً تکراری می باشد. بنابراین نیاز به بهبودعملکرد نتایج جستجو شده وجود دارد. برخی از موتورهای جستجو از الگوریتم فیلترکردن داده استفاده می کنند، که می تواند اسنادتکراری و تقریباً تکراری را از بین برده و باعث صرفه جویی در وقت و تلاش کاربران می شود. شناسایی اسناد تکراری و تقریباً تکراری در یکمجموعه بزرگ یک مشکل قابل توجه در برنامه های کاربردی گسترده است. بنابراین در این مقاله ما روش های تشخیص اسناد تکراری و تقریباًتکراری را مورد بررسی قرار داده ایم، و مقایسه ای بین این روش ها صورت گرفته است.
کلیدواژه ها:
اسناد تکراری ، اسناد تقریباً تکراری ، تشخیص ، رویکردهای نحوی ، رویکردهای معنایی ، رویکردهای مبتنی بر URL
نویسندگان
محمدرضا رشیدیان
دانشجوی کارشناسی ارشد مهندسی کامپیوتر-نرم افزار، دانشکده کامپیوتر، دانشگاه علوم و تحقیقات لرستان
حسن نادری
استاد گروه کامپیوتر، دانشکده کامپیوتر، دانشگاه علوم و تحقیقات لرستان
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :