بررسی و مقایسه رویکردهای تشخیص اسناد تقریباً تکراری

محمدرضا, رشیدیان; حسن, نادری

بررسی و مقایسه رویکردهای تشخیص اسناد تقریباً تکراری

عنوان مقاله: بررسی و مقایسه رویکردهای تشخیص اسناد تقریباً تکراری
شناسه ملی مقاله: CSITM01_534
منتشر شده در همایش ملی مهندسی رایانه و مدیریت فناوری اطلاعات در سال 1393

مشخصات نویسندگان مقاله:

محمدرضا رشیدیان - دانشجوی کارشناسی ارشد مهندسی کامپیوتر-نرم افزار، دانشکده کامپیوتر، دانشگاه علوم و تحقیقات لرستان
حسن نادری - استاد گروه کامپیوتر، دانشکده کامپیوتر، دانشگاه علوم و تحقیقات لرستان

خلاصه مقاله:

فهرست اسناد بازیابی شده در موتورهای جستجو شامل درصد بالایی از سندهای تکراری و تقریباً تکراری می باشد. بنابراین نیاز به بهبودعملکرد نتایج جستجو شده وجود دارد. برخی از موتورهای جستجو از الگوریتم فیلترکردن داده استفاده می کنند، که می تواند اسنادتکراری و تقریباً تکراری را از بین برده و باعث صرفه جویی در وقت و تلاش کاربران می شود. شناسایی اسناد تکراری و تقریباً تکراری در یکمجموعه بزرگ یک مشکل قابل توجه در برنامه های کاربردی گسترده است. بنابراین در این مقاله ما روش های تشخیص اسناد تکراری و تقریباًتکراری را مورد بررسی قرار داده ایم، و مقایسه ای بین این روش ها صورت گرفته است.

کلمات کلیدی:

اسناد تکراری، اسناد تقریباً تکراری، تشخیص، رویکردهای نحوی، رویکردهای معنایی، رویکردهای مبتنی بر URL

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/283075/