CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

بررسی و مقایسه رویکردهای تشخیص اسناد تقریباً تکراری

عنوان مقاله: بررسی و مقایسه رویکردهای تشخیص اسناد تقریباً تکراری
شناسه ملی مقاله: CSITM01_534
منتشر شده در همایش ملی مهندسی رایانه و مدیریت فناوری اطلاعات در سال 1393
مشخصات نویسندگان مقاله:

محمدرضا رشیدیان - دانشجوی کارشناسی ارشد مهندسی کامپیوتر-نرم افزار، دانشکده کامپیوتر، دانشگاه علوم و تحقیقات لرستان
حسن نادری - استاد گروه کامپیوتر، دانشکده کامپیوتر، دانشگاه علوم و تحقیقات لرستان

خلاصه مقاله:
فهرست اسناد بازیابی شده در موتورهای جستجو شامل درصد بالایی از سندهای تکراری و تقریباً تکراری می باشد. بنابراین نیاز به بهبودعملکرد نتایج جستجو شده وجود دارد. برخی از موتورهای جستجو از الگوریتم فیلترکردن داده استفاده می کنند، که می تواند اسنادتکراری و تقریباً تکراری را از بین برده و باعث صرفه جویی در وقت و تلاش کاربران می شود. شناسایی اسناد تکراری و تقریباً تکراری در یکمجموعه بزرگ یک مشکل قابل توجه در برنامه های کاربردی گسترده است. بنابراین در این مقاله ما روش های تشخیص اسناد تکراری و تقریباًتکراری را مورد بررسی قرار داده ایم، و مقایسه ای بین این روش ها صورت گرفته است.

کلمات کلیدی:
اسناد تکراری، اسناد تقریباً تکراری، تشخیص، رویکردهای نحوی، رویکردهای معنایی، رویکردهای مبتنی بر URL

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/283075/