بررسی و مقایسه رویکردهای تشخیص اسناد تقریباً تکراری

محمدرضا رشیدیان; حسن نادری

بررسی و مقایسه رویکردهای تشخیص اسناد تقریباً تکراری

محل انتشار: همایش ملی مهندسی رایانه و مدیریت فناوری اطلاعات

سال انتشار: 1393

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 711

فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/283075

شناسه ملی سند علمی:

CSITM01_534

تاریخ نمایه سازی: 10 شهریور 1393

چکیده مقاله:

فهرست اسناد بازیابی شده در موتورهای جستجو شامل درصد بالایی از سندهای تکراری و تقریباً تکراری می باشد. بنابراین نیاز به بهبودعملکرد نتایج جستجو شده وجود دارد. برخی از موتورهای جستجو از الگوریتم فیلترکردن داده استفاده می کنند، که می تواند اسنادتکراری و تقریباً تکراری را از بین برده و باعث صرفه جویی در وقت و تلاش کاربران می شود. شناسایی اسناد تکراری و تقریباً تکراری در یکمجموعه بزرگ یک مشکل قابل توجه در برنامه های کاربردی گسترده است. بنابراین در این مقاله ما روش های تشخیص اسناد تکراری و تقریباًتکراری را مورد بررسی قرار داده ایم، و مقایسه ای بین این روش ها صورت گرفته است.

کلیدواژه ها:

اسناد تکراری ، اسناد تقریباً تکراری ، تشخیص ، رویکردهای نحوی ، رویکردهای معنایی ، رویکردهای مبتنی بر URL

نویسندگان

محمدرضا رشیدیان

دانشجوی کارشناسی ارشد مهندسی کامپیوتر-نرم افزار، دانشکده کامپیوتر، دانشگاه علوم و تحقیقات لرستان

حسن نادری

استاد گروه کامپیوتر، دانشکده کامپیوتر، دانشگاه علوم و تحقیقات لرستان

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

Alsulami, B.S., M.F. Abulkhair, and F.E. Eassa, Near Duplicate Document ...
Bohman, T., C. Cooper, and A. Frieze, Min-wise independent linear ...
Broder, A.Z. Identifying and filtering near-duplicate documents. in Combinatorial Pattern ...
Broder, A. Identifying and filtering near-duplicate documents. in Combinatoril Pattern ...
Broder, A., et al., Indexing shared content in information retrieval ...
Elmagarmid, A.K., P.G. Ipeirotis, and V.S. Verykios, Duplicate record detection: ...
Fan, J. and T. Huang, A fusion of algorithms in ...
Gionis, A., P. Indyk, and R. Motwani. Similarity search in ...
Gupta, T. and A.P.L. Banda, A Novel Approach to Detect ...
Jonathan, S. and A. Paepcke, Spotsigs: Near duplicate detection in ...
Mudhasir, S., et al., Near- duplicates detection and elimination based ...
M. Potthast and B Stein. "New issues in near- duplicate ...
Theobald, M., J. Siddharth, and A. Paepcke. Spotsigs: robust and ...
Pi, B., et al., SimHash-based Effective and Efficient Detecting of ...
Xiao, C., et al., Efficient similarity joins for near-duplicate detection. ...

نمایش کامل مراجع