تشخیص اسناد متنی تکراری چندگانه با بکارگیری الگوریتم رقابت استعماری

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 640

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICIKT07_065

تاریخ نمایه سازی: 22 مهر 1394

چکیده مقاله:

با توجه به پیشرفت چشمگیر حجم اسناد و داده های الکترونیکی، اهمیت و لزوم سازماندهی و مدیریت کارآمد آنها بیش از پیش حس می شود. یکی از موضوعات مورد بحث در این زمینه، یافتن اسناد تکراری در یک مجموعه داده متنی است. روش های مختلفی برای یافتن اسناد مشابه یا تکراری توسط محققان پیشنهاد و بکار برده شده است. اما در مواردی در برخی مجموعه داده ها، از یک نوع سند، تعداد بیشتر از دو نمونه تکراری یا مشابه موجود است. در این نوع کاربرد، هدف یافتن این مجموعه اسناد تکراری بوده که این مسئله، عنوان یافتن اسناد تکراری چندگانه و در حالت کلی شباهت چندگانه اطلاق می گردد. روش های مختلفی برای حل این مسئله پیشنهاد و بررسی شده است، اما به دلیل پیچیدگی محاسباتی بالای آنها و یا به دلیل بالا بودن زمان اجرا، پیاده سازی و بکارگیری آنها روی مجموعه داده های بزرگ عملا امکان پذیر نیست. لذا در این مقاله روشی را برای حل مسئله شباهت چندگانه در یافتن اسناد متنی تکراری، با استفاده از الگوریتم رقابت استعماری پیشنهاد داده ایم. روش پیشنهادی روی مجموعه داده متنی از مجموعه داده های ریوترز مورد آزمایش و بررسی قرار گرفته و نتایج حاصل از آن با روش الگوریتم وراثتی مقایسهشده است. نتایج مقایسات دو روش نشان می دهد که روش ارائه شده در این مطالعه در زمان سریع تری اجرا می شود و در نتیجه، برای گروه های بزرگتری از اسناد تکراری قابل اجرا است و بعلاوه در برخی موارد، جوابه ای بهینه تری در مقایسه با الگوریتم وراثتی تولید می کند.

نویسندگان

مینا میرحسینی

مجتمع آموزش عالی بم

فاطمه بارانی برواتی

مجتمع آموزش عالی بم

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • B. S. Alsulami, M. F. Abulkhair, and F. E. Eassa, ...
  • Y. Wu, Qi. Zhang, and X. Huang, "Efficient near- duplicate ...
  • M. Berry, and M. Browne, Lecture Notes in Data Mining, ...
  • A. Huang, "Similarity measures for text document clustering, " 6th ...
  • N. Sandhya, Y. Sri Lalitha, A. Govardhan, and K. Anuradha, ...
  • R. Sarac, K. Tu, and N. Allahverdi, "A fuzzy clustering ...
  • M. Keshavarzi, M. A. Dehghan, and M. Mashinchi, "Applications of ...
  • _ _ "Classifcation based on 3-similarity, " Iranian Journl of ...
  • M. Keshavarzi, Classification based on similarity and dissimilarity, PhD thesis, ...
  • M. Mirhosseini, M. Mashinchi, and H. Ne zamabadi-pour, "Improving n-Similarity ...
  • E. At ashpaz-Gargari _ and C. Lucas, "Imperialist Competitive Algorithm: ...
  • R. Rajabioun, E. At ashpaz-Gargari , and C. Lucas, "Colonial ...
  • A. Huang, Similarity measures for text document clustering, 6th New ...
  • http :/j mlr. csail _ mit. edu/p apers/volume 5/lewis04a/a 1 ...
  • M. F. Porter, "An algorithm for suffix stripping, " Program, ...
  • M. Berry, M. Browne, "Lecture Notes in Data Mining, " ...
  • A. Huang, "Similarity measures for text document clustering, " 6th ...
  • D. D. Lewis, "Reuters-2157 text categorization test collectiondi stribution", ...
  • _ _ research .att.cou_Lewi S, 1999. ...
  • نمایش کامل مراجع