تشخیص اسناد متنی تکراری چندگانه با بکارگیری الگوریتم رقابت استعماری

مینا میرحسینی; فاطمه بارانی برواتی

تشخیص اسناد متنی تکراری چندگانه با بکارگیری الگوریتم رقابت استعماری

محل انتشار: هفتمین کنفرانس بین المللی فناوری اطلاعات و دانش

سال انتشار: 1394

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 754

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/388707

شناسه ملی سند علمی:

ICIKT07_065

تاریخ نمایه سازی: 22 مهر 1394

چکیده مقاله:

با توجه به پیشرفت چشمگیر حجم اسناد و داده های الکترونیکی، اهمیت و لزوم سازماندهی و مدیریت کارآمد آنها بیش از پیش حس می شود. یکی از موضوعات مورد بحث در این زمینه، یافتن اسناد تکراری در یک مجموعه داده متنی است. روش های مختلفی برای یافتن اسناد مشابه یا تکراری توسط محققان پیشنهاد و بکار برده شده است. اما در مواردی در برخی مجموعه داده ها، از یک نوع سند، تعداد بیشتر از دو نمونه تکراری یا مشابه موجود است. در این نوع کاربرد، هدف یافتن این مجموعه اسناد تکراری بوده که این مسئله، عنوان یافتن اسناد تکراری چندگانه و در حالت کلی شباهت چندگانه اطلاق می گردد. روش های مختلفی برای حل این مسئله پیشنهاد و بررسی شده است، اما به دلیل پیچیدگی محاسباتی بالای آنها و یا به دلیل بالا بودن زمان اجرا، پیاده سازی و بکارگیری آنها روی مجموعه داده های بزرگ عملا امکان پذیر نیست. لذا در این مقاله روشی را برای حل مسئله شباهت چندگانه در یافتن اسناد متنی تکراری، با استفاده از الگوریتم رقابت استعماری پیشنهاد داده ایم. روش پیشنهادی روی مجموعه داده متنی از مجموعه داده های ریوترز مورد آزمایش و بررسی قرار گرفته و نتایج حاصل از آن با روش الگوریتم وراثتی مقایسهشده است. نتایج مقایسات دو روش نشان می دهد که روش ارائه شده در این مطالعه در زمان سریع تری اجرا می شود و در نتیجه، برای گروه های بزرگتری از اسناد تکراری قابل اجرا است و بعلاوه در برخی موارد، جوابه ای بهینه تری در مقایسه با الگوریتم وراثتی تولید می کند.

کلیدواژه ها:

اسناد تکراری چندگانه ، شباهت چندگانه ، الگوریتم رقابت استعماری ، الگوریتم وراثتی

نویسندگان

مینا میرحسینی

مجتمع آموزش عالی بم

فاطمه بارانی برواتی

مجتمع آموزش عالی بم

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

B. S. Alsulami, M. F. Abulkhair, and F. E. Eassa, ...
Y. Wu, Qi. Zhang, and X. Huang, "Efficient near- duplicate ...
M. Berry, and M. Browne, Lecture Notes in Data Mining, ...
A. Huang, "Similarity measures for text document clustering, " 6th ...
N. Sandhya, Y. Sri Lalitha, A. Govardhan, and K. Anuradha, ...
R. Sarac, K. Tu, and N. Allahverdi, "A fuzzy clustering ...
M. Keshavarzi, M. A. Dehghan, and M. Mashinchi, "Applications of ...
_ _ "Classifcation based on 3-similarity, " Iranian Journl of ...
M. Keshavarzi, Classification based on similarity and dissimilarity, PhD thesis, ...
M. Mirhosseini, M. Mashinchi, and H. Ne zamabadi-pour, "Improving n-Similarity ...
E. At ashpaz-Gargari _ and C. Lucas, "Imperialist Competitive Algorithm: ...
R. Rajabioun, E. At ashpaz-Gargari , and C. Lucas, "Colonial ...
A. Huang, Similarity measures for text document clustering, 6th New ...
http :/j mlr. csail _ mit. edu/p apers/volume 5/lewis04a/a 1 ...
M. F. Porter, "An algorithm for suffix stripping, " Program, ...
M. Berry, M. Browne, "Lecture Notes in Data Mining, " ...
A. Huang, "Similarity measures for text document clustering, " 6th ...
D. D. Lewis, "Reuters-2157 text categorization test collectiondi stribution", ...
_ _ research .att.cou_Lewi S, 1999. ...

نمایش کامل مراجع