ارائه یک الگوریتم موثر و تطبیقپذیر برای خوشهبندی متون فارسی مبتنی بر الگوریتم بهینه سازی فاخته

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 555

فایل این مقاله در 12 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CSITM02_262

تاریخ نمایه سازی: 25 بهمن 1394

چکیده مقاله:

خوشهبندی متون یکی از تکنولوژیهای اصلی متنکاوی و بازیابی اطلاعات است. ایده اصلی خوشهبندی اطلاعات، جداکردن نمونهها از یکدیگر و قراردادن آنها در گروههای شبیه به هم میباشد. عملکرد الگوریتمهای خوشهبندی سنتی ممکن است به دلیل ابعاد بالا و یا حجم کم دادههای متنی رضایتبخش نباشد. همچنین یکی از بزرگترین مشکلات الگوریتمهای سنتی پرکاربرد مانندKmeans حساسیت بالا به نقاط اولیه است. این مقاله یک روش جدید برای خوشهبندی متون بر اساس آمارهای پیکره متنی و الگوریتم بهینه سازی فاخته ارائه میدهد. در این روش نقاط اولیه نه تنها از طریق یادگیریهای آماری ماتریس تشابه اسنادی که به یک مجموعه تقسیمشده است, بلکه از طریق اسنادی که هنوز تقسیمبندی نشدهاند نیز انتخاب میشوند. با این روش میتوان میزان حساسیت الگوریتم خوشهبندی نسبت به مجموعه نقاط اولیه را کاهش داد. برخی از مقادیر آستانهی مورد استفاده در الگوریتم از آمار خودکار و بصورت پویا بدست آمده است. این مقاله همچنین از الگوریتم بهینهسازی فاخته جهت یافتن بهترین مقادیر آستانه استفاده کرده است. نتایج تجربی بدست آمده بر روی چندین مجموعه داده نشان میدهد که الگوریتم پیشنهادی قادر به ارتقاء کیفیت خوشهبندی متون در مقایسه با الگوریتمهای خوشهبندی سنتی میباشد. همچنین این الگوریتم در مجموعه دادههای مختلف پایدارتر میباشد.

کلیدواژه ها:

خوشهبندی ، دادهکاوی ، مشابهت ، الگوریتم بهینه سازی فاخته

نویسندگان

رضا باقری

گروه کامپیوتر، واحد اراک، دانشگاه آزاد اسلامی اراک، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Xinwu Ll. Research on Text Clustering Algorithm Based _ Agglomerative ...
  • Han JW, Kamber M. Data Mining Concepts And Techniques [M], ...
  • Steinbach M, KaryPis G Kumar V. A comparison of document ...
  • Higgs R E, Bemis K G, Watson I A, Wikel ...
  • Snarey M, Terrett N K, Willet P, Wilton D J. ...
  • Pantel P, Lin D. Document clustering with committees. In Proceedings ...
  • G. Karypis, E. Han, and V. Kumar, "Chameleon Hierarchical clustering ...
  • S. Guha, R. Rastogi, and K. Shim, "ROCK: A robust ...
  • Guha, Sudipto; Rastogi, Rajeev; Shim, Kyuseok (2001). "CURE: An Efficient ...
  • Zhang, T. Ramakrishnan, _ Livny, M. (1996). "BIRCH: an efficient ...
  • نمایش کامل مراجع