روشی جدید جهت تعیین تعداد خوشه های بهینه درالگوریتم های خوشه بندی افرازی

سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 379

فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

MUNCE01_017

تاریخ نمایه سازی: 7 اسفند 1396

چکیده مقاله:

خوشه بندی داده ها، روش یافتن ویژگی های مشابه از میان حجم انبوه داده ها و دسته بندی آنها به گروه هایی است که هر یک از این گروه ها، خوشه نامیده می شوند. از آنجایی که عوامل مختلفی همچون نویز و تعداد ابعاد داده ها بر روی نتیجه الگوریتم های مختلف خوشه بندی اثر گذارند، لذا این الگوریتم ها نتایج مختلفی تولید می کنند. با توجه به اینکه کیفیت خوشه بندی و صحت خوشه های استخراج شده، بسیار حایز اهمیت است، لذا معیارهایی جهت اعتبارسنجی عملیات خوشه بندی ابداع شده اند. شاخص های اعتبارسنجی خوشه بندی با توجه به اطلاعات مورد استفاده جهت تعیین کیفیت خوشه بندی، به دو دسته داخلی و خارجی تقسیم می شوند. در این تحقیق سه شاخص ارزیابی استاندارد داخلی کیفیت خوشه بندی Davies-Bouldin ، Silhouette و Gap ، مورد بررسی قرار گرفته اند. تلاش این پژوهش بر آن بوده است تا شاخص اعتبارسنجی داخلی جدیدی پیشنهاد شود به طوری که با استفاده از الگوریتم خوشه بندی افرازی K-Means و در مقایسه با دیگر شاخص های معرفی شده، بر روی مجموعه داده های استاندارد مورد بررسی، بهتر عمل نماید. شاخص معرفی شده در تحقیق حاضر، CAS Compression And Separation نام دارد. عملکرد شاخص CAS برای تشخیص تعداد صحیح خوشه ها نسبت به شاخص Davies-Bouldin به میزان % 27 / 27 ، نسبت به شاخص Silhouette به مقدار % 36 / 36 و نسبت به شاخص Gap به میزان % 54 / 54 بهتر عمل نموده است. نهایتا می توان نتیجه گرفت که شاخص CAS با بیشترین تشخیص صحیح تعداد خوشه ها، نسبت به سه شاخص استاندارد دیگر مناسب ترین عملکرد را بر روی مجموعه داده های استاندارد دارد.

نویسندگان

جواد عارف نیا

گروه مهندسی کامپیوتر، واحد شیراز، دانشگاه آزاد اسلامی، شیراز، ایران

محمد امین شایگان

گروه مهندسی کامپیوتر، واحد شیراز، دانشگاه آزاد اسلامی، شیراز، ایران