بهبود خوشه بندی اسناد بر مبنای یک اندازهگیری مشابهت جدید

سال انتشار: 1389
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,912

فایل این مقاله در 13 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IDMC04_015

تاریخ نمایه سازی: 15 دی 1389

چکیده مقاله:

خوشه بندی یکی از تکنیکهای بسیار قدرتمند داده کاوی برای کشف موضوع در صفحات متنی می باشد درا بتدا خوشه بندی در سیستمهای بازیابی اطلاعات و برای افزایش یاداوری ودقت و پیدا کردن صفحات مشابه بکار می رفت بعدها برای جستجوی مجموعه ای از سندها بطور اتوماتیک بکارگیری شد در خوشه بندی اسناد مطلوب این است که شباهت بین اسناد درون خوشه زیاد باشد و بین اسناد دو خوشه شباهت کمی وجود داشته باشد. خوشه بندی خانواده k-means برای اسناد متنی بسیار خوب گزارش شده اند معمولا تابع کسینوسی برای اندازه گیری مشابهت بین دو سند در تابع معیار استفاده می شود وقتی بخواهیم تعیین کنیم ایا سندی متعلق به یک خوشه است یا خیر تنها مشابهت جفتی بررسی می شود در حالیکه اگر خوشه ها به خوبی از هم جدا نباشند تقسیم بندی آنها فقط براساس جفت کفایت نمی کند زیرا بعضی از سندها در خوشه های مختلف ممکن مشابه یکدیگر باشند و این تابع به خوبی کار نخواهد کرد. درانی مقاله یک روش کارامد برای اندازه گیری مشابهت با وزن دهی دقیق تر در الگوریتم bisecting k-means ارائه شده است و برمبنای ارزیابی مجموعه داده های اسناد کارایی ان با معیار شباهت کسینوسی و روشهای قدیمی مقایسه شده است.

نویسندگان

عبدالکریم الهی

عضو هیئت علمی دانشگاه آزاد اسلامی واحد بهشهر