CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

بهبود خوشه بندی اسناد بر مبنای یک اندازهگیری مشابهت جدید

عنوان مقاله: بهبود خوشه بندی اسناد بر مبنای یک اندازهگیری مشابهت جدید
شناسه ملی مقاله: IDMC04_015
منتشر شده در چهارمین کنفرانس داده کاوی ایران در سال 1389
مشخصات نویسندگان مقاله:

عبدالکریم الهی - عضو هیئت علمی دانشگاه آزاد اسلامی واحد بهشهر

خلاصه مقاله:
خوشه بندی یکی از تکنیکهای بسیار قدرتمند داده کاوی برای کشف موضوع در صفحات متنی می باشد درا بتدا خوشه بندی در سیستمهای بازیابی اطلاعات و برای افزایش یاداوری ودقت و پیدا کردن صفحات مشابه بکار می رفت بعدها برای جستجوی مجموعه ای از سندها بطور اتوماتیک بکارگیری شد در خوشه بندی اسناد مطلوب این است که شباهت بین اسناد درون خوشه زیاد باشد و بین اسناد دو خوشه شباهت کمی وجود داشته باشد. خوشه بندی خانواده k-means برای اسناد متنی بسیار خوب گزارش شده اند معمولا تابع کسینوسی برای اندازه گیری مشابهت بین دو سند در تابع معیار استفاده می شود وقتی بخواهیم تعیین کنیم ایا سندی متعلق به یک خوشه است یا خیر تنها مشابهت جفتی بررسی می شود در حالیکه اگر خوشه ها به خوبی از هم جدا نباشند تقسیم بندی آنها فقط براساس جفت کفایت نمی کند زیرا بعضی از سندها در خوشه های مختلف ممکن مشابه یکدیگر باشند و این تابع به خوبی کار نخواهد کرد. درانی مقاله یک روش کارامد برای اندازه گیری مشابهت با وزن دهی دقیق تر در الگوریتم bisecting k-means ارائه شده است و برمبنای ارزیابی مجموعه داده های اسناد کارایی ان با معیار شباهت کسینوسی و روشهای قدیمی مقایسه شده است.

کلمات کلیدی:
خوشه بندی اسناد، همسابه ها، تابع لینک، بهبود وزن دهی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/109013/