خوشه بندی متون فارسی به کمک الگوریتم K-means
سال انتشار: 1392
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 3,144
فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
EIAICC02_027
تاریخ نمایه سازی: 22 فروردین 1393
چکیده مقاله:
بهره گیری از قدرت فرآیند داده کاوی جهت شناسایی الگوها و مدل ها و نیز ارتباط عناصر مختلف در پایگاه داده جهت کشف دانش نهفته در داده ها و نهایتا تبدیل داده به اطلاعات، روز به روز ضروری تر می شود. داده کاوی مجموعه روش هایی است کهبه کمک آن ها به صورت خودکار اطلاعات پیشگویانه از پایگاه داده های بزرگ استخراج می شود. سپس از این اطلاعات برای به وجود آوردن اطلاعات بهتر و در نتیجه اخذ تصمیمات مفیدتر استفاده می شود. در این مقاله سعی شده است از روش خوشه بندی توصیفی برای خوشه بندی و دسته بندی متون فارسی استفاده شود. برای نمونه مجموعه ای از متون فارسی که از روی سایت های خبریموجود در وب جمع آوری شده است، برای انجام این تحقیق بکار می رود. این متون در ابتدا بوسیله از بین بردن علائم نقطه گذاری وکلمات بی فایده، پیش پردازش می شوند. در خوشه بندی برای نمایش هر متن از یک بردار ویژگی استفاده می شود که شامل کلماتشاخص و میزان تکرار آن کمات در متن می باشد. اصول خوشه بندی بر پایه فرضیات آماری استوار است که متونی که در خوشه یکسانی قرار می گیرند، ویژگی های مشابهی دارند. برای خوشه بندی متن جدید، ابتدا بردار ویژگی آن متن ساخته شده، سپس با بردارهای ویژگی خوشه ها مقایسه می شود. در صورتی که خوشه جدید تشخیص داده شد به لیست خوشه ها اضافه میگردد و در غیر این صورت رشد خوشه متوقف می گردد
کلیدواژه ها:
نویسندگان
پرویز کدخدایی
کارشناس ارشد کامپیوتر-هوش مصنوعی-گروه کامپیوتر
عرفان شمس
کارشناس ارشد کامپیوتر نرم افزار- گروه کامپیوتر
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :