CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ارائه یک روش خوشه بندی موضوعی متون فارسی مبتنی بر داده های بامربی

عنوان مقاله: ارائه یک روش خوشه بندی موضوعی متون فارسی مبتنی بر داده های بامربی
شناسه ملی مقاله: ACCSI14_214
منتشر شده در چهاردهمین کنفرانس سالانه انجمن کامپیوتر ایران در سال 1387
مشخصات نویسندگان مقاله:

هشام فیلی - دانشگاه تهران، دانشکده مهندسی برق و کامپیوتر
محسن غرب سرخی - دانشگاه آزاد اسلامی واحد ساوه

خلاصه مقاله:
هدف از خوشه بندی متون تقسیم بندی مستندات به یک یا چند خوشه براساس محتویات موجود در متن آن است که از ابزارهای مهم در حوزه پردازش زبان های طبیعی به شمار می آید. خوشه بندی متون در ابزارهایی مانند موتورهای جستجو و سیستم پاسخگویی به سوالات کاربردهای فراوانی دارد. روشهای مختلفی برای خوشه بندی موضوعی متون وجود دارد که استفاده از مدل احتمالاتی بیزین یکی از متداولترین روش ها به شمار می آید. در این مقاله گزارشی از بکارگیری این روش در خوشه بندی متون فارسی ارائه می شود و سپس از ترکیب این روش با ایده نگهداری کلمات هم اورد کیفیت الگوریتم بهبود داده می شود. استفاده از این ایده بر روی 200,000 متن خبری از منابع خبرگزاری جمهوری اسلامی ایران (ایرنا ) توانسته است میزان دقت خوشه بندی در زبان فارسی را به 87 % افزایش دهد.

کلمات کلیدی:
خوشه بندی متون، زبان فارسی، مدل بیزین، کلمات هماورد

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/60962/