خوشه بندی متون فارسی به کمک الگوریتم K-means

پرویز کدخدایی; عرفان شمس

خوشه بندی متون فارسی به کمک الگوریتم K-means

محل انتشار: دومین کنفرانس ملی توسعه کاربردهای صنعتی اطلاعات، ارتباطات و محاسبات

سال انتشار: 1392

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 3,144

فایل این مقاله در 7 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

هوش مصنوعی > داده کاوی

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/241348

شناسه ملی سند علمی:

EIAICC02_027

تاریخ نمایه سازی: 22 فروردین 1393

چکیده مقاله:

بهره گیری از قدرت فرآیند داده کاوی جهت شناسایی الگوها و مدل ها و نیز ارتباط عناصر مختلف در پایگاه داده جهت کشف دانش نهفته در داده ها و نهایتا تبدیل داده به اطلاعات، روز به روز ضروری تر می شود. داده کاوی مجموعه روش هایی است کهبه کمک آن ها به صورت خودکار اطلاعات پیشگویانه از پایگاه داده های بزرگ استخراج می شود. سپس از این اطلاعات برای به وجود آوردن اطلاعات بهتر و در نتیجه اخذ تصمیمات مفیدتر استفاده می شود. در این مقاله سعی شده است از روش خوشه بندی توصیفی برای خوشه بندی و دسته بندی متون فارسی استفاده شود. برای نمونه مجموعه ای از متون فارسی که از روی سایت های خبریموجود در وب جمع آوری شده است، برای انجام این تحقیق بکار می رود. این متون در ابتدا بوسیله از بین بردن علائم نقطه گذاری وکلمات بی فایده، پیش پردازش می شوند. در خوشه بندی برای نمایش هر متن از یک بردار ویژگی استفاده می شود که شامل کلماتشاخص و میزان تکرار آن کمات در متن می باشد. اصول خوشه بندی بر پایه فرضیات آماری استوار است که متونی که در خوشه یکسانی قرار می گیرند، ویژگی های مشابهی دارند. برای خوشه بندی متن جدید، ابتدا بردار ویژگی آن متن ساخته شده، سپس با بردارهای ویژگی خوشه ها مقایسه می شود. در صورتی که خوشه جدید تشخیص داده شد به لیست خوشه ها اضافه میگردد و در غیر این صورت رشد خوشه متوقف می گردد

کلیدواژه ها:

خوشه بندی متن ، داده کاوی توصیفی ، زبان فارسی/K-means

نویسندگان

پرویز کدخدایی

کارشناس ارشد کامپیوتر-هوش مصنوعی-گروه کامپیوتر

عرفان شمس

کارشناس ارشد کامپیوتر نرم افزار- گروه کامپیوتر

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

. Chen, M., Data Mining:an overview from Data base_ _ ...
. Dtanie T Larose, Discovery Knowledge in Data: An _ ...
. Bramer, M.A, Knowledge Disccvery aud_Data _ the institution of ...
. Hair, Joseph F., Multivariate Data Anaysis, 20 05, prentice ...
Sebastiani , Fabrizio (2002). "Machine _ automated_ _ _ , ...
. Usama Fayyad; Gregory P iatetsky- Shapiro ; and Padhraic ...
. M.Kantardzic, _ CGncepts_ Modeles. Mthodsaud Algcrithms , IEEE Press, ...
. John Wiley & Sons, Eigding Gcoups in_Data:an Introduction to ...
. Han, J. & Kamber, _ _ CSncepts edition, ...
. Michael J.A Berry, Gordan S. LinoffWiley = Data Mining ...
. Daniel T.Larose, ph.D, Wiley Interscience. Discoverv Knowledge in Data. ...
Rung -Ching Chen , Chung-Hsun Hsieh."Neb page classification based on ...
4] Y.Li, S.c.K. Shiu, S .K. Pal., J.N _ K. ...

نمایش کامل مراجع