روش جدید خوشه بندی مستندات متنی الکترونیکی فارسی به کمک واژ-هستان شناسی فارس نت

محمد زنجانی; احمد براآنی دستجردی

روش جدید خوشه بندی مستندات متنی الکترونیکی فارسی به کمک واژ-هستان شناسی فارس نت

محل انتشار: اولین کنفرانس ملی دانش پژوهان کامپیوتر و فناوری اطلاعات

سال انتشار: 1390

نوع سند: مقاله کنفرانسی

زبان: فارسی

مشاهده: 1,241

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

دریافت فایل کامل مقاله

صدور گواهی نمایه سازی
من نویسنده این مقاله هستم

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

https://civilica.com/doc/132125

شناسه ملی سند علمی:

CSCCIT01_146

تاریخ نمایه سازی: 8 بهمن 1390

چکیده مقاله:

خوشه بندی یا دسته بندی بدون نظارت با انجام سازماندهی بر روی پیکره های بزرگ متنی، نقش کلیدی در پیمایش و مرور آسان انبوهی از اسناد به خصوص در موتور های جستجو دارد. معمولا استفاده از روش های متعارف افزاری و سلسله مراتبی منجر به خوشه بندی با کیفیت پایین می شود.علت این موضوع آن است که مقایسه اسناد تنها به لحاظ شباهت ظاهری کلمات داخل انها صورت می پذیرد، به طوری که به روابط کلمات توجهی نشده و تلاشی برای رفع ابهام از معانی کلمه صورت نمی گیرد.در این مقاله، زبان فارسی با توجه به رشد روز افزون مستندات الکترونیکیبه این زبان، مورد توجه قرار گرفته است. ایده اصلی یافتن توضیحات مناسب برای دانش پس زمینه و غنی سازی متن فارسی با استفاده از آن است. برای نیل به این مقصود از منبع دانش خارجی به نام واژ-هستان شناسی فارس نت استفاده شده است. همچنین برای خوشه بندی بر رهیافت فاکتورگیری نا منفی ماتریس (NMF) تاکید شده است. نتایج ارزیابی ها بر روی پیکره ی متنی همشهری، نشان از بهبود کیفیت خوشه بندی متن فارسی غنی شده (به خصوص با رابطه شمول) در مقایسه با خوشه بنی خام دارد. همچنین تاثیر این روابط در کیفیت خوشه بندی بر پایه NMF بیشتر از خوشه بندی متعارف Bisecting Kmeans بوده است.

کلیدواژه ها:

خوشه بندی متنی ، تحلیل معنایی ، واژ-هستان شناسی فارس نت ، رفع ابهام از معانی کلمه ، فاکتور گیری نا منفی ماتریس

نویسندگان

محمد زنجانی

دانشگاه شیخ بهایی-دانشکده فنی و مهندسی-گروه کامپیوتر

احمد براآنی دستجردی

دانشگاه اصفهان-دانشکده فنی و مهندسی-گروه کامپیوتر

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :

م. شمس‌فرد و ا. عبدالله زاده بارفروش, "استخراج دانش مفهومی ...
R. M. Aliguliyev, "Clustering of document collection-A weighting approach, " ...
J. Han and M Kamber, in Data mining: concepts and ...
L. Jing, L. Zhou, M. K. Ng, and J. Z. ...
A. Hotho, S. Staab, and G. Stumme, Text clustering based ...
M. Shamsfard et al., "Semi Automatic Development Of FarsNet: The ...
N. Indurkhya and F. J Damerau, Handbook of natural language ...
M. R. Davarpanah, M. Sanji, and M. Aramideh, "Farsi lexical ...
P. McNamee, C. Nicholas, and J. Mayfield, "Addressing morphological variation ...
D. D. Lee and H. S. Seung, "Learning the parts ...
clustering based _ non-negative matrix factorization, " in Documentء [11] ...
A. Cichocki, R. Zdunek, A. H. Phan, and S. Amari, ...
sense disambiguation : A survey, " ACM Computing Surveys (CSUR), ...
of a moderm farsi corpus, " in Proceedings of Assessment:ه ...
J. Yoo and S. Choi, "Orthogonal nonnegative matrix tri -factorization ...
C. D. Manning, P. Raghavan, and H. Schitze, Introduction to ...
A. Jadidinejad, F. Mahmoudi, and J. Dehdari, "Evaluation of perstem: ...

نمایش کامل مراجع