دسته بندی متون فارسی با استفاده از روش آنالیز معنایی پنهان احتمالاتی

سال انتشار: 1392
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,517

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

AISST01_076

تاریخ نمایه سازی: 5 مرداد 1392

چکیده مقاله:

دسته بندی موضوعی، محتمل ترین موضوعی که محتوای متن بدان اشاره دارد را مشخص می کند. برای نیل به این هدف، در مقاله حاضر با استفاده از روش آنالیز معنایی پنهان احتمالاتی که بر پایه روش آنالیز معنایی پنهان پایه گذاری شده است و از مبانی احتمالات و قوانین بیزین استفاده می کند، برای عملیات دسته بندی متون فارسی که از پایگاه داده همشهری تهیه شده است و با استفاده از روش فاصله یابی اقلیدسی در فضای ماتریس های کاهش بعد یافته دست آمده از روش فوق بهره گرفته شده است. همچنین از روش TF-IDF جهت تهیه کلمات کلیدی موجود در مجموعه متون مورد استفاده ، به کار گرفته شده است. در مرحله هرس، علاوه بر کلمات دستوری مانند حروف اضافه و ربط، کلمات کلیدی زاید نیز به صورت دستی حذف می شوند. پس از مشخص شدن کلمات کلیدی تمام متون پیمایش شده و برای هر متن یک بردار تهیه شده و ماتریس ورودی مربوط به روش آنالیز معنایی پنهان احتمالاتی فراهم می آید. پس از اعمال روش بر روی داده های آموزش و داده های آزمون ، بردارهای حاصل را با بردار های مرحله آموزش مقایسه کرده، برداری که کمترین فاصله را با بردار متن مرحله آموزش دارد، بر چسب دسته مربوط به متن را مشخص یم نماید. نتایج حاصل شده در این مقاله نشان میدهد که روش بکار رفته در بهبود عملکرد سیستم نقش موثری دارد.

کلیدواژه ها:

برچسب زنی موضوعی ، مفهوم پنهان ، آنالیز معنایی پنهان احتمالاتی ، کلمات کلیدی

نویسندگان

محسن زمانی

دانشجوی کارشناسی ارشد علوم و تحقیقات بوشهر

روح الله دیانت

عضو هیئت علمی دانشگاه قم

مهدی صادق زاده

عضو هیئت علمی دانشگاه آزاد اسلامی واحد ماهشهر

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • . Abdi Ghavidel, H., Vazirnezhad, B., Bahrani, M., Moradi M., ...
  • . T. Joachims, "Text Categorization with Support Vector Machines: Learning ...
  • .J.R. Bellegarda, "Exploiting Latent Semantic Information in Statistical Language Modeling", ...
  • . S.A. Wood and T .D. Gedeon, "A Hybrid Neural ...
  • . K. Torkolla, "Linear Discriminant Analysis inDocument Classification' _ IEEE ...
  • . D., Blei, A. Ng, M. Jordan, "Latent Dirichlet Allocation", ...
  • . X. Guandong, _ Zhang, Z. Zhou, "Using Probabilistic Latent ...
  • نمایش کامل مراجع