دسته بندی حودکار اسناد فارسی به کمک هستان شناسی فارسی نت
محل انتشار: یازدهمین کنفرانس سراسری سیستم های هوشمند
سال انتشار: 1391
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,331
فایل این مقاله در 9 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ICS11_112
تاریخ نمایه سازی: 14 مهر 1392
چکیده مقاله:
روش های رایج برای نمایش اسناد به مانند کیسه لغات (Bag of Word) ، تنها شکل ظاهری عبارات را مورد بررسی قرار می دهند.، در حالی که در این روش ها، وابستگی و روابط میان عبارات کمتر مورد توجه قرار می گیرد. به همین منظور در این مقاله، از مشخصه معنایی برای غلبه بر این محدودیت و توجه به بافت معنایی متون، استفاده شده است. در رویکرد پیشنهادی، ابتدا مفاهیم توسط هستان شناسی لغوی فارس نت استخراج شده و پس از اعمال فرایند رفع ابهام، با توجه به بافت متن، اوزان مفهوم مرتط در حین فرایند وزن دهی به وزن عبارات کلیدی اضافه می شود. این مقاله، رویکردی جدید در حین استفاده از روش اولین مفهوم به منظور رفع ابهام از مفاهیم استخراج شده، معرفی می کند که کارایی این روش را بهبود می دهد. در این مقاله، الگوریتم χ2 در بخش انتخاب مشخصه و روش وزن دهی ویژگی نرمال شده TFIDF در وزن دهی به کار گرفته می شود. نتایج به دست آمده نشان می دهد که اعمال دانش معنایی حاصل ار هستان شناسی لغوی در فرایند طبقه بندی متون یک گام موثر در بهبود کارایی دسته بند است
کلیدواژه ها:
دسته بندی خودکار متون فارسی ، استخراج کلمات کلیدی ، هستان شناسی فارس نت ، مشخصات معنایی ، رفع ابهام ، روابط معنایی ، روش اولین مفهوم
نویسندگان
حمید حسن پور
دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی شاهرود
صبا سادات مدنی
دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی شاهرود
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :