استفاده ازشبکه ی بیزین ساده و الگوریتم paice برای ریشه یابی کلمات فارسی و بررسی کاربرد ریشه یابی کلمات درتعیین میزان مشابهت متون

سال انتشار: 1392
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,658

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ICEE21_783

تاریخ نمایه سازی: 27 مرداد 1392

چکیده مقاله:

درریخت شناسی زبانی و بازیابی اطلاعات ریشه یابی کلمه کاهش دادن گونه های مختلف گرامری کلمه همانند فعل صفت اسم جمع و غیره به یک فرم یکتا به نام ریشه است امروزه ریشه یابی کلمه به عنوان یکی ازروشهای افزایش کارایی سیستم های بازیابی اطلاعات محسوب میشود یکی دیگر ازتکنولوژیهای مههم درحوزه مسائل پردازش زبان طبیعی محاسبه میزان مشابهت متون است مشابهت متون پارامتری است که درجه مشابهت متون مختلف را اندازه میگیرد دراین مقاله ابتدا با استفاده ازشبکه بیزین ساده تمام کلمات متن را به دو کلاس فعل و یا اسم تقسیم بندی می کنیم سپس با استفاده ازروشی جدید که مبتنی برالگوریتم ریشه یاب Paice/Husk برای کلمات انگلیسی است به ریشه یابی کلمات می پردازیم این روش یک روش مرحله ای است و ازیک جدول ازقوانین برای حذف وندها استفاده می کند و درهرمرحله تنها یک وند را حذف می کند درپایان نیز با بکارگیری شینگل ها و معیار فاصله ی COSINE به ارایه یک روش جددی درتعیین میزان ممشابهت متون می پردازیم و نتایج بدست آمده را با روش استفاده شده درسیستم SCAM و روش Jaccard مقایسه می کنیم

نویسندگان

فاطمه کاظمی ونهری

دانشگاه آزاد اسلامی واحد علوم و تحقیقات تهران

علی احمدی

دانشگاه صنعتی خواجه نصیرالدین طوسی