یک روش آماری مبتنی بر پیکره برای جداسازی واژههای به هم چسبیده

سال انتشار: 1387
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 682

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

FJCFIS02_335

تاریخ نمایه سازی: 26 تیر 1392

چکیده مقاله:

در این مقاله، یک روش آماری مبتنی بر پیکره برای شناسایی واژههای به هم چسبیده معرفی شد. این روش، با استفاده از معیاراحتمال شرطی متقارن تعیین میکند که آیا یک عنصر متنی، یک واژهی کامل است یا مجموعهای از واژههای به هم چسبیده است. روشپیشنهادی روی یک مجموعهی 18000 تایی از اخبار ورزشی مورد آزمایش قرار گرفت و نتایج قابل قبولی را نشان داد. به ازای هر دوآستانهی 0,001 و 0,0001 تعداد نمونههایی که به درستی از هم جدا شدند به کل نمونههای جداشده نسبت قابل قبولی (بیش از 80 درصد در مورد نمونههای جداشده به دو بخش) را نشان داد.

نویسندگان

محسن مشکی

دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران