استخراج بردارهای همبستگی واژ ههای فارسی در یک پیکر ه ی متنی بزرگ از اخبار

سال انتشار: 1387
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,655

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IDMC02_096

تاریخ نمایه سازی: 14 فروردین 1388

چکیده مقاله:

یک دسته از اطلاعاتی که در بسیاری از کاربردهای مت نکاوی اهمیت فراوانی دارد، وابستگی بین اجزای متن است. دو دست هی مهم از وابستگی های متنی عبارتند از: همبستگی (cohesion) و ارتباط معنایی (Coherence) پدیده ی همبستگی، معادل با این واقعیت است که بعضی عناصر متنی (مانند واژه ها) تمایل دارند که در کنار هم ظاهر شوند، در حالی که پدیده ی ارتباط معنایی بر این حقیقت اشاره دارد که یک ارتباط هوشمندانه بین جملات متن وجود دارد. شناسایی همبستگی ساده تر از ارتباط معنایی است، چرا که با بررسی فراوانی واژه ها و وقوع همزمان آنها قابل شناسایی است. در این مقاله، یک روش جدید برای شناسایی خودکار همبستگی میان واژه های فارسی ارائه شده است. فرآیند استخراج همبستگی واژه ها شامل این مراحل است: پیش پردازش و یکسان سازی متن، حذف واژه های عمومی، شناسایی عناصر متنی چندتایی (عناصری متنی که از بیش از یک واژه تشکیل شده اند و در کنار هم معنای جدیدی دارند)، بدست آوردن بردارهای واژه- محتوی (word-context) و تولید بردارهای همبستگی به ازای هر یک از اسم های ساده و مرکب. پیاده سازی روش پیشنهادی برای استخراج بردارهای همبستگی روی یک مجموعه ی بزرگ از اخبار جمع آوری شده از خبرگزاری ایسنا نتایج قابل قبولی را نشان می دهد.

نویسندگان

محسن مشکی

دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران

مرتضی آنالویی

دانشکده مهندسی کامپیوتر دانشگاه علم و صنعت ایران