CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

ایجاد پایگاه داده متون فارسی مناسب کاربردهای ابهام زدایی معنایی کلمات

عنوان مقاله: ایجاد پایگاه داده متون فارسی مناسب کاربردهای ابهام زدایی معنایی کلمات
شناسه ملی مقاله: CSITM02_205
منتشر شده در دومین همایش ملی مهندسی رایانه و مدیریت فناوری اطلاعات در سال 1394
مشخصات نویسندگان مقاله:

محمدرضا محمودوند - دانشجوی کارشناسی ارشد هوش مصنوعی دانشگاه صنعتی مالک اشتر.
مریم حورعلی - استادیار و عضو هیات علمی دانشگاه صنعتی مالک اشتر، مجتمعICT

خلاصه مقاله:
یافتن یک مجموعه دادگان مناسب برای کاربردهای پردازش زبان طبیعی یکی از چاال هاای پای روی پژوهشگران این حوزه میباشد. این مشکل در زبانهای غیر لاتین و بخصوص فارسی نیز بیش از پیش بزرگ جلوه میکند. وجود یک مجموعه دادهمناسب که بتوان از آن در توسعه برنامههای کاربردی حوزه پردازش زبان استفاده کرد، نتایج بدست آمده را قابل استناد نموده و امکان مقایسه و بررسی دقیق پژوه ها میسر خواهد شد. در این مقاله روند استخراج یاک مجموعه دادگان استاندارد به زبان فارسی ارائه شده است. این مجموعه تنها برای استفاده در پژوه هایی زوزه ابهام زدایی معنایی کلماات فارسی کاربرد خواهدداشت. اسناد موجود که شامل کلمات هدف مبهم میباشد توسط یک ربات خزنده گردآوری شده و پس از پس پردازش در بانک اطلاعاتی دادگان فارسی کلمات مبهم ثبت میگردد. کلمه هدف در این پژوه کلمه مبهم متداول شیر بارای استخراج متون فارسی مناسب استفاده شده است. در نهایت یک چهارچوب برای ایجاد پیکره مناسب و همچنین کاربردی برای استفاده در مسائل ابهام زدایی معنایی کلمات ارائه میگردد

کلمات کلیدی:
پردازش زبان طبیعی، ابهام زدایی معنایی کلمات، استخراج اطلاعات، پیکره فارسی، ساخت پیکره آزمایش

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/422966/