تعیین مرز کلمات و عبارات در متون نوشتاری فارسی
محل انتشار: چهاردهمین کنفرانس سالانه انجمن کامپیوتر ایران
سال انتشار: 1387
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 2,377
فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
این مقاله در بخشهای موضوعی زیر دسته بندی شده است:
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
ACCSI14_196
تاریخ نمایه سازی: 26 مهر 1387
چکیده مقاله:
قطعه بندی متون نوشتاری به تشخیص مرز سازه های متن شامل جملات، عبارات و گروه های نحوی و کلمات در متن می پردازد. این کار در زبان های طبیعی مختلف با توجه به ویژگی های نوشتاری و رسم الخط آن زبان دارای مشکلات متفاوتی است. رویکردهای پیشنهادی در دو قالب اصلی قطعه بندی کلمات و عبارات دسته بندی می شوند. زبان فارسی به دلیل وجود رسم الخط های متفاوت، جملات بدون ترتیب نسبتا زیاد و افعال مرکب در قطعه بندی دارای ابهاماتی است.
در این مقاله، به جمع آوری و تشریح عوامل موثر در قطعه بندی کلمات و عبارات در زبان های مختلف به ویژه زبان فارسی می پردازیم و با ارائه تحلیلی بر راهکارهای مورد استفاده، سیستم هایی برای قطعه بندی کلمات و عبارات فارسی به ترتیب با دقت های بیش از 68% و حدود 80% معرفی می نماییم. سیستم قطعه بندی عبارات ارائه شده، نخستین سیستم مبتنی بر یادگیری با شبکه عصبی برای برچسب زنی IOB متون فارسی است.
کلیدواژه ها:
نویسندگان
سهیلا کیانی
آزمایشگاه پردازش زبان طبیعی، دانشکده مهندسی برق و کامپیوتر دانشگاه ش
مهرنوش شمس فرد
آزمایشگاه پردازش زبان طبیعی، دانشکده مهندسی برق و کامپیوتر دانشگاه ش
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :