CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

گواهی نمایه سازی مقاله تعیین مرز کلمات و عبارات در متون نوشتاری فارسی

عنوان مقاله: تعیین مرز کلمات و عبارات در متون نوشتاری فارسی
شناسه (COI) مقاله: ACCSI14_196
منتشر شده در چهاردهمین کنفرانس سالانه انجمن کامپیوتر ایران در سال ۱۳۸۷
مشخصات نویسندگان مقاله:

سهیلا کیانی - آزمایشگاه پردازش زبان طبیعی، دانشکده مهندسی برق و کامپیوتر دانشگاه ش
مهرنوش شمس فرد - آزمایشگاه پردازش زبان طبیعی، دانشکده مهندسی برق و کامپیوتر دانشگاه ش

خلاصه مقاله:
قطعه بندی متون نوشتاری به تشخیص مرز سازه های متن شامل جملات، عبارات و گروه های نحوی و کلمات در متن می پردازد. این کار در زبان های طبیعی مختلف با توجه به ویژگی های نوشتاری و رسم الخط آن زبان دارای مشکلات متفاوتی است. رویکردهای پیشنهادی در دو قالب اصلی قطعه بندی کلمات و عبارات دسته بندی می شوند. زبان فارسی به دلیل وجود رسم الخط های متفاوت، جملات بدون ترتیب نسبتا زیاد و افعال مرکب در قطعه بندی دارای ابهاماتی است. در این مقاله، به جمع آوری و تشریح عوامل موثر در قطعه بندی کلمات و عبارات در زبان های مختلف به ویژه زبان فارسی می پردازیم و با ارائه تحلیلی بر راهکارهای مورد استفاده، سیستم هایی برای قطعه بندی کلمات و عبارات فارسی به ترتیب با دقت های بیش از 68% و حدود 80% معرفی می نماییم. سیستم قطعه بندی عبارات ارائه شده، نخستین سیستم مبتنی بر یادگیری با شبکه عصبی برای برچسب زنی IOB متون فارسی است.

کلمات کلیدی:
پردازش زبان طبیعی، قطعه بندی، کلمات املائی، مرز کلمات و عبارات، یادگیری ماشینی، شبکه عصبی

صفحه اختصاصی مقاله و دریافت فایل کامل: https://www.civilica.com/Paper-ACCSI14-ACCSI14_196.html