نرمال ساز متون فارسی

سال انتشار: 1388
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 1,574

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CSICC15_252

تاریخ نمایه سازی: 26 مهر 1388

چکیده مقاله:

افزایش کاربردهای زبان فارسی در سامانه های رایانه ای موجب بروز چالشهای جدیدی در حوزهی پردازش متون شده است. یکی از این چالشها مشکل تشخیص صحیح کلمات و بهخصوص کلماتچندقسمتی و مرکب است. اکثر کاربران به فاصله گذاریها توجه نمیکنند و همچنین قواعد دقیقی در نوشتن کلمات چندقسمتی، وجود ندارد که باعث بروز مشکلات متعدد نشانه گذاری (Tokenizing) می شوند. در این مقاله، روشی برای اصلاح نشانه های (Tokens) فارسی ارائه شده است. متون فارسی جهت استفاده در هر سیستم باید دارای کلمات مشخص و مجزا باشند. در روش پیشنهادی برای نشانه گذاری، مشکل تصریفی ها و مرکبها حل میشود و هر کلمه مرکب یا چندقسمتی یک نشانه است. این روش با تهیه ی لغتنامه های مربوط به کلمات مرکب و برخی استثنائات، متون دارای دستورالعملهای متفاوت نوشتاری را به نشانه هایی منطبق بر استاندارد مینگارد. نتایج نهایی، عملکرد بسیار خوب این روش را به صورت مجزا و به عنوان پیش پردازش سایر فعالیتها، بالای 99 % و بسیار موثر نشان میدهند.

نویسندگان

سیدمجید غفوری

دانشگاه آزاد اسلامی واحد مشهد دانشکده مهندسی گروه هوش مصنوعی

سعید راحتی

دانشگاه آزاد اسلامی واحد مشهد دانشکده مهندسی گروه هوش مصنوعی

محمدرضا پهلوان نژآد

دانشگاه فردوسی مشهددانشکده ادبیات و علوم انسانی گروه زبان شناسی

علی عظیمی زاده

دانشگاه آزاد اسلامی واحد مشهددانشکده مهندسی گروه برق

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • L1] دستور خط فارسی (مصوب فرهنگستان زبان و ادب فارسی)، ...
  • I3] کیانی، س، شمس‌فرد، م.. تشخیص مز کلمات و عبارات ...
  • I9] راحتی، س، عظیمی‌زاده، ع.، عرب، م.، برچسب‌زن دستوری واژگان ...
  • بیجن‌خان، م، پیکره‌ی متنی زبان فارسی، اولین کارگاه پژوهشی زبان ...
  • Megerdoomian, K., _ Computational Analysis of the Persian Noun Phrase", ...
  • Sanders, E., Taylor, P., "Using statistical models to predict phrase ...
  • Wide Web. Banff, Canada, 2007. ...
  • workshop on CAASL-3, MT SUMMIT XII, 2009. ...
  • Azimizadeh, A., Arab, M., _ Persian Morphological parser by Using ...
  • Shamsfard, M., Kiani, S., Shahedi, Y., "Step-1: Standard Text Preparation ...
  • Orumchian, F., Tasharofi, S., Amiri, H., Hojjat, H., Raja, F., ...
  • نمایش کامل مراجع