ویرایش کلمات چندبخشی فارسی طبق اصول ترجمه ماشینی آماری

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 985

فایل این مقاله در 11 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CSITM02_055

تاریخ نمایه سازی: 25 بهمن 1394

چکیده مقاله:

زبان فارسی شامل کلماتی است که از چند بخش تشکیل شدهاند و رسمالخط استاندارد این کلمات چندبخشی به این صورت است که اجزاء کلمه چندبخشی جدا از هم نوشته شوند و این اجزاء با نیمفاصله از هم جدا شوند تا یکپارچگی خود را حفظ کنند و بهصورت یک کلمه واحد شناسایی شوند. رعایت این نوع فاصلهگذاری منتج به متنی استاندارد میشود و وجود متن استاندارد تاثیر بسزایی در بالا بردن کارایی سیستمهای پردازش زبان طبیعی بهویژه آنالیز لغوی و نشانهگذاری متن دارد. علاوه بر آن استاندارد بودن متن نقش بسزایی در خوانا و قابل درک بودن متن، که هدف هر نویسندهای است، دارد. در این مقاله روش آماری برایویرایش کلمات چندبخشی فارسی طبق اصول ترجمه ماشینی آماری ارائه شده است و با استفاده از این روش فاصله میان اجزاء کلمات چندبخشی به نیمفاصله ویرایش شده است. ترجمه ماشینی آماری با استفاده از تکنیکهای آماری، متنی را از یک زبان طبیعی به زبانی دیگر ترجمه میکند. به این معنا که، تطبیق کلمات و عبارات را روی یک پیکره موازی از زبان مبدا به زبان مقصد انجام میدهد. در این مقاله با بکارگیری این اصول ترجمه ماشینی آماری و مدل تطبیقIBM مبتنی بر باروی، به تطبیق میان کلمات چندبخشی ویرایشنشده با کلمات چندبخشی ویرایششده پرداخته شده و فاصله میان اجزاء کلمات چندبخشی به نیمفاصله ویرایش شده است. بنابراین در گام اول نیاز به یک پیکره موازی فارسی است که شامل متنی با کلمات چندبخشی ویرایشنشده درسمت مبدا و ویرایششده آن متن در سمت هدف باشد که چنین پیکرهای در این مقاله ایجاد شده است. ارزیابی نتایج حاصل از این روش نشاندهنده صحت و کارایی روش پیشنهاد شده برای ویرایش کلمات چندبخشی فارسی است

نویسندگان

آرزو ارجمندزاده

کارشناسی ارشد دانشگاه صنعتی شاهرود، دانشکده مهندسی کامپیوتر و فناوری اطلاعات

مرتضی زاهدی

استادیار دانشگاه صنعتی شاهرود، مهندسی کامپیوتر و فناوری اطلاعات

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • Bruning, J. (2010); »Aligmment Models and Algorithms for Statistical Machine ...
  • Brown, P., Pietra, V.J.D., Pietra, S.A.D. and Mercer, R.L. (1993); ...
  • Galley, M., Graehl, J., Knight, K., Marcu, D., DeNeefe, S., ...
  • Germann, U., Jabr, M., Knight, K., Marcu, D. and Yamada, ...
  • Koehn, Ph. (2010); Statistical Machine Translation, United Kingdom: CAMBRIDGE UNIVERSITY ...
  • Li, Z., Ca lison-Burch, C., Dyer, C., Ganitkevitch, J., Khudanpur, ...
  • Moore, R.C. (2004); »Improving IB MWord- Alignment Model I«, Proceedings ...
  • Och, F.J. and Ney, H. (2003); »A Systematic Comparison of ...
  • Och, F.J. and Ney, H. (2000); »Improved statistical alignment models«, ...
  • Post, M., Ganitkevitch, J., Orland, L., Weese, J. and Cao, ...
  • Rasooli, M.S., Kholy, A.E. and Habash, N. (2013); »Orthographic and ...
  • Rosenfeld, R. (2000); »Two decades of statistical language modeling: Where ...
  • Seraji, M., Megyesi, B. and Nivre, J. (2012); »A Basic ...
  • Specia, L. (2010); »Fundamental and New Approaches to Statistical Machine ...
  • Shamsfard, M., Jafari, H. and Ilbeygi, M. (2010); »STeP-1: A ...
  • Zaidan, O.F. (2009); »Z-MERT: A Fully Configurable Open Source Tool ...
  • نمایش کامل مراجع