تنوع نگارشی در زبان فارسی و تهیه خودکار دادگان املایی از پیکره زبانی مبتنی بر وب

سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 646

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IRANWEB01_032

تاریخ نمایه سازی: 29 شهریور 1394

چکیده مقاله:

در عصر اطلاعات و ارتباطات، وب جایگاه ویزه ای پیدا کرده است، چرا که با کاربران بسیار متنوعی در تعامل بوده و می توان از آن به عنوان یک منبع اطلاعاتی غنی زبانی استفاده کرد. تهیه پیکره مبتنی بر وب می تواند برای پردازش های زبانی منبع مناسبی باشد. ولی استفاده از این منبع ساده نیست. از آنجا که کاربران مختلفی موجب خلق متن در وب می شوند، برخورد با پدیده تنوع نگارشی اجتناب ناپذیر خواهد بود. در این مقاله، به بررسی این پدیده در پیکره زبانی حاصل از وب برای زبان فارسی می پردازیم و با معرفی یک الگوریتم تلاش می کنیم تنوع نگارشی واژه ها را به طور خودکار استخراج کرده و بر اساس آن، دادگانی برای تنوع نگارشی واژه های فارسی تهیه کنیم. سپس با طبقه بندی تنوع نگارشی می پردازیم. این دادگان می تواند برای اتخاذ شیوه های آموزش زبان فارسی به غیر فارسی زبانان و یا در زبان شناسی پیکره ای و پردازش زبان طبیعی مورد استفاده قرار گیرد.

کلیدواژه ها:

پردازش خوداکار زبان فارسی ، زبان شناسی پیکره ای ، پیکره مبتنی بر وب ، فاصله لونشتاین ، تنوع نگارشی ، دادگان ، طبقه بندی

نویسندگان

مسعود قیومی

دانشگاه آزاد برلین، برلین، آلمان

ساغر شریفی

دانشکده زبان های خارجی، دانشگاه آزاد اسلامی واحد کرج، البرز، ایران

مرضیه صناعتی

پژوهشکده زبان شناسی، سازمان میراث فرهنگی، صنایع دستی و گردشگری، تهران، ایران

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • _ 1. _ دستور خط فارسی، [3] ...
  • "Challenges in developing Persian corpora from on-line resources", In Proceedings ...
  • Processing, Singapore, pp: 108-113, 2009. [4] ...
  • and Mahmood Bijankhan, _ study of corpus development for Persian", ...
  • capable of correcting deletions, insertions, and reversals", Soviet Physics Doklady, ...
  • Manouchehr Kouhestani and Amirsaeid Moloodi, _ evelopment of a Persian ...
  • University, October 31-November 1, pp. 73-79, 2013. [8] ...
  • Joakim Nivre, _ basic language resgurce kit for Persian", In ...
  • _ problems in Persian text processing", _ Proceedings of the ...
  • fundamental tools for Persian Text Processing", In Proceedings of the ...
  • نمایش کامل مراجع