تنوع نگارشی در زبان فارسی و تهیه خودکار دادگان املایی از پیکره زبانی مبتنی بر وب
محل انتشار: اولین کنفرانس بین المللی وب پژوهی
سال انتشار: 1394
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 646
متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
IRANWEB01_032
تاریخ نمایه سازی: 29 شهریور 1394
چکیده مقاله:
در عصر اطلاعات و ارتباطات، وب جایگاه ویزه ای پیدا کرده است، چرا که با کاربران بسیار متنوعی در تعامل بوده و می توان از آن به عنوان یک منبع اطلاعاتی غنی زبانی استفاده کرد. تهیه پیکره مبتنی بر وب می تواند برای پردازش های زبانی منبع مناسبی باشد. ولی استفاده از این منبع ساده نیست. از آنجا که کاربران مختلفی موجب خلق متن در وب می شوند، برخورد با پدیده تنوع نگارشی اجتناب ناپذیر خواهد بود. در این مقاله، به بررسی این پدیده در پیکره زبانی حاصل از وب برای زبان فارسی می پردازیم و با معرفی یک الگوریتم تلاش می کنیم تنوع نگارشی واژه ها را به طور خودکار استخراج کرده و بر اساس آن، دادگانی برای تنوع نگارشی واژه های فارسی تهیه کنیم. سپس با طبقه بندی تنوع نگارشی می پردازیم. این دادگان می تواند برای اتخاذ شیوه های آموزش زبان فارسی به غیر فارسی زبانان و یا در زبان شناسی پیکره ای و پردازش زبان طبیعی مورد استفاده قرار گیرد.
کلیدواژه ها:
پردازش خوداکار زبان فارسی ، زبان شناسی پیکره ای ، پیکره مبتنی بر وب ، فاصله لونشتاین ، تنوع نگارشی ، دادگان ، طبقه بندی
نویسندگان
مسعود قیومی
دانشگاه آزاد برلین، برلین، آلمان
ساغر شریفی
دانشکده زبان های خارجی، دانشگاه آزاد اسلامی واحد کرج، البرز، ایران
مرضیه صناعتی
پژوهشکده زبان شناسی، سازمان میراث فرهنگی، صنایع دستی و گردشگری، تهران، ایران
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :