مطالعه و دسته بندی پیکره های متنی برچسب دار در زبان فارسی

سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 997

فایل این مقاله در 23 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ITCT04_200

تاریخ نمایه سازی: 17 آبان 1396

چکیده مقاله:

دسترسی به دادههای زبانی شامل پیکرههای متنی، پیکرههای درختی و واژگانها یکی از نیازمندیهای اولیه و ملزومات مهم در روشهای آماری در پردازش زبان طبیعی و تحلیل احساسات و نظرات کاربران در وب و اندیشهکاوی، است و عدم دسترسی مناسب به چنین دادههایی، مشکلات فراوانی را پیش پای پژوهشگران علوم دادهو هوش مصنوعی قرار میدهد. بسیاری از زبانشناسان در پژوهشهای خود از پیکرههای زبانی بهره میگیرند و به بررسی ویژگیها و کشف قواعد زبان از طریق اطلاعات موجود در دادههای زبانی میپردازند . در این مقاله معرفی جامعوکاملی از پیکره ها و پایگاه داده های متنی زبان فارسی دارای برچسب از ابتدا تا کنون ارایه شده است، که در مقایسه با تحقیقات انجام شده ی قبلی بسیار کامل تر و دقیق تر می باشد.در این بررسی به مقایسه پیکره ها، ذکر کاربردهای هر یک از آنها، مزایا و معایب، روش ساخت و ذکر خصوصیات آنها، پرداخته شده است.این مقاله می تواندبرای پژوهش های مربوط به، تصمیم گیری ها، تحلیل احساسات و نظرات کاربران در زبان فارسی استفاده شود و در روش های یادگیری ماشین، در انتخاب پیکره های مورد نیاز در تحقیقات مرتبط به کار رود و با کشف کمبودها و چالش های موجود در این حوزه، برای یافتن موضوعات تحقیقات مورد نیاز در آینده مفید باشد.

نویسندگان

آزاده السادات خدایی

دانشگاه آزاد اسلامی واحد کرج

اعظم باستان فرد

دانشگاه آزاد اسلامی واحد کرج