به کارگیری متنکاوی در ابهام زدایی از هم نویسه های غیر تکیه ای در زبان فارسی

سال انتشار: 1386
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 3,523

فایل این مقاله در 8 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

IDMC01_083

تاریخ نمایه سازی: 20 خرداد 1386

چکیده مقاله:

هم نویسه ها کلمات با ساختار نوشتاری یکسان و تلفظ متفاوت در زبان های مختلف یکی از مهم ترین لایه های ابهام را در متن کاوی ایجاد می کنند . بارزترین کاربرد بازشناسی هم نویسه ها از یکدیگر در سیستم های تبدیل متن به گفتار است . اگرچه تعداد کلمات هم نویسه نسبت به کل کلمات موجود و مورد استفاده در یک زبان بسیار کم است ولی تلفظ ناصحیح هم نویسه ها به جای یکدیگر موجب ابهام زیادی در درک متن می گردد . سیستم های تبدیل متن به گفتار در زبان های مختلف از این مشکل رنج میبرند، ولی در برخی از زبان ها مانند انگلیسی تعداد هم نویسه ها اندک، و مشکلی که ایجاد می کنند نسبتا حاد نیست ولی در برخی از زبان ها مانند زبان فارسی به دلیل ساختار خاص آن، تعداد هم نویسه ها نسبتا زیاد است و مشکلی که ایجاد می کنند قابل اغماض نیست . تعداد زیادی از هم نویسه ها از ساختار زبان ناشی می شوند به عبارت دیگر هم نویسه ها در هر زبان به آن زبان خاص وابسته اند . با این اوصاف می توان دریافت بازشناسی هم نویسه ها نیز تا حدود زیادی وابسته به زبان خواهد بود . در زبان های دیگر روش های متن کاوی زیادی برای ابهام زدایی از هم نویسه ها تجربه شده است ولی تلاشی در این زمینه برای زبان فارسی انجام نشده است . در این مقاله به مبحث بازشناسی هم نویسه های غیر تکیه ای در زبان فارسی می پردازیم . ابتدا مشکلات موجود در بازشناسی خودکار هم نویسه ها را در زبان فارسی بررسی می کنیم و سپس روشی مبتنی بر لیست های تصمیم گیری حاصل از پیشامد های مدل های زبانی هم جواری ) ) n-gram و مدل های زبانی باهم آیی را برای بازشناسی خودکار هم نویسه ها در زبان فارسی به کار می بریم و با ارزیابی نتایج حاصل از این روش کارایی روش را بررسی خواهیم کرد . چون تاکنون مبحث بازشناسی خودکار هم نویسه در زبان فارسی مورد توجه نبوده و فعالیتی در این حوزه انجام نشده است، فعالیت اخیر می تواند راهگشای انجام این امر و به تبع آن بهبود دقت سیستم های تبدیل متن به گفتار فارسی باشد

کلیدواژه ها:

متن کاوی ، هم نویسه ، لیست تصمیم گیری ، مدل زبان هم جواری ، مدل زبان با هم آیی

نویسندگان

بهروز مینایی بیدگلی

استادیار دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر

احمد اکبری

دانشیار دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر

مهدی محسنی

رشته مهندسی کامپیوتر ، دانشگاه علم و صنعت ایران