CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)
عنوان
مقاله

به کارگیری متنکاوی در ابهام زدایی از هم نویسه های غیر تکیه ای در زبان فارسی

اعتبار موردنیاز: ۱ | تعداد صفحات: ۸ | تعداد نمایش خلاصه: ۲۸۰۳ | نظرات: ۰
سال انتشار: ۱۳۸۶
کد COI مقاله: IDMC01_083
زبان مقاله: فارسی
فایل PDF حاوی متن کامل این مقاله در حال حاضر در سایت موجود نمی‌باشد.

راهنمای دانلود فایل کامل این مقاله

متن کامل این مقاله منتشر نشده و درپایگاه سیویلیکا موجود نمی باشد.

منبع مقالات سیویلیکا دبیرخانه کنفرانسها است. برخی از دبیرخانه ها اقدام به انتشار اصل مقاله نمی نمایند. به منظور تکمیل بانک مقالات موجود، چکیده این مقالات در سایت درج می شوند ولی به دلیل عدم انتشار اصل مقاله، امکان ارائه آن وجود ندارد.

خرید و دانلود PDF مقاله

اصل مقاله (فول تکست) فوق منتشر نشده و یا در سایت موجود نیست و امکان خرید آن فراهم نمی باشد

مشخصات نویسندگان مقاله به کارگیری متنکاوی در ابهام زدایی از هم نویسه های غیر تکیه ای در زبان فارسی

  بهروز مینایی بیدگلی - استادیار دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر
  احمد اکبری (شناسه پژوهشگر - Researcher ID: ۱۵۳۲)
دانشیار دانشگاه علم و صنعت ایران، دانشکده مهندسی کامپیوتر
  مهدی محسنی - رشته مهندسی کامپیوتر ، دانشگاه علم و صنعت ایران

چکیده مقاله:

هم نویسه ها کلمات با ساختار نوشتاری یکسان و تلفظ متفاوت در زبان های مختلف یکی از مهم ترین لایه های ابهام را در متن کاوی ایجاد می کنند . بارزترین کاربرد بازشناسی هم نویسه ها از یکدیگر در سیستم های تبدیل متن به گفتار است . اگرچه تعداد کلمات هم نویسه نسبت به کل کلمات موجود و مورد استفاده در یک زبان بسیار کم است ولی تلفظ ناصحیح هم نویسه ها به جای یکدیگر موجب ابهام زیادی در درک متن می گردد . سیستم های تبدیل متن به گفتار در زبان های مختلف از این مشکل رنج میبرند، ولی در برخی از زبان ها مانند انگلیسی تعداد هم نویسه ها اندک، و مشکلی که ایجاد می کنند نسبتا حاد نیست ولی در برخی از زبان ها مانند زبان فارسی به دلیل ساختار خاص آن، تعداد هم نویسه ها نسبتا زیاد است و مشکلی که ایجاد می کنند قابل اغماض نیست . تعداد زیادی از هم نویسه ها از ساختار زبان ناشی می شوند به عبارت دیگر هم نویسه ها در هر زبان به آن زبان خاص وابسته اند . با این اوصاف می توان دریافت بازشناسی هم نویسه ها نیز تا حدود زیادی وابسته به زبان خواهد بود . در زبان های دیگر روش های متن کاوی زیادی برای ابهام زدایی از هم نویسه ها تجربه شده است ولی تلاشی در این زمینه برای زبان فارسی انجام نشده است .
در این مقاله به مبحث بازشناسی هم نویسه های غیر تکیه ای در زبان فارسی می پردازیم . ابتدا مشکلات موجود در بازشناسی خودکار هم نویسه ها را در زبان فارسی بررسی می کنیم و سپس روشی مبتنی بر لیست های تصمیم گیری حاصل از پیشامد های مدل های زبانی هم جواری ) ) n-gram و مدل های زبانی باهم آیی را برای بازشناسی خودکار هم نویسه ها در زبان فارسی به کار می بریم و با ارزیابی نتایج حاصل از این روش کارایی روش را بررسی خواهیم کرد . چون تاکنون مبحث بازشناسی خودکار هم نویسه در زبان فارسی مورد توجه نبوده و فعالیتی در این حوزه انجام نشده است، فعالیت اخیر می تواند راهگشای انجام این امر و به تبع آن بهبود دقت سیستم های تبدیل متن به گفتار فارسی باشد

کلیدواژه‌ها:

متن کاوی، هم نویسه، لیست تصمیم گیری، مدل زبان هم جواری، مدل زبان با هم آیی .

کد مقاله/لینک ثابت به این مقاله

برای لینک دهی به این مقاله، می توانید از لینک زیر استفاده نمایید. این لینک همیشه ثابت است و به عنوان سند ثبت مقاله در مرجع سیویلیکا مورد استفاده قرار میگیرد:
https://www.civilica.com/Paper-IDMC01-IDMC01_083.html
کد COI مقاله: IDMC01_083

نحوه استناد به مقاله:

در صورتی که می خواهید در اثر پژوهشی خود به این مقاله ارجاع دهید، به سادگی می توانید از عبارت زیر در بخش منابع و مراجع استفاده نمایید:
مینایی بیدگلی, بهروز؛ احمد اکبری و مهدی محسنی، ۱۳۸۶، به کارگیری متنکاوی در ابهام زدایی از هم نویسه های غیر تکیه ای در زبان فارسی، اولین کنفرانس داده کاوی ایران، تهران، دانشگاه صنعتی امیرکبیر، موسسه پژوهشی داده پردازان گیتا، https://www.civilica.com/Paper-IDMC01-IDMC01_083.html

در داخل متن نیز هر جا که به عبارت و یا دستاوردی از این مقاله اشاره شود پس از ذکر مطلب، در داخل پارانتز، مشخصات زیر نوشته می شود.
برای بار اول: (مینایی بیدگلی, بهروز؛ احمد اکبری و مهدی محسنی، ۱۳۸۶)
برای بار دوم به بعد: (مینایی بیدگلی؛ اکبری و محسنی، ۱۳۸۶)
برای آشنایی کامل با نحوه مرجع نویسی لطفا بخش راهنمای سیویلیکا (مرجع دهی) را ملاحظه نمایید.

علم سنجی و رتبه بندی مقاله

مشخصات مرکز تولید کننده این مقاله به صورت زیر است:
نوع مرکز:
تعداد مقالات: ۲۷۷۱۱
در بخش علم سنجی پایگاه سیویلیکا می توانید رتبه بندی علمی مراکز دانشگاهی و پژوهشی کشور را بر اساس آمار مقالات نمایه شده مشاهده نمایید.

مدیریت اطلاعات پژوهشی

اطلاعات استنادی این مقاله را به نرم افزارهای مدیریت اطلاعات علمی و استنادی ارسال نمایید و در تحقیقات خود از آن استفاده نمایید.

مقالات مرتبط جدید

شبکه تبلیغات علمی کشور

به اشتراک گذاری این صفحه

اطلاعات بیشتر درباره COI

COI مخفف عبارت CIVILICA Object Identifier به معنی شناسه سیویلیکا برای اسناد است. COI کدی است که مطابق محل انتشار، به مقالات کنفرانسها و ژورنالهای داخل کشور به هنگام نمایه سازی بر روی پایگاه استنادی سیویلیکا اختصاص می یابد.
کد COI به مفهوم کد ملی اسناد نمایه شده در سیویلیکا است و کدی یکتا و ثابت است و به همین دلیل همواره قابلیت استناد و پیگیری دارد.