اثربخشی ترجمه ماشینی در فرآیند پردازش زبان؛ بهره گیری از قرینه سیاق در معنایابی واژگان قرآن
محل انتشار: فصلنامه زبان کاوی کاربردی، دوره: 6، شماره: 2
سال انتشار: 1402
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 126
فایل این مقاله در 30 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
JR_IERF-6-2_005
تاریخ نمایه سازی: 27 خرداد 1402
چکیده مقاله:
به فرآیند برگرداندن مطلبی از زبان مبدا به زبان مقصد که با یافتن هم ارزهای معناشناختی میان دو زبان صورت میگیرد، ترجمه میگویند. مهمترین مشکلات ترجمه، ابهاماتی است که در واژگان و ساختار جملات وجود دارند. در یک تقسیمبندی، پنج نوع مهم ابهام واژگانی (ابهامهای مقولهای، واژههای همآوا، واژههای همنویسه، چند معنایی و ابهام انتقالی) و دو نوع مهم ابهام ساختاری (ابهامهای ساختاری واقعی و ابهامهای سیستمی) وجود دارد. ترجمه ماشینی (Machine translation: MT) که بخشی از حوزه پردازش زبان طبیعی(Natural Language Processing: NLP) مبتنی بر کامپیوتر در زبانشناسی رایانهای و هوش مصنوعی بوده به عنوان یکی از تکنیک های خودکاری است که متن بدون ساختار را به داده های ساختاری تبدیل می کند با تبدیل متن به اطلاعات، توانسته است تحلیل های بیشتری را به داده ها اعمال کرده تا اطلاعات مفیدی استخراج شود. در این نوشتار که به روش کتابخانهای تدوین شده، جهت رفع مسائل پیرامون معنای واژگان در ترجمه ماشینی قرآن، طرحی به صورت نظری پیشنهاد شده که هدف آن کمک به فهم بهتر معنای واژگان قرآن، با بهرمندی از قرینه سیاق و بافت عبارت است. در روش پیشنهادی با بهرهمندی از قاعده سیاق و تکنیکهای متن کاوی، و با استناد به آن، واژه معادل مناسبتری در زبان مقصد برگزیند. در این طرح، سیاق را در مقیاس کلمات دانسته که میتوان آن را به شرط احراز شرایط به انواع دیگر توسعه داد. به طور خلاصه این طرح دو مرحله دارد: اولویتبندی (وزندهی) واژگان همجوار هم ورودی (هر واژه در محدوده آیاتی که در مورد نزول یکباره آنها اتفاق نظر وجود دارد) و سپس مقایسه با کلماتی که اشتراک لفظی (چندمعنا) دارند و نیز مقایسه هم نظیران یک واژه با هم نظیران سایر واژگان (مترادفیابی). می باشد. برای دقیقتر شدن نتایج میتوان مشخصات بیشتری از کلمات را به صورت دستی تهیه نمود، جداولی شامل مواردی چون مکی یا مدنی بود آیات، ترتیب نزول سوره، مفاهیم و تعابیری که در معنای کلمات قرآن در فرهنگ لغاتی چون لسان العرب ابن منظور و فرهنگ لغت راغب اصفهانی آمده است و غیره. برای بدست آوردن دادههای ورودی از تکنیکهای نمایهسازی استفاده میشود. در مرحله پیش پردازش باید دادههایی که دارای اهمیت کمتری است(Stop Words) (مانند"الذی"، "التی"، "لم"،"کان"،" کانما" و غیره) حذف شود تا خروجی بهتری بدست آید. برای تغییر شکل داده میتوان اعراب را حذف کرد تا کدنویسی راحتتر انجام شود، برای کاهش نمونه نیز میتوان از ریشه میانوندی کلمات استفاده نمود. برای اینکه با استناد به قاعده سیاق، برای یکایک کلماتی که به عنوان ورودی مورد پردازش قرار میگیرند، رکوردی از مشخصات تهیه نمود، لازم است ابتدا واحد سازی(Tokenizer) صورت گیرد، در دادههای اولیه تهیه شده، در کل مجموعه آیات ورودی، بر اساس دو معیار قرابت مکانی و فراوانی تکرار، به هر کلمه وزنی اختصاص یابد. هر چه کلمات به کلمه مورد نظر نزدیکتر و یا بیشترتکرار شده باشد، وزن بیشتری به آن اختصاص داده می شود که معرف ارتباط معنایی قویتر آنان است و برعکس. طبیعتا کلماتی که در یک آیه قرار دارند (شماره آیه یکسانی دارند) نسب به کلماتی که در آیات دیگر و فاصله دورتر قرار دارند از ظریب تاثیر بیشتری برخوردار هستند. در سنجش معیار فراوانی: برای نشان دادن اهمیت کلمه در سوره از فراوانی وزنی (TF/IDF Weight) استفاده میشود، مقدار TF/IDF به تناسب تعداد تکرار کلمه در هر سوره یا مجموعه آیات ورودی، افزایش می یابد و توسط تعداد آیاتی که در سوره هستند و شامل کلمه نیز می باشند متعادل می شود. در نهایت این نتیجه حاصل آمد که از همجواری کلمات و روابط معنایی بین آنها و با کمک تکنیکهای متن کاوی، فهم بیشتری از واژگان حاصل شده که این مهم گزینش مناسبتر واژه معادل در زبان مقصد را منجر می شود.
کلیدواژه ها:
Computational Linguistics ، Sociology of Language ، Machine Translation ، Qur'an ، Context Correlation ، Finding Equivalents for the Words ، زبان شناسی رایانه ای ، جامعه شناسی زبان ، ترجمه ماشینی ، قرآن ، قرینه سیاق ، معادل یابی واژگان
نویسندگان
زینب شمس
PhD student of Qur'anic and Hadith Sciences, Faculty of Theology, Kashan University, Iran
سپیده چهره
Master of Artificial Intelligence, Islamic Azad University Science and Research Branch, Iran
مراجع و منابع این مقاله:
لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :