مروری بر روش های طبقه بندی متون بین زبانی

سال انتشار: 1397
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 517

فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CEITCONF02_114

تاریخ نمایه سازی: 27 اردیبهشت 1398

چکیده مقاله:

طبقه بندی متون بین زبانی (CLTC)، همان کارکرد طبقه بندی اسناد متنی به زبان های مختلف در علم طبقه بندی دسته هاست. این مقاله ابتدا رویکرد CLTC را مطرح می کند که یک مدل تقطیر را ایجاد کرده تا یک چارچوب پیشنهادی برای مقایسه مدل را توسعه دهد. در این روش با استفاده از پیش بینی های احتمالی نرم در اسناد مربوط به زبان های غنی و در یک مجموعه موازی از اسناد، طبقه بندی ها بصورت موفقیت آمیز برای زبان های جدید بررسی می شوند. همچنین تکنیک انطباق ویژگی برای کاهش یافتن عدم تطابق تقطیر بکار می رود. این رویکرد، مزایا یا عملکرد قابل مقایسه ای با دیگر روش های مدرن دارد. همچنین مشکل طبقه بندی بین زبانی متن را از آن جهت بررسی می کنیم که در اسناد در زبان های مختلف بایستی با توجه به درخت طبقه بندی مشابه، دسته بندی شوند. ما راه حل های مقرون به صرفه و کاربردی را برای طبقه بندی بین زبانی متن خودکار توصیف می کنیم. هم در مورد تعدادی از نمونه های آموزشی که برای هر زبان جدید در دسترس هستند و هم برای برخی از زبان هایی که هیچ نمونه ی آموزشی در دسترسی ندارند. نتایج تجربی طبقه بندی دوزبانه مجموعه ILO با استفاده از آموزش دوزبانی، ترجمه واژگان و ترجمه مبتنی بر پروفایل بدست آمده است. همانطور که می دانیم، بیشتر موتورهای جستجوی سازمانی، طبقه بندی های داده کاوی را برای دسته بندی اسناد بکار می گیرند. همراه با جهانی شدن از بعد اقتصادی، بسیاری از شرکت ها در صدد فعال سازی شعبات خارجی خود هستند. این شعبات از زبان های محلی در اسناد و ایمیل ها استفاده می کنند. زمانی که یک روش طبقه بندی به منظور طبقه بندی این اسناد به زبان دیگر تلاش می کند، مدل پیشین فراگرفته تک زبانی دیگر کار نخواهد کرد. بهترین راه حل، ترجمه این اسناد از زبانی به زبان دیگر بوسیله مترجم ماشینی است اما ایراد این راه حل، عدم دقت ترجمه ماشینی است و همچنین این کار از نظر اقتصادی مناسب نیست. رویکرد دیگر، ترجمه ویژگی بدست آمده از یک زبان به زبان دیگر و استفاده از آن ها به منظور طبقه بندی زبان دیگر است. این رویکرد مناسب است اما با عدم دقت ترجمه و خلاء فرهنگی زبانی روبرو می شود. در این مقاله در تلاشیم تا روش جدیدی دیگری را نیز ارایه کنیم که با مدل ترجمه و ترجمه اسناد مطابقت داشته باشد. این روش مزایای بهتری از نظر کارکرد بین ترجمه اسناد و روش های ترجمه مدل ارایه می نماید. در ادامه برآنیم تا روش های مذکور در طبقه بندی متون بین زبانی را بررسی کرده و ویژگی های این روش ها را بررسی و مقایسه می کنیم.

نویسندگان

زهرا ظفرخواه

دانشجوی کارشناسی ارشد، ایران، ارومیه، دانشگاه صنعتی ارومیه، دانشکده مهندسی فناوری اطلاعات و کامپیوتر

جعفر طهمورث نژاد

استادیار، ایران، ارومیه، دانشگاه صنعتی ارومیه، دانشکده مهندسی فناوری اطلاعات و کامپیوتر