بررسی راهکارهای جستجو و بازیابی معنایی متون فارسی و عربی

سال انتشار: 1402
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 23

فایل این مقاله در 20 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_STIM-9-4_007

تاریخ نمایه سازی: 9 اردیبهشت 1403

چکیده مقاله:

هدف: در دهه های اخیر، موتورهای جستجوی وب به یکی از ابزارهای برجسته و ضروری برای به دست آوردن اطلاعات در جهان متصل شده امروزی تبدیل شده اند. با افزایش حجم اطلاعات موجود در وب، نیاز به یافتن و دسترسی به اطلاعات مرتبط و معنادارتر افزایش یافته است. اما موتورهای جستجوی سنتی، معمولا براساس تطابق کلمات کلیدی و تعداد ورودی های مشابه در متن ها، نتایج را بازیابی می کنند. این روش، در بسیاری از موارد به نتایج ناخوشایند و غیرمرتبط منجر می شود. در زبان فارسی و عربی نیز این مشکلات به دلیل وجود دستور زبان پیچیده آن که در بین کلمات وجود دارد و برای ماشین قابل درک نیست، بیشتر وجود دارد. در این راستا، هدف پژوهش حاضر بررسی و ارائه راهکارهای جستجو و بازیابی معنایی متون فارسی و عربی است. روش: تحقیق حاضر از نوع تحلیل محتوا بوده و برای گردآوری داده ها از روش کتابخانه ای استفاده شده است. به منظور جمع آوری اطلاعات و دستیابی به منابع مورد نیاز، از منابع مختلفی ازجمله مقالات علمی، کتب، پایان نامه ها و گزارش ها استفاده گردید. برای جمع آوری مقالات فارسی، منابعی با تاریخ انتشار از سال ۱۳۹۸، و برای جمع آوری مقالات انگلیسی، منابعی با تاریخ انتشار از سال ۲۰۲۰ به بعد مورد استفاده قرار گرفتند. برای تحلیل داده های جمع آوری شده، از روش تحلیل محتوا استفاده شد. با استفاده از روش های تحلیل و تفسیر داده ها، نتایج حاصل از مطالعات پیشین و یافته های جدید تحقیق مورد بررسی و ارزیابی قرار گرفت. این ارزیابی شامل شناسایی مشکلات و محدودیت های موجود در موتورهای جستجوی معنایی و ارائه پیشنهادها برای بهبود عملکرد آن ها است. یافته ها: در پژوهش های جستجوی معنایی و بازیابی اطلاعات در متون فارسی و عربی، روش های مبتنی بر تحلیل و پردازش معنایی متون با استفاده از مدل های زبانی پیش آموزش دیده، الگوریتم های خوشه بندی مانند K-Means و منابع دانش مانند گراف های دانش به کار گرفته می شوند. همچنین تفاوت ها در مجموعه داده، نحوه استفاده از این مدل ها و الگوریتم ها و روش جستجو و بازیابی معنایی بین کلمات، عملکرد و دقت سیستم را تحت تاثیر قرار می دهد. نتایج حاصل از پژوهش های متعدد، حاکی از آن است که برای جستجو و بازیابی معنای متون، گستره ای از روش ها و الگوریتم ها وجود دارد که می توانند نتایج متفاوتی را ارائه دهند. این نتایج نشان می دهند که هر یک از روش های مورد استفاده، قابلیت بازیابی معنایی متون را دارا هستند و قابلیت های مختلفی در ارائه دقت جستجو دارند. همچنین برخی از روش ها عملکرد بهتری نسبت به سایر روش ها از خود نشان می دهند. این روش ها با استفاده از تکنیک ها و الگوریتم های متفاوتی مانند تحلیل موضوع، شبکه های عصبی، بازنمایی های برداری و غیره، قدرت خوبی در جستجوی معنایی دارند. از طرفی، انتخاب روش مناسب باید با توجه به ماهیت مسئله و ویژگی های داده ها انجام شود. هر مسئله و داده ممکن است نیازهای خاص خود را داشته باشد و برای بهترین عملکرد، انتخاب روش مناسب و تنظیم پارامترهای آن ضروری است. نتیجه گیری: هر کدام از روش های ارائه شده برای مشکلات و ویژگی های زبانی دو زبان فارسی و عربی، راهکارهای منحصربه فردی ارائه می دهند. همچنین روش های مختلف از مدل های زبانی پیش آموزش دیده مانند BERT، الگوریتم های خوشه بندی مانند K-Means و سیستم های بازیابی مبتنی بر منابع دانش مانند گراف های دانش استفاده می کنند. همچنین راهکارهای ارائه شده، مجموعه داده ها و منابع خاصی را برای آموزش و ارزیابی مورد استفاده قرار می دهند. تفاوت ها در مجموعه داده و نحوه استفاده و تنظیم این مدل ها و الگوریتم ها بسیار حائز اهمیت است. برخی از روش ها نیز براساس معنا و روابط معنایی بین کلمات، جستجوی اطلاعات را انجام می دهند، در حالی که برخی دیگر، از روش های مبتنی بر کلمات کلیدی و ریشه ها استفاده می کنند. این تفاوت در روش جستجو و بازیابی می تواند بر عملکرد و دقت سیستم تاثیر داشته باشد. هر روش، عملکرد و دقت متفاوتی در بازیابی اطلاعات دارد که این تفاوت ها به دلیل نحوه استفاده از مدل ها، الگوریتم ها و منابع داده مختلف است.

کلیدواژه ها:

نویسندگان

علی میرعرب

استادیار، گروه اشاعه اطلاعات و تبادل دانش، پژوهشگاه علوم و فرهنگ اسلامی، قم، ایران.

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • باقری، ت.، نوروزی، ی.، اسفندیاری مقدم، ع.، زارعی، ع. (۱۳۹۸). ...
  • https://doi.org/۱۰.۳۰۴۸۴/nastinfo.۲۰۱۹.۲۱۴۵.۱۸۲۰جعفری پاورسی، ح.، حریری، ن.، علی پورحافظی، م.، باب الحوائجی، ...
  • کریمی، ا.، بابایی، م.، حسینی بهشتی، م. (۱۳۹۸). بررسی ویژگی ...
  • https://doi.org/۱۰.۳۵۰۵۰/JIPM۰۱۰.۲۰۱۹.۰۱۵مرتضایی، ل. (۱۳۸۰). مسایل زبان و خط فارسی در ذخیره ...
  • نمایش کامل مراجع