مدل سازی عبارات ظاهرنشده با استفاده از یادگیری عمیق

سال انتشار: 1398
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 515

فایل این مقاله در 7 صفحه با فرمت PDF و WORD قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

SPIS05_007

تاریخ نمایه سازی: 7 بهمن 1398

چکیده مقاله:

عبارت کلیدی نشان دهنده و بیانگر مفاهیم اساسی برای یک متن است. در بسیاری از کاربردهای پردازش متن، نیاز به استخراج عبارات کلیدی با کیفیت مناسب است. در روش های قدیمی مدل سازی متن، معانی و مفاهیم مرتبط با متن اهمیت ویژه ای نداشته اند. درنتیجه ساختار اصلی مدل، بر اساس کلمات ظاهرشده در سند شکل گرفته است. طبق تحقیقات اخیر، اسناد هم خوشه اشتراک مناسبی در عبارات کلیدی مستقیما ظاهرنشده در سند متنی دارند. در این تحقیق، مدلی جهت استخراج مفاهیم اساسی متن با استفاده از تخمین متون مشابه و اضافه کردن عبارات کلیدی به لایه های مخفی شبکه عمیق، ارائه شده است. این مدل سازی بر اساس تشابه خوشه ای با یک شبکه عمیق شکل گرفته است. این ساختار، سعی در کشف عبارات ظاهرنشده و سپس تخمین بهتر عبارات کلیدی با یک RNN را دارد. این روش به طور قابل توجهی مشکل عدم بازنمایی مفاهیم اساسی و عدم وجود عبارات کلیدی به طور مستقیم را حل می کند. روش پیشنهادی روی چهار دادگان متداول در این حوزه آزمایش شده است. نتایج این آزمایش ها، بهبود حدود 14 درصدی نسبت به روش های معمول TF-IDF, KEA و RNN را نشان می دهد.

کلیدواژه ها:

استخراج عبارات کلیدی – شبکه عصبی عمیق – یادگیری دنباله به دنباله – خوشه بندی.

نویسندگان

امین قاضی زاهدی

دانشجوی دکتری، دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی شاهرود

مرتضی زاهدی

استادیار، دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی شاهرود

منصور فاتح

استادیار، دانشکده مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه صنعتی شاهرود