طبقه بندی متون فارسی با استفاده از ماشین بردار پشتیبان و فازی

سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 550

فایل این مقاله در 15 صفحه با فرمت PDF و WORD قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CITCOMP02_171

تاریخ نمایه سازی: 7 اسفند 1396

چکیده مقاله:

با رشد سریع و روز افزون اطلاعات، طبقه بندی مستندات یکی از ابزارهای کلیدی برای سازماندهی و مدیریت داده های متنی به شمار می آید که در کاربردهایی مانند تقسیم بندی اخبار، نامه های الکترونیکی و اطلاعات آنلاین مورد استفاده قرار می گیرد. در واقع طبقه بندی متون، انتساب یک سند نامشخص به کلاس های از پیش تعریف شده ی اسناد است و هر سند می تواند به یک یا چند کلاس تعلق داشته باشد. با وجود کارهای خوب صورت گرفته در زمینه متون فارسی، هنوز برخی از چالش ها به صورت حل نشده باقی مانده اند. از جمله چالش های اساسی در حوزه طبقه بندی متون فارسی، نبود روش استخراج ویژگی مناسب و متناسب با تکنیک های موجود طبقه بندی دقیق است.ما در این مقاله، یک روش جدید طبقه بندی برای اسناد فارسی با استفاده از ترکیب روش ماشین بردار پشتیبان و تصمیم گیری چندمعیاره فازی ارایه کرده ایم. معیارهای موثر در طبقه بندی اسناد، سه معیار فراوانی یک کلمه در کل اسناد پیکره، نسبت تعداد تکرار یک کلمه در یک سند به تعداد کل کلمات آن سند و عضویت یک کلمه در اسناد پیکره هستند. به منظور ارزیابی کارایی روش پیشنهادی، نتایج آزمایش های شبیه سازی با روش طبقه بندی بیزین ساده و نزدیکترین همسایه مقایسه شده اند. نتایج بدست آمده از اجرای روش پیشنهادی بر روی مجموعه استاندارد همشهری در چهار حوزه ورزشی، سیاسی، علمی و اقتصادی بیانگر بهبود دقت، فراخوانی و میزان خطاست.

نویسندگان

فرشاد حسن عمویی

گروه کامپیوتر، دانشکده فنی و مهندسی، واحد شبستر، دانشگاه آزاد اسلامی، شبستر، ایران

شاهین اکبرپور

استادیار گروه کامپیوتر، دانشکده فنی و مهندسی، واحد شبستر، دانشگاه آزاد اسلامی، شبستر، ایران