یک روش ترکیبی بیش نمونه گیری جدید، جهت بهبود کارایی رده بندی داده های متنی نامتوازن با نمونه های کم

سال انتشار: 1395
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 833

فایل این مقاله در 20 صفحه با فرمت PDF و WORD قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CITCOMP01_104

تاریخ نمایه سازی: 16 شهریور 1395

چکیده مقاله:

گسترش روزافزون داده های متنی ضرورت پردازش داده های متنی را افزایش داده است. عدم توازن در رده بندی داده های متنی یکی از مواردی است که کارایی را کاهش می دهد. برای برخورد با مشکل عدم توازن روش های متعددی پیشنهاد شده است. برخی از این روش ها عبارت اند از: روش های مبتنی بر داده، مبتنی بر هزینه، مبتنی بر الگوریتم و انتخاب ویژگی. در تحقیقات اخیر روش هایی با استفاده از روش های ترکیبی نیز مورد توجه قرار گرفته اند. در این پژوهش یک روش بیش نمونه گیری جدید پیشنهاد شده است. در روش جدید با استفاده هستان شناسی تعداد نمونه های رده اقلیت افزایش یافته و سپس بیش نمونه گیری تصادفی برای رده اقلیت انجام شده است. در نهایت با استفاده از روش های انتخاب ویژگی، ویژگی های مناسب انتخاب می شوند. روش ترکیبی جدید با استفاده از داده های همشهری مورد آزمایش قرار گرفت. نتایج نشان می دهد که روش ترکیبی روی پیکره همشهری، علی رغم کاهش تعداد ویژگی ها، باعث بهبود نتایج رده بند نایوبیز چندجمله ای و درخت تصمیم C4.5 شده است.

کلیدواژه ها:

نویسندگان

جعفر پورامینی

گروه مهندسی فناوری اطلاعات، دانشکده فنی و مهندسی، دانشگاه قم، قم

بهروز مینایی بیدگلی

دانشکده مهندسی کامپیوتر، دانشگاه علم و صنعت ایران، تهران