مروری بر الگوریتم های حذف داده های پرت و تقویت داده ها در الگوریتم های داده کاوی

سال انتشار: 1397
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 572

فایل این مقاله در 14 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

TECCONF04_083

تاریخ نمایه سازی: 30 شهریور 1398

چکیده مقاله:

یکی از مهمترین اهداف مدل های دسته بندی، افزایش درصد کارایی در کنار کاهش میزان خطا در نمونه های موجود هست. بروز مشکلاتی در دیتاست های آموزشی همانند وجود داده های تکراری و البته نمونه هایی که از آن به عنوان داده های پرت یاد می گردد، می تواند منجر به تشکیل گروهی به نام رده های نامتوازن شود. این گروه که اعضای تشکیل دهنده آن در کلاس های اقلیت، دسته بندی می گردند، دارای میزان خطای دسته بالایی می باشند تا آنجا که کارایی مدل را به شدت کاهش خواهند داد. تاکنون روش های متفاوتی برای از بین بردن مشکل فوق در فاز پیش پردازشی داده ها ارائه گردیده است؛ اما مشکل درست زمانی به وجود می آید که داده های کم تکرار در دیتاست، به عنوان نمونه ای پرت در نظر گرفته نشده و با آنها درست مثل داده های عادی برخورد گردد. برای غلبه بر مشکل فوق، فرا الگوریتم آدابوست ارائه گردیده است که می تواند با در نظر داشتن یک٬ فرضیه، میزان خطای کلاسه بندهای موجود را محاسبه نموده و به هر یک٬بر اساس عملکردشان یک٬ ضریب تقویت اختصاص دهد. این ضرایب به حدی بر روی یک٬ مجموعه داده ای تاثیر می گذارند که پس از گذشت چندین دور از الگوریتم، یک٬ ترکیب خطی از کلاسه بندهای ضعیف به عنوان خروجی نهایی معرفی گردیده و میزان خطای آن را به طرز چشمگیری کاهش می دهد. این روش، مشکلاتی نظیر عدم حساسیت به نویز را دارا هست که مدل های متفاوتی برای غلبه بر آن ارائه گردیده است.

کلیدواژه ها:

دسته بندی ، داده پرت ، کلاسه بندی ، خوشه بندی ، الگوریتم های فرا ابتکاری

نویسندگان

زهرا رحیمی فر

استاد گروه کامپیوتر ، دانشگاه پیام نور شیراز ، شیراز ، ایران