مقایسه روش های یادگیری ماشین در تحلیل داده های نامتوازن

جواد, نبیان; حمید, رستگاری

مقایسه روش های یادگیری ماشین در تحلیل داده های نامتوازن

عنوان مقاله: مقایسه روش های یادگیری ماشین در تحلیل داده های نامتوازن
شناسه ملی مقاله: NEEC07_074
منتشر شده در اولین کنفرانس بین المللی و هفتمین کنفرانس ملی مهندسی برق و سیستم های هوشمند در سال 1402

مشخصات نویسندگان مقاله:

جواد نبیان - دانشکده مهندسی کامپیوتر، دانشگاه آزاد اسلامی، واحد نجف آباد، نجف آباد، ایران
حمید رستگاری - استادیار، دانشکده مهندسی کامپیوتر، دانشگاه آزاد اسلامی، واحد نجف آباد، نجف آباد، ایران

خلاصه مقاله:

داده ها نامتوازن، داده هایی هستند که توزیع کلاس ها در مجموعه داده ها یکنواخت نیست. به دلیل این که فراوانی برخی از کلاس ها پایین است ممکن است در روش های طبقه بندی جزء داده های پرت شناخته شود. این مطالعه به بررسی تکنیک های مدیریت داده های نامتوازن و همچنین تاثیر آن بر میزان صحت در طبقه بندی می پردازد. در این مطالعه از چندین الگوریتم یادگیری ماشین نظیر(جنگل تصادفی، درخت تصمیم، ماشین بردار پشتیبان، نزدیکترین همسایه، تقویت گرادیان درخت تصمیم تصادفی) استفاده شده است و برخورد این الگوریتم ها با داده های نامتوازن و متوازن مورد بررسی و آزمایش قرار گرفته است، همچنین لازم به ذکر است داده ها با دو روش بیش نمونه گیری و کم نمونه گیری متوازن شده اند و هر بار بصورت جداگانه به الگوریتم های یادگیری ماشین داده شده است و صحت الگوریتم ها و میزان F۱-Score مورد سنجش قرارگرفته است. علاوه برصحت الگوریتم در مواجه با داده های متوازن و نامتوازن دو روش متوازن کردن داده ها یعنی بیش نمونه گیری و کم نمونه گیری هم مورد ارزیابی قرارگرفته است، در نهایت الگوریتم جنگل تصادفی بالاترین صحت را برای داده های متوازن و نامتوازن بدست آورد، و همچنین متوازن کردن داده ها با روش بیش نمونه گیری تاثیر بالاتری در صحت نهایی الگوریتم را نشان می دهد. نتیجه نهایی این مطالعه را می توانید در قسمت ارزیابی و نتایج مشاهده نمایید.

کلمات کلیدی:

داده های متوازن ، داده های نامتوازن ، طبقه بندی ، یادگیری ماشین

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/1963446/