طبقه بندی داده های نامتوازن در تشخیص اولیه بیماری های پستان با روش های آدابوست، شبکه عصبی احتمالی و K تا نزدیکترین همسایه

سال انتشار: 1395
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 563

فایل این مقاله در 12 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_IJBD-9-2_001

تاریخ نمایه سازی: 18 اسفند 1397

چکیده مقاله:

سرطان پستان یکی از سرطان های شایع در ایران بوده و هرگونه اقدام تشخیصی به هنگام در این مورد میتواند جان بسیاری از مبتلایان به این سرطان را نجات بخشد. هدف از این پژوهش طبقه بندی داده های نامتوازن مربوط به بانوان مراجعه کننده به کلینیک پژوهشکده سرطان پستان جهاد دانشگاهی به منظور تعیین وضعیت ایشان و طبقه بندی نرمال و یا غیرنرمال بودن پستان مراجعه کنندگان بود. مجموعه داده های نامتوازن یکی از چالشهای پیش روی طراحی سیستم های پزشکیار برای طبقه بندی و تعیین وضعیت بیمار محسوب میشود که در این پژوهش از روش های سطح داده برای حل آن استفاده شد.روش بررسی: در این مطالعه برای طبقه بندی داده های 918 نفر، سه الگوریتم AdaBoost.M1، k تا نزدیکترین همسایه و شبکه عصبی احتمالی به خدمت گرفته شد. از آنجا که داده های این مطالعه نامتوازن بود، برای حل این مساله از روش بیش نمونه برداری تصادفی کلاس اقلیت، زیرنمونه برداری تصادفی کلاس اکثریت و بیش نمونهبرداری مصنوعی کلاس اقلیت استفاده شد. به منظور پیاده سازی الگوریتم ها از امکانات و ابزارهای نرم افزار متلب و آر استفاده گردید. همچنین برای ورودی الگوریتم های طبقه بندی از 60 متغیر مندرج در کاربرگهای شرح حال و معاینه فیزیکی مراجعان استفاده شد. معیارهای دقت و F-measure به منظور ارزیابی در مرحله آزمون الگوریتم ها مورد استفاده قرار گرفت.یافته ها: بر اساس معیارهای دقت و F-measure، بهترین عملکرد الگوریتم های سهگانه این مطالعه در مواجهه با مجموعه داده تولید شده با روش بیش نمونه برداری مصنوعی کلاس اقلیت بود. در این راستا عملکرد الگوریتم های AdaBoost.M1، k تا نزدیکترین همسایه و شبکه عصبی احتمالی در مواجهه با مجموعه داده مذکور و بر اساس معیارهای دقت و F-measure به ترتیب عبارتند از: 93/5 و 93/6، 79/5 و 87/7 و 86 و 91/9 بدست آمد.نتیجه گیری: روش های مختلفی برای حل مساله عدم توازن مجموعه داده ها به منظور طبقه بندی وجود دارد؛ نمونه گیری مجدد که از روشهای سطح داده محسوب میشود یکی از متداولترین آنهاست. از سه روش نمونه گیری مجددی که در این مطالعه استفاده شد، بهترین عملکرد طبقه بندها در مواجهه با مجموعه داده ایجاد شده در نتیجه نمونه گیری مجدد به روش بیش نمونه برداری مصنوعی کلاس اقلیت بود. از بین الگوریتم های به خدمت گرفته شده و بر اساس معیارهای دقت و F-measure بهترین عملکرد در تمامی مجموعه داده های این مطالعه متعلق به الگوریتم AdaBoost.M1 بود.

نویسندگان

محمد درزی

گروه پژوهشی سیستم های اطلاعاتی پیشرفته، پژوهشکده فناوری اطلاعات و ارتباطات جهاد دانشگاهی، تهران، ایران

آسیه الفت بخش

گروه پژوهشی بیماریهای پستان، مرکز تحقیقات سرطان پستان جهاد دانشگاهی، تهران، ایران

سعید گرگین

گروه فناوری اطلاعات و سامانههای هوشمند، سازمان پژوهشهای علمی و صنعتی ایران، تهران، ایران

فرید اویسی

گروه پژوهشی سیستمهای اطلاعاتی پیشرفته، پژوهشکده فناوری اطلاعات و ارتباطات جهاد دانشگاهی، تهران، ایران