طبقه بندی ایمیل های هرزنامه با استفاده از خوشه بندی سلسله مراتبی تجمیعی

سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 15

فایل این مقاله در 17 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

SMARTCITYC03_044

تاریخ نمایه سازی: 20 فروردین 1403

چکیده مقاله:

ایمیل های هرزنامه پیام هایی ناخواسته، آزاردهنده و گاهی مضر هستند که ممکن است حاوی بدافزار، فیشینگ یا کلاهبرداری باشند. برخلاف اکثر مطالعاتی که به طراحی فیلترهای ضد هرزنامه می پردازند، ما به مشکل ایمیل های هرزنامه از دیدگاهی متفاوت و جدید می پردازیم. با تمرکز بر نیازهای واحدهای امنیت سایبری، ما یک رویکرد مبتنی بر موضوع را برای پرداختن به طبقه بندی ایمیل های هرزنامه در دسته های مختلف دنبال می کنیم. ما دو مجموعه داده جدید با تقریبا ۱۵ هزار ایمیل با عنوان های SPEMC-۱۵K-E و SPEMC-۱۵K-S را پیشنهاد می کنیم که هر کدام به ترتیب به زبان انگلیسی و اسپانیایی هستند و آنها را با استفاده از خوشه بندی سلسله مراتبی تجمعی در ۱۱ کلاس برچسب گذاری می کنیم. ما ۱۶ پایپینگ را ارزیابی می کنیم که چهار تکنیک نمایش متن به نام های فرکانس مدت-فرکانس سند معکوس (TF-IDF)، Bag of Words ، Word۲Vec و BERT و چهار طبقه بندی کننده به نام های Support Vector Machine ، Näive Bayes، Random Forest و Logistic Regression را ترکیب می کنند. نتایج تجربی نشان می دهد که بالاترین عملکرد با TF-IDF و LR برای مجموعه داده انگلیسی، با امتیاز ۰.۹۵۳ مربوط به F۱ و دقت ۹۴.۶ درصد به دست می آید و در حالی که برای مجموعه داده اسپانیایی، بالاترین عملکرد با TF-IDF با NB با امتیاز ۰.۹۴۵ مربوط به F۱ و دقت ۹۸.۵ درصد به دست می آید. با توجه به زمان پردازش، TF-IDF با LR منجر به سریع ترین طبقه بندی می شود که درعمل پردازش ایمیل هرزنامه انگلیسی و اسپانیایی به ترتیب در ۲ میلی ثانیه و ۲.۲ میلی ثانیه زمان می برد.

نویسندگان

علی رضائی

دانشجوی کارشناسی ارشد نرم افزار، موسسه آموزش عالی آپادانا شیراز

حمید موسوی

دانشجوی کارشناسی ارشد نرم افزار، موسسه آموزش عالی آپادانا شیراز

زهرا اکرام زاده

کارشناسی ارشد، موسسه آموزش عالی آپادانا شیراز