بهبود تشخیص هرزپیامک در پیامک های فارسی با ارائه یک پایگاه داده جامع

سال انتشار: 1402
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 204

فایل این مقاله در 19 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

CDASCI01_047

تاریخ نمایه سازی: 16 خرداد 1402

چکیده مقاله:

ارسال و دریافت پیامک به عنوان یکی از پرطرفدارترین ابزارهای برقراری ارتباط متنی بین کاربران تلفن های همراه شناخته می شود. هزینه ی نسبتا پایین ارسال و ضریب نفوذ بالا، این ابزار را به روشی مناسب برای تبلیغات و ارسال پیام های ناخواسته نیز تبدیل کرده است، به گونه ای که حجم زیادی از پیام های دریافتی کاربران را هرزپیامک ها تشکیل داده و این امر باعث کاهش رضایت کاربران تلفن های همراه گردیده است. لذا یافتن راهکاری برای تشخیص هرزپیامک ها در بین پیامک های دریافتی و حذف آن ها، به یکی از زمینه های پژوهشی مورد توجه محققان تبدیل شده است. از اصلی ترین مشکلات در زمینه ی طبقه بندی و حذف هرزپیامک در پیام های کوتاه به زبان فارسی، نبود پایگاه داده جامع و با حجم قابل قبول از پیامک های سالم و هرزپیامک فارسی است. در این تحقیق، با جمع آوری ۴۳۸۹ پیامک از منابع مختلف و برچسب گذاری آن ها، پایگاه داده ای جامع ایجاد و با آموزش الگوریتم های مختلف یادگیری ماشین بر روی آن، کارایی این پایگاه داده برای شناسایی و حذف هرزپیامک های فارسی بررسی گردیده است. ارزیابی های انجام گرفته بر روی نتایج حاصل از الگوریتم های آموزش داده شده بیانگر آن است که می توان از این پایگاه داده به عنوان منبعی قابل اتکا برای توسعه الگوریتم های شناسایی و حذف پیامک های ناخواسته در زبان فارسی استفاده کرد. لازم به ذکر است که در بین الگوریتم های تست شده بر روی پایگاه داده پیامک های جمع آوری شده، الگوریتم ۲-layer Perceptron با رسیدن به معیار accuracy برابر با ۵۵/۹۳٪ درصد بالاترین دقت را داشته است.

کلیدواژه ها:

پیام کوتاه ، پایگاه داده پیامک های فارسی ، طبقه بندی ، هرزپیامک

نویسندگان

محمدحسین سالاری

گروه مهندسی کامپیوتر، واحد شیراز، دانشگاه آزاد اسلامی، شیراز، ایران

محمدامین شایگان

گروه مهندسی کامپیوتر، واحد شیراز، دانشگاه آزاد اسلامی، شیراز، ایران