تشخیص وب سایت های صیاد با استفاده از فاصله لون اشتاین فراوان ترین کلمات با دامنه صفحه

سال انتشار: 1396
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 691

فایل این مقاله در 6 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ISCC14_010

تاریخ نمایه سازی: 13 مهر 1397

چکیده مقاله:

حملات صیاد با بکارگیری صفحات جعلی بدنبال بدست آوردن اطلاعات شخصی افراد است. نرخ رشد صفحات جعلی مدام درحالافزایش است و صیادان با استفاده از شیوه های متفاوت به دنبال قانع کردن کاربران و سوق دادن آنها به این صفحات هستند. برخیشیوه های تشخیص مبتنی بر لیست می باشد ولی بروز نگه داشتن لیست و مصرف زمان و حافظه برای آن دشوار است. شیوه هایمتفاوتی براساس یادگیری ماشین برای برخورد با این گونه حملات وجود دارد که عموما دارای پیچیدگی زیاد و اجرای زمان بر هستند.استخراج شناسه از روی کلمات کلیدی و بررسی نتایج جستوجو در اینترنت یکی از روشهایی است که علیرغم دقت بالا، دارایکارایی بالایی نمی باشد.طرح تشخیص پیشنهادی در این مقاله شامل سه فاز استخراج اطلاعات صفحه، تعیین شناسه صفحه و اصالت سنجی است. ابتدابهترین لغات مبتنی بر فراوانی وزنی و فاصلهی لون اشتاین از صفحات استخراج و سپس با استفاده از دسته قواعد، بهترین شناسه یصفحه مشخص میگردد و در نهایت شناسه ی استخراج شده به موتور جستوجوی گوگل جهت تشخیص اصالت صفحه دادهمیشود. برای ارزیابی و مقایسه ی طرح پیشنهادی با مقاله ی پایه، آنها را بر روی یک سیستم با پردازنده ی 7 هسته ای 64 بیتی با 8گیگابایت فضای حافظه ی اصلی پیاده سازی و برروی مجموعه داده ی اصلی و جعلی از منبع Alexa و Phishtank آزمایش شده است. نرخ تشخیص درست صفحات اصلی و جعلی بترتیب 97,2 % و 99,31 % بوده که نرخ تشخیص درست صفحات اصلی در حدود 4درصد بهبود یافته است. از طرفی ، میانگین زمان اجرایی طرح پیشنهادی برای شناسایی 1500 صفحه 327 میلی ثانیه است که حدود20 برابر بهبود یافته است.

نویسندگان

عماد محمودی

دانشگاه فردوسی مشهد، گروه مهندسی کامپیوتر- آزمایشگاه امنیت داده ها و ارتباطات

عباس قایمی بافقی

دانشگاه فردوسی مشهد، گروه مهندسی کامپیوتر- آزمایشگاه امنیت داده ها و ارتباطات