روشی کارا برای کاوش مجموعه اقلام پرتکرار در تحلیل داده های سبد خرید

سال انتشار: 1387
نوع سند: مقاله ژورنالی
زبان: فارسی
مشاهده: 533

فایل این مقاله در 10 صفحه با فرمت PDF قابل دریافت می باشد

این مقاله در بخشهای موضوعی زیر دسته بندی شده است:

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

JR_IJIE-19-7_009

تاریخ نمایه سازی: 6 شهریور 1393

چکیده مقاله:

کشف الگوهای پنهان و ارزشمند از درون حجم وسیعی از داده های خام ، اخیراً توجه بسیاری از محققان را به خود جلب کرده است . اغلب روشهی کاوش قوانین تداعی در مرحله اول کار خود کلیه اقلام پرتکرار (ساده و ترکیبی) را از بین تمام اقلام موجود در داده ها جستجو می کنند که این امر نیازمند به خواندن مکرر کل داده ها از دیسک است . در مسائل داده کاوی ، حجم پایگاه داده های تراکنش معمولاً آنقدر زیاد است که قابل بار شدن در حافظه اصلی نمی باشند . اما در برخی موارد مانند پایگاه داده های تحلیلی مربوط به سبدهای خرید یک فروشگاه ، با توجه به تعداد نسبتا زیاد اقلام ممکن ( کل اجناس فروشگاه ) و نیز محدودیت نسبی اندازه تراکنش ها (اقلام خریداری شده در هر سبد) ، احتمال رخداد یک قلم داده (خریداری شدن یک کالای خاص ) پایین است . در این مقاله با بهره گیری از این ویژگی ، روشی کارا برای کاوش اقلام پرتکرار در مجموعه داده هایی از این قبیل ارائه می دهیم . در روش پیشنهادی ، داده ها تنها یک بار از دیسک خوانده می شوند و بعد از آن به یک ساختار رمز شده و خلاصه تبدیل می گردند ، به طوری که اولاً قابل نگهداری در حافظه می باشند و ثانیا با توجه به ساختار خاصی که دارند ، عملیات شمارش به سریع ترین نحو ممکن انجام می گردد و زمان شمارش دفعات تکرار اقلام در هر مرحله کمتر از مرحله قبل می شود . پس از ارائه الگوریتم ، کارآیی آن را با استفاده از دو مجموعه از داده های ساختگی و واقعی ارزیابی کرده و با چند روش کارا که تاکنون ارائه شده اند ، مقایسه می کنیم.

نویسندگان

سیدمحمد فخراحمد

دانشگاه شیراز ، دانشکده مهندسی شماره ۲، بخش مهندسی و علوم کامپیوتر

محمدهادی صدرالدینی

دانشگاه شیراز ، دانشکده مهندسی شماره ۲، بخش مهندسی و علوم کامپیوتر

منصور ذوالقدری جهرمی

دانشگاه شیراز ، دانشکده مهندسی شماره ۲، بخش مهندسی و علوم کامپیوتر