ارایه مدلی جهت خوشه بندی جریان صفحات وب برای موتورهای جستجو با استفاده از محیط های توزیع شده
محل انتشار: همایش داده های عظیم
سال انتشار: 1393
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 355
فایل این مقاله در 5 صفحه با فرمت PDF قابل دریافت می باشد
- صدور گواهی نمایه سازی
- من نویسنده این مقاله هستم
استخراج به نرم افزارهای پژوهشی:
شناسه ملی سند علمی:
BIGDATA01_015
تاریخ نمایه سازی: 26 مرداد 1397
چکیده مقاله:
امروزه وب جهانی مهمترین محیط جهت تولید و نشراطلاعات است. موتورهای جستجو بهترین ابزار برای دسترس ی بهاین اطلاعات میباشند. حجم و تغییرات زیاد از مهمترین ویژگیهای وب میباشد که بازیابی و پردازش اطلاعات را با چالش ها یجدیدیمانند پیچیدگی محاسباتی زیاد مواجه ساخته است.خوشه بندی صفحات از جمله این پردازش هاست که تاث یر قابلقبولی در کیفیت موتورهای جستجو دارد.در این مقاله مدلی جهت خوشه بندی مناسب صفحات وب ارایهشده است. در این مدل مجموعه مناسبی از صفحات وب با استفادهاز الگوریتم FICA خزش شده و در ادامه با استفاده از تکنیک خوشه بندی افزایشی، صفحات در خوشه های مناسب قرار می-گیرند. با توجه به تاثیر عبارات مهم در کیفیت خوشه بندی، ازچهارچوب توزیع شده MapReduce جهت استخراج عبارات مهم استفاده شده است. همچنین در مدل ارایه شده میتوان از محیطتوزیع شده پردازش گراف PowerGraph جهت افزایش کارایی الگوریتم FICA استفاده کرد.
کلیدواژه ها:
نویسندگان
سعید رحمانی
دانشجوی دکتری، دانشگاه شیراز
محمدهادی صدرالدینی
دانشیار، دانشگاه شیراز