ارایه مدلی جهت خوشه بندی جریان صفحات وب برای موتورهای جستجو با استفاده از محیط های توزیع شده

سال انتشار: 1393
نوع سند: مقاله کنفرانسی
زبان: فارسی
مشاهده: 355

فایل این مقاله در 5 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

BIGDATA01_015

تاریخ نمایه سازی: 26 مرداد 1397

چکیده مقاله:

امروزه وب جهانی مهمترین محیط جهت تولید و نشراطلاعات است. موتورهای جستجو بهترین ابزار برای دسترس ی بهاین اطلاعات میباشند. حجم و تغییرات زیاد از مهمترین ویژگیهای وب میباشد که بازیابی و پردازش اطلاعات را با چالش ها یجدیدیمانند پیچیدگی محاسباتی زیاد مواجه ساخته است.خوشه بندی صفحات از جمله این پردازش هاست که تاث یر قابلقبولی در کیفیت موتورهای جستجو دارد.در این مقاله مدلی جهت خوشه بندی مناسب صفحات وب ارایهشده است. در این مدل مجموعه مناسبی از صفحات وب با استفادهاز الگوریتم FICA خزش شده و در ادامه با استفاده از تکنیک خوشه بندی افزایشی، صفحات در خوشه های مناسب قرار می-گیرند. با توجه به تاثیر عبارات مهم در کیفیت خوشه بندی، ازچهارچوب توزیع شده MapReduce جهت استخراج عبارات مهم استفاده شده است. همچنین در مدل ارایه شده میتوان از محیطتوزیع شده پردازش گراف PowerGraph جهت افزایش کارایی الگوریتم FICA استفاده کرد.

نویسندگان

سعید رحمانی

دانشجوی دکتری، دانشگاه شیراز

محمدهادی صدرالدینی

دانشیار، دانشگاه شیراز