CIVILICA We Respect the Science
(ناشر تخصصی کنفرانسهای کشور / شماره مجوز انتشارات از وزارت فرهنگ و ارشاد اسلامی: ۸۹۷۱)

مروری بر مدیریت پردازش دادگان عظیم با استفاده ازApache و MapReduce Spark

عنوان مقاله: مروری بر مدیریت پردازش دادگان عظیم با استفاده ازApache و MapReduce Spark
شناسه ملی مقاله: OUTLOOKECE01_130
منتشر شده در اولین همایش ملی نگرشی نوین در مهندسی برق و کامپیوتر در سال 1395
مشخصات نویسندگان مقاله:

محمدرضا مرادی - گروه کامپیوتر ،واحد همدان،دانشگاه آزاد اسلامی همدان ،ایران
رسول روستایی - گروه کامپیوتر ،واحد همدان،دانشگاه آزاد اسلامی همدان ،ایران

خلاصه مقاله:
با ورود به عصردادگان عظیم و تولید انبوهی از انواع داده ها این ضرورت احساس می شود که باید از این انبوه داده ها برای کسب اطلاعات راهبردی استفاده کرد. اما با روش های تحلیل داده قدیمی نمی توان داد های متنوع تولید شده را به درستی تحلیل کرد. از این رو متخصصین علم داده کاوی روش هایی را برای تحلیل این نوع از داده ها ابداع کرده اند. اما سوال اینجاست که چه روشی برای تحلیل این داده ها مناسبتر است. در تحلیل داده گان عظیم، روش های پردازش موازی و توزیع شده مورد توجه قرار گرفته اند. چارچوب های مانند Hadoop MapReduce و Spark از این نوع هستند. در این مقاله با مرور عملکرد چارچوب های MapReduce Hadoop و Spark Apache در مواجه با انواع داده ای مختلف و کتابخانه های که برای این دو چارچوب توسعه داده شده اند، سعی کردیم مقایسه ای اجمالی از این دو بستر تحلیل داده داشته باشیم. در ادامه تفاوت فازهای Map و Reduce را بین Spark و MapReduce بررسی کردیم.

کلمات کلیدی:
دادگان عظیم؛ داده کاوی؛ تحلیل داده؛Spark؛MapReduce؛Data Big

صفحه اختصاصی مقاله و دریافت فایل کامل: https://civilica.com/doc/624813/