A Review on Fault Tolerance Techniques for HighPerformance Computing

سال انتشار: 1393
نوع سند: مقاله کنفرانسی
زبان: انگلیسی
مشاهده: 1,052

متن کامل این مقاله منتشر نشده است و فقط به صورت چکیده یا چکیده مبسوط در پایگاه موجود می باشد.
توضیح: معمولا کلیه مقالاتی که کمتر از ۵ صفحه باشند در پایگاه سیویلیکا اصل مقاله (فول تکست) محسوب نمی شوند و فقط کاربران عضو بدون کسر اعتبار می توانند فایل آنها را دریافت نمایند.

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

AIHE08_364

تاریخ نمایه سازی: 13 آبان 1393

چکیده مقاله:

Cloud computing is the next generation computing. There are new capacity and flexibility to HPC (High Performance Computing) applications with using large number of virtual machines for computational intensive applications.Today s high performance computing systems are typically managed and operated by individual organizations in private. A cloud-based Infrastructure-as-a-Service (IaaS) approach for high performance computing applications promises cost savings and more flexibility. High performance computing(HPC) systems may fail because of large workload and number of servers. Fault tolerance techniques allow HPC systems on cloud to execute computational intensive application with multiple of nodes. Fault tolerance can provide best performance of tasks in the presence of hardware and softwarefaults. However, main failures are mostly hardware based. Also, system availability is very important and fault tolerance techniques used to detect and predict faults. This paper gives an overview on most popular fault tolerance techniques in HPC, prediction models and tools used in HPC.

نویسندگان

Ahmad Fadaei Tehrani

Dept.Computer, Najafabad Branch, Islamic Azad University IAUN Isfahan, Iran

Faramarz Safi

Dept.Computer, Najafabad Branch, Islamic Azad UniversityIAUN Isfahan, Iran

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • _ _ _ _ _ _ _ _ _ _ ...
  • _ _ _ Alam, "Analysis of ...
  • D. Turnbull, N. Alldrin, "Failure Prediction in Hardware Systems", UCSD ...
  • _ C. Engelmann, G. Vallee, T. Naughton, and S.L. Scott. ...
  • _ _ _ _ Computing", International Journal of Computer Applications, ...
  • T. Ch alermarrewong, _ S.C.W See., and Achalakul T., 2012, ...
  • Computer, T _ _ ec ommunications and Information Technology, Thailand ...
  • P.A. Dinda, D. O'Hallaron, _ Evaluation of Linear Models for ...
  • S. Casolari, M. Colajanni, ،Short-term Prediction Models for Server ...
  • P. Lall, P. Gupta, M. Kulkarni, and J. Hofmeister, _، ...
  • Issue 4, pp. 289 - 302, 2010. ...
  • S. Fu and C. Xu., 2007, "Exploring Event Correlation for ...
  • _ _ _ _ Transactions on Parallel and Distributed Systems, ...
  • S. Sidiroglou, O. Laadan, C. Perez, N. Viennot, J. Nieh, ...
  • Gang Chen, Hai Jin, Deqing Zou, Bing _ Zhou, Weizhong ...
  • Conference _ Cluster Computing, 2010. ...
  • _ _ _ _ _ _ _ Computing Workshop, Santa ...
  • Benjamin Lussier, Alexandre Lampe, Raja Chatila, J erem ieGuiochet, Felix ...
  • نمایش کامل مراجع