Implementing new algorithms in MPICH for all the collective operations

سال انتشار: 1385
نوع سند: مقاله کنفرانسی
زبان: انگلیسی
مشاهده: 1,639

فایل این مقاله در 5 صفحه با فرمت PDF قابل دریافت می باشد

استخراج به نرم افزارهای پژوهشی:

لینک ثابت به این مقاله:

شناسه ملی سند علمی:

ACCSI12_219

تاریخ نمایه سازی: 23 دی 1386

چکیده مقاله:

We report on our work on improving the performance of collective operations in MPICH on clusters connected by switched networks. For each collective operation, we use multiple algorithms depending on the message size, with the goal of minimizing latency for short messages and minimizing bandwidth usage for long messages. Although we have implemented new algorithms for all MPI collective operations, because of limited space we describe only the algorithms for allgather, broadcast,reduce-scatter, and reduce. We present performance results using the SKaMPI benchmark on a Myrinet-connected Linux cluster and an IBM . In all cases, the new algorithms significantly outperform the old algorithms used in MPICH on the Myrinet cluster, and, in many cases, they outperform the algorithms used in IBM’s MPI .

کلیدواژه ها:

مراجع و منابع این مقاله:

لیست زیر مراجع و منابع استفاده شده در این مقاله را نمایش می دهد. این مراجع به صورت کاملا ماشینی و بر اساس هوش مصنوعی استخراج شده اند و لذا ممکن است دارای اشکالاتی باشند که به مرور زمان دقت استخراج این محتوا افزایش می یابد. مراجعی که مقالات مربوط به آنها در سیویلیکا نمایه شده و پیدا شده اند، به خود مقاله لینک شده اند :
  • M. Barnett, S. Gupta, D. Payne, L. Shuler, R. van ...
  • M. Barnett, R. Littlefield, D. Payne, and R. van de ...
  • S. Bokhari. Complete exchange on the iPSC/860. Technical Report 91-4, ...
  • S. Bokhari and H. Berryman. Complete exchange on a circuit ...
  • Debra Hensgen, Raphael Finkel, and Udi Manbet. Two algorithms for ...
  • L. V. Kale, Sameer Kumar, and Krishnan Vardarajan. A framework ...
  • N. Karonis, B. de Supinski, I. Foster, W. Gropp, E. ...
  • performance. In Proceedings of the Fourteenth International Parallel and Distributed ...
  • T. Kielmann, R. F. H. Hofman, H. E. Bal, A. ...
  • (PPoPP99), pages 131-140. ACM, May 1999. ...
  • P. Mitra, D. Payne, L. Shuler, R. van de Geijn, ...
  • Rolf Rabenseifner. Effective bandwidth (b eff) benchmark. _ ...
  • _ International CSI Computer Conference (CSICC'07) Shahid Beheshti University, Tehran, ...
  • Rolf Rabenseifner. New optimized MPI reduce algorithm. ...
  • Peter Sanders and Jesper Larsson Traff. The hierarchical factor algorithm ...
  • D. Scott. Efficient all-to-all communi cation patterns in hypercube and ...
  • Mohak Shroff and Robert A. Van de Geijn. CollMark: MPI ...
  • Steve Sistare, Rolf vandeVaart, and Eugene Loh. Optimization of MPI ...
  • v. Tipparaju, J. Nieplocha, and D.K. Panda. Fast collective operations ...
  • Jesper Larsson Traff. Improved MPI all-to-al communi cation on a ...
  • Sathish S. Vadhiyar, Graham E. Fagg, and Jack Dongarra. Automatically ...
  • T ho masWorsch, Ralf Reussner, andWerner Augustin. On benchmarking collective ...
  • نمایش کامل مراجع