Item type |
Symposium(1) |
公開日 |
2015-05-12 |
タイトル |
|
|
タイトル |
密結合並列演算加速機構TCAを用いたGPU間直接通信によるCollective通信の実装と性能評価 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Implementation and Performance Evaluation of Collective Communication with Proprietary Interconnect TCA for GPU Direct Communication |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
GPU |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
筑波大学計算科学研究センター |
著者所属 |
|
|
|
東京大学情報基盤センター |
著者所属 |
|
|
|
筑波大学計算科学研究センター/筑波大学大学院システム情報工学研究科/現在,理化学研究所計算科学研究機構 |
著者所属 |
|
|
|
筑波大学大学院システム情報工学研究科/現在,富士通ソフトウェアテクノロジーズ |
著者所属 |
|
|
|
筑波大学計算科学研究センター/筑波大学大学院システム情報工学研究科 |
著者名 |
松本, 和也
塙, 敏博
児玉, 祐悦
藤井, 久史
朴, 泰祐
|
著者名(英) |
Kazuya, Matsumoto
Toshihiro, Hanawa
Yuetsu, Kodama
Hisafumi, Fujii
Taisuke, Boku
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
筑波大学計算科学研究センターでは,GPU クラスタにおけるノード間に跨る GPU 間通信のレイテンシ改善を目的とした密結合並列演算加速機構 TCA (Tightly Coupled Accelerators) を独自開発している.本稿では,Scatter,Reduce,Allgather,Allreduce の 4 つの Collective 通信の TCA による実装と,その性能を TCA 実証環境の GPU クラスタである HA-PACS/TCA において評価した結果を述べる.TCA による実装は通信レイテンシが問題となる小さめなサイズの Collective 通信において,MPI による Collective 通信と比べて高速にその通信処理を行うことが可能であることを示す.また,実装した Collective 通信を利用した Conjugate Gradient 法 (CG 法) の実装およびその性能について述べる.本研究で用いる CG 法の並列アルゴリズムは,Allgather と Allreduce をその通信部分に用いるものである.TCA による Collective 通信を用いた CG 法実装は,疎行列のサイズ (行数) が数千から数万の場合では MPI の Collective 通信を用いた実装よりも高い性能を達成できることを示す. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
We have been developing a proprietary interconnect technology called Tightly Coupled Accelerators (TCA) architecture to improve communication latency and bandwidth between compute nodes on a GPU cluster. This paper presents the implementation and performance evaluation results of four different collective communication operations (scatter, reduce, allgather, allreduce). The performance measurements are conducted on HA-PACS/TCA, which is a proof-of-concept GPU cluster based on the TCA architecture. The implementation using TCA is faster than an MPI collective communication implementation in case collective communications for small sizes where the communication latency decides most of its performance. This paper also describes an implementation of Conjugate Gradient (CG) method utilizing the implemented collective communication and the performance. We use the parallel algorithm of CG method that utilizes the allgather and allreduce in the data communication. The CG method implementation using TCA outperforms the implementation using MPI for sparse matrices whose matrix size is thousands to tens of thousands. |
書誌情報 |
ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集
巻 2015,
p. 120-128,
発行日 2015-05-12
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |