ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. シンポジウム
  2. シンポジウムシリーズ
  3. ハイパフォーマンスコンピューティングと計算科学シンポジウム(HPCS)
  4. 2015

密結合並列演算加速機構TCAを用いたGPU間直接通信によるCollective通信の実装と性能評価

https://ipsj.ixsq.nii.ac.jp/records/141751
https://ipsj.ixsq.nii.ac.jp/records/141751
cb257d15-e112-43ba-b17c-6aa514a34468
名前 / ファイル ライセンス アクション
IPSJ-HPCS2015039.pdf IPSJ-HPCS2015039.pdf (1.6 MB)
Copyright (c) 2015 by the Information Processing Society of Japan
オープンアクセス
Item type Symposium(1)
公開日 2015-05-12
タイトル
タイトル 密結合並列演算加速機構TCAを用いたGPU間直接通信によるCollective通信の実装と性能評価
タイトル
言語 en
タイトル Implementation and Performance Evaluation of Collective Communication with Proprietary Interconnect TCA for GPU Direct Communication
言語
言語 jpn
キーワード
主題Scheme Other
主題 GPU
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_5794
資源タイプ conference paper
著者所属
筑波大学計算科学研究センター
著者所属
東京大学情報基盤センター
著者所属
筑波大学計算科学研究センター/筑波大学大学院システム情報工学研究科/現在,理化学研究所計算科学研究機構
著者所属
筑波大学大学院システム情報工学研究科/現在,富士通ソフトウェアテクノロジーズ
著者所属
筑波大学計算科学研究センター/筑波大学大学院システム情報工学研究科
著者名 松本, 和也

× 松本, 和也

松本, 和也

Search repository
塙, 敏博

× 塙, 敏博

塙, 敏博

Search repository
児玉, 祐悦

× 児玉, 祐悦

児玉, 祐悦

Search repository
藤井, 久史

× 藤井, 久史

藤井, 久史

Search repository
朴, 泰祐

× 朴, 泰祐

朴, 泰祐

Search repository
著者名(英) Kazuya, Matsumoto

× Kazuya, Matsumoto

en Kazuya, Matsumoto

Search repository
Toshihiro, Hanawa

× Toshihiro, Hanawa

en Toshihiro, Hanawa

Search repository
Yuetsu, Kodama

× Yuetsu, Kodama

en Yuetsu, Kodama

Search repository
Hisafumi, Fujii

× Hisafumi, Fujii

en Hisafumi, Fujii

Search repository
Taisuke, Boku

× Taisuke, Boku

en Taisuke, Boku

Search repository
論文抄録
内容記述タイプ Other
内容記述 筑波大学計算科学研究センターでは,GPU クラスタにおけるノード間に跨る GPU 間通信のレイテンシ改善を目的とした密結合並列演算加速機構 TCA (Tightly Coupled Accelerators) を独自開発している.本稿では,Scatter,Reduce,Allgather,Allreduce の 4 つの Collective 通信の TCA による実装と,その性能を TCA 実証環境の GPU クラスタである HA-PACS/TCA において評価した結果を述べる.TCA による実装は通信レイテンシが問題となる小さめなサイズの Collective 通信において,MPI による Collective 通信と比べて高速にその通信処理を行うことが可能であることを示す.また,実装した Collective 通信を利用した Conjugate Gradient 法 (CG 法) の実装およびその性能について述べる.本研究で用いる CG 法の並列アルゴリズムは,Allgather と Allreduce をその通信部分に用いるものである.TCA による Collective 通信を用いた CG 法実装は,疎行列のサイズ (行数) が数千から数万の場合では MPI の Collective 通信を用いた実装よりも高い性能を達成できることを示す.
論文抄録(英)
内容記述タイプ Other
内容記述 We have been developing a proprietary interconnect technology called Tightly Coupled Accelerators (TCA) architecture to improve communication latency and bandwidth between compute nodes on a GPU cluster. This paper presents the implementation and performance evaluation results of four different collective communication operations (scatter, reduce, allgather, allreduce). The performance measurements are conducted on HA-PACS/TCA, which is a proof-of-concept GPU cluster based on the TCA architecture. The implementation using TCA is faster than an MPI collective communication implementation in case collective communications for small sizes where the communication latency decides most of its performance. This paper also describes an implementation of Conjugate Gradient (CG) method utilizing the implemented collective communication and the performance. We use the parallel algorithm of CG method that utilizes the allgather and allreduce in the data communication. The CG method implementation using TCA outperforms the implementation using MPI for sparse matrices whose matrix size is thousands to tens of thousands.
書誌情報 ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集

巻 2015, p. 120-128, 発行日 2015-05-12
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-20 19:15:15.332603
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3