WEKO3
アイテム
GPUスパコンにおける1億個のスカラー粒子計算の強スケーリングと動的負荷分散
https://ipsj.ixsq.nii.ac.jp/records/95293
https://ipsj.ixsq.nii.ac.jp/records/95293a5033492-90cb-49c5-af4f-8298ebd695d9
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2013 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Trans(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2013-09-25 | |||||||
タイトル | ||||||||
タイトル | GPUスパコンにおける1億個のスカラー粒子計算の強スケーリングと動的負荷分散 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Dynamic Load Balance and Strong Scaling of a Passive Scalar Computation for 160 Million Particles on a GPU Supercomputer | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | [高性能計算] アプリケーション性能, 性能ばらつき, TLBミス, ラージページ, スーパーコンピュータ「京」 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
東京工業大学 | ||||||||
著者所属 | ||||||||
東京工業大学 | ||||||||
著者所属 | ||||||||
東京工業大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Institute of Technology | ||||||||
著者名 |
都築, 怜理
青木, 尊之
下川辺, 隆史
× 都築, 怜理 青木, 尊之 下川辺, 隆史
|
|||||||
著者名(英) |
Satori, Tsuzuki
Takayuki, Aoki
Takashi, Shimokawabe
× Satori, Tsuzuki Takayuki, Aoki Takashi, Shimokawabe
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 近接相互作用に基づく粒子法の大規模計算では,時間的に粒子の空間分布が大きく偏ることによるノード間の計算負荷の不均一や,ノード間の移動にともなうメモリの断片化が並列化実行性能を大きく低下させる.本論文では,メモリが階層的に分散するGPUスパコンにおいて,与えられた速度場に基づいて移動するパッシブ・スカラー粒子の計算を例題とし,分割した領域間の粒子数の不均一を定期的に解消する方法と,粒子の再整列によりメモリの断片化を解消する方法を提案し,両者を合わせて実行性能の大幅な向上を図る.隣接領域の境界を横切って移動する粒子をGPU上で探索する際,GPU計算に特化したアルゴリズムの提案と実装を行う.粒子の再整列は大きなオーバヘッドとなるため,再整列の最適回数を求めるためのモデルを提案する.GPU間の動的負荷分散と粒子の再整列を導入した実装を構築し,ベンチマーク問題に対する検証を64 GPUを用いて行い負荷分散の効果を確認した.また,GPUスパコンTSUBAME 2.0において1.6億個のパッシブ・スカラー粒子計算に対して良好な強スケーリングを得ることができ,負荷分散を用いない場合と比較して6倍以上の高速化を実現した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In large-scale particle simulations based on short-range interactions,non-uniform particle distribution makes parallel efficiency poor. In particular, it becomes a serious problem in GPU supercomputers. In this paper, we study passive-scalar particles moving with given velocities and our research focuses on the method of dynamic load balance for GPUs on multiple domains. By applying dynamic domain decomposition, we keep the number of particles constant in each domain. There are several overheads of the data communication among GPUs and inefficient memory usage due to particles across the domain boundary. In order to improve the data communication between CPU and GPU, efficient data packing of those particles to buffer memory and defragmentation of the device memory have been introduced. It is confirmed that the dynamic load balance based on the 2-dimensional slice-grid method works well for a particle computation on 64 GPUs of TSUBAME 2.0. A passive-scalar-particle computation with 160 million particles shows good scalabilities and more than 6 times speedup to compare with that without dynamic load balance. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA11833852 | |||||||
書誌情報 |
情報処理学会論文誌コンピューティングシステム(ACS) 巻 6, 号 3, p. 82-93, 発行日 2013-09-25 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7829 | |||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |