GPUスパコンにおける1億個のスカラー粒子計算の強スケーリングと動的負荷分散

都築, 怜理; 青木, 尊之; 下川辺, 隆史; Satori, Tsuzuki; Takayuki, Aoki; Takashi, Shimokawabe

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

GPUスパコンにおける1億個のスカラー粒子計算の強スケーリングと動的負荷分散

https://ipsj.ixsq.nii.ac.jp/records/95293

名前 / ファイル	ライセンス	アクション
IPSJ-TACS0603010.pdf (2.2 MB)	Copyright (c) 2013 by the Information Processing Society of Japan
オープンアクセス

Item type

Trans(1)

公開日

2013-09-25

タイトル

GPUスパコンにおける1億個のスカラー粒子計算の強スケーリングと動的負荷分散

タイトル

言語

タイトル

Dynamic Load Balance and Strong Scaling of a Passive Scalar Computation for 160 Million Particles on a GPU Supercomputer

言語

jpn

キーワード

主題Scheme

Other

主題

[高性能計算] アプリケーション性能，性能ばらつき， TLBミス，ラージページ，スーパーコンピュータ「京」

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_6501

資源タイプ

journal article

著者所属

東京工業大学

著者所属

東京工業大学

著者所属

東京工業大学

著者所属(英)

Tokyo Institute of Technology

著者所属(英)

Tokyo Institute of Technology

著者所属(英)

Tokyo Institute of Technology

著者名

都築, 怜理青木, 尊之下川辺, 隆史

著者名(英)

Satori, Tsuzuki Takayuki, Aoki Takashi, Shimokawabe

論文抄録

内容記述タイプ

Other

内容記述

近接相互作用に基づく粒子法の大規模計算では，時間的に粒子の空間分布が大きく偏ることによるノード間の計算負荷の不均一や，ノード間の移動にともなうメモリの断片化が並列化実行性能を大きく低下させる．本論文では，メモリが階層的に分散するGPUスパコンにおいて，与えられた速度場に基づいて移動するパッシブ・スカラー粒子の計算を例題とし，分割した領域間の粒子数の不均一を定期的に解消する方法と，粒子の再整列によりメモリの断片化を解消する方法を提案し，両者を合わせて実行性能の大幅な向上を図る．隣接領域の境界を横切って移動する粒子をGPU上で探索する際，GPU計算に特化したアルゴリズムの提案と実装を行う．粒子の再整列は大きなオーバヘッドとなるため，再整列の最適回数を求めるためのモデルを提案する．GPU間の動的負荷分散と粒子の再整列を導入した実装を構築し，ベンチマーク問題に対する検証を64 GPUを用いて行い負荷分散の効果を確認した．また，GPUスパコンTSUBAME 2.0において1.6億個のパッシブ・スカラー粒子計算に対して良好な強スケーリングを得ることができ，負荷分散を用いない場合と比較して6倍以上の高速化を実現した．

論文抄録(英)

内容記述タイプ

Other

内容記述

In large-scale particle simulations based on short-range interactions，non-uniform particle distribution makes parallel efficiency poor. In particular, it becomes a serious problem in GPU supercomputers. In this paper, we study passive-scalar particles moving with given velocities and our research focuses on the method of dynamic load balance for GPUs on multiple domains. By applying dynamic domain decomposition, we keep the number of particles constant in each domain. There are several overheads of the data communication among GPUs and inefficient memory usage due to particles across the domain boundary. In order to improve the data communication between CPU and GPU, efficient data packing of those particles to buffer memory and defragmentation of the device memory have been introduced. It is confirmed that the dynamic load balance based on the 2-dimensional slice-grid method works well for a particle computation on 64 GPUs of TSUBAME 2.0. A passive-scalar-particle computation with 160 million particles shows good scalabilities and more than 6 times speedup to compare with that without dynamic load balance.

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AA11833852

書誌情報

情報処理学会論文誌コンピューティングシステム（ACS）

巻 6, 号 3, p. 82-93, 発行日 2013-09-25

ISSN

収録物識別子タイプ

ISSN

収録物識別子

1882-7829

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-21 13:58:10.235009

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

GPUスパコンにおける1億個のスカラー粒子計算の強スケーリングと動的負荷分散

× 都築, 怜理青木, 尊之下川辺, 隆史

× Satori, Tsuzuki Takayuki, Aoki Takashi, Shimokawabe

Versions

Share

Cite as

エクスポート

インデックスリンク

インデックスツリー

アイテム

GPUスパコンにおける1億個のスカラー粒子計算の強スケーリングと動的負荷分散

× 都築, 怜理 青木, 尊之 下川辺, 隆史

× Satori, Tsuzuki Takayuki, Aoki Takashi, Shimokawabe

Versions

Share

Cite as

エクスポート

× 都築, 怜理青木, 尊之下川辺, 隆史