@article{oai:ipsj.ixsq.nii.ac.jp:00095293,
 author = {都築, 怜理 and 青木, 尊之 and 下川辺, 隆史 and Satori, Tsuzuki and Takayuki, Aoki and Takashi, Shimokawabe},
 issue = {3},
 journal = {情報処理学会論文誌コンピューティングシステム(ACS)},
 month = {Sep},
 note = {近接相互作用に基づく粒子法の大規模計算では,時間的に粒子の空間分布が大きく偏ることによるノード間の計算負荷の不均一や,ノード間の移動にともなうメモリの断片化が並列化実行性能を大きく低下させる.本論文では,メモリが階層的に分散するGPUスパコンにおいて,与えられた速度場に基づいて移動するパッシブ・スカラー粒子の計算を例題とし,分割した領域間の粒子数の不均一を定期的に解消する方法と,粒子の再整列によりメモリの断片化を解消する方法を提案し,両者を合わせて実行性能の大幅な向上を図る.隣接領域の境界を横切って移動する粒子をGPU上で探索する際,GPU計算に特化したアルゴリズムの提案と実装を行う.粒子の再整列は大きなオーバヘッドとなるため,再整列の最適回数を求めるためのモデルを提案する.GPU間の動的負荷分散と粒子の再整列を導入した実装を構築し,ベンチマーク問題に対する検証を64 GPUを用いて行い負荷分散の効果を確認した.また,GPUスパコンTSUBAME 2.0において1.6億個のパッシブ・スカラー粒子計算に対して良好な強スケーリングを得ることができ,負荷分散を用いない場合と比較して6倍以上の高速化を実現した., In large-scale particle simulations based on short-range interactions,non-uniform particle distribution makes parallel efficiency poor. In particular, it becomes a serious problem in GPU supercomputers. In this paper, we study passive-scalar particles moving with given velocities and our research focuses on the method of dynamic load balance for GPUs on multiple domains. By applying dynamic domain decomposition, we keep the number of particles constant in each domain. There are several overheads of the data communication among GPUs and inefficient memory usage due to particles across the domain boundary. In order to improve the data communication between CPU and GPU, efficient data packing of those particles to buffer memory and defragmentation of the device memory have been introduced. It is confirmed that the dynamic load balance based on the 2-dimensional slice-grid method works well for a particle computation on 64 GPUs of TSUBAME 2.0. A passive-scalar-particle computation with 160 million particles shows good scalabilities and more than 6 times speedup to compare with that without dynamic load balance.},
 pages = {82--93},
 title = {GPUスパコンにおける1億個のスカラー粒子計算の強スケーリングと動的負荷分散},
 volume = {6},
 year = {2013}
}