WEKO3
アイテム
マルチGPUによるフェーズフィールド相転移計算のスケーラビリティー―40GPUで5 TFLOPSの実効性能
https://ipsj.ixsq.nii.ac.jp/records/69735
https://ipsj.ixsq.nii.ac.jp/records/69735eccbd01a-bebf-4b0a-8421-d471fbf55876
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2010 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | Trans(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2010-06-21 | |||||||
| タイトル | ||||||||
| タイトル | マルチGPUによるフェーズフィールド相転移計算のスケーラビリティー―40GPUで5 TFLOPSの実効性能 | |||||||
| タイトル | ||||||||
| 言語 | en | |||||||
| タイトル | Multi-GPU Scalability of Phase-Field Simulation for Phase Transition―5Tera Flop/s Performance on 40 GPUs | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| キーワード | ||||||||
| 主題Scheme | Other | |||||||
| 主題 | GPU応用 | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
| 資源タイプ | journal article | |||||||
| 著者所属 | ||||||||
| 東京工業大学大学院理工学研究科原子核工学専攻 | ||||||||
| 著者所属 | ||||||||
| 東京工業大学学術国際情報センター | ||||||||
| 著者所属 | ||||||||
| 東京工業大学大学院理工学研究科機械制御システム専攻 | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Graduate School of Science and Engineering, Tokyo Institute of Technology | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Global Scientific Information and Computing Center, Tokyo Institute of Technology | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Graduate School of Science and Engineering, Tokyo Institute of Technology | ||||||||
| 著者名 |
小川, 慧
青木, 尊之
山中, 晃徳
× 小川, 慧 青木, 尊之 山中, 晃徳
|
|||||||
| 著者名(英) |
Satoi, Ogawa
Takayuki, Aoki
Akinori, Yamanaka
× Satoi, Ogawa Takayuki, Aoki Akinori, Yamanaka
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | 純金属のデンドライト凝固成長に対してフェーズフィールド法に基づいた Allen-Cahn 方程式と熱伝導方程式を連立させて GPU で計算し実行性能を検証した.離散化された式を CUDA でプログラミングすることにより時間発展の計算を行い,NVIDIA の GPU である Tesla S1070 の単一 GPU で 171GFLOPS (単精度計算) を達成した.さらに複数 GPU に対して領域分割による並列化を行い,東京工業大学の TSUBAME において実行性能のスケーラビリティーを調べた.各 GPU に直結したビデオメモリ間のデータ通信が必要となり,CPU 側にバッファ・メモリを用意して GPU とバッファ・メモリの間のデータ転送,複数ノードに分散したバッファ・メモリ間のデータ交換の 2 段階で通信を行った.GPU の演算性能に対して通信性能が低く,データ転送に必要な部分を先に計算することでデータ転送を開始し,同時に内部領域の計算を行うオーバーラップ計算を行った.これによりストロング・スケーリングの大幅な向上を図ることができ,1920×1920×1920 格子に対し 40GPU を用いて 5TFLOPS を達成した.計算時間と通信時間の内訳について各部分にかかる時間を詳細に測定し,通信時間の短縮方法を明らかにした.本研究により,大規模な HPC アプリケーションを複数 GPU で実行するための方向性を示すことができた. | |||||||
| 論文抄録(英) | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | Multi-GPU computing is carried out for the dendritic solidification of a pure metal. The simulation code for the Allen-Cahn equation coupled with the thermal conduction equation is implemented to the CUDA code and runs on the NVIDIA Tesla GPU of TSUBAME grid cluster. The performance of 171 GFLOPS (Single precision) for single GPU has been achieved and 40GPUs have shown 5TFLOPS for the computational domain of 1920×1920×1920 mesh. For a large-scale multi-GPU computing, GPU-to-GPU communications become major time consuming and the overlapping technique between the communication and computation is introduced to hide the communication time. The strong scaling of the GPU number has been improved very much in the case that the computational time is longer than communication time. The breakdown of execution time is examined carefully and the critical issues for HPC application on multi-GPU platform become clear. | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AA11833852 | |||||||
| 書誌情報 |
情報処理学会論文誌コンピューティングシステム(ACS) 巻 3, 号 2, p. 67-75, 発行日 2010-06-21 |
|||||||
| ISSN | ||||||||
| 収録物識別子タイプ | ISSN | |||||||
| 収録物識別子 | 1882-7829 | |||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||