ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 論文誌(トランザクション)
  2. コンピューティングシステム(ACS)
  3. Vol.3
  4. No.2

マルチGPUによるフェーズフィールド相転移計算のスケーラビリティー―40GPUで5 TFLOPSの実効性能

https://ipsj.ixsq.nii.ac.jp/records/69735
https://ipsj.ixsq.nii.ac.jp/records/69735
eccbd01a-bebf-4b0a-8421-d471fbf55876
名前 / ファイル ライセンス アクション
IPSJ-TACS0302010.pdf IPSJ-TACS0302010.pdf (1.1 MB)
Copyright (c) 2010 by the Information Processing Society of Japan
オープンアクセス
Item type Trans(1)
公開日 2010-06-21
タイトル
タイトル マルチGPUによるフェーズフィールド相転移計算のスケーラビリティー―40GPUで5 TFLOPSの実効性能
タイトル
言語 en
タイトル Multi-GPU Scalability of Phase-Field Simulation for Phase Transition―5Tera Flop/s Performance on 40 GPUs
言語
言語 jpn
キーワード
主題Scheme Other
主題 GPU応用
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ journal article
著者所属
東京工業大学大学院理工学研究科原子核工学専攻
著者所属
東京工業大学学術国際情報センター
著者所属
東京工業大学大学院理工学研究科機械制御システム専攻
著者所属(英)
en
Graduate School of Science and Engineering, Tokyo Institute of Technology
著者所属(英)
en
Global Scientific Information and Computing Center, Tokyo Institute of Technology
著者所属(英)
en
Graduate School of Science and Engineering, Tokyo Institute of Technology
著者名 小川, 慧 青木, 尊之 山中, 晃徳

× 小川, 慧 青木, 尊之 山中, 晃徳

小川, 慧
青木, 尊之
山中, 晃徳

Search repository
著者名(英) Satoi, Ogawa Takayuki, Aoki Akinori, Yamanaka

× Satoi, Ogawa Takayuki, Aoki Akinori, Yamanaka

en Satoi, Ogawa
Takayuki, Aoki
Akinori, Yamanaka

Search repository
論文抄録
内容記述タイプ Other
内容記述 純金属のデンドライト凝固成長に対してフェーズフィールド法に基づいた Allen-Cahn 方程式と熱伝導方程式を連立させて GPU で計算し実行性能を検証した.離散化された式を CUDA でプログラミングすることにより時間発展の計算を行い,NVIDIA の GPU である Tesla S1070 の単一 GPU で 171GFLOPS (単精度計算) を達成した.さらに複数 GPU に対して領域分割による並列化を行い,東京工業大学の TSUBAME において実行性能のスケーラビリティーを調べた.各 GPU に直結したビデオメモリ間のデータ通信が必要となり,CPU 側にバッファ・メモリを用意して GPU とバッファ・メモリの間のデータ転送,複数ノードに分散したバッファ・メモリ間のデータ交換の 2 段階で通信を行った.GPU の演算性能に対して通信性能が低く,データ転送に必要な部分を先に計算することでデータ転送を開始し,同時に内部領域の計算を行うオーバーラップ計算を行った.これによりストロング・スケーリングの大幅な向上を図ることができ,1920×1920×1920 格子に対し 40GPU を用いて 5TFLOPS を達成した.計算時間と通信時間の内訳について各部分にかかる時間を詳細に測定し,通信時間の短縮方法を明らかにした.本研究により,大規模な HPC アプリケーションを複数 GPU で実行するための方向性を示すことができた.
論文抄録(英)
内容記述タイプ Other
内容記述 Multi-GPU computing is carried out for the dendritic solidification of a pure metal. The simulation code for the Allen-Cahn equation coupled with the thermal conduction equation is implemented to the CUDA code and runs on the NVIDIA Tesla GPU of TSUBAME grid cluster. The performance of 171 GFLOPS (Single precision) for single GPU has been achieved and 40GPUs have shown 5TFLOPS for the computational domain of 1920×1920×1920 mesh. For a large-scale multi-GPU computing, GPU-to-GPU communications become major time consuming and the overlapping technique between the communication and computation is introduced to hide the communication time. The strong scaling of the GPU number has been improved very much in the case that the computational time is longer than communication time. The breakdown of execution time is examined carefully and the critical issues for HPC application on multi-GPU platform become clear.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA11833852
書誌情報 情報処理学会論文誌コンピューティングシステム(ACS)

巻 3, 号 2, p. 67-75, 発行日 2010-06-21
ISSN
収録物識別子タイプ ISSN
収録物識別子 1882-7829
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-21 23:47:57.000480
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3