2024-03-29T09:20:11Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000839502023-04-27T10:00:04Z01164:02240:06731:06867
大規模GPUクラスタにおけるN体計算コードの演算性能とスケーラビリティの評価jpnGPUhttp://id.nii.ac.jp/1001/00083941/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=83950&item_no=1&attribute_id=1&file_no=1Copyright (c) 2012 by the Information Processing Society of Japan筑波大学大学院数理物質科学研究科/筑波大学大学院システム情報工学研究科筑波大学システム情報系/筑波大学計算科学研究センター筑波大学数理物質系/筑波大学計算科学研究センター三木洋平高橋大介森正夫我々は, CUDA/OpenMP/MPI を用いて実装した N 体計算コードを最適化し,大規模 GPU クラスタ上で性能評価を行った.本実装では,スケーラビリティを向上させるために,ノード間の通信回数を削減し,またノード間・ノード内の通信を計算と同時に行うことによって通信時間を隠蔽した.筑波大学の HA-PACS (Highly Accelerated Parallel Advanced system for Computational Sciences) 上での性能測定の結果,高い演算性能,並列化効率が得られることが確かめられた. GPU 当たりの粒子数が 8192 体未満の場合にはスーパーリニア・スケーリングを示し, 8192 体以上の場合には並列化効率はほぼ 100% となった. NVIDIA Tesla M2090 を 256 枚用いた際のピーク性能は単精度 254.0TFLOPS (理論ピーク性能の 74.5%) に達した.AN10463942研究報告ハイパフォーマンスコンピューティング(HPC)2012-HPC-1361192012-09-262012-09-12