@techreport{oai:ipsj.ixsq.nii.ac.jp:00227139, author = {三木, 洋平 and 塙, 敏博}, issue = {28}, month = {Jul}, note = {GPU は CPU に比べて高い電力性能を実現できるため,GPU を搭載したスーパーコンピュータの導入事例が増えてきている.新しい世代の GPU が発表される度に演算性能・電力性能の向上および新機能の追加がなされており,実アプリケーションを用いての継続的かつ詳細な性能評価が重要である.本研究では NVIDIA H100 PCIe および AMD MI210 向けに直接法に基づく N 体計算コードを実装・最適化し,性能評価を行った.NVIDIA H100 PCIe 上での単位時間あたりの相互作用計算数は,NVIDIA A100 の 2.04 倍にあたる 1.37×1012s-1 であった.得られた性能向上率は両 GPU の単精度浮動小数点演算の理論ピーク性能比 2.63 よりも小さいが,Streaming Multiprocessor の構成変更が最大の要因であり,N 体計算においては理論ピーク比相当の高速化は実現不可能である.AMD MI210 においては,CDNA 2 において新たに導入された packed FP32 命令を用いた高速化によって,AMD MI100 の 1.42 倍にあたる 9.49×1011s-1 が得られた.Packed FP32 命令の利用による性能向上は 1.33 倍であり,サイクル数ベースの見積もりから期待される 5/3 倍には及ばず,供給電力不足による動作周波数低下だけでは説明できない.各 GPU の消費電力あたりの性能値は,NVIDIA H100 PCIe が NVIDIA A100 の 1.56 倍の 4.11×109W-1,AMD MI210 は AMD 100 の 1.47 倍の 3.46×109W-1 であった.}, title = {NVIDIA H100 PCIeおよびAMD MI210におけるN体計算コードの性能評価}, year = {2023} }