@techreport{oai:ipsj.ixsq.nii.ac.jp:02007963, author = {三木,洋平 and 塙,敏博}, issue = {47}, month = {Mar}, note = {日本国内においてGPUスパコンの導入事例が増加しており,また「富岳NEXT」への準備を進めるという観点においても科学技術アプリケーションのGPU対応が急務となっている.2024年までに導入されてきた国内のGPUスパコンは全てNVIDIA製GPUを搭載していたが,2025年にはAMD製GPUを搭載したシステムも導入されたことから,ベンダーニュートラルなGPUコード開発の必要性も高まっている.そこで本研究では,直接法N体計算コードをCUDA/HIP/SYCL/Kokkos/Solomonで実装・最適化し,NVIDIA GH200/B200およびAMD MI300Aという最新のGPU上で性能・移植性を比較した.NVIDIA GH200上ではSYCL実装をAdaptiveCppでコンパイルした時に最高性能となり,粒子数N=33 554 432における単位時間あたりの相互作用計算数は2.16×1012s-1であった.Kokkos実装についてもほぼ同等の性能を発揮し,CUDA C++実装を上回った.AMD MI300A上ではpacked FP32命令を用いた実装が有効であり,HIP実装では粒子数N=4 194 304における単位時間あたりの相互作用計算数が2.45×1012s-1に達した.SYCL実装をAdaptiveCppでコンパイルした時にもほぼ同等の性能が得られたことから,性能可搬プログラミングを用いた実装が,CUDA C++やHIP実装と同等以上の性能を発揮できると示された.また,NVIDIA B200上でのKokkos実装においては,粒子数N=33 554 432における性能が2.38×1012s-1という,NVIDIA GH200からの理論ピーク性能比にほぼ等しい性能向上が得られた.}, title = {N体計算におけるGPUプログラミング手法比較:NVIDIA GH200/B200およびAMD MI300Aでの性能評価}, year = {2026} }