@techreport{oai:ipsj.ixsq.nii.ac.jp:02007963, author = {三木,洋平 and 塙,敏博}, issue = {47}, month = {Mar}, note = {日本国内においてGPUスパコンの導入事例が増加しており，また「富岳NEXT」への準備を進めるという観点においても科学技術アプリケーションのGPU対応が急務となっている．2024年までに導入されてきた国内のGPUスパコンは全てNVIDIA製GPUを搭載していたが，2025年にはAMD製GPUを搭載したシステムも導入されたことから，ベンダーニュートラルなGPUコード開発の必要性も高まっている．そこで本研究では，直接法N体計算コードをCUDA/HIP/SYCL/Kokkos/Solomonで実装・最適化し，NVIDIA GH200/B200およびAMD MI300Aという最新のGPU上で性能・移植性を比較した．NVIDIA GH200上ではSYCL実装をAdaptiveCppでコンパイルした時に最高性能となり，粒子数N=33 554 432における単位時間あたりの相互作用計算数は2.16×1012s-1であった．Kokkos実装についてもほぼ同等の性能を発揮し，CUDA C++実装を上回った．AMD MI300A上ではpacked FP32命令を用いた実装が有効であり，HIP実装では粒子数N=4 194 304における単位時間あたりの相互作用計算数が2.45×1012s-1に達した．SYCL実装をAdaptiveCppでコンパイルした時にもほぼ同等の性能が得られたことから，性能可搬プログラミングを用いた実装が，CUDA C++やHIP実装と同等以上の性能を発揮できると示された．また，NVIDIA B200上でのKokkos実装においては，粒子数N=33 554 432における性能が2.38×1012s-1という，NVIDIA GH200からの理論ピーク性能比にほぼ等しい性能向上が得られた．}, title = {N体計算におけるGPUプログラミング手法比較：NVIDIA GH200/B200およびAMD MI300Aでの性能評価}, year = {2026} }