@techreport{oai:ipsj.ixsq.nii.ac.jp:00217483,
 author = {星野, 哲也 and 河合, 直聡 and 三木, 洋平 and 塙, 敏博 and 中島, 研吾},
 issue = {5},
 month = {Mar},
 note = {Fortran 2008 の標準規格として導入された do concurrent 構文は，適用ループが並列実行可能であることを意味する．NVIDIA 社の nvfortran コンパイラは，do concurrent で記述されたループを NVIDIA GPU でオフロード実行する機能を提供しており，従って専用言語や指示文を用いない標準規格の Fortran プログラムの GPU 実行が可能となっている．本稿では，do concurrentによる GPU オフローディングの評価を目的とし，ICCG ソルバ，H-行列・ベクトル積，3 次元拡散方程式の do concurrent 実装を行った．OpenACC や OpenMP 5.x と比較を行い，NVIDIA Tesla A100 上で評価を行った．その結果，do concurrent の制約を受けないケースでは OpenACC や OpenMP 5.x と遜色ない性能が得られたものの，do concurrent の制約である縮約演算が必要なケースや明示的に CPU-GPU 間のデータ移動を行いたいケースにおいて，大きな性能ギャップが生じることや，制約を避けるための実装コストが大きいことがわかった．},
 title = {Fortran標準規格do concurrentを用いたGPUオフローディング手法の評価},
 year = {2022}
}