@techreport{oai:ipsj.ixsq.nii.ac.jp:00217483, author = {星野, 哲也 and 河合, 直聡 and 三木, 洋平 and 塙, 敏博 and 中島, 研吾}, issue = {5}, month = {Mar}, note = {Fortran 2008 の標準規格として導入された do concurrent 構文は,適用ループが並列実行可能であることを意味する.NVIDIA 社の nvfortran コンパイラは,do concurrent で記述されたループを NVIDIA GPU でオフロード実行する機能を提供しており,従って専用言語や指示文を用いない標準規格の Fortran プログラムの GPU 実行が可能となっている.本稿では,do concurrentによる GPU オフローディングの評価を目的とし,ICCG ソルバ,H-行列・ベクトル積,3 次元拡散方程式の do concurrent 実装を行った.OpenACC や OpenMP 5.x と比較を行い,NVIDIA Tesla A100 上で評価を行った.その結果,do concurrent の制約を受けないケースでは OpenACC や OpenMP 5.x と遜色ない性能が得られたものの,do concurrent の制約である縮約演算が必要なケースや明示的に CPU-GPU 間のデータ移動を行いたいケースにおいて,大きな性能ギャップが生じることや,制約を避けるための実装コストが大きいことがわかった.}, title = {Fortran標準規格do concurrentを用いたGPUオフローディング手法の評価}, year = {2022} }