@techreport{oai:ipsj.ixsq.nii.ac.jp:00210005,
 author = {李, 珍泌 and 佐藤, 三久 and Jinpil, Lee and Mitsuhisa, Sato},
 issue = {7},
 month = {Mar},
 note = {計算機アーキテクチャのトレンドとして,計算資源の並列化と階層化によってスループット性能を上げるスループット志向アーキテクチャが広く採用されている.近年の汎用プロセッサの性能向上も命令セットのデータ幅の拡大やマルチコア化,高速なメモリ階層の導入が進み,Graphics Processing Unit (GPU) のような従来のスループット志向アーキテクチャに近づいてきている.本研究では GPU 向け並列プログラミングモデルとされてきた OpenCL を富岳スーパーコンピューターの A64FX プロセッサに適用することで,スループット性能を最大限に引き出せるプログラミングモデルの実現を目指す.処理系は OpenCL カーネル関数の ARM Scalable Vector Extension (SVE) 命令によるベクトル化やランタイムによるスレッド並列実行を行う.その結果,命令およびスレッドレベル並列化,NUMA メモリ向け性能最適化などの階層的な並列プログラミングを提案手法のみで記述することが可能になる.STREAM triad を用いた性能評価では 560 GB/sec の性能を達成することを確認した.},
 title = {ARM SVE向けOpenCLの実装},
 year = {2021}
}