@techreport{oai:ipsj.ixsq.nii.ac.jp:00217498,
 author = {津金, 佳祐 and 前田, 宗則 and 新井, 正樹 and 吉川, 隆英},
 issue = {20},
 month = {Mar},
 note = {近年の主流であるメニーコアプロセッサにおいて，多数のコアを効率よく利用するためにタスク並列プログラミングモデルが注目されている．タスクに対してデータ依存を記述することで，従来のスレッド間の全体同期からタスク単位の同期とし，同期オーバヘッドを減らすことでプログラムの高速化が期待される．しかし，タスクに対してデータ依存を全て記述することや適切なタスク粒度を設定することは非常に困難であり，プログラム開発の生産性を低下させることから，我々はタスク並列で記述されたプログラムへの自動変換に関する研究開発を行っている．そこで本稿では，富士通が開発したメニーコアプロセッサである A64FX においてタスク並列ベンチマークの実装や性能評価を行い，タスク並列プログラミングの現状や優位性を報告する．タスク並列プログラミングモデルを OpenMP と OmpSs-2 とし，ベンチマークを Laplace Solver，N-body，ブロックコレスキー分解とした．実装では，OpenMP taskyield 指示文の挙動がコンパイラにより異なるため，動作しないことを想定したデータ依存付きタスク並列実装を示した．性能評価では，既存のデータ並列実装と比較して Laplace Solver で 16%，N-body で15%，ブロックコレスキー分解で 42% の性能向上を確認し，タスク並列プログラミングモデルによる実装の性能の高さを示した．},
 title = {A64FXにおけるタスク並列ベンチマークの性能評価},
 year = {2022}
}