@techreport{oai:ipsj.ixsq.nii.ac.jp:00174152, author = {片桐, 孝洋 and 松本, 正晴 and 大島, 聡史}, issue = {38}, month = {Aug}, note = {本報告では,3 次元積層メモリ技術の導入により,従来のコード最適化方式,および自動チューニング (AT) 方式がどのように影響するかを検証する.従来メモリ構造をもつ Fujitsu PRIMEHPC FX10 と,3 次元積層技術によるメモリをもつ Fujitsu PRIMEHPC FX100 を利用し,有限差分法 (FDM) コードである ppOpen-APPL/FDM を用いて性能評価を行った.その結果,FX10 から FX100 に移行したときの速度向上率は,全体時間で AT なしの実行時間で 4.42 倍,AT ありの実行時間で 3.74 倍,および,演算カーネル時間のみの速度向上率で,AT なしの実行時間で 5.24 倍,AT ありの実行時間で 6.58 倍と,メモリアクセスに関するハードウェア性能比率に対し妥当である結果を得た.また性能プロファイル結果によると,浮動小数点ロードキャッシュアクセス待ち時間の占める割合が,FX10 では 37.18%~39.31%,FX100 では 13.14%~14.61%と削減されていることが確認できた.一方で,FX100 では FX10 よりもバリア同期待ち時間の占める割合の大幅な増加が確認された.この原因は解析中であるが,3 次元積層メモリ技術などにより相対的にメモリアクセス性能が向上した場合,従来とは異なる観点でのコード最適化を考慮しなくてはいけないことを示唆している可能性がある.}, title = {3次元積層技術による高メモリバンド幅時代の自動チューニング~FDMコードを例にして~}, year = {2016} }