@techreport{oai:ipsj.ixsq.nii.ac.jp:00023297,
 author = {青木, 秀貴 and 處, 雅尋 and 本川, 敬子 and 五百木, 伸洋 and 齋藤, 拡二 and Hidetaka, Aoki and Masahiro, Tokoro and Keiko, Motokawa and Nobuhiro, Ioki and Koji, Saito},
 issue = {80(2004-ARC-159)},
 month = {Jul},
 note = {SR11000モデルH1が採用するPOWER4+はハードウェアによるデータプリフェッチをサポートするが,多数のロードストリームを含むループでは,ハードウェアですべてのストリームをプリフェッチすることができず,性能が低下する。本稿では,この問題を解消するソフトウェアプリフェッチ手法について紹介する。評価の結果,本手法の適用により,ストリーム数が増えた場合にも安定して高い性能を実現できることを確認し,ストリーム数を考慮したループ分割が不要なことを明らかにした。SR11000モデルH1向けの日立最適化FORTRAN90コンパイラは,本手法によるコード生成が可能である。, The POWER4+ processor, which SR11000 model H1 adopts, employs hardware to prefetch data transparently to software.  In a loop with many load streams, however, performance degrades since it is not possible to prefetch all the streams with the hardware.  This paper describes the software prefetch method to prevent this performance degradation.  The evaluation results show that stably high performance is achieved by applying the method even in a loop with many load streams and that loop splitting according to the number of streams is not required. The Hitachi Optimizing FORTRAN90 compiler supports automatic application of the method.},
 title = {SR11000におけるソフトウェアプリフェッチ手法の評価},
 year = {2004}
}