@techreport{oai:ipsj.ixsq.nii.ac.jp:00028660,
 author = {筒井, 直機 and 吉田, 仁 and 黒田, 久泰 and 金田, 康正 and Naoki, Tsutsui and Hitoshi, Yoshida and Hisayasu, Kuroda and Yasumasa, Kanada},
 issue = {74(2008-HPC-116)},
 month = {Jul},
 note = {浮動小数点演算で扱う数値は計算機上で有限桁の取り扱いとなるため,一般的には演算毎に誤差が発生する.それで計算精度を高めるために 4 倍精度演算を使用することがあるが, 4 倍精度演算はソフトウェアによるエミュレーションで実現されることが大半のため,ハードウェアで実現される倍精度演算と比べてかなり遅くなる.本研究は,これまで行ってきているベクトルデータに対する 4 倍精度演算の高速化で提案した手法を, 4 倍精度 FFT の実現に適応した.その結果実行性能について,インラインアセンブラを用いてレイテンシの隠蔽を行なう事で,元の19%まで計算時間を短縮させることができた.なおこの GCC のアセンブラによる実現は, HITACHI 最適化コンパイラでコンパイルした他の方法によるものとほぼ同等の計算速度となっている., Floating point operations generate rounding errors in every operation, in general, because numerical operations are done with limited digits.  In order to get high precision results, quadruple precision operations are sometimes used.  Quadruple precision operations were realized with software emulations on almost all machines.  Then, processing speed is rather slow compared to double precision operations which were realized with hardware.  We adopted acceleration methods used in uadruple precision operations to quadruple precision FFT.  We succeeded in reducing the computing time to 19% to the original non-optimized version by applying in-line assembler with latency hiding technique to the original sources.   This method  with GCC realizes almost the same performance as another method with HITACHI optimizing compiler.},
 title = {SR11000/J2 における4倍精度演算を改良したFFTの実装と評価},
 year = {2008}
}