@techreport{oai:ipsj.ixsq.nii.ac.jp:00176374, author = {今村, 俊幸 and 椋木, 大地}, issue = {7}, month = {Dec}, note = {コンシューマレンジの GPU である GeForce や組み込み系 GPU の Tegra では HPC 向けの機能を削いでおり,デバイスメモリの転送能力は 200 GB/s を超えるハイエンドモデル並みだが倍精度と単精度の演算性能バランスが 1 : 32 と著しく悪いものが多い.このような GPU を用いた数値計算ではハイエンド GPU とは異なるアルゴリズムや実装の選択が必要となる.本報告では GPU 向け固有値ソルバーである Eigen-G と MAGMA の固有値計算ルーチンと対して,その性能評価を DP 性能と B/F 値のバランスの観点から行う.B/F 値が相対的に高い GPU 環境下では古典的なアルゴリズムである 1-stage アルゴリズムが高速であり,全固有値 ・ 固有ベクトルを計算する必要がある場合には B/F 値が低いハイエンド GPU や現代的な CPU 環境における選択とは異なることが数値実験からも明らかになった.さらに,単精度演算器を用いて倍精度演算を模擬する double-float 技術 (DF) を使用して実装した DGEMM 関数を用いてコンシューマレンジ GPU 向けの最適化を施す.DF 版 DGEMM を用いた固有値ソルバ Eigen-G の実行性能は GeForce GTX1080 上で N = 10000 の固有値問題を解いたときに 20 秒であり (DP 版では 21.4 秒),7% 程度の高速化が認められる.測定誤差は相対残差が}, title = {コンシューマレンジのGPUに最適化した固有値ソルバーの実装と評価}, year = {2016} }