WEKO3
アイテム
複素非対称行列向け固有値解法の CSX600 による高速化
https://ipsj.ixsq.nii.ac.jp/records/28781
https://ipsj.ixsq.nii.ac.jp/records/2878152b426f5-bb84-4308-b604-4544298ba030
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2007-08-02 | |||||||
タイトル | ||||||||
タイトル | 複素非対称行列向け固有値解法の CSX600 による高速化 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Acceleration of a Complex Nonsymmetric Eigensolver with the CSX600 Floating-Point Coprocessor | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
名古屋大学大学院工学研究科計算理工学専攻 | ||||||||
著者所属 | ||||||||
名古屋大学大学院工学研究科計算理工学専攻 | ||||||||
著者所属 | ||||||||
京都大学大学院情報学研究科数理工学専攻/JST SORST | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computational Science and Engineering, Graduate School of Engineering, Nagoya University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computational Science and Engineering, Graduate School of Engineering, Nagoya University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Applied Mathematics and Physics, Graduate School of Informatics, Kyoto University/JST SORST | ||||||||
著者名 |
宮田, 考史
× 宮田, 考史
|
|||||||
著者名(英) |
Takafumi, MIYATA
× Takafumi, MIYATA
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本論文では、複素非対称行列に対するヘッセンベルグ QR 法を ClearSpeed 社の浮動小数点コプロセッサ CSX600 を用いて高速化した結果について報告する。ベースとなるアルゴリズムとしては、Braman らにより提案された small-bulge マルチシフト QR 法を用いる。このアルゴリズムは、計算の大部分を行列乗算の形で実行でき、高性能アーキテクチャに適している。しかし、OSX600 の性能を引き出すには、シフト数を 200 以上に増やす必要があり、その場合、行列乗算以外の部分の実行時間が無視できなくなる。そこで本研究では、行列乗算以外で最も大きな時間を占める2つの部分、すなわち対角ブロック内部でのバルジ追跡と分離した小行列の固有値計算に着目し、それぞれに対して再帰型アルゴリズムへの変換とブロック化という技法を適用した。これにより、この2つの部分の実行時間を大幅に短縮できる。これらの最適化の結果、12 000x12 000 の複素ヘッセンベルグ行列の固有値とシューア標準形を求める場合、OSX600 を使うことで 3.2GHz Xeon に比べ 3.8倍の高速化を達成できた。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper, we show how to speed up the Hessenberg QR algorithm for computing the eigenvalues of a dense complex nonsymmetric matrix using the CSX600 floating-point coprocessor. Our approach is based on the small-bulge multishift QR algorithm proposed by Braman et al. This algorithm can perform a major part of the computation in the form of matrix multiplication and is therefore very suited to high performance architectures. However, to exploit the potential of the CSX600, the number of shifts must be increased to more than two hundreds. In that case, the parts other than matrix multiplication begin to occupy a considerable percentage of the execution time, thereby limiting the speedup. To solve this problem, we focus on two most time-consuming parts in the algorithm except for matrix multiplication: accumulation of bulge-chasing transformations and solution of a decoupled small eigenproblem. We reconstruct the former as a recursive algorithm and apply a blocking technique to the latter. This greatly reduces the execution time of these parts. As a result of these optimizations, we obtained up to 3.8 times speedup with the CSX600 processor over a 3.2GHz Xeon processor when computing the eigenvalues and the Schur canonical form of a 12,000 x 12,000 complex Hessenberg matrix. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10463942 | |||||||
書誌情報 |
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) 巻 2007, 号 80(2007-HPC-111), p. 161-166, 発行日 2007-08-02 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |