WEKO3
アイテム
倍精度正方行列特異値分解アルゴリズムのGPGPU上での性能・精度評価
https://ipsj.ixsq.nii.ac.jp/records/86066
https://ipsj.ixsq.nii.ac.jp/records/8606678125557-2ee5-41c3-a764-04b94e210c47
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2012 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Trans(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2012-10-15 | |||||||
タイトル | ||||||||
タイトル | 倍精度正方行列特異値分解アルゴリズムのGPGPU上での性能・精度評価 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Performance and Accuracy of Singular Value Decomposition of Square Matrices in Double Precision Arithmetic on GPGPU | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | [高性能計算] 特異値分解,GPGPU,性能評価,精度評価,Bischofの方法 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
神戸大学大学院システム情報学研究科計算科学専攻 | ||||||||
著者所属 | ||||||||
神戸大学大学院システム情報学研究科システム科学専攻 | ||||||||
著者所属 | ||||||||
神戸大学大学院システム情報学研究科計算科学専攻/科学技術推進機構,戦略的創造研究推進事業 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computational Science, Graduate School of System Infomatics, Kobe University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Systems Science, Graduate School of System Infomatics, Kobe University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computational Science, Graduate School of System Infomatics, Kobe University/Japan Science and Technology Agency, CREST | ||||||||
著者名 |
廣田, 悠輔
× 廣田, 悠輔
|
|||||||
著者名(英) |
Yusuke, Hirota
× Yusuke, Hirota
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Bischof の方法による正方行列の特異値分解アルゴリズムを GPGPU 向けに倍精度で実装した.実装のパラメータ (帯幅) を様々に変化させて実行し, NVIDIA 社の Tesla C2050 を搭載した計算機を含む 2 つの計算機で評価を行った.さらに, LAPACK の CPU への実装 (MKL) および GPGPU への実装 (CULA,MAGMA) と比較を行った.我々の実装により得られる特異値,特異ベクトルの精度は他の実装と同程度となった.また, Xeon X5680 (3.3GHz,hexa-core) および Tesla C2050 を搭載した計算機で特異値分解を行ったとき,我々の実装は MKL の 3.9倍, CULA および MAGMA の 1.8 倍高速となった.さらに,実行時間の内訳について詳細な分析を行い,その結果に基づき我々の実装の高速化手法について検討した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We develop a GPGPU implementation for singular value decomposition of square matrices based on Bischof's algorithm in double precision arithmetic. The performance and the accuracy of the implementation with various parameter values (band width) is evaluated and compared to LAPACK implementations for CPU (MKL) and for GPGPU (CULA and MAGMA). The accuracy of singular values and singular vectors by our implementation is comparable with that of other implementations. Our implementation executing on a GPGPU (Tesla C2050) is about 3.9 times faster than MKL executing on a CPU (Xeon X5680, 3.3GHz, hexa-core). Also, our implementation is about 1.8 times faster than CULA and MAGMA executing on the GPGPU. In addition, the breakdown of the execution time is analyzed in detail and some performance improvement methods of our implementation based on the analysis are discussed. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA11833852 | |||||||
書誌情報 |
情報処理学会論文誌コンピューティングシステム(ACS) 巻 5, 号 5, p. 163-176, 発行日 2012-10-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7829 | |||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |