WEKO3
アイテム
CUDA-xSYMVの実装と評価
https://ipsj.ixsq.nii.ac.jp/records/103179
https://ipsj.ixsq.nii.ac.jp/records/103179a3a9d749-7fb2-42e5-8bb5-8437ad0c243c
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2014 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2014-09-25 | |||||||
タイトル | ||||||||
タイトル | CUDA-xSYMVの実装と評価 | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 数値計算 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
理化学研究所計算科学研究機構/科学技術振興機構CREST | ||||||||
著者所属 | ||||||||
理化学研究所計算科学研究機構 | ||||||||
著者所属 | ||||||||
日本原子力研究開発機構/科学技術振興機構CREST | ||||||||
著者所属 | ||||||||
日本原子力研究開発機構/科学技術振興機構CREST | ||||||||
著者所属(英) | ||||||||
en | ||||||||
RIKEN Advanced Institute for Computational Science / CREST JST | ||||||||
著者所属(英) | ||||||||
en | ||||||||
RIKEN Advanced Institute for Computational Science | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Japan Atomic Energy Agency / CREST JST | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Japan Atomic Energy Agency / CREST JST | ||||||||
著者名 |
今村俊幸
× 今村俊幸
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 対称行列ベクトル積 (SYMV) は行列の対称性を利用して要求バンド幅を半減できる演算である.適切な最適化技法を利用することで,一般行列ベクトル積 (GEMV) よりも 2 倍の性能を示すことが期待される.本研究では,対称性を利用する際に考慮しなくてはならない複数スレッドによるベクトルデータへの書き込み競合に対して,アトミック演算を用いた mutex の実装を工夫することによりアクセス順制御を実現している.これにより,CUBLAS 等で指摘されている 「実行毎に丸め誤差の範囲で演算結果が異なる」 という現象を回避できる.また,既存研究ではスレッドブロック形状が 1 次元であったものを 2 次元に拡張し,計算コア数を増加させることができるようになった.本研究のもう一つのポイントは自動チューニング技術 (AT) による最適パラメタ探索により高性能カーネルの構築を実現していることにある.2 次元ブロック化によって広範囲に分布するパラメタ空間から自動で最適パラメタ値を探索し,少々時間を要するものの最適化された高性能 SYMV を GPU アーキテクチャ毎にビルドすることができる.実際,最適化された SSYMV (単精度版 SYMV) カーネルが,GeForce GTXTitan Black 上で 211GFLOPS (対最大バンド幅 62.8%) を記録している.さらに,実数 (単精度や倍精度) 以外の数値フォーマットである複素数 (単精度,倍精度) ならびに疑似四倍精度 DD(double-double) フォーマットに対しても,同様のアプローチにより SYMV カーネル (CHEMV,ZHEMV,WSYMV) の実装に成功し,高い実行性能を確認している. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10463942 | |||||||
書誌情報 |
研究報告ハイパフォーマンスコンピューティング(HPC) 巻 2014-HPC-146, 号 14, p. 1-12, 発行日 2014-09-25 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |