WEKO3
アイテム
疎行列-ベクトル積におけるブロック化BSS法と高スレッド並列環境での性能評価
https://ipsj.ixsq.nii.ac.jp/records/71782
https://ipsj.ixsq.nii.ac.jp/records/71782990890b3-262d-49ca-9369-9fae5da3a512
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2011 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | Symposium(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2011-01-11 | |||||||
| タイトル | ||||||||
| タイトル | 疎行列-ベクトル積におけるブロック化BSS法と高スレッド並列環境での性能評価 | |||||||
| タイトル | ||||||||
| 言語 | en | |||||||
| タイトル | A Blocked BSS Implementation for Sparse Matrix-vector Multiplication and Its Performance Evaluation on a High Thread Parallel Environment | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| キーワード | ||||||||
| 主題Scheme | Other | |||||||
| 主題 | 自動チューニング | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||
| 資源タイプ | conference paper | |||||||
| 著者所属 | ||||||||
| 東京大学情報基盤センター | ||||||||
| 著者所属 | ||||||||
| 自然科学研究機構核融合科学研究所 | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Information Technology Center, The University of Tokyo. | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| National Institute for Fusion Science. | ||||||||
| 著者名 |
片桐, 孝洋
佐藤, 雅彦
× 片桐, 孝洋 佐藤, 雅彦
|
|||||||
| 著者名(英) |
Takahiro, Katagiri
Masahiko, Sato
× Takahiro, Katagiri Masahiko, Sato
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | 本論文では疎行列-ベクトル積において,Segmented Scan (SS) 法のマルチコア向き実装である BSS 法を改良し,並列性を高め,キャッシュ親和性を高める新方式の Blocked BSS 法を提案する.128 スレッド実行が可能な HITACHI SR16000/VL1 で性能評価を行った.性能評価の結果,フロリダ行列では従来の単純な行分割方式に対し非零要素均等化方式が最大で 63.5% の速度向上が達成できた.また,ある特定の行が密となる人工行列では,従来の BSS 法に対し提案する Blocked BSS 法は 48% の速度向上を達成できる場合があった. | |||||||
| 論文抄録(英) | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | In this paper, we propose “Blocked BSS” method, which gives us high parallelism and cache affinity property to BSS method, which is a multicore implementation based on Segmented Scan (SS) method. Performance evaluation with a highly threaded environment by using the HITACHI SR16000/VL1 indicates that: (1) maximum 63.5% speedup is established by using normalized non-zero method to the simple row-decomposition method with Florida matrix collection; (2) 48% speedup is established by using the proposed blocked BSS to the original BSS with an artificial matrix which is set to a particular dense row. | |||||||
| 書誌情報 |
ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集 巻 2011, p. 88-96, 発行日 2011-01-11 |
|||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||