WEKO3
アイテム
Segmented Scan法のCUDA向け最適化実装
https://ipsj.ixsq.nii.ac.jp/records/69960
https://ipsj.ixsq.nii.ac.jp/records/699601fc71586-21b9-438e-a912-440f4f01b060
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2010 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2010-07-27 | |||||||
タイトル | ||||||||
タイトル | Segmented Scan法のCUDA向け最適化実装 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Optimized Implementation of Segmented Scan Method for CUDA | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | GPU 最適化 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京大学情報基盤センタースーパーコンピューティング研究部門 | ||||||||
著者所属 | ||||||||
日立製作所中央研究所 | ||||||||
著者所属 | ||||||||
東京大学情報基盤センタースーパーコンピューティング研究部門 | ||||||||
著者所属 | ||||||||
東京大学情報基盤センタースーパーコンピューティング研究部門 | ||||||||
著者所属 | ||||||||
愛媛大学大学院理工学研究科 | ||||||||
著者所属 | ||||||||
東京大学情報基盤センタースーパーコンピューティング研究部門 | ||||||||
著者所属 | ||||||||
日立超LSIシステムズ | ||||||||
著者所属 | ||||||||
東京大学情報基盤センタースーパーコンピューティング研究部門 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Supercomputing Research Devision, Information Technology Center, The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Central Research Laboratory Hitachi, Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Supercomputing Research Devision, Information Technology Center, The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Supercomputing Research Devision, Information Technology Center, The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Science and Engineering, Ehime University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Supercomputing Research Devision, Information Technology Center, The University of Tokyo | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Hitachi ULSI System Co., Ltd. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Supercomputing Research Devision, Information Technology Center, The University of Tokyo | ||||||||
著者名 |
大島, 聡史
櫻井, 隆雄
片桐, 孝洋
中島, 研吾
黒田, 久泰
直野, 健
猪貝, 光祥
伊藤, 祥司
× 大島, 聡史 櫻井, 隆雄 片桐, 孝洋 中島, 研吾 黒田, 久泰 直野, 健 猪貝, 光祥 伊藤, 祥司
|
|||||||
著者名(英) |
Satoshi, Ohshima
Takao, Sakurai
Takahiro, Katagiri
Kengo, Nakajima
Hisayasu, Kuroda
Ken, Naono
Mitsuyoshi, Igai
Shoji, Itoh
× Satoshi, Ohshima Takao, Sakurai Takahiro, Katagiri Kengo, Nakajima Hisayasu, Kuroda Ken, Naono Mitsuyoshi, Igai Shoji, Itoh
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では Segmented Scan 法を用いた疎行列ベクトル積の CUDA 向け最適化実装について述べる.我々は実装の再利用性に着目した自動チューニングインターフェース OpenATLib の提案を行い,また OpenATLib の提供する機能の一つである疎行列ベクトル積においては Segmented Scan 方式を元にスカラ計算機向けに改良を行った Branchless Segmented Scan 方式を提案している.本稿ではこれらの方式を元にして CUDA 向けの新たな Segmented Scan 方式を考案し実装した.GPU 上で高速実行可能なようにアルゴリズムの改良や各種の最適化を行った結果,偏りの大きな行列に対して NVIDIA GeForceGTX285 上で最大で 3.26GFLOPS の性能を達成した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | We discuss about optimized implementation of sparse matrix vector multiplication for CUDA using Segmented Scan method. We proposed Auto-tuning interface OpenATLib and we also proposed Branchless Segmented Scan method besed on Segmented Scan method for scalar computer as an important new feature of sparse matrix vector multiplication. In this paper, we proposed and implemented new Segmented Scan method for CUDA based on Segmented Scan method and Branchless Segmented Scan method. As a result of optimized implementation, we aimed 3.26GFLOPS on NVIDIA GeForceGTX285. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10463942 | |||||||
書誌情報 |
研究報告ハイパフォーマンスコンピューティング(HPC) 巻 2010-HPC-126, 号 1, p. 1-7, 発行日 2010-07-27 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |