| Item type |
SIG Technical Reports(1) |
| 公開日 |
2017-07-19 |
| タイトル |
|
|
タイトル |
Summed Area Table計算の効率的なGPU実装 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
An Efficient GPU Implementation of Computing the Summed Area Table |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
GPGPU |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
広島大学大学院工学研究科 |
| 著者所属 |
|
|
|
広島大学大学院工学研究科 |
| 著者所属 |
|
|
|
広島大学大学院工学研究科 |
| 著者所属 |
|
|
|
広島大学大学院工学研究科 |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Information Engineering, Hiroshima University, |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Information Engineering, Hiroshima University, |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Information Engineering, Hiroshima University, |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Information Engineering, Hiroshima University |
| 著者名 |
柄本, 悠太郎
本田, 巧
中野, 浩嗣
伊藤, 靖朗
|
| 著者名(英) |
Yutaro, Emoto
Takumi, Honda
Koji, Nakano
Yasuaki, Ito
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本論文では,Summed Area Table (SAT) 計算の効率的な GPU 実装を提案する.SAT を計算する既存の GPU 実装は行列を小さな領域に分割し並列に計算を行っている.このとき,領域間で計算の同期をとる必要があり,そのためのカーネル呼び出しにかかるオーバーヘッドが計算時間の遅延をもたらしていた.カーネルとは GPU の実行するプログラムのことで,CUDA は異なるブロック間で同期をとるとき新しいカーネルを起動する必要がある.そこで,提案 GPU 実装では領域ごとに計算の進捗を管理する状態フラグを用意することで,1 度のカーネル呼び出しで SAT 計算を行い高速化を実現した.評価実験として提案手法を NVIDIA Titan X に実装し,実行時間を計測した.その結果,提案手法は既存の GPU 実装と比べて最大 2.03 倍,逐次処理の CPU 実装と比べて最大 41.68 倍の高速化を達成した. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
The main contribution of this paper is to show an efficient GPU implementation of computing the summed area table. Existing implementations compute SAT in parallel dividing input matrix into submatrix. In the implementations, to synchronize the computation, the execution is divided into several kernels that are launched in serial. Our implementation adopts status flag to check the progress of computation and calls a kernel only once to compute SAT. In this paper, we show a GPU implementation that can perform a single kernel call on NVIDIA Titan X. The experimental results show that our SAT implementation runs faster at most 2.03 times than existing GPU implementations and 41.68 times faster than sequential algorithm using the CPU. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10096105 |
| 書誌情報 |
研究報告システム・アーキテクチャ(ARC)
巻 2017-ARC-227,
号 4,
p. 1-6,
発行日 2017-07-19
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8574 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |