WEKO3
アイテム
CNNの外部メモリアクセス削減による高速化手法
https://ipsj.ixsq.nii.ac.jp/records/219189
https://ipsj.ixsq.nii.ac.jp/records/219189cfa2f31e-8d4d-4a99-8949-c6266e4a5bba
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2022 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | Symposium(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2022-08-24 | |||||||
| タイトル | ||||||||
| タイトル | CNNの外部メモリアクセス削減による高速化手法 | |||||||
| タイトル | ||||||||
| 言語 | en | |||||||
| タイトル | CNN Acceleration by External Memory Access Reduction | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| キーワード | ||||||||
| 主題Scheme | Other | |||||||
| 主題 | 最適化 | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||
| 資源タイプ | conference paper | |||||||
| 著者所属 | ||||||||
| (株)日立製作所 | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Hitachi Ltd. | ||||||||
| 著者名 |
島村, 光太郎
× 島村, 光太郎
|
|||||||
| 著者名(英) |
Kotaro, Shimamura
× Kotaro, Shimamura
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | CNN (Convolutional Neural Network) は画像や音声の認識処理を中心に実用化が進んでいる.CNN の処理は演算量が多いため,専用ハードウェアを用いて高速化する既存研究も多数存在するが,開発コストやフレキシビリティに難があるため,GPU 上のソフトウェアで処理を行うケースも多い.GPU を用いる場合,16 ビット浮動小数点数や 8 ビット整数といったビット数の少ないデータ型を用いることで高速化を図る手法がよく用いられるが,演算器のピーク性能に比べると,CNN 処理の実質的な性能は桁違いに小さい場合がある.物体検知用 CNN の 1 つである YOLOv4 を対象にピーク性能と実質的な性能の差が生じる原因を分析したところ,GPU の外部メモリへのアクセスが原因の一つであることが明らかとなった.外部メモリへのアクセスを削減する手法として,畳み込み,バイアス加算,活性化関数の 3 つの処理を同一のループ処理で実行する手法を考案した.YOLOv4 の 1 つのレイヤに対して提案手法を適用したところ,最大で 61% 処理時間を削減することができた. | |||||||
| 論文抄録(英) | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | CNN (Convolutional Neural Network) has been put into practical use in areas such as the image recognition and the voice recognition. Executing CNN requires a massive amount of calculations, which leads to many studies on the hardware accelerators of CNN. On the other hand, there are many applications in which CNN is executed by the software on a GPU because of the large development cost and the lack of flexibility of the hardware accelerators. When executing CNN on GPUs, small data types such as 16bit floating-point number and 8bit integer are often used to accelerate the calculation. Many GPUs achieve much higher peak performance for those data types than larger data types, but the effective performance of the CNN calculation is much lower than the peak performance in many cases. The author has analyzed YOLOv4, one of the CNNs for the object detection, and has found that external memory accesses form the GPU is one of the main causes of the gap between the peak performance and the effective performance. Based on this fact, a method to reduce external memory access by executing convolution, bias addition and activation in one loop has been proposed. The proposed method has been applied to a layer of YOLOv4 and achieved 61% execution time reduction. | |||||||
| 書誌情報 |
DAシンポジウム2022論文集 巻 2022, p. 102-107, 発行日 2022-08-24 |
|||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||