ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. シンポジウム
  2. シンポジウムシリーズ
  3. DAシンポジウム
  4. 2022

CNNの外部メモリアクセス削減による高速化手法

https://ipsj.ixsq.nii.ac.jp/records/219189
https://ipsj.ixsq.nii.ac.jp/records/219189
cfa2f31e-8d4d-4a99-8949-c6266e4a5bba
名前 / ファイル ライセンス アクション
IPSJ-DAS2022017.pdf IPSJ-DAS2022017.pdf (939.1 kB)
Copyright (c) 2022 by the Information Processing Society of Japan
オープンアクセス
Item type Symposium(1)
公開日 2022-08-24
タイトル
タイトル CNNの外部メモリアクセス削減による高速化手法
タイトル
言語 en
タイトル CNN Acceleration by External Memory Access Reduction
言語
言語 jpn
キーワード
主題Scheme Other
主題 最適化
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_5794
資源タイプ conference paper
著者所属
(株)日立製作所
著者所属(英)
en
Hitachi Ltd.
著者名 島村, 光太郎

× 島村, 光太郎

島村, 光太郎

Search repository
著者名(英) Kotaro, Shimamura

× Kotaro, Shimamura

en Kotaro, Shimamura

Search repository
論文抄録
内容記述タイプ Other
内容記述 CNN (Convolutional Neural Network) は画像や音声の認識処理を中心に実用化が進んでいる.CNN の処理は演算量が多いため,専用ハードウェアを用いて高速化する既存研究も多数存在するが,開発コストやフレキシビリティに難があるため,GPU 上のソフトウェアで処理を行うケースも多い.GPU を用いる場合,16 ビット浮動小数点数や 8 ビット整数といったビット数の少ないデータ型を用いることで高速化を図る手法がよく用いられるが,演算器のピーク性能に比べると,CNN 処理の実質的な性能は桁違いに小さい場合がある.物体検知用 CNN の 1 つである YOLOv4 を対象にピーク性能と実質的な性能の差が生じる原因を分析したところ,GPU の外部メモリへのアクセスが原因の一つであることが明らかとなった.外部メモリへのアクセスを削減する手法として,畳み込み,バイアス加算,活性化関数の 3 つの処理を同一のループ処理で実行する手法を考案した.YOLOv4 の 1 つのレイヤに対して提案手法を適用したところ,最大で 61% 処理時間を削減することができた.
論文抄録(英)
内容記述タイプ Other
内容記述 CNN (Convolutional Neural Network) has been put into practical use in areas such as the image recognition and the voice recognition. Executing CNN requires a massive amount of calculations, which leads to many studies on the hardware accelerators of CNN. On the other hand, there are many applications in which CNN is executed by the software on a GPU because of the large development cost and the lack of flexibility of the hardware accelerators. When executing CNN on GPUs, small data types such as 16bit floating-point number and 8bit integer are often used to accelerate the calculation. Many GPUs achieve much higher peak performance for those data types than larger data types, but the effective performance of the CNN calculation is much lower than the peak performance in many cases. The author has analyzed YOLOv4, one of the CNNs for the object detection, and has found that external memory accesses form the GPU is one of the main causes of the gap between the peak performance and the effective performance. Based on this fact, a method to reduce external memory access by executing convolution, bias addition and activation in one loop has been proposed. The proposed method has been applied to a layer of YOLOv4 and achieved 61% execution time reduction.
書誌情報 DAシンポジウム2022論文集

巻 2022, p. 102-107, 発行日 2022-08-24
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 14:53:37.176252
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3