Item type |
Symposium(1) |
公開日 |
2022-08-24 |
タイトル |
|
|
タイトル |
層分割による畳込みニューラルネットワークのFPGA実装 |
タイトル |
|
|
言語 |
en |
|
タイトル |
FPGA Implementation of Convolutional Neural Networks with Layer Partitioning |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスター |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
三重大学大学院工学研究科情報工学専攻 |
著者所属 |
|
|
|
三重大学大学院工学研究科情報工学専攻 |
著者所属(英) |
|
|
|
en |
|
|
Department of Computer Engineering, Graduate School of Engineering, Mie Uniersity |
著者所属(英) |
|
|
|
en |
|
|
Department of Computer Engineering, Graduate School of Engineering, Mie Uniersity |
著者名 |
山田, 瑛叶
高木, 一義
|
著者名(英) |
Eito, Yamada
Kazuyoshi, Takagi
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
CNN(Convolutional Neural Network)は,画像処理の分野において高い精度を記録しており,産業用ロボットや車の自動運転技術など多岐にわたって応用されている.CNN の推論処理では,学習とは異なりシステムにリアルタイム性が求められるため,精度だけでなく速度が重視される.FPGA を用いることで,任意のビット幅の使用と並列処理により高速かつ低消費電力での演算処理が可能である.本研究では,CNN の推論処理を FPGA で実装し高速化を図っている.具体的には,処理全体に対して層単位でのパイプライン処理を行った.層内部の演算はパイプライン処理を効率的に行えるよう並列化を行った.畳込み層の実行速度がボトルネックとなるため,畳込み層を分割をすることで問題を解消する.また,資源節約のため,モデル軽量化の手法として知られている量子化を行った.FPGA の回路設計には高位合成を用いた.評価実験では,2 種類の CNN のハードウェア化を行った.ハードウェアを Xilinx Alveo U50 に実装し,Intel Xeon Silver 4214 プロセッサと比較し,約 342 倍高速に動作することが示せた. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Convolutional neural networks (CNNs) have achived high accuracy in the field of image processing and are used in a wide range of applications, including industrial robots and self-driving technology. Unlike the training process, the inference process of CNN tends to require the speed as well as the accuracy to realize real-time system performance. The use of FPGAs enables high-speed and low-power computing through the use of arbitrary bit widths and parallel processing. In this study, CNNs are implemented in FPGA to increase the processing speed. Specifically, the entire processing is pipelined layer by layer, and the internal operations are parallelized to enable efficient pipeline processing. Since the execution time of the convolution layer is the bottleneck in the process, we divided the convolution layer. To conserve resources, quantization, which is a well-known model lightening technique, was used. In the evaluation experiments, the hardware was designed using a high-level synthesis tool and implemented on a Xilinx Alveo U50. It was shown to run 342 times faster than an Intel Xeon Silver 4214 processor. |
書誌情報 |
DAシンポジウム2022論文集
巻 2022,
p. 157-161,
発行日 2022-08-24
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |