Item type |
SIG Technical Reports(1) |
公開日 |
2023-03-16 |
タイトル |
|
|
タイトル |
各コアがローカルメモリを持つ組み込みベクトルマルチコアでの畳み込み層演算の評価 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
並列分散処理・モデルベース開発 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
早稲田大学 |
著者所属 |
|
|
|
早稲田大学 |
著者所属 |
|
|
|
早稲田大学 |
著者所属 |
|
|
|
早稲田大学 |
著者所属 |
|
|
|
早稲田大学 |
著者所属 |
|
|
|
オスカーテクノロジー |
著者所属 |
|
|
|
オスカーテクノロジー |
著者所属 |
|
|
|
エヌエスアイテクス |
著者所属 |
|
|
|
早稲田大学 |
著者所属 |
|
|
|
早稲田大学 |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者所属(英) |
|
|
|
en |
|
|
Oscar Technology Corporation |
著者所属(英) |
|
|
|
en |
|
|
Oscar Technology Corporation |
著者所属(英) |
|
|
|
en |
|
|
NSITEXE |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者所属(英) |
|
|
|
en |
|
|
Waseda University |
著者名 |
大高, 凌聖
小池, 穂乃花
磯野, 立成
川角, 冬馬
北村, 俊明
見神, 広紀
納富, 昭
木村, 貞弘
木村, 啓二
笠原, 博徳
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
IoT デバイスの普及に伴い,これらの組み込みシステム上でも深層学習利用に対する要求が増えてきた.例えば,自動運転での路面画像等の周辺環境情報の認識処理による障害物判定等はその性質上走行中の自動車内部で行う必要がある.しかしながら,組み込みシステムでは PC のような大規模かつ消費電力の大きいハードウェア資源を利用することは困難である.そのため,プログラムの並列性を積極的に利用し,低動作周波数の演算器やプロッサコアをベクトル処理及び並列処理することにより電力効率の高いシステムを構成することが重要となる.本稿では,画像認識処理で広く用いられている畳み込みニューラルネットワーク (CNN) の主要処理である畳み込み層と活性化関数に対して,手動でベクトル化とそれらに伴う各種最適化を適用した.さらに,各コアがローカルメモリとベクトルアクセラレータを持つマルチコアを想定し,マルチコア並列化とそれに伴うデータのローカルメモリ配置とデータ転送挿入を行った.これらのプログラムを,FPGA 評価ボード上に構築した OSCAR ベクトルマルチコア上で評価した.評価の結果,1PE 時のベクトル化のみを行ったものから最適化を行った結果 3.36 倍の速度向上を得た.さらに,本ベクトル最適化を行ったものを4PEで実行した結果の 1PE 時と比較して 2.94 倍の速度向上を得た. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10096105 |
書誌情報 |
研究報告システム・アーキテクチャ(ARC)
巻 2023-ARC-252,
号 32,
p. 1-6,
発行日 2023-03-16
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8574 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |