2024-03-29T09:42:42Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:002255392023-04-27T10:00:04Z01164:02822:11181:11182
各コアがローカルメモリを持つ組み込みベクトルマルチコアでの畳み込み層演算の評価jpn並列分散処理・モデルベース開発http://id.nii.ac.jp/1001/00225430/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=225539&item_no=1&attribute_id=1&file_no=1Copyright (c) 2023 by the Information Processing Society of Japan早稲田大学早稲田大学早稲田大学早稲田大学早稲田大学オスカーテクノロジーオスカーテクノロジーエヌエスアイテクス早稲田大学早稲田大学大高, 凌聖小池, 穂乃花磯野, 立成川角, 冬馬北村, 俊明見神, 広紀納富, 昭木村, 貞弘木村, 啓二笠原, 博徳IoT デバイスの普及に伴い,これらの組み込みシステム上でも深層学習利用に対する要求が増えてきた.例えば,自動運転での路面画像等の周辺環境情報の認識処理による障害物判定等はその性質上走行中の自動車内部で行う必要がある.しかしながら,組み込みシステムでは PC のような大規模かつ消費電力の大きいハードウェア資源を利用することは困難である.そのため,プログラムの並列性を積極的に利用し,低動作周波数の演算器やプロッサコアをベクトル処理及び並列処理することにより電力効率の高いシステムを構成することが重要となる.本稿では,画像認識処理で広く用いられている畳み込みニューラルネットワーク (CNN) の主要処理である畳み込み層と活性化関数に対して,手動でベクトル化とそれらに伴う各種最適化を適用した.さらに,各コアがローカルメモリとベクトルアクセラレータを持つマルチコアを想定し,マルチコア並列化とそれに伴うデータのローカルメモリ配置とデータ転送挿入を行った.これらのプログラムを,FPGA 評価ボード上に構築した OSCAR ベクトルマルチコア上で評価した.評価の結果,1PE 時のベクトル化のみを行ったものから最適化を行った結果 3.36 倍の速度向上を得た.さらに,本ベクトル最適化を行ったものを4PEで実行した結果の 1PE 時と比較して 2.94 倍の速度向上を得た.AA12149313研究報告組込みシステム(EMB)2023-EMB-6232162023-03-162188-868x2023-03-14