@techreport{oai:ipsj.ixsq.nii.ac.jp:00233408,
 author = {朱, 允楷 and 梅田, 弾 and 伊藤, 洋 and 尾形, 哲也 and 木村, 啓二 and Yunkai, Zhu and Dan, Umeda and Hiroshi, Ito and Tetsuya, Ogata and Keiji, Kimura},
 issue = {23},
 month = {Mar},
 note = {深層学習によりロボットの将来の動作やカメラ画像を予測する深層予測学習が提案されている.深層予測学習により,ロボットはカメラや各種センサーの入力を用いて自身の周囲の環境を認識し,状況に応じた適切な動作のためのアクチュエータ制御が可能となる.限られたサイズのロボットの筐体でこの深層予測学習を利用するためには,高性能かつ高電力効率なコンピュータのハードウェアとソフトウェアが必要となる.深層学習による画像処理では,必要なハードウェア資源を削減する手法として,少ないビット数で演算を行う量子化が広く用いられている.一般的な計算機による 32bit 単精度浮動小数点による深層学習処理を,16bit 半精度浮動小数点型(FP16)や 8bit 整数型(INT8)のような少ないビット数で行うことで,計算の高速化,メモリ使用量削減,ハードウェアの簡略化,及び低消費電力化といった効果が期待できる.本稿では,ロボットのカメラ画像と関節角度を入力として,畳み込みニューラルネットワーク(CNN)と回帰型ニューラルネットワーク(RNN)から構成されるロボットの予測制御モデルを Edge Devices 上で評価する.具体的には,この深層学習モデルに対し学習後の事後的な量子化手法である Post Training Quantization (PTQ) で量子化を実施し,NVIDIA Jetson Orin Nano 上で精度・性能評価を実施する.評価の結果,FP16 で推論をすることにより,FP32 に対して同程度の精度で 1.28-1.79 倍の速度向上が得られた.しかし,INT8 では FP16 に対して速度低下が発生するモデルがあり,速度向上率は 0.86-1.04 倍であった.さらに,FP16 で推論することにより,FP32 に対してフレームあたりの消費エネルギーを 12-39% 削減したが,INT8 では FP16 に対して,エネルギー消費が 8% 増加するモデルがあった.量子化により,推論過程においてデータ変換等オーバーヘッドにより消費エネルギーが上昇する局面があることから,電力効率向上のためにはデータ変換も含めたシステム全体の設計が重要である.},
 title = {Edge Device上でのAIロボット用深層予測学習モデル推論処理の高速化},
 year = {2024}
}