2024-03-29T00:53:14Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:001942102023-04-27T10:00:04Z01164:02036:09683:09686
意味的領域分割のための組み込みシステム向け疎な全畳み込みニューラルネットワークのFPGA実装の検討Filter-wise Pruning Approach to FPGA Implementation of Fully Convolutional Network for Semantic Segmentationjpn回路とシステムhttp://id.nii.ac.jp/1001/00194121/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=194210&item_no=1&attribute_id=1&file_no=1Copyright (c) 2019 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.東京工業大学工学院情報通信系東京工業大学工学院情報通信系東京工業大学工学院情報通信系下田, 将之佐田, 悠生中原, 啓貴本稿では枝刈り手法を適応した意味的領域分割のための疎な全畳み込みニューラルネットワークの FPGA 実装を提案する.意味的領域分割とはピクセル単位にクラス識別を行うタスクのことであり,障害物や人を正確に認識する必要のある自動運転等への活用が期待されている.意味的領域分割のためのモデルの多くは,高い正解率を達成するために深い構造をとるものが多い.そのため,演算に必要な重みパラメータの数が大くなり,リソースの限られた組み込みシステム上では実現が困難となっている.この問題に対し,レイヤー毎に重みをソートして昇順に重みを刈るものや,閾値をあらかじめ決め閾値以下の重みを刈る手法が提案されている.しかし,それらの手法を適応したモデルを組み込みシステムへ実現する際に,フィルター毎に存在する重みの数が異なるため最も重みの数が多いフィルターに合わせた回路を作る必要がある.そのため,それ以外のフィルターは無駄な計算を行う必要があった.本研究では,ハードウェアにより適したフィルター毎にソートして決められた割合を昇順に刈る手法を提案する.加えて,それを適応した全畳み込みニューラルネットワークの FPGA 実装を評価した.ベンチマークには Camvid データセット,FPGA にはXilinx zcu102 評価ボードを用いた.その結果,リアルタイム処理要求 (30 FPS) を満たした.This paper presents a hardware-aware sparse fully convolutional network (SFCN) for semantic segmentation on an FPGA. It is hard to implement the system on embedded systems since the number of weights for the SFCN is so large. Thus, embedded systems cannot store them using limited on-chip memory. To realize a balanced hardware with high speed and accuracy, we construct an AlexNet-based SFCN which has no skip connections and deconvolution layers to reduce the computation costs and the latency. Furthermore, we propose a filter-wise pruning technique that sorts the weights of each filter by their absolute values and prunes them by a preset percent filter-by-filter from a small order. It is more suitable for the hardware implementation since the number of computation of each filter becomes equal. We trained the AlexNet-based SFCN by using Camvid image dataset and implemented on Xilinx zcu102 evaluation board. The results show that the FPGA implementation achieves a real-time processing requirement.AA11451459研究報告システムとLSIの設計技術(SLDM)2019-SLDM-1865162019-01-232188-86392019-01-21