WEKO3
アイテム
ハードウェアとアルゴリズムの協調最適化によるCNN推論処理の高効率化
https://ipsj.ixsq.nii.ac.jp/records/200102
https://ipsj.ixsq.nii.ac.jp/records/200102d28b7d32-20e2-46f5-9e6f-b616f78c3ea5
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2019 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
|
|
ARC:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2019-11-06 | |||||||
タイトル | ||||||||
タイトル | ハードウェアとアルゴリズムの協調最適化によるCNN推論処理の高効率化 | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 基調講演 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
キオクシア株式会社 | ||||||||
著者名 |
宮下, 大輔
× 宮下, 大輔
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Deep convolutional neural network (CNN) を用いた画像分類,物体検出,画像セグメンテーションなど技術は, IoT,自動運転,ロボットなどを含む様々な応用が期待されている.分類や検出などの精度の向上のため,ネットワークはより複雑で大規模になる傾向にあるが,一方で,特にエッジでの活用を見据えると,できるだけ小規模でも精度が高いネットワーク構造の探求や,エネルギー効率に優れたハードウェアアーキテクチャの開発も,非常に重要な研究テーマである.CNN の処理は,大きく学習と推論の 2 つのフェーズに分けられる.学習は,より高い精度を実現する CNN の構成やパラメータを見つけるためのフェーズであり,学習によって得られた構成やパラメータをまとめて本稿ではモデルと呼ぶ.推論は,学習が終わったモデルを用いて,分類や検出などの処理を行うフェーズである.本稿では画像分類の推論にターゲットを絞り,推論実行時のエネルギー効率を向上するための手法について提案を行う.先に述べたとおり,これには 2 つの方向性が考えられる.一つは,できるだけ小規模,すなわち少ない計算量で,可能な限り高い分類精度が得られるようなモデルを作成することであり,言わばアルゴリズムの最適化である.このような方向性として,従来,パラメータの剪定 (Pruning) や演算ビット精度の低減 (量子化,Quantization) などが活発に研究されている.極端な例として,パラメータを 90% 以上削減するものや,ビット幅を 1bit に限定するものも提案されている.もう一つの方向性は,CNN の推論処理を可能な限り低い消費エネルギーで実行できるような,すなわち,エネルギー効率の良いハードウェアアーキテクチャを開発することである.例えば前述の Pruning や量子化に特別に対応したようなハードウェアアーキテクチャもその一例と言えるが,より一般的かつ具体的には,多数配置した演算回路を如何に効率よく利用しきることができるかが重要である.本稿の提案手法は, こうしたアルゴリズムの最適化とハードウェアアーキテクチャの最適化を,それぞれ独立に行うのではなく,協調して最適化を行っていることが重要なポイントである.具体的には,演算回路の利用効率を上げるために,アルゴリズムの最適化には大規模並列化が可能な構造的 Pruning と量子化を採用し,非構造的な Pruning は用いないという制約を付けた.一方で量子化のピット幅に関しては,フィルタごとといった規則性が維持されれば, ピット幅が可変であっても大規模並列計算を維持できるようなハードウェアアーキテクチャを考案し,ビット幅の選択に関しては従来よりも柔軟に対応できるようにした. これにより,少ない計算量で従来よりも高い分類精度を実現し,なおかつ,そのモデルは提案したハードウェアアーキテクチャ上で,並列配置した多数の演算回路を効率よく利用することができた.最後に,実際に FPGA に提案方式によるハードウェアアーキテクチャを実装し,その上で提案方式により最適化されたモデルを動かして画像分類の処理を行うことで,提案手法の妥当性を確認した. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10096105 | |||||||
書誌情報 |
研究報告システム・アーキテクチャ(ARC) 巻 2019-ARC-238, 号 10, p. 1-1, 発行日 2019-11-06 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 2188-8574 | |||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |