WEKO3
アイテム
PYNQクラスタ上でのResNetの並列実装(2020年2月17日版)
https://ipsj.ixsq.nii.ac.jp/records/210541
https://ipsj.ixsq.nii.ac.jp/records/210541a212778a-31d5-43a3-af2f-f006362c2648
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2021 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2021-03-18 | |||||||||||
| タイトル | ||||||||||||
| タイトル | PYNQクラスタ上でのResNetの並列実装(2020年2月17日版) | |||||||||||
| タイトル | ||||||||||||
| 言語 | en | |||||||||||
| タイトル | Parallel Implementation of ResNet on PYNQ Cluster (version 2020/2/17) | |||||||||||
| 言語 | ||||||||||||
| 言語 | jpn | |||||||||||
| キーワード | ||||||||||||
| 主題Scheme | Other | |||||||||||
| 主題 | 機械学習 | |||||||||||
| 資源タイプ | ||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
| 資源タイプ | technical report | |||||||||||
| 著者所属 | ||||||||||||
| 現在,慶應義塾大学 | ||||||||||||
| 著者所属 | ||||||||||||
| 現在,慶應義塾大学 | ||||||||||||
| 著者所属 | ||||||||||||
| 現在,慶應義塾大学 | ||||||||||||
| 著者所属(英) | ||||||||||||
| en | ||||||||||||
| Presently with Keio University | ||||||||||||
| 著者所属(英) | ||||||||||||
| en | ||||||||||||
| Presently with Keio University | ||||||||||||
| 著者所属(英) | ||||||||||||
| en | ||||||||||||
| Presently with Keio University | ||||||||||||
| 著者名 |
福嶋, 泰優
× 福嶋, 泰優
× 飯塚, 健介
× 天野, 英晴
|
|||||||||||
| 論文抄録 | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | 深層学習アプリケーションの実装では,演算コストと電力コストを抑えるため,省電力性と柔軟性に優れる FPGA(Field-Programmable Gate Array)がプラットフォームとしてよく選ばれている.しかし,深層学習アプリケーションは計算量とパラメータ数が非常に大きく,単一 FPGA での実装ではハイエンドで高価な FPGA を用いなければならない傾向にある.特に畳み込みニューラルネットワークは計算量が膨大であり,その傾向はより顕著なものとなる.我々の研究室では,M-KUBOS と呼ばれる価格性能比に優れた Zynq ボードに PYNQ(Python productivity for Zynq)と呼ばれるオープンソース・ソフトウェア・プラットフォームを導入し,低コストかつ高性能な GTH シリアルリンクで接続することで構成される PYNQ クラスタの開発を行っている.PYNQ クラスタは MEC のサーバとして,5G モバイルネットワークなどへの利用が期待される.現在は 4 枚の M-KUBOS ボードを接続し,群管理することでクラスタを構築している.本稿では,4 枚の M-KUBOS ボードを接続して形成した PYNQ クラスタに ResNet-18 の推論アクセラレータを実装する手法を提案する.ResNet-18 の各層の実行時間を求めることで,ボードごとの実行時間が可能な限り等しくなるよう 4 ボードに分割し,それぞれをパイプラインの 1 ステージとして並列処理を行うよう実装した.分割以外に,重みと特徴マップを量子化することでリソースを節約し,畳み込み演算の多重ループを入力チャネルと出力チャネルでアンロールすることで演算を並列実行し,さらなる高速化を図った.また,ダブルバッファリングを用いることで,計算に用いるパラメータを外部メモリからフェッチする時間を隠蔽するようにした.本実装は,158GOPS の性能,スループット 87.0FPS,電力効率 3.21GOPS/W を達成し,GPU 実装との比較では性能,電力効率で劣ったものの,CPU 実装との比較では性能は 1.16 倍,電力効率は 6.55 倍となった. | |||||||||||
| 書誌レコードID | ||||||||||||
| 収録物識別子タイプ | NCID | |||||||||||
| 収録物識別子 | AA12149313 | |||||||||||
| 書誌情報 |
研究報告組込みシステム(EMB) 巻 2021-EMB-56, 号 43, p. 1-8, 発行日 2021-03-18 |
|||||||||||
| ISSN | ||||||||||||
| 収録物識別子タイプ | ISSN | |||||||||||
| 収録物識別子 | 2188-868X | |||||||||||
| Notice | ||||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
| 出版者 | ||||||||||||
| 言語 | ja | |||||||||||
| 出版者 | 情報処理学会 | |||||||||||