WEKO3
アイテム
PYNQクラスタ上でのResNetの並列実装(2020年2月17日版)
https://ipsj.ixsq.nii.ac.jp/records/210492
https://ipsj.ixsq.nii.ac.jp/records/2104921439d984-a480-4dad-89e4-02d4dd197439
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2021 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2021-03-18 | |||||||||||
タイトル | ||||||||||||
タイトル | PYNQクラスタ上でのResNetの並列実装(2020年2月17日版) | |||||||||||
タイトル | ||||||||||||
言語 | en | |||||||||||
タイトル | Parallel Implementation of ResNet on PYNQ Cluster (version 2020/2/17) | |||||||||||
言語 | ||||||||||||
言語 | jpn | |||||||||||
キーワード | ||||||||||||
主題Scheme | Other | |||||||||||
主題 | 機械学習 | |||||||||||
資源タイプ | ||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
資源タイプ | technical report | |||||||||||
著者所属 | ||||||||||||
現在,慶應義塾大学 | ||||||||||||
著者所属 | ||||||||||||
現在,慶應義塾大学 | ||||||||||||
著者所属 | ||||||||||||
現在,慶應義塾大学 | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Presently with Keio University | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Presently with Keio University | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Presently with Keio University | ||||||||||||
著者名 |
福嶋, 泰優
× 福嶋, 泰優
× 飯塚, 健介
× 天野, 英晴
|
|||||||||||
論文抄録 | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | 深層学習アプリケーションの実装では,演算コストと電力コストを抑えるため,省電力性と柔軟性に優れる FPGA(Field-Programmable Gate Array)がプラットフォームとしてよく選ばれている.しかし,深層学習アプリケーションは計算量とパラメータ数が非常に大きく,単一 FPGA での実装ではハイエンドで高価な FPGA を用いなければならない傾向にある.特に畳み込みニューラルネットワークは計算量が膨大であり,その傾向はより顕著なものとなる.我々の研究室では,M-KUBOS と呼ばれる価格性能比に優れた Zynq ボードに PYNQ(Python productivity for Zynq)と呼ばれるオープンソース・ソフトウェア・プラットフォームを導入し,低コストかつ高性能な GTH シリアルリンクで接続することで構成される PYNQ クラスタの開発を行っている.PYNQ クラスタは MEC のサーバとして,5G モバイルネットワークなどへの利用が期待される.現在は 4 枚の M-KUBOS ボードを接続し,群管理することでクラスタを構築している.本稿では,4 枚の M-KUBOS ボードを接続して形成した PYNQ クラスタに ResNet-18 の推論アクセラレータを実装する手法を提案する.ResNet-18 の各層の実行時間を求めることで,ボードごとの実行時間が可能な限り等しくなるよう 4 ボードに分割し,それぞれをパイプラインの 1 ステージとして並列処理を行うよう実装した.分割以外に,重みと特徴マップを量子化することでリソースを節約し,畳み込み演算の多重ループを入力チャネルと出力チャネルでアンロールすることで演算を並列実行し,さらなる高速化を図った.また,ダブルバッファリングを用いることで,計算に用いるパラメータを外部メモリからフェッチする時間を隠蔽するようにした.本実装は,158GOPS の性能,スループット 87.0FPS,電力効率 3.21GOPS/W を達成し,GPU 実装との比較では性能,電力効率で劣ったものの,CPU 実装との比較では性能は 1.16 倍,電力効率は 6.55 倍となった. | |||||||||||
書誌レコードID | ||||||||||||
収録物識別子タイプ | NCID | |||||||||||
収録物識別子 | AN10096105 | |||||||||||
書誌情報 |
研究報告システム・アーキテクチャ(ARC) 巻 2021-ARC-244, 号 43, p. 1-8, 発行日 2021-03-18 |
|||||||||||
ISSN | ||||||||||||
収録物識別子タイプ | ISSN | |||||||||||
収録物識別子 | 2188-8574 | |||||||||||
Notice | ||||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
出版者 | ||||||||||||
言語 | ja | |||||||||||
出版者 | 情報処理学会 |