# スケーラブルなディープラーニング向け アクセラレータチップの設計と評価

高田 遼1 石井 潤1 坂本 龍一1 近藤 正章1 中村 宏1 大久保 徹以2 小島 拓也2 天野 英晴2

#### 概要:

近年,組込みシステムにディープラーニング技術を導入することが期待されており,電力効率に優れた ディープラーニングアクセラレータの開発が重要な課題となっている.しかしながら,これまで提案さ れてきたアクセラレータは2次元畳込み演算などの特定のネットワーク構造向けに最適化されたものや, データアクセス削減のためにネットワーク構造を工夫するものが多い.対象とするネットワーク構成が限 定され汎用性に課題がある.そこで我々は,多様なネットワーク構成に柔軟に対応可能で電力効率の良い アクセラレータのアーキテクチャを検討している.今回,命令により動作するマイクロコントローラと SIMD 型積和演算器から構成される電力効率の良いコアを設計し,マルチコア構成のアクセラレータに対 しスケーラビリティの評価を行った.

# 1. はじめに

近年,組込みシステムでディープラーニング技術を利用 することが期待されている.一例として,自動車やモバイ ル機器などでは,学習済みの畳込みニューラルネットワー ク (Convolutional Neural Network: CNN)を用いて画像認 識を行いつつ種々の機能を提供することが実用化されつつ ある.そこで,CNN などのディープラーニングによる識別 高速化を組込みシステムの電力制約下で実現するために, 電力効率に優れたディープラーニング専用アクセラレータ の開発が重要な課題となっている.

ディープラーニング向けのアクセラレータによる CNN 識別高速化では,畳込み層における 2 次元畳込みの演算処 理と全結合層における外部メモリとのデータ転送を考慮す ることが重要となる.前者は演算ボトルネックに,後者は メモリボトルネックとなりやすいためである.畳込み層の 2 次元畳込みの演算の高速化・省電力化の研究としては, Chen らの Eyeriss[1] がある. Eyeriss は組込みシステム向 けの CNN アクセラレータで,2次元的に配置した演算ユ ニット間のオンチップネットワークやチップ内バッファ などを工夫することで外部メモリへのアクセス回数を減 らし,消費電力を削減する手法を提案している.一方で, 全結合層の外部メモリとのデータ転送に対しては,多数の 先行研究が存在する.DaDianNao[2] はチップ内に大量の eDRAM を配置することで,データ転送自体を不要とする アプローチをとっている.また,EIE[3],[4] では不要な学 習済みパラメータの省略や,学習済みパラメータ1つあた りのビット数の削減を行うことで,推定精度を落とさずに 学習済みニューラルネットワークモデルのデータサイズを 圧縮している.

しかしながら,これらの従来研究では消費電力削減のた めに畳込み層などの特定のネットワーク構成向けに最適化 したアクセラレータや,データアクセス削減のためにネッ トワーク構造に手を加える研究が多い.対象とするネット ワーク構成が限られる可能性もあり,進化を続けるディー プニューラルネットワークの多様なネットワーク構成を扱 うための柔軟性が課題となる.それに対して,我々は多様 な種類のネットワーク構成に対し,省電力生を失わずかつ 柔軟に対応可能なアクセラレータアーキテクチャを検討し ており,そのベースとなる高電力効率かつ命令制御可能な コアの設計やアーキテクチャ探索を行っている.本発表で は,提案するアクセラレータの全体構成とコアの内部構成・ 命令セットについて述べた後,マルチコア構成のアクセラ レータに対しスケーラビリティの評価を行った結果につい て報告する.

## 2. 畳込みニューラルネットワーク

ー般的に、CNN は畳込み層とプーリング層を交互に積 層したあと全結合層を3層ほどの積層する構成をとる.7 層のCNN であれば図1のようなネットワーク構成となる.

<sup>&</sup>lt;sup>1</sup> 東京大学

<sup>2</sup> 慶應義塾大学



図17層畳込みニューラルネットワーク

畳込み層とプーリング層,全結合層における演算は式(1)~(5)のように定義される.

$$a_{n_o}[i,j] = \sum_{n_i} \sum_p \sum_q \omega_{n_i,n_o}[i,j]x[i+p,j+q] + b_{n_o} (1)$$

$$y_{n_o}[i,j] = f(a_{n_o}[i,j])$$
(2)

$$y[i,j] = \max_{p,q} (x[i+p,j+q])$$
(3)

$$a[i] = \sum_{j} \omega[i, j] x[j] + b_i \tag{4}$$

$$y[i] = f(a[i]) \tag{5}$$

 $f(\cdot)$ は活性化関数と呼ばれ、ReLU 関数  $f(x) = \max(0, x)$ や sigmoid 関数  $f(x) = 1/(1 + e^{-1})$  がよく用いられる.

ここで、畳込み層と全結合層の比較を行う.畳込み層は 227×227のRGB画像に11×11のフィルタをストライド5 で畳込み、8枚の出力マップを得る.また、全結合層は396 入力396出力である.16bit固定小数点形式を仮定した場 合、処理対象データはどちらも300kB程度であるにも関わ らず、積和演算回数を比較すると前者が2928200回で後者 が156816回である.従って、畳込み層の演算強度は9.30 で演算ボトルネックとなりやすく、全結合層の演算強度は 0.498でメモリボトルネックとなりやすい.なお、演算強 度は16bit固定小数点形式の処理対象データ1Byteあたり の積和演算回数・MAX演算回数と定義する.

# 3. アクセラレータのアーキテクチャ

#### 3.1 全体構成

本研究では、マイクロコントローラと SIMD 型積和演算 器を主な構成要素とするコアを複数搭載したマルチコアア クセラレータを検討している.4コア構成のアクセラレー タを図2に示す.各コアは、命令メモリ (inst),ストリー ムバッファ (sbuf)、データメモリ (dmem),ルックアップ テーブル (lut)、データ出力用メモリ (omem) の5つのメモ リを持つ.基本メモリ構成としては別々のアドレス空間を 持つ分散メモリシステムであるが、CNN を始めとした多 層のニューラルネットワークを複数コアで実行する際、演 算結果をコア間で共有する必要があるため、出力用メモリ の omem はコア間で共有する.



図 2 4 コア構成のアクセラレータ

3.2 コアのアーキテクチャ

コアは回路規模の小さなマイクロコントローラと SIMD 型積和演算器から構成される.マイクロコントローラは 16bit 固定長の命令セットにより動作する.命令長が短い ために実装可能な命令の機能は単純なものに限られるが, 命令デコーダや制御回路も単純化されるため,小型で高電 力効率なコントローラとなっている.

一方で、ディープラーニング専用アクセラレータでは、 膨大な積和演算を効率よく実行できることが重要である. そこで、本研究のコアには後述する SIMD 型積和演算器と 独自のカスタム SIMD 算術命令を実装した.

## メモリ構成

各コアが持つ5つのメモリ (inst, sbuf, dmem, lut, omem) は 32bit のアドレス空間に割りつけられており, load/store 命令によって全てのメモリとレジスタファイル間でデータ をやり取りできる. inst は命令メモリで, sbuf と dmem は 処理対象データ用メモリである. ただし, sbuf と dmem は データを直接 SIMD 型積和演算器に供給するため 64bit 幅 のデータバスを持つ. lut はニューラルネットワークの活 性化関数に利用し, omem は出力データ用である.

ディープラーニングアクセラレータの先行研究では演算 ユニットに入力用2つと出力用の3つのバッファが接続 された構成をとるものが多い.本研究も同様で,SIMD型 積和演算器とsbuf,dmem,omemが用意されている.これ は,ニューラルネットワークの主要な演算が学習済み重み パラメータと各層の入出力データの積和計算であるためで ある.ただし,先行研究では入力用の2つのバッファを学 習済み重みパラメータ用のバッファと入力用データ用の バッファとして用いるが[2],本研究のアクセラレータは 再利用性の低いストリームデータ用のバッファ(sbuf)と 再利用性の高いデータ用のバッファ(dmem)として用いる 点が異なる.sbuf 側のほうがデータ転送量が多くメモリボ トルネックの原因となりやすいため,そこで,ダブルバッ ファリングを行うことで演算処理と subf へのデータ転送 をオーバーラップさせ、実行時間の削減を図る.

以上のようなメモリ構成をとる目的は, 畳込み層と全結 合層のデータ再利用性に関する特性の違いに対応するため である. 畳込み層では学習済みデータの再利用性が高く各 層の入力データの再利用性が低いが, 全結合層では逆転し 各層の入力データの再利用性が高く学習済みデータの再利 用性が低いという違いがある.

マイクロコントローラ

提案アーキテクチャのマイクロコントローラはパイプライ ン4段のインオーダー実行で、MIPS に近い形式の16bit 固定長命令セットを解釈実行する.主要な役割はSIMD型 積和演算器の制御やループの制御、メモリへのload/store で、回路規模の削減・省電力化を図るため浮動小数点演算 器・浮動小数点レジスタファイルやその他複雑な制御回路 は搭載していない.レジスタファイルは 32bit16 本である が、そのうち4本をSIMD型積和演算器の演算結果が格 納される特殊レジスタに、1本をプログラムカウンタに割 り当ているため、汎用レジスタは11本である.演算器は 32bit 長で論理算術演算が可能である.現在の実装では命 令パイプライン化が十分ではないが、今後パイプライン化 された実装に拡張する予定である.

#### 命令セットアーキテクチャ

本研究のアクセラレータは、ディープラーニングの演算自体は SIMD 型積和演算器を用いて行うが、汎用的な処理も 一部実行可能であり、様々なネットワーク構成に柔軟に対応できる。命令形式は表1に示した2種類で、論理・算術 演算、load/store 命令、分岐命令に加え、いくつかの命令 を追加している。具体的には、ダブルバッファの切り替え 制御命令や DMA 発行命令、SIMD 型積和演算器の制御命 令などである。

|        | 表 1    | 命令形式  |           |          |  |
|--------|--------|-------|-----------|----------|--|
|        | 4bit   | 4 bit | 4bit      | 4bit     |  |
| R-type | opcode | rd    | rs        | function |  |
| I-type | opcode | rd    | immediate |          |  |

特にマルチサイクルのカスタム SIMD 算術命令を定義 しており,ディープラーニングの積和演算を行う際の制御 オーバーヘッドを軽減する.具体的な制御オーバーヘッド として,処理対象データにアクセスするためのアドレス計 算や,ループの制御,条件分岐などの処理が挙げられる. 本研究のアクセラレータでは,これらの処理と SIMD 型 積和演算の動作シーケンスをハードウェアで実装しマルチ サイクルのカスタム SIMD 算術命令に集約している.こ れは,汎用命令セットでソフトウェア実装するのに比べ, CNN の識別高速化と消費電力削減の両方に効果がある.

#### SIMD 型積和演算器



図 3 SIMD 型積和演算器

SIMD 型積和演算器の基本構成を図3に示す.SIMD 型 積和演算器は16bit 長データを4並列で演算を行うことが でき,実行可能な演算はテーブルルックアップ付きの積和 演算とMAX 演算である.処理対象データはレジスタファ イルを介さずに,sbufとdmemから直接演算器に供給さ れ,データバスは64bit幅である.ルックアップテーブル (lut)はニューラルネットワークの活性化関数に利用する. ディープラーニングアクセラレータの先行研究では活性化 関数にReLU 関数のみをサポートするものもあるが,汎 用性の観点からルックアップテーブルによる実装を採用し た.また,SIMD 型積和演算器の演算結果は,積和演算や MAX 演算の場合はレジスタファイルの13番レジスタに自 動的に保存され,ルックアップテーブルの場合は11番レ ジスタに保存される.

積和演算の詳細な動作としては, sbuf と dmem から 16bit 固定小数点形式サイズ4のベクトルデータが SIMD 型積和 演算器に投入され,その内積内積演算結果が 13 番レジス タにアキュムレートされる.なお,4つの乗算器はマスク レジスタによって制御可能である.一方,MAX 演算の場 合は,sbuf から供給された 16bit 固定小数点形式データ4 つと現在の 13 番レジスタの値の MAX 演算結果を 13 番レ ジスタに保存する.こちらも sbuf から供給された 4 つの データに対しマスクレジスタによる制御が可能である.前 述のマルチサイクルのカスタム SIMD 算術命令は,積和演 算や MAX 演算を sbuf・dmem アドレスをインクリメント しながら指定回数連続実行する.

また,SIMD 型積和演算器は図4に示すように8bit 長 データ8並列に拡張する特殊な動作モードを持つ.具体的 には,図3のような4並列積和演算器が2基並列に搭載さ れている.sbuf 側は8bit 固定小数点形式に切り替え,サイ ズ8のベクトルデータとし,2基の4並列積和演算器に4 つずつ供給する.ただし,乗算器に入力直前に16bit 固定 小数点形式に拡張する.一方 dmem 側は16bit 固定小数点 形式サイズ4のベクトルデータのままだが,2個の4並列 積和演算器に同一データを供給する.

この動作モードの主目的は、全結合層のメモリボトル ネック軽減である.sbuf側のデータ転送量はdmem 側と比



図 4 SIMD 型積和演算器 特殊動作モード

べ非常に大きいため, sbuf 側を 8bit 固定小数点形式とする とデータ転送量が半減し, トータルのデータ転送時間はほ ぼ半減することが期待される.また, dmem 側は 16bit 固 定小数点形式のままで2個の4並列積和演算器に同一デー タを供給する必要があるが, dmem 側のデータは再利用性 が高いためこの問題は限定的である.以上のような仕組み により,実質的な演算強度が向上し,メモリボトルネック を軽減することができる.

## 4. 評価実験

## 4.1 評価アプリケーション

今回の評価に用いたアプリケーションは, ILSVRC[5] で 使用される ImageNet データセット 100 クラス分類問題を 行う7層 CNN (図 1) である.ネットワーク構成は入力側 から順に畳込み層 1 (conv1), プーリング層 1 (pool1), 畳込 み層 2 (conv2), プーリング層 2 (pool2), 全結合層 3 (fc3), 全結合層 4 (fc4), 全結合層 5 (fc5) で,入力層は 227 × 227 ピクセルの RGB 画像,出力層は 100 次元のベクトルとな る.7層 CNN の処理対象データサイズと演算強度,発行 命令数を表 2 に示す.データサイズは 16bit 固定小数点形 式を仮定しており,発行命令数は本研究の命令セットで実 装した場合のものである.

#### 4.2 評価環境

評価環境として、データ転送時間を含めた7層 CNN の実 行時間を見積もるシミュレータを作成した.ただし、inst, lut のメモリサイズを 2kB, sbuf, dmem, omem のメモリ サイズを 64kB と仮定したため、7層 CNN を 161 個のタ スクに分割して複数コアで並列実行する.また、メインプ ロセッサの主記憶とコアのメモリ間のデータ転送における バンド幅とレイテンシは全コアのメモリで同一であると仮 定する.シミュレータのパラメータは、アクセラレータ動 作周波数、コア数、実行する命令列、処理対象データサイ ズ, DMA データ転送のバンド幅とレイテンシである. なお, DMAC が対処できる DMA リクエスト数は1つのみであるが, ブロードキャスト転送が可能である. 例えば全てのコアの dmem や lut に同一データを転送する場合に用いる. また, このシミュレータは sbuf におけるダブルバッファリング機能を考慮している.

| 7 層 CNN      | Data Si                | 演算    | 発行    |        |
|--------------|------------------------|-------|-------|--------|
| の構成          | (16bit fixed           | 強度    | 命令数   |        |
| 入力           | 227x227                | 300kB |       |        |
|              | (RGB 画像)               |       |       |        |
|              | 学習済み                   | 6kB   |       |        |
| 畳込み層 1:      | パラメータ                  |       | 9.29  | 519552 |
| conv1        | 出力                     | 47kB  | ]     |        |
|              | 55x55 8ch              |       |       |        |
| Pooling 層 1: | 出力                     | 300kB | 0.518 | 70136  |
| pool1        | 28x28 8ch              |       |       |        |
| 畳込み層 2:      | 学習済み                   | 3kB   |       |        |
| conv2        | パラメータ                  |       | 7.30  | 88836  |
|              | 出力                     | 9kB   | ]     |        |
|              | 24x24 8ch              |       |       |        |
| Pooling 層 2: | 出力                     | 2kB   | 0.50  | 13176  |
| pool2        | $12 \mathrm{x} 12$ 8ch |       |       |        |
| 全結合層 3:      | 学習済み                   | 2MB   |       |        |
| fc3          | パラメータ                  |       | 0.499 | 308    |
|              | 出力 1024                | 2kB   |       |        |
| 全結合層 4:      | 学習済み                   | 2MB   |       |        |
| fc4          | パラメータ                  |       | 0.499 | 346    |
|              | 出力 1024                | 2kB   |       |        |
| 全結合層 5:      | 学習済み                   | 200kB |       |        |
| fc5          | パラメータ                  |       | 0.499 | 287    |
|              | 出力 100                 | 200B  |       |        |

表 2 7 層畳込みニューラルネットワークの構成

#### 4.3 評価結果

7層 CNN のシミュレーションを行い,本アクセラレータ のスケーラビリティを評価した.パラメータは DMA デー タ転送のバンド幅と実行コア数である.ただし,アクセ ラレータ動作周波数は 50MHz, DMA データ転送バンド 幅のレイテンシは固定値として 2usec を設定した. 横軸を DMA データ転送のバンド幅,縦軸を 7層 CNN の実行時 間として,各実行コア数評価した結果を図5 に示す.評価 結果から,スケーラビリティを得るには約 500MB/s 以上 の DMA データ転送バンド幅必要であること,8 コア以上 でスケーラビリティを得られていないことが分かった.

前者は, DMA データ転送バンド幅が低速の場合は, 7層 CNN 全体の実行時間が全結合層 (fc3, fc4, fc5) で律速して しまい, かつその全結合層がスケールできていないためで ある.一般的に,メモリボトルネックな fc3, fc4, fc5 は演算 ボトルネックな畳込み層 (conv1, conv2) よりもスケールし



図 5 スケーラビリティ評価

にくく, fc3, fc4, fc5 のスケールには DMA データ転送バン ド幅が 500MB/s 以上必要であることが今回のシミュレー ションから分かった.また,実行時間において支配的な演 算が全結合層から畳込み層に逆転する DMA データ転送バ ンド幅を調べたところ,こちらも約 500MB/s であった.

後者は、実装依存の問題であり、conv1の最大スレッド レベル並列度が8に制限されているためである.conv1は アクセラレータ実行時間に占める割合が高く、スケール した際に CNN 全体の実行時間に与える寄与が7層中最大 である.従って、conv1がスケールできない8コア以上で はスケーラビリティを得られなかった.今回の実装では、 conv1を48個のタスクに分割しているが同時に実行可能 なタスク数は最大8タスクまでとなっている.この制約は 出力マップ数8の conv1を出力マップ並列で実装したこと によるものであり、命令列のプログラミングを工夫するこ とで改善が可能である.

# 5. 考察

評価結果の解析のためシミュレータのログから各コアの 動作状況を調査した.図6はDMAデータ転送バンド幅 100MB/s,8コア構成で7層CNNを実行した際の各コア の動作状況である.横軸は経過時間[msec]で縦軸は各コア 番号を示している.各コアそれぞれに2つの積み上げ棒グ ラフが表示されているが、上側がコアの動作状態で下側が DMACによるデータ転送状況である.上側の積み上げ棒 グラフにおいて赤、青、グレーで表示されている区間が、 それぞれ実行状態、ライトバック状態、アイドル状態であ る.実行状態では、コアが命令を解釈実行し演算を行って いる.ライトバック状態は演算結果を主記憶にライトバッ クするためDMAデータ転送をリクエストし、完了を待っ ている状態である.コアは実行状態のあとほぼ毎回ライ



図 6 各コアの動作状況 (8 コア, Bw:100MB/s)

トバック状態に遷移するのだが,区間が短すぎるため図 6 では確認できない.また,下側の積み上げ棒グラフでは, DMAC がそのコアのメモリにデータ転送を行っている区 間を薄い赤,そうではない区間を灰色で表示している.

図6では37msecまでが畳込み層とプーリング層 (conv1, pool1, conv2, pool2) で, 37msec 以降が全結合層 (fc3, fc4, fc5) である. 図では全結合層が2コアで並列化されている ように見えるが、実際には互い違いになっており並列化で きていない. DMA データ転送バンド幅が 100MB/s 程度 の場合, 畳込み層は既に8コアにスケールしているのに対 し全結合層は全くスケールできていないがということが 分かった. そこで, 全結合層がスケールするのに必要な最 低バンド幅を調べたところ 500MB/s となった. 図7はで DMA データ転送バンド幅 500MB/s, 8 コア構成でシミュ レーションを行い、8コア中コア0~コア3の4コアを表 示している. 29msec 以降の全結合層が3コアまでスケー ルしていることが確認できる. 最後に, 16 コア構成で全結 合層が全てのコアにスケールするのに必要なバンド幅を調 べたところ, 10GB/s となった. このときのコアの稼働状 況 (図 8) を見ると、全結合層は 27msec から 29msec の区 間に該当し,並列化による恩恵がごく僅かである.

可視化の結果, 畳込み層と全結合層の並列化について次 のようなことが分かった.全結合層は単純な行列・ベクト ル積であるため,メモリ帯域さえあれば容易にスレッドレ ベル並列化を行うことができる.しかしながら,メモリボ トルネックでスケールには高速なメモリ帯域が必要な上, そのような高速なメモリ帯域下では畳込み層によって全体 の実行時間が律速しているため,全結合層の高速化は重要 ではない.それに対し,畳込み層は演算ボトルネックなた め低速なメモリ帯域でも十分にスケールし,高速なメモリ 帯域でも実行時間の大半を占めるため,畳込み層のスレッ ドレベル並列化は重要である.

以上の結果を踏まえ,本研究のアクセラレータに必要な



図7 各コアの動作状況 (8 コア, Bw:500MB/s)



図 8 各コアの動作状況 (16 コア, Bw:10GB/s)

DMA データ転送バンド幅は 1GB/s であることが分かっ た.図5から,さらにスレッドレベルで並列化することを 考えないのであれば,これ以上高速なバンド幅は必要ない ことは明らかである.また,命令列のプログラミングを工 夫した場合や conv1 の出力マップ数を増やした場合など8 コア以上でもスケーラビリティを得られるアプリケーショ ンで評価を行ったとしても,本評価の仮定のもとでは畳込 み層は 500MB/s 程度の DMA データ転送バンド幅で十分 にスケールするので,いずれにせよ 1GB/s 以上のバンド 幅は必要ないと言える.

# 6. まとめ

本稿では、高電力効率かつプログラマブルな動作が可能 なディープラーニング向けアクセラレータのアーキテク チャを検討した.特に、アクセラレータのベースとなる小 型かつ命令制御可能なマイクロコントローラとディープ ラーニングの積和演算高速化のための SIMD 型積和演算器 について述べた.



図9 チップレイアウト図

また、マルチコア構成でアクセラレータの性能を評価す るためシミュレータを作成し、スケーラビリティの評価 を行った.評価の結果、畳込み層が適切にスレッドレベル 並列化された実装であれば、本研究のアクセラレータは スケールアウトによる高速化が可能であり、必要な DMA データ転送バンド幅は 1GB/s であることが分かった.

なお、これまでの検討したアーキテクチャを参考に4コ ア構成のアクセラレータをLSIチップへ実装した(図9). 1チップ4コア×3チップの12コア構成となっており、コ ア間は共有バス、チップ間は磁界結合による3次元積層 で結合される.チップ面積は3mm×6mmでテクノロジは Renesas Electronics 65nm SOTB である.

今後の課題としては,設計した LSI チップでの消費電力 評価を行う.また,電力効率を評価基準とし,アクセラレー タ動作周波数やコア数,SIMD 長など複数のパラメータに 対する包括的なアーキテクチャ探索を行う予定である.

謝辞 また,本研究は JSPS 科研費基盤研究(S) 25220002 の助成によるものである.

## 参考文献

- Chen, Y.-H., Krishna, T., Emer, J. and Sze, V.: Eyeriss: An energy-efficient reconfigurable accelerator for deep convolutional neural networks, 2016 IEEE International Solid-State Circuits Conference (ISSCC), IEEE, pp. 262–263 (2016).
- [2] Chen, Y., Luo, T., Liu, S., Zhang, S., He, L., Wang, J., Li, L., Chen, T., Xu, Z., Sun, N. et al.: Dadiannao: A machine-learning supercomputer, *Proceedings of the 47th Annual IEEE/ACM International Symposium on Microarchitecture*, IEEE Computer Society, pp. 609– 622 (2014).
- [3] Han, S., Liu, X., Mao, H., Pu, J., Pedram, A., Horowitz, M. A. and Dally, W. J.: EIE: efficient inference engine on compressed deep neural network, arXiv preprint arXiv:1602.01528 (2016).
- [4] Han, S., Mao, H. and Dally, W. J.: Deep compression: Compressing deep neural network with pruning, trained quantization and huffman coding, *CoRR*, *abs/1510.00149*, Vol. 2 (2015).
- [5] Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M. et al.: Imagenet large scale visual recognition challenge, *International Journal of Computer Vision*, Vol. 115, No. 3, pp. 211–252 (2015).