# マルチコアニューラルネットワークアクセラレータにおける データ転送のブロードキャスト化

大場 百香 $^{1,a)}$  三輪  $2^1$  進藤 智司 $^2$  津邑 公暁 $^2$  八巻 隼人 $^1$  本多 弘樹 $^1$ 

概要:マルチコアニューラルネットワークアクセラレータでは,メモリとコア間のデータ転送時間がボトル ネックとなっており,ニューラルネットワーク計算を効率良く行うことができない.そこで本論文では, このデータ転送をブロードキャスト化することでボトルネックを解消するアクセラレータを提案し,性能 分析およびハードウェアコストの評価を行った.

## 1. はじめに

画像認識や音声認識の分野で広く使われているニューラ ルネットワーク (Neural Network : NN) は, DeepLearning[3] の登場によって近年急速に大規模化が進み,その計 算に要する時間や消費エネルギーが問題となっている.こ のような背景から,現在,NN計算のためのハードウェアア クセラレータ (Neural Network Accelerator : NNA) が多 数開発されている [1], [2], [4] . NNA は, オフチップ GPU と同様,アクセラレータとしてホストコンピュータに PCIe 等の手段で接続し,ホストコンピュータから NN 計算をオ フロードすることを想定して開発が進められている.NNA は CPU と比べて 100 倍程度高速に NN 計算を行うことが できる上,その消費エネルギーは GPU の 1/100 程度で済 むことが知られている [4].しかし,既存の NNA はエネル ギー効率に優れている一方,処理できるニューロンモデル や学習アルゴリズムが制限されており,その用途が限定的 である.このような既存の NNA が持つ制約は,人工知能 研究者などの NN 自体を研究しているユーザにとっては受 け入れ難いものである.

このような背景から,我々は,ユーザによってニューロ ンモデルや学習アルゴリズムを変更することができ,また, 高速かつ低消費エネルギーで NN 計算を行える NNA を開 発している [6].我々の NNA(再構成可能な NNA(Reconfigurable NNA: RNNA))はDaDianNao[2]のアーキテク チャをベースに開発しており,結合重みやニューロン値を 格納するためのメモリ,ニューロンの出力値を計算するた めの積和演算器といった,NN 計算に必要とされるカスタ ムロジックの他に,再構成可能ロジックを搭載する.これ により各ユーザは,ニューロンモデル毎の出力計算アルゴ リズムや学習アルゴリズムを再構成可能ロジック上に実装 することによって,所望の NN 計算をアクセラレータ上で 実行できる.

DaDianNao[2] や RNNA のようなマルチコア NNA( Multicore NNA: MNNA)では,全コアが共有するメモリ上 にニューロン値が格納されており,各コアが NN 計算を 行う際は共有メモリへのアクセスが発生する.我々の以 前の研究ではこの共有メモリへのアクセスが MNNA の性 能上のボトルネックとなることを明らかにした [6].この ボトルネックを解消するため,本稿では,全コアへの同一 データの転送をブロードキャスト化したアーキテクチャ (MNNA-bc)を提案する.

本論文の構成は以下のようになっている.まず2章では MNNA について詳しく述べる.続く3章では MNNA-bc について述べる.4章で提案アクセラレータの性能とハー ドウェアコストの評価を行い,5章で本論文をまとめる.

# マルチコアニューラルネットワークアクセ ラレータ

#### 2.1 DaDianNao の概要

DaDianNao[2] は, DianNao[1] の問題点である計算ユ ニット(NFU)とメインメモリ間のバンド幅の不足を解消 し, 大規模 NN 計算の更なる高速化と省エネルギー化を目 的として設計されたマルチコア NNA である.

DaDianNao は複数のコアと共有メモリによって構成されており(図1),各コアが複数ニューロンの出力計算を 並列に行う.ニューロンの出力計算を行うユニット(NFU) はカスタムロジックによって構成されている.結合重みは

<sup>&</sup>lt;sup>1</sup> 電気通信大学

<sup>&</sup>lt;sup>2</sup> 名古屋工業大学

<sup>&</sup>lt;sup>a)</sup> ohba@hpc.is.uec.ac.jp



図 1 DaDianNao のアーキテクチャ

各コアが備える結合重みバッファ(Weight Buffer)に格納 されている.

一方,ニューロンの入力値は図1の左側に位置する共有 メモリ(shared memory)に格納されており,必要なデー タが制御プロセッサ(Control Processor)によって入力 バッファ(Input Buffer)にロードされる.NFUは結合重 みバッファと入力バッファの値(どちらもベクトル・デー タ)を用いて複数ニューロン(16個程度)の出力計算を並 列に行い,計算結果(ベクトル・データ)を出力バッファ (Output Buffer)へ出力する.なお,NFU内は3つのパ イプライン・ステージに分かれており,出力計算はパイプ ライン処理される.このように,DaDianNaoのコア内の 動作は,共有メモリからの結合重みのロードが不要な点を 除いて DianNao とほぼ同じである.

DaDianNaoは,このように計算に必要なデータを格納す るメモリを NFU の近くに配置することで,これらのデー タのアクセスレイテンシとアクセスエネルギーを抑制して いる.

2.2 再構成可能なニューラルネットワークアクセラレー タの概要

我々は, 任意の NN 計算を可能とする再構成可能ロジッ クを搭載した NNA として RNNA を提案した [6]. MNNA のアーキテクチャを図 2 に示す.

基本的なアーキテクチャは DaDianNao と同様であり, 複数コアがネットワークを介して接続されており,1 つの メモリを共有した構成となっている.各コアは,NFU およ び制御プロセッサと入力,出力ニューロン,結合重みそれ ぞれの値を保持するバッファによって構成される.RNNA が DaDianNao と異なる点は,再構成可能ロジックを採用



図 2 RNNA アーキテクチャ

した点と,演算途中の結果を一時的に格納するためのベク トル・レジスタを NFU 内に配置した点である.

再構成可能ロジックは,積和演算以外のNN計算(例え ば,活性化関数の計算,膜電位の減少量とスパイク発生の 計算など)をハードウェアで実現する.積和演算は多くの NN計算で必要とされるため,カスタムロジックとして構 成する.また,ベクトル・レジスタはニューロンの状態や 膜電位を保持する.これら NFU 内のロジックの動作はす ベてパイプライン化される.

制御プロセッサは,他のコアへのデータ転送や推論処 理と学習処理のどちらを行うかをコアに対して指示する. DaDianNaoと同様の構成にすることで,共有メモリとNFU 間の結合重みの転送を省略し,転送に必要なレイテンシと 消費エネルギーを抑制する.それに加え,一部のスカラ命 令(分岐命令や整数系の四則演算命令)も実行できる.こ のようにすることで,ループ構造を持った制御プログラム の記述を可能にし,プログラム中の静的命令数を削減でき る.図2には示していないが,制御プロセッサ内にはプロ グラム格納用のメモリが存在している.また,上記のスカ ラ命令を実行するために,制御プロセッサ内には少量のス カラ・レジスタが存在する.

## 2.3 MNNA のネットワークアーキテクチャ

DaDianNao[2] や RNNA[6] のような MNNA の詳細アー キテクチャを図 3 に示す . MNNA は , 入力 , 重み , 出力そ れぞれに対しコア数分のオンチップ・ネットワークを有し , コア毎 , またデータ毎に独立したデータ転送を可能とする . また , DMAC ( DMA Controler ) を各コアのバッファ毎に 設置している . 各 DMAC には格納できるメモリリクエス ト数に上限がある . 共有メモリはオンチップ・ネットワー



図 3 MNNA ネットワークアーキテクチャ



図 4 出力分割されている NN のブロードキャスト数

クに合わせた 48 ポート,各バッファは1ポートを有する. また,MNNAの動作は,共有メモリからニューロン値 を入力バッファヘロードし,コア内で結合重みと入力バッ ファの値を用いて計算を行い,結果を出力バッファまたは 共有メモリに書き込む,という一連の処理を行う長命令を 実行する.

MNNA では, コア毎にオンチップ・ネットワークを有 することで1本あたりのオンチップ・ネットワーク・バン ド幅が小さくなるので,メモリとコア間のデータ転送時間 がボトルネックになる[6].このボトルネックを解消する ために,我々はデータ転送のブロードキャスト化を行うこ とにした.

3. データ転送のブロードキャスト化

### 3.1 予備実験

ブロードキャスト可能なデータ転送命令がどの程度存在 するかを調べるため,DaDianNao[2]の評価で使用された NN計算に含まれる命令数を調査した.このNN計算はす べて出力分割[7]されている.結果を図4に示す.CLASS 層とCONV層では大部分のデータ転送命令が全コアで同 じデータに対する処理をするため,データを全コアヘブ ロードキャストできることがわかった.一方で,全コアで ニューロンの出力を共有する入力分割されているNNでは データをブロードキャストできるデータ転送の命令数は0 だった.



図 5 MNNA-bc アーキテクチャ

3.2 ブロードキャスト化のためのアーキテクチャ

入力,重み,出力それぞれのオンチップ・ネットワーク と DMAC を全コア共有にし,データ転送をブロードキャ スト化した MNNA (MNNA-bc)を提案する.提案アクセ ラレータのアーキテクチャを図 5 に示す.

基本的なアーキテクチャは 3.1 で述べた MNNA と同様 だが, MNNA と異なる点は,オンチップ・ネットワーク のバンド幅と本数,DMAC 内アーキテクチャである.オ ンチップ・ネットワークの本数を 16 本から 4 本へ変更す るのに伴い,各ネットワークのバンド幅も 6.25GB/s から 25GB/s に変更する.総バンド幅は 100GB/s と変更はな い.DMAC は各コアのバッファ毎に存在していたので, DMAC 内チャネルは1 チャネルであったが,MNNA-bc で は,オンチップ・ネットワークの数に合わせて 4 チャネル を要する.

MNNA-bc の動きは MNNA とは異なる.相違点は,1つ のリクエストでロードするデータの数である.MNNA で は1つのリクエストで常に1つのデータをロードしていた が,MNNA-bc では,各コアからリクエストされたデータ がブロードキャストできる場合であればまとめて共有メモ リからデータをロードする.データのブロードキャストの 可否はDMAC内で各コアからのリクエストをチェックし, 判断する.

DMAC 内での判断は, DMAC から共有メモリにロード する際に参照する表(表1)を作成し,各コアからリクエス トを受け取る際にリクエストが共有メモリの同じアドレス であれば DMAC 内で作成した表のエントリに1を書き込 むことにより行う.エントリの初期値は0とする.全コア

表 1 DMAC 内の表のイメージ

|             | Core 0 | Core 1 | Core 2 | <br> | Core 15 |
|-------------|--------|--------|--------|------|---------|
| address 0   | 1      | 0      | 1      | <br> | 1       |
| address 1   | 1      | 1      | 1      | <br> | 1       |
| address $2$ | 1      | 1      | 1      | <br> | 1       |
|             | 1      | 1      | 0      | <br> | 1       |
|             | 1      | 0      | 0      | <br> | 1       |
|             | 1      | 0      | 0      | <br> | 1       |

のリクエストが DMAC に到着したら, DMAC はチャネル の1つを使用して, これらのリクエストが要求する共有メ モリ上のデータに対するプロードキャストを開始する.こ の表を使ってリクエストを処理するのはプロードキャスト 用の命令からのリクエストのみである.そのため, プロー ドキャスト用の命令を新たに追加した.

#### 4. 評価

#### 4.1 評価内容と評価方法

MNNA-bc の性能及びハードウェアコストについて評価 し, MNNA との比較を行った.評価には,我々が開発した NNA-Sim (ニューラルネットワークアクセラレータ・シ ミュレータ)を使用した.NNA-Sim は,結合重み,プログ ラム,ニューロン値の初期データが,それぞれ,重みバッ ファ,プログラム格納用メモリ,共有メモリにセットされ た状態からシミュレーションを開始する.アクセラレータ 内の各メモリに初期データをセットする処理は実行サイク ル数としてカウントしない.

今回評価に使用した NN (表 2)は,画像認識等で実際 に使用されている CNN (Convolutional Neural Network) の1つの層を取り出したものであり,Convolutional 層 (CONV),Pooling 層(POOL),Classifier 層(CLASS)の 3 種類からなる.

CONV 層は,入力データの特徴要素を識別する層で ある.入力ニューロン ( $N_x \times N_y \times N_z^i$ )に対して 2 次 元のカーネル ( $K_x \times K_y$ )を1 ニューロンずつスライ ドさせて出力計算を行う.そのため,出力ニューロンは ( $(N_x - K_x + 1) \times (N_y - K_y + 1) \times N_z^o$ )の3次元構造となる. POOL 層は CONV 層の直後に配置される層であり,入力さ れたデータ( $N_x \times N_y \times N_z^i$ )にカーネル( $K_x \times K_y$ )を $K_x$ ま たは  $K_y$ ニューロンずつスライドさせながら出力を計算す る.そのため,出力ニューロンは ( $N_x/K_x$ )×( $N_y/K_y$ )× $N_z^o$ の3次元構造となる.CLASS 層は CONV 層と POOL 層 をまとめる層であり,1次元に配置された入力ニューロン ( $N_z^i$ )と,同じく1次元に配置された出力ニューロン( $N_z^o$ ) が全結合されている.

NNA-Sim ではコア数,共有メモリ・サイズ等のアーキ テクチャ・パラメータを設定することができる.これらの 値は DaDianNao の論文を参考に表 3 の値とした.また, NFU 全体のレイテンシは 2 サイクル (積和演算に 1 サイ

| 表 2 | 評 | 両対象の | NN | (文献 | [2] | より | ) |  |
|-----|---|------|----|-----|-----|----|---|--|
|-----|---|------|----|-----|-----|----|---|--|

|        | A · · · · |       | ,     |       | 1 /     |         |
|--------|-----------|-------|-------|-------|---------|---------|
| layer  | $N_x$     | $N_y$ | $K_x$ | $K_y$ | $N_z^i$ | $N_z^o$ |
| CLASS1 | -         | -     | -     | -     | 2560    | 2560    |
| CLASS2 | -         | -     | -     | -     | 4096    | 4096    |
| CONV1  | 256       | 256   | 11    | 11    | 256     | 256     |
| CONV2  | 500       | 375   | 9     | 9     | 32      | 48      |
| POOL1  | 492       | 367   | 2     | 2     | 12      | 12      |
| POOL2  | 256       | 256   | 2     | 2     | 256     | 256     |

クル,活性化関数の計算に1サイクル)とした.

DaDianNao と同様,NNA-Sim では,共有メモリへのア クセスが DMAC によってパイプライン処理されることを 想定している.今回の評価では,入力バッファの DMAC が処理可能なメモリリクエスト数の上限をコアあたり64 と した.メモリリクエスト数がこの上限を超えると,DMAC は新たなメモリリクエストを受けつけることができなく なり,ロードを行う命令がデコードされた時点で制御プロ セッサがストール(Load Blocking)する.なお,今回の評 価では,出力バッファの DMAC には処理可能なメモリリ クエストの上限値を設けていない.これは,出力バッファ の DMAC が処理する書き込みリクエスト数は,入力バッ ファの DMAC が処理する読み出しリクエスト数よりも少 ないためである.

MNNA-bc において積和演算回路のレイテンシを 1, 10, 100, 1000 サイクルと変化させた場合,またオンチップ・ネットワーク総バンド幅を変化させた場合の性能評価を行い, MNNA との比較を行った.

更に, DMAC アーキテクチャの変更に伴うハードウェ アコストの差を,シミュレータを用いて評価した.面積と アクセス時間,動的電力,静的電力などを評価するシミュ レータには, CACTI5.3 [5] を使用した. 今回の実験に使用 したパラメータ (共有メモリやバッファサイズ,ポートの 数など)の値を表 4 に示す. なお, 今回は MNNA-bc の データのブロードキャストの可否を判断する DMAC 内の 表(表1)に関する評価は行っていない.これは,DMAC 内の表のハードウェアコストは無視できるほど小さいと考 えられるからである.現在は,DMAC内の表のエントリ 数は全リクエストの共有メモリのアドレスを格納できるよ うに設定している(160 エントリ)が,実際はブロードキャ ストを行ったアドレスのエントリを別のアドレスのリクエ ストが再利用できるため数エントリで良いと考えられる. 実際にこの表のエントリ数を数エントリに減らした場合の 性能への影響は今後評価する必要がある.

#### 4.2 性能分析

積和演算回路のレイテンシを変化させた場合の MNNA の実行サイクル数の内訳を図 6 に示す.グラフの横軸は NN を,縦軸は実行サイクル数を表している.NN ごとの 4 本の積み上げ棒グラフは,左から順に,積和演算回路の

| 表 3 | シミュレーション・パラメータ |  |
|-----|----------------|--|
|     |                |  |

| Parameters          | Remarks                |
|---------------------|------------------------|
| The number of Cores | 16                     |
| Shared Memory       | 16 ports 4MB 10 cycles |
| Input Buffer        | 16 entry 1cycle        |
| Output Buffer       | 16 entry 1cycle        |
| Weight Buffer       | 2M entry               |
| Frequency           | 606MHz                 |

Vol.2017-ARC-225 No.28 Vol.2017-SLDM-179 No.28 Vol.2017-EMB-44 No.28 2017/3/9

#### 情報処理学会研究報告

IPSJ SIG Technical Report



図 6 MNNA の積和演算回路のレイテンシを変更した場合の実行 サイクル数の内訳(オンチップ・ネットワーク・バンド幅: 100GB/s) 左から 1000, 100, 10, 1 サイクル

レイテンシを 1000, 100, 10, 1 サイクルに設定した場合の 結果である.各積み上げ棒グラフは 6 つの項目からなり, 下から順に,総実行命令数,Load Blockingのサイクル数, ロードの実効サイクル数,ストアの実効サイクル数,NFU の実効サイクル数,プログラムが終了して停止していた (他コアの計算が終了するのを待っていた)サイクル数を 表している.なお,各サイクル数は,16 コアの平均値であ り,1000 サイクルの時の総実行サイクル数で正規化され ている.

図 6 より, Load Blocking は 100GB/s のオンチップ・ ネットワークを仮定した場合,総実行サイクル数の平均 86%を占める結果となった.これより, MNNA では共有メ モリに対してリクエストを待つ時間が性能上のボトルネッ クとなっていることがわかる.

図 7 は, MNNA-bc の実行サイクル数を, 1000 サイク ルの積和演算回路のレイテンシを有する MNNA の実行サ イクル数(図 6)で正規化し,各積和演算回路のレイテン シ毎に表したグラフである.グラフの横軸は NN を,縦軸 は実行サイクル数を表している.

MNNA に対する MNNA-bc の総実行サイクル数の減



図 7 MNNA-bc の実行サイクル数の内訳の比較

少率は、積和演算回路のレイテンシが1の場合、最大 83%(CONV1)、平均70%、積和演算回路のレイテンシが 10の場合、最大84%(CONV1)、平均70%、積和演算回 路のレイテンシが100の場合、最大84%(CONV1)、平 均69%、積和演算回路のレイテンシが1000の場合、最大 84%(CONV1)、平均67%であった、CLASS、CONVに おいて、データ転送をブロードキャスト化したMNNA-bc の総実行サイクル数がMNNA総実行サイクル数の約1/5 になった、この結果より、メモリとコア間のデータ転送を ブロードキャスト化することで、性能上のボトルネックを 改善できることがわかった、

更に,バンド幅を減らして MNNA-bc の性能の変化を 評価した.オンチップ・ネットワークバンド幅を1本あ たり 9.5GB/s,総バンド幅を38GB/s に設定した場合の MNNA-bc の総実行サイクル数の内訳を図9に,オンチッ プ・ネットワーク総バンド幅を1本あたり9GB/s,総バン ド幅36GB/s に設定した場合の MNNA-bc の総実行サイク ル数の内訳を図8に示す.また,CLASS,CONV に関し ては,オンチップ・ネットワークの総バンド幅を100GB/s から38GB/s,36GB/sまで減らしても MNNA の性能が 大きく変わらないことから,低いバンド幅でも高速に NN

| MNNA                                                                                 |                                                |                                             |                                           |                                     |
|--------------------------------------------------------------------------------------|------------------------------------------------|---------------------------------------------|-------------------------------------------|-------------------------------------|
| Parameters                                                                           | Shared Memory                                  | Input/Output Buffer                         | Weight Buffer                             | DMAC register                       |
| RAMsize (byte)                                                                       | 8,000,000                                      | 1,024                                       | 2,097,152                                 | 512                                 |
| Nr. of Banks                                                                         | 4                                              | 1                                           | 4                                         | 1                                   |
| Read Ports                                                                           | 32                                             | 1                                           | 1                                         | 1                                   |
| Write Ports                                                                          | 16                                             | 1                                           | 1                                         | 1                                   |
| Read Bits size                                                                       | 64                                             | 64                                          | 64                                        | 64                                  |
|                                                                                      |                                                |                                             |                                           |                                     |
| MNNA-bc                                                                              |                                                |                                             |                                           |                                     |
| MNNA-bc<br>Parameters                                                                | Shared Memory                                  | Input/Output Buffer                         | Weight Buffer                             | DMAC register                       |
| MNNA-bc<br>Parameters<br>RAMsize (byte)                                              | Shared Memory<br>8,000,000                     | Input/Output Buffer<br>1,024                | Weight Buffer<br>2,097,152                | DMAC register<br>64                 |
| MNNA-bc<br>Parameters<br>RAMsize (byte)<br>Nr. of Banks                              | Shared Memory<br>8,000,000<br>4                | Input/Output Buffer<br>1,024<br>1           | Weight Buffer<br>2,097,152<br>4           | DMAC register<br>64<br>1            |
| MNNA-bc<br>Parameters<br>RAMsize (byte)<br>Nr. of Banks<br>Read Ports                | Shared Memory<br>8,000,000<br>4<br>8           | Input/Output Buffer<br>1,024<br>1<br>4      | Weight Buffer<br>2,097,152<br>4<br>1      | DMAC register<br>64<br>1<br>16      |
| MNNA-bc<br>Parameters<br>RAMsize (byte)<br>Nr. of Banks<br>Read Ports<br>Write Ports | Shared Memory<br>8,000,000<br>4<br>8<br>4<br>4 | Input/Output Buffer<br>1,024<br>1<br>4<br>4 | Weight Buffer<br>2,097,152<br>4<br>1<br>1 | DMAC register<br>64<br>1<br>16<br>4 |

## 情報処理学会研究報告

IPSJ SIG Technical Report



図 8 総バンド幅 36GB/s, レイテンシ 1 (1 本あたりのバンド幅 9.5GB/s)の場合



図 9 総バンド幅 36GB/s, レイテンシ 1 (1 本あたりのバンド幅 9GB/s)の場合

計算を行うことができることがわかった.

#### 4.3 ハードウェア規模の評価

MNNA と MNNA-bc のハードウェア規模の比較結果を 表 5 に示す.改良前のアーキテクチャでは,コア毎の各 バッファと,各バッファ用に3つの DMAC レジスタを持っ ており,それらを合計したものを表5の Total としている. 一方で,改良後のアーキテクチャでは,コア毎の各バッ ファと,コア共通で各バッファ用に4チャネル分の計12個

| 衣 5 バートウェア 焼戻のLL戦 |          |                    |             |          |  |  |  |
|-------------------|----------|--------------------|-------------|----------|--|--|--|
|                   | エリフ      | $\mathbf{P}(mm^2)$ | アクセス時間 (ns) |          |  |  |  |
|                   | MNNA     | MNNA-bc            | MNNA        | MNNA-bc  |  |  |  |
| Total             | 59.529   | 69.390             | -           | -        |  |  |  |
| Shared Memory     | 39.923   | 16.918             | 8.487       | 5.797    |  |  |  |
| Input Buffer      | 0.124    | 6.288              | 0.827       | 1.020    |  |  |  |
| Weight Buffer     | 19.088   | 35.312             | 2.342       | 2.615    |  |  |  |
| Output Buffer     | 0.124    | 6.288              | 0.827       | 1.020    |  |  |  |
| DMAC register     | 0.089    | 1.528              | 0.753       | 1.067    |  |  |  |
|                   | 動的電力 (W) |                    | 静的電力 (W)    |          |  |  |  |
|                   | MNNA     | MNNA-bc            | MNNA        | MNNA-bc  |  |  |  |
| Shared Memory     | 0.097    | 0.093              | 6.80E-03    | 5.63E-03 |  |  |  |
| Input Buffer      | 0.003    | 0.029              | 3.71E-08    | 1.30E-07 |  |  |  |
| Weight Buffer     | 0.031    | 0.08               | 3.90E-04    | 4.05E-04 |  |  |  |
| Output Buffer     | 0.003    | 0.029              | 3.71E-08    | 1.30E-07 |  |  |  |
| DMAC register     | 0.003    | 0.009              | 1.98E-08    | 2.94E-07 |  |  |  |

**長 5** ハードウェア規模の比較

の DMAC レジスタを持っており,それらを合計したもの を表 5 の Total としている.各バッファの消費電力が増加 しているが,共有メモリの消費電力は削減できることがわ かった.結果として,全体のエリアは約16%程度増加し, 共有メモリの消費電力は約4.1%程度減少した.

## 5. おわりに

本研究では, MNNA の性能上のボトルネックであるメ モリとコア間のデータ転送時間を短縮するために,各コア へのデータ転送をブロードキャストすることで任意の NN 計算をより高速かつ低消費エネルギーで行うことのできる MNNA-bcを提案し,性能およびハードウェアコストにつ いて評価を行った.

メモリと各コア間のデータ転送をブロードキャスト可能 にすることで,総実行サイクル数の減少率は MNNA に比 べて最大 84%,平均 70%となり,ボトルネックを解消でき ることがわかった.また,MNNA と MNNA-bc のハード ウェアコストを比較した結果,共有メモリの消費電力を約 4.1%程度減らすことができた.今後は,DMAC 内の表の ハードウェアコストの評価及び SNN など様々な NN の評 価も行う予定である.

謝辞 本研究の一部は JST CREST による.

#### 参考文献

- [1] Chen, T., Du, Z., Sun, N., Wang, J., Wu, C., Chen, Y. and Temam, O.: DianNao: A Small-footprint Highthroughput Accelerator for Ubiquitous Machine- learning, Proceedings of the 19th International Conference on Architectural Support for Programming Languages and Operating Systems, ASPLOS '14, pp. 269-284 (2014).
- [2] Chen, Y., Luo, T., Liu, S., Zhang, S., He, L., Wang, J., Li, L., Chen, T., Xu, Z., Sun, N. and Temam, O.: DaDian-Nao: A Machine-Learning Supercomputer, Proceedings of the 47th Annual IEEE/ACM International Symposium on Microarchitecture, MICRO-47, pp. 609-622 (2014).
- [3] Le, Q. V., Monga, R., Devin, M., Chen, K., Corrado, G. S., Dean, J. and Ng, A. Y.: Building high-level features using large scale unsupervised learning, In Inter- national Conference on Machine Learning (2012).
- [4] Liu, S., Du, Z., Tao, J., Han, D., Luo, T., Xie, Y., Chen, Y. and Chen, T.: Cambricon: An Instruction Set Architecture for Neural Networks, Proceedings of the 43rd Annual International Symposium on Computer Architecture, ISCA '16, pp. 393-405 (2016).
- [5] CACTI 5.3 , http://quid.hpl.hp.com:9081/cacti/.
- [6] M. Ohba , S. Miwa , S. Shindo , T. Tsumura , H. Yamaki , H. Honda , Initial Study of Reconfigurable Neural Network Accelerators , Proc. 7th International Workshop on Advances in Networking and Computing (poster presentation), pp.707-709, (Nov 2016).
- [7] S. Shindo, M. Ohba, T. Tsumura, S. Miwa, Evaluation of Task Mapping on Multicore Neural Network Accelerators, Proc. 4th Int'l Workshop on Computer Systems and Architectures, pp.415- 421, (Nov 2016).