# 高エネルギー効率ルータ・バイパス法(EERB)による省電 力NoC

成子 貴洋<sup>1,a)</sup> 平木 敬<sup>1,b)</sup>

概要:チップあたりのコア数が増加するのに伴ない,近年では従来のバスに代わり,コア間の通信基盤とし てチップ上のインターコネクション・ネットワークである Network-on-Chip (NoC)を用いるのが一般的 になっている. NoC はバスと比べ高いスループットを提供できるものの,コア数が大きくなるに伴いネッ トワークのサイズも大きくなるため,チップ全体の性能や消費電力に及ぼす影響も大きなものとなってい る. NoC の性能を改善する一つの方法として,ルータのバイパスが提案されている. これは,パケットの 中間ルータの非同期的な通過を可能にすることにより,ネットワークのレイテンシを削減する手法である. 一方で,既存のルータ・バイパス法では消費電力の削減はほぼ得られないことが分かっている.そこで本 研究では,高エネルギー効率ルータ・バイパス法(EERB)を提案し,ルータ・バイパス法を性能改善だけ でなく,消費電力の削減にも活用することを目指す.シミュレーションにより,EERBを用いることで, 低レイテンシと低消費電力を同時に実現できることが示された

## 1. はじめに

ムーアの法則に従ってチップあたりに使用できるトラン ジスタ数は増加の一途を辿っているが、命令レベル並列性 によるマイクロアーキテクチャの性能改善は限界を迎えつ つある.そのため、現在では一つのチップ上に複数のコア を配置するのが一般的である.しかしこれにより、複数の コアやメモリコントローラの間での通信を如何に実現する かという問題が新たに生じている.

従来はチップ内の通信にはバスが用いられてきたが、コア 数が大きい場合には十分なスループットを提供できないと いう問題があった.そこで、現在ではチップ上のインターコ ネクション・ネットワークである Network-on-Chip (NoC) が一般に用いられている.NoCを用いるシステムにおいて は、コア間の通信はパケットを用いて行われる.コアから 送出されたパケットは、フリット (flow-control-digit, flit) と呼ばれる単位に分割された上で、ルータを経由しながら目 的のコアまで転送される.ネットワークのトポロジとして は、配線の都合からリングやメッシュが好まれる.リング・ トポロジを採用した NoC としては Intel® XeonPhi<sup>TM</sup>[5] のものが挙げられるが、リングはノード数 N に対して O(1) の二分スループットしか提供することができない.一方

<sup>1</sup> 東京大学

<sup>a)</sup> cinccinaru@is.s.u-tokyo.ac.jp

<sup>b)</sup> hiraki@is.s.u-tokyo.ac.jp

で,メッシュ・トポロジは O( $\sqrt{N}$ ) の二分スループットを 提供することができる. Tilera(®TILE64<sup>TM</sup>[2] などの製品 は、NoCのトポロジとしてメッシュを採用している.メッ シュ・トポロジの NoC は、バスに比べて大きなスループッ トを提供できる一方、パケットが経由するルータの数の期 待値は  $O(\sqrt{N})$  で増加するため、レイテンシも  $O(\sqrt{N})$  で 増加してしまうという課題を抱える. ネットワークのレイ テンシの増加はチップ全体の性能の低下を招く. そのため, レイテンシを削減するための手法として, Express Virtual Channel [7], Prediction Router [8] などが提案されてきた. SMART [6] もその様な手法の一つである. SMART はパ ケットの中間ルータの非同期的な通過を可能にすること により、レイテンシの削減を図る手法である. SMART を 用いたネットワークにおいては、パケットは中間ルータの バッファを通過し、1 サイクルで複数ホップ進むことが可 能である.この手法により、NoCのレイテンシを大幅に削 減することが可能となる.

レイテンシの削減に加え,消費電力の削減は NoC が抱 える課題である.例えば,16 コアの MIT Raw プロセッサ では,NoC の消費電力がチップ全体の消費電力の 36%を占 めると報告されている [10].消費電力がシステムの設計に おける主要な制約となっている昨今においては,この NoC における少なくない電力消費を削減することが重要であ る.しかし,SMART はレイテンシの削減に効果的である ものの,消費電力削減の効果はほぼ得られない [6].

Hongo, Bunkyo-ku, Tokyo 7-3-1, Japan

そこで本稿では、高エネルギー効率ルータ・バイパス法 (Energy Efficient Router Bypassing, EERB)を提案する. EERB は SMART のルータ・バイパスを,性能改善だけで なく消費電力の削減にも活用する手法である。EERBを導 入することで、バイパスの円滑化によるバッファ消費電力 の削減、並びにバイパス経路の見直しによるクロスバ消費 電力の削減を試みる.

## 高エネルギー効率ルータ・バイパス法 (EERB)

## 2.1 EERB の基本動作

EERB を用いることで図1に描かれているように,フ リットの中間ルータにおける非同期的な通過が可能にな る.つまり,フリットは1サイクル内に複数ホップ進むこ とが可能となる.このようなルータのバイパスは,ネット ワークのレイテンシを減少させるだけでなく,消費電力の 削減にも効果的である.なぜならば,通過したルータにお いてはバッファやクロスバを使用しないため,これらの電 力消費が発生しないからである.

図2は EERB のルータ構成を示している. 簡単のため, 2つの入力ポートと1つの出力ポートのみ図示している. 古典的な5サイクル・仮想チャネル・ルータとの違いは, 次のような構成要素の存在にある.

- バッファのバイパス経路
- Switch Allocation Global ユニット
- クロスバ直後のマルチプレクサ
- BR(Bypass Request) リンク
- クレジット・リンクに代わる free\_vc リンク

この構成は SMART のルータとほぼ同様であるが、マルチ プレクサの位置が SMART ではクロスバの前方であったの に対し、EERB では後方である点が異なっている. この変 更により、バイパス経路を通るフリットはクロスバを経由 する必要が無くなるため、クロスバにおける競合を防ぐこ とができる.また、バイパスするルータにおけるクロスバ 消費電力を削減できるという利点も得られる.

図1はフリットがルータ R0 からルータ R3 まで1サイ クルで到達する例を示している.ルータ R0 は転送の始点 (このようなルータを開始ルータと名付ける)であり,マ ルチプレクサはバッファ側が選択される.ルータ R1, R2 はフリットの中継を行うルータ (このようなルータを通過 ルータと名付ける)であり,マルチプレクサはバイパス路 側が選択される.そして転送の終点であるルータ R3 (こ のようなルータを終止ルータと名付ける)において,フ リットはバッファに収められる.なお,各ルータの役割は バイパス要求に基づき,サイクル毎に動的に変化する.一 方,ルータの視点に立つと,入ってくるフリットを2種類 に分類することができる.一つは自ルータ内にバッファさ れていたフリット,もう一つは自ルータを通り過ぎるだけ のフリットである.ここでは、前者を近郊フリット、後者 を通過フリットと名付ける.なお、1 サイクルで移動可能 なホップ数の最大値は配線遅延などに基づいてチップのデ ザイン時に決定される.以下ではこの値を *HPC<sub>max</sub>*と表 記する.

図3は EERB ネットワークのパイプライン構成を示している.第1ステージは、VS、BW、RC、SA-L という4つの処理から成り立っている.それぞれ以下の処理を行う. VS 空の仮想チャネルの選択.

BW VS で選んだ仮想チャネルへの書き込み.

**RC** 次の終止ルータ,そこまでのホップ数,そこへ到達 するための出力ポートの計算.

SA-L クロスバ使用要求の調停.

第1ステージでクロスバの使用権が取得できると,第2ス テージに進む.このステージはBRとSA-Gの2つの処理 から成る.

**BR** RC で求めた経路上のルータへのバイパス要求信号の送出.

SA-G バイパス要求の受諾・拒否の決定.

最後の第3ステージでは,経路上のリンクやクロスバを経 由(ST & LT)したフリットの転送が行われる.

上述の通り、フリットの転送に先行してバイパス要求 の送出が行われる.バイパス要求の送出は専用の信号 線である BR リンクを介して行われる.信号線の幅は  $log_2(HPC_{max}+1)$ ビット,長さは $HPC_{max}$ ホップであ る.この信号線は一つのルータによって駆動され,その ルータから特定の方向に HPCmax ホップ以内にある各 ルータによって読まれる. バイパス要求は次のサイクルに 開始ルータを発つフリットが希望する移動ホップ数を表し ている. つまり, ルータAにバッファされているフリット が *d* ホップ先のルータ B までの移動を希望している場合, ルータ A はルータ B を通る経路の BR リンクに値 d を流 す. ルータ A と B の中間にあるルータ C<sub>1</sub>, · · · , C<sub>d-1</sub> は値 *d*を受け取ることになるが、これらのルータはルータAか らの距離が*d*未満であるため,値*d*をバイパス要求と判断 する. 一方, ルータ B の先にあるルータ C<sub>d+1</sub> は, ルータ A からの距離が d より大きいため, 受け取った値 d をルー タAからのバイパス要求とは判断しない.

EERBでは、自ルータ内の近郊フリットだけでなく、通 過フリットも含めて出力ポートの調停を行う必要がある. SA-Gはこの調停を行うステージであり、以下のような方 針で調停が行われる.

- あるルータにおいて、通過フリットと近郊フリットとの間で衝突が発生している場合、近郊フリットが常に 資源を獲得する。
- それ以外の場合,最も近傍のルータからの要求が受諾 される。

つまり,そのバッファ内のフリットの転送が行われている



図1 EERB によりフリットがルータをバイパスする例.

ような入力ポートが経路上に存在すると、ルータのバイパ スはそのポートにおいて中断される.中断の有無を事前に フリットに通知することはせず、ST&LT ステージにおい て強制的に中断が行われる.

このような理由から、フリットはどのルータに停止する か事前に知ることができないため、仮想チャネルの割り 当てを前もって行うことができない.そのため、到達した ルータにおいてバッファの割り当てが行われる.下流の ルータの空きバッファの有無は、free\_vcリンクを通して上 流ルータに送られる.下流のルータに空きバッファが存在 しない場合、上流のルータにバッファされているフリット は下流のバッファに空きが出るまで待機する必要がある. また、そのような下流のルータへの通過を試みるフリット も、上流のルータにおいて転送を中断する必要がある.

#### 2.2 転送中断条件

出力ポートにおいて競合が発生した場合や下流のルータ の空きバッファが無い場合に、転送の中断が発生すること は上で述べたとおりである.ここで、転送の中断が必要と なる状況を以下にまとめる.

- 順序逆転 通過フリットが近郊フリットを追い越すこと によるフリット間順序の逆転が発生する場合がある. point-to-point ordering を保つ必要がある場合や、1パ ケットが複数フリットで構成されている場合には、保 つべき順序を崩すような追い越しが発生する手前で転 送を中断する必要がある.
- 出力ポート競合 出力ポートにおいて競合が発生した場合, 通過フリットの転送を中断する必要がある.
- 空きバッファなし 下流のルータに空きバッファが確保で きない場合,転送をその上流ルータにおいて中断する 必要がある.

当然ネットワークの負荷が大きくなるにつれて,これら の転送中断要因の発生頻度は高くなる.頻繁な転送の中断 はネットワークのレイテンシを増やすばかりでなく,NoC の消費電力の増加にも繋がる.なぜならば,転送の中断に よるバッファやアービタの使用が電力消費を招くからで ある.

## 3. 最適化

EERB を用いることで、通過ルータにおけるバッファ





図 2 EERB のルータ構成.

図3 EERB のパイプライン構成.

やクロスバの消費電力を削減することが可能である. バッ ファとクロスバは NoC の消費電力の約 60%を占める構成 要素である [6] ため, EERB は NoC 全体の消費電力削減 に効果的であると期待できる. しかし, 2.2 章で述べたよ うな要因で転送の中断が発生すると,通過できるルータの 数が減少するため,電力削減効果もその分だけ薄くなって しまう. 転送中断条件を緩和することで転送の円滑化が実 現できれば,中断による電力削減効果の低下の抑制に繋が る. そこで,より円滑なバイパスの実現を図るため,2つ の最適化(区間番号・通過待ち)を導入する.

#### 3.1 区間番号

フリット間の順序を保つための最も単純な方法は,通過 フリットによる全ての追い越しを禁止することである.し かしながら,送信元ノードか宛先ノードのいずれかが異な るフリット間の順序は保つ必要が無いため,この方針では 制限が強すぎると言える.不要な追い越しの禁止は,バイ パス要求にフリットの送信元ノード番号と宛先ノード番号 を含めることで,完全に排除することができる.つまり, バイパス要求を受け取ったルータは,次サイクルにやって くる通過フリットの転送を中断しなければならないか否か を,以下の基準に基づいて判断することが可能である.

(1) バイパス要求に含まれるものと同一の送信元・宛先 ノードのペアをもつフリットがバッファ内に存在する 場合,追い越しを不許可.

(2) それ以外の場合,追い越しを許可.

この方法は無駄な追い越し禁止を全て除去できるものの, 多くのハードウェア資源を要する.例えば,コア数が64の 場合,送信元・宛先ノードの組み合わせは64×63 = 4032 通りに上り,新たに [log<sub>2</sub> 4032] = 12本のワイヤが各 BR リンクに必要になる.

そこで、区間番号という値を導入する.区間番号は送信 元・宛先ノード番号に適当な圧縮関数  $f_{code}: \mathbb{N}^2 \to \mathbb{N}$  を 適用して算出した値である.つまり、ノードsからノード dへのフリットの区間番号は  $f_{code}(s, d)$  となる.区間番号 を用いる方法では、誤って問題のない追い越しを禁止して しまう場合が存在するが、適切に圧縮関数を定義すること で誤りの確率を抑えることが可能である.例えば、8x8の メッシュ・トポロジの場合を考える.送信元ノードのx 座 標を $s_x$  として、圧縮関数を以下の様に定義する. この関数は 4032 通りの端点の組み合わせを 8 通りの区間番 号に圧縮する.これにより, BR リンクへのワイヤの追加本 数を 12 本から 3 本に削減することができる.関数の定義よ り, x 軸方向の移動中には誤った追い越しの禁止は発生し ない.トラフィックが空間的に一様分布であると仮定する と, y 軸方向の移動中における誤りの確率は 7 ÷ 64  $\approx$  11% である.以上より,ネットワーク全体での誤った追い越し 禁止の発生確率は 5.5% に抑えられると推定できる.

圧縮関数は要求するハードウェア資源量と得られる性能 向上率との間にトレードオフの関係があるため,想定され るネットワーク負荷や利用できるワイヤ資源の量などに応 じて決定される必要がある.

#### 3.2 通過待ち

マルチプレクサにおいて,近郊フリットと通過フリット の間で出力ポートに対する競合が発生する場合がある.こ の競合に対して、EERB は常に近郊フリットを優先する 実装となっている.一方で、常に通過フリットを優先させ るという方針を取ることも可能である. この場合, 近郊フ リットが送出を1サイクル先送ることで,通過フリット を転送の中断とそれに伴う3サイクルのルータ・パイプラ イン遅延から防ぐことができる. 直感的にはこのような方 針のほうが効率が良いように思われるが, [6] における評 価結果から、低負荷時におけるレイテンシにおいて両方針 に差がほぼ見られない一方, 通過フリット優先の方針は スループットに関して近郊フリット優先の方針に大きく 劣ることが分かっている.これは,複数のバイパス要求信 号 BR1, BR2,..., BRn が重なりあうように出された場合 に, *BR<sub>i</sub>* のフリットを優先するために *BR<sub>i+1</sub>* のフリット の送出が見送られ、結果として1番目のフリットの送出し か行われないという状況が生じるためである. そのため, EERB は近郊フリットを優先する方針を採っている.

通過待ちは、バイパス要求の受け取りが予測される場合 に、バッファされているフリットの送出を遅らせること で、より円滑なバイパスを促す最適化である.バイパス要 求の予測はアルゴリズム1によって行われる.このアルゴ リズムは、「2サイクル前に2つ以上のフリットからバイ パス要求を受け取っていた場合、いずれかのフリットは途 中で転送の中断を被ったはずであり、次サイクルでバイパ ス要求の再試行を行うであろう」という考察に基づいてい る.ただし、そのフリットが属する仮想ネットワークが、 point-to-point ordering の保持を約束している場合や、複 数フリットから成るパケットが通るネットワークである場 合には、追い越し禁止により通過待ちが無駄になってしま う可能性がある.そのため、次サイクルに受け取ることを 期待しているバイパス要求の送信元フリットがこのような

|  | Algorithm | 1 | Passage | Wait |
|--|-----------|---|---------|------|
|--|-----------|---|---------|------|

| if | there i | is a | a timeouted | flit destined | to | P then |  |
|----|---------|------|-------------|---------------|----|--------|--|
|    | returi  | n    | No passage  | wait          |    |        |  |

end if

 $S \leftarrow$  Set of sender routers of bypass requests in cycle t-2

 $R_1 \leftarrow$  The nearest router among S

 $R_2 \leftarrow$  The second nearest router among S

 $d_1 \leftarrow$  Hop-count between  $R_1$  and this router

 $d_2 \leftarrow$  Hop-count between  $R_2$  and this router

 $r_2 \leftarrow$  Hop-count requested by  $R_2$  in cycle t-2

 $vnet_2 \leftarrow \text{Vnet number included in the bypass request from } R_2$  in cycle t-2

 $\mathbf{if}~vnet_2$  is a Pt-to-Pt ordered vnet or a multi-flit packets vnet  $\mathbf{then}$ 

return No passage wait

end if

if  $r_2 - (d_2 - d_1) \ge 2$  then

return Do passage wait

else

return No passage wait

end if



図 4 通過待ちの例.

仮想ネットワークに属している場合は,通過待ちは行わない.また,連続した通過待ちの発生によるデッドロックを防ぐため,各仮想チャネルにフリットの待ち時間を管理するタイマを用意し,それがタイムアウトした仮想チャネルが存在する場合には,通過待ちを行わないこととする.

図4は通過待ちの例を示している.この例では、*Flit<sub>C</sub>*の1サイクルの通過待ちにより、*Flit<sub>A</sub>のレイテンシが3*サイクル削減されただけでなく、R3におけるバッファやクロスバの電力消費も削減されている.

## 4. 性能評価

#### 4.1 評価手法

EERB が性能や消費電力に及ぼす影響を調べるため, PARSEC ベンチマーク [3] による評価を行った.シミュ レータには gem5[4] を用いた.gem5 はインターコネクト のシミュレーションに GARNET[1] を採用しており,本研 IPSJ SIG Technical Report



図5 各アプリケーションにおけるネットワーク遅延.

| OS Kernel               | Linux 2.6.27  |
|-------------------------|---------------|
| ISA                     | ALPHA         |
| CPU Model               | Timing Simple |
| L1 Chache (Instruction) | Private 32KB  |
| L1 Chache (Data)        | Private 32KB  |
| L2 Chache               | Private 1MB   |
| Coherence Protocol      | MOESI hammer  |
| Network Topology        | 4x8 Mesh      |
| # of VCs per Vnet       | 4             |

表 1 評価するシステムの構成.

究ではこの部分の実装を EERB の動作を模倣するよう適宜 修正した.また,消費電力の評価には Orion[9] を用いた. gem5 の各種パラメータは表 1 の通りに設定した.評価対 象は,ルータのバイパスを行わない従来の NoC (Base), SMART[6], EERB の 3 種類である.

#### 4.2 結果

図5は各アプリケーションにおけるネットワーク遅延の 結果を示している. EERBを用いることで、従来のNoCと 比べ、ネットワーク遅延が平均31%削減されている.マル チプレクサ位置の見直しや最適化の導入により、SMART と比べても平均6%の削減が得られている.

図6は各アプリケーションの、バッファとクロスバにお ける動的消費電力の結果を示している.前述の通り、バッ ファとクロスバは NoC 全体の消費電力の約 60%を占め る[6] ため、これらの消費電力を削減することは重要であ る. EERBを用いることで、バッファとクロスバにおける 消費電力が、従来の NoC と比べて平均 37%、SMART と比 べて平均 36%、それぞれ削減されることがグラフから確認 できる. EERB が消費電力の面で SMART に大きく優っ ているのは、EERB ではマルチプレクサがクロスバの後方 に配置されているためである.マルチプレクサがクロスバ の後方に配置されていることにより、通過フリットは中間 ルータにおいてクロスバを経由する必要がなくなり、クロ スバ消費電力の大幅な削減が実現されている.

## 5. 関連研究

ルータのバイパスを利用する手法として SMART[6] が



図 6 各アプリケーションにおけるバッファとクロスバの動的消費電力.

ある. EERB は SMART から多くのアイデアを継承して いる. EERB では通過ルータにおいてクロスバをスキップ するために、バイパス経路から抜けられる出力ポートを入 カポートの反対側に決め打ちしている. 一方, SMART で は X 方向から Y 方向へのカーブを伴うバイパスも形成で きる. バイパス形成の自由度が高いのは、マルチプレクサ がクロスバの前方に配置されており、通過フリットでもク ロスバを経由して任意の出力ポートを利用可能だからであ る.しかしながら、[6]の評価結果を見る限り、その効果 は限定的である.これは,次元ルーティングを採用する限 りにおいては、X 方向から Y 方向へのターンは高々1度 しか起こらないため、カーブを伴うバイパスが十分に生か されないためであると考えられる.一方で、このようなバ イパスを可能にするために、以下に述べる3つの欠点が生 じる.まず, EERBと比べ,必要なBR リンクの本数が増 加するという点である. カーブを伴うバイパスを形成する には、その骨組みとなる BR リンクを 2 次元上に配置する 必要がある. 例えば *HPC<sub>max</sub>* = 7 の場合, 出力ポートあ たりの BR リンクの本数は、EERB では1本なのに対し、 SMART では 13 本と大きな差がある. 2 つ目は, バイパス 中断の確率が大きくなるという点である. EERB ではクロ スバの出力ポートにおける競合がなければバイパスを継続 することができるが、SMART では入力・出力ポートの両 方が空いている必要がある.最後に,クロスバの消費電力 が増加する点である. EERB のバイパス経路はクロスバを 経由しないため,通過ルータにおけるクロスバの消費電力 を削減することができるが、SMART では通過ルータにお いてもクロスバを経由する必要があるため、クロスバ消費 電力の削減は得られない.以上のことから, EERB ではバ イパスの自由度を落とす方が合理的であると判断した.

経路上のルータにおけるレイテンシや消費電力の削減を目 的とした先行研究として Express Virtual Channel(EVC)[7] が挙げられる. EVC は中間ルータにおける仮想チャネルや クロスバの割り当てを約束する仮想チャネルを設けること で, k ホップ先のルータまで k サイクルで到達可能にする 手法である. EERB では途中でバイパスが中断される可能 性があるため,各仮想チャネルに1パケット分のバッファ を用意しておく必要があり,バッファが効率良く利用され ているとは言い難い.一方 EVC では, k ホップ先まで競 合が一切発生しないことが保証されているため,wormhole routing が利用でき,バッファの効率的な活用が実現され ている.また,バッファの利用効率をさらに改善するため, プール内のバッファを仮想チャネルに動的に割り当てる手 法も提案している.バッファの利用効率の悪さは EERB や SMART の大きな欠点の1つであり,動的なバッファの 割り当てはその欠点の克服に利用できる可能性がある.

## 6. まとめ

本稿では、NoC の消費電力を削減するために高エネル ギー効率ルータ・バイパス法(EERB)を提案した. EERB のバイパス経路はバッファやクロスバを迂回するように引 かれているため、これらの構成要素の消費電力の削減が期 待できる.しかし、競合などの要因によりバイパスの中断 が発生すると、EERBの効果が薄くなってしまう問題が ある.そこで、バイパスの中断の発生頻度を減らすため、 2つの最適化を導入した.1つ目の最適化である区間番号 は、フリット間の順序を保つ必要が無い場合の安全な追い 越しをルータが検出できるようにすることで、不必要な中 断を削減する手法である.2つ目の最適化である通過待ち は、次サイクルにバイパス要求信号の受信が予測される場 合に、バッファされているフリットの転送を遅らせること で、より円滑なバイパスを促す手法である.

EERB の効果を確認するためにシミュレーションによ る評価を行った.評価結果から,EERB を用いることで, 全ての中間ルータを1ホップずつ進む従来のNoCと比べ, ネットワーク遅延を平均31%,バッファとクロスバの消費 電力を平均37%,それぞれ削減できることが確かめられ た.また,ルータ・バイパス法を採用する既存手法である SMARTと比較しても,EERB はネットワーク遅延,並び に消費電力の両面において優位であることが示された.こ れらの結果から,EERB はルータのバイパスを,パフォー マンスの向上だけでなく,消費電力の削減にも活用するこ とのできる手法であると言える.

## 参考文献

- Agarwal, N., Krishna, T., Peh, L.-S. and Jha, N.: GAR-NET: A detailed on-chip network model inside a fullsystem simulator, *Performance Analysis of Systems* and Software, 2009. ISPASS 2009. IEEE International Symposium on, pp. 33–42 (online), DOI: 10.1109/IS-PASS.2009.4919636 (2009).
- [2] Bell, S., Edwards, B., Amann, J., Conlin, R., Joyce, K., Leung, V., MacKay, J., Reif, M., Bao, L., Brown, J., Mattina, M., Miao, C.-C., Ramey, C., Wentzlaff, D., Anderson, W., Berger, E., Fairbanks, N., Khan, D., Montenegro, F., Stickney, J. and Zook, J.: TILE64 - Processor: A 64-Core SoC with Mesh Interconnect, Solid-State Circuits Conference, 2008. ISSCC 2008. Digest

of Technical Papers. IEEE International, pp. 88–598 (online), DOI: 10.1109/ISSCC.2008.4523070 (2008).

- [3] Bienia, C.: Benchmarking Modern Multiprocessors, PhD Thesis, Princeton University (2011).
- Binkert, N., Beckmann, B., Black, G., Reinhardt, S. K., Saidi, A., Basu, A., Hestness, J., Hower, D. R., Krishna, T., Sardashti, S., Sen, R., Sewell, K., Shoaib, M., Vaish, N., Hill, M. D. and Wood, D. A.: The Gem5 Simulator, *SIGARCH Comput. Archit. News*, Vol. 39, No. 2, pp. 1–7 (online), DOI: 10.1145/2024716.2024718 (2011).
- [5] Intel: Intel®Xeon Phi<sup>TM</sup>Product Family, http: //www.intel.com/content/www/us/en/processors/ xeon/xeon-phi-detail.html.
- [6] Krishna, T., Chen, C.-H. O., Kwon, W. C. and Peh, L.-S.: Breaking the On-chip Latency Barrier Using SMART, Proceedings of the 2013 IEEE 19th International Symposium on High Performance Computer Architecture (HPCA), HPCA '13, IEEE Computer Society, pp. 378–389 (online), DOI: 10.1109/HPCA.2013.6522334 (2013).
- [7] Kumar, A., Peh, L.-S., Kundu, P. and Jha, N. K.: Express Virtual Channels: Towards the Ideal Interconnection Fabric, *SIGARCH Comput. Archit. News*, Vol. 35, No. 2, pp. 150–161 (online), DOI: 10.1145/1273440.1250681 (2007).
- [8] Matsutani, H., Koibuchi, M., Amano, H. and Yoshinaga, T.: Prediction router: Yet another low latency on-chip router architecture, *High Performance Computer Architecture, 2009. HPCA 2009. IEEE 15th International Symposium on*, pp. 367–378 (online), DOI: 10.1109/HPCA.2009.4798274 (2009).
- [9] Wang, H.-S., Zhu, X., Peh, L.-S. and Malik, S.: Orion: a power-performance simulator for interconnection networks, *Microarchitecture*, 2002. (*MICRO-35*). Proceedings. 35th Annual IEEE/ACM International Symposium on, pp. 294–305 (online), DOI: 10.1109/MII-CRO.2002.1176258 (2002).
- [10] Wang, H., Peh, L.-S. and Malik, S.: Power-driven Design of Router Microarchitectures in On-chip Networks, *Proceedings of the 36th Annual IEEE/ACM International Symposium on Microarchitecture*, MICRO 36, IEEE Computer Society, pp. 105–116 (2003).