# 大規模システムを想定した Gem5 シミュレータの 階層的インターコネクションネットワーク拡張

小野口 達也<sup>1,a)</sup> 林 綾音<sup>1</sup> 宇高 勝之<sup>1</sup> 松島 裕一<sup>1</sup> 木村 啓二<sup>1</sup> 笠原 博徳<sup>1</sup>

概要:クラウドシステムやモバイルデバイスの普及によりデータセンタなどにおける通信トラフィックが 爆発的に増加しており,これに伴い情報処理装置間を接続するインターコネクションネットワークにおい てもさらなる高性能化かつ低消費電力化が望まれている.このような低遅延高帯域かつ低消費電力なイン ターコネクションネットワークを実現する技術として光伝送技術の適用が検討されている.既に伝送距離 の長いサーバラック間には光伝送が適用されている一方,伝送距離の短いボード上のチップ間やチップ内 への適用は基礎研究段階である.光伝送技術の適用には光信号の処理を可能にする光デバイスが必要とな る.このような光デバイスを想定した,アーキテクチャシミュレータを用いた光インターコネクトの研究 が行われているが,シミュレーションするネットワークをオンチップに定めたものが多く,チップ内外を 接続するようなバンド幅の異なる複数のネットワークを階層的に接続したシステムのシミュレーションは 困難である.これは電気伝送と光伝送のネットワークを階層的に組み合わせたボードやラックレベルの中・ 大規模計算機システムの評価を行う上での障害となる.本稿ではアーキテクチャシミュレータ Gem5 の拡 張による,階層的なインターコネクションネットワークのシミュレーションを提案する.評価では本拡張 によってチップ内外の2階層でのネットワークシミュレーションが可能となったことを確認した.

# 1. はじめに

近年,クラウドコンピューティングやモバイルデバイス の普及により,データセンタなどにおける通信トラフィッ クは爆発的に増加している.計算機システムが処理しなけ ればならない情報量の増加に伴いデータ伝送に係る電力消 費量が増加しており,計算機システムにおける情報処理機 器・装置の高速化と低消費電力化が課題となっている.

計算機システムの性能を左右する要素の1つとして情報 処理機器・装置間を相互に接続するインターコネクション ネットワークが挙げられる.インターコネクションネット ワークはサーバーラック間やラック内のボード間,ボード 上のチップ内まで多階層に渡って計算機システム内の要素 間を接続するネットワークである.計算コアの性能が向上 しても、コア間を接続するネットワークの伝送速度が向上 しなければ計算機全体の性能は向上せず、インターコネク ションネットワークが性能のボトルネックになってしま う.そのため、低遅延高帯域なインターコネクションネッ トワークの実現による計算機システムの性能向上が期待さ れている.性能向上へのアプローチとしてインターコネク

早稲田大学

Waseda University.

<sup>a)</sup> onoguchi@kasahara.cs.waseda.ac.jp

ションネットワークに光伝送技術を適用した光インターコ ネクトが提案されており,従来の電気インターコネクトと 比較して,大容量かつ低消費電力なデータ通信を可能にす る技術として期待されている [1].現在,伝送距離の長い ラック間は既に適用されており,ボード間でも適用開始を 検討されている.一方で,伝送距離の短いボード上やチッ プ内への適用は基礎研究段階であり,光伝送技術の適用に は光信号を送受信できる光トランシーバや信号経路となる 光導波路や光ファイバーなどの光デバイスが必要である. 光デバイスをボード上やチップ内に集積するには高速に動 作可能かつ小型のデバイスの実用化が不可欠であり,現在 研究開発段階である.

以上の背景から,従来からアーキテクチャシミュレータ を用いた光インターコネクト適用を想定したネットワーク の評価が行われている [2–5].評価対象の多くはオンチッ プのインターコネクションネットワークであり,オフチッ プまで含めたネットワークのシミュレーションはあまり行 われておらず,評価に利用するアーキテクチャシミュレー タもそのようなモデルをサポートしていない.このため, 例えばチップ内の電気伝送とチップ間の光伝送のネット ワークを階層的に組み合わせた大規模計算機システムの評 価を行うのは困難である.

本稿では、アーキテクチャシミュレータ Gem5 [6] を拡

### 情報処理学会研究報告

**IPSJ SIG Technical Report** 

張することで階層的なインターコネクションネットワーク のシミュレーションを可能にした.Gem5シミュレータは サイクル実行型のアーキテクチャシミュレータであり,オ ンチップのインターコネクションネットワークをモデル化 している.本拡張では,階層的なネットワークトポロジー の実装,階層ごとに異なるバンド幅を想定したシミュレー ションモデルの追加を行った.また,拡張前後のモデルで の評価比較と,拡張後モデルにおけるチップ内外の2階層 でのネットワークシミュレーションを行い,電気インター コネクトと光インターコネクトでの評価結果について比較 を行った.

本稿では第2節で Gem5 シミュレータの概要,第3節 で拡張内容について述べ,第4節では電力推定に用いた DSENT について述べる.第5節では本拡張を行ったシ ミュレータによって行った各評価について述べる.

# 2. Gem5 シミュレータの概要

Gem5 シミュレータ [6] はサイクル実行型のコンピュー タシステムのシミュレーションプラットフォームであり, M5 [7] と GEMS [8] の 2 つのシミュレータを統合して開 発されたシミュレータである. 言語はシミュレータ本体が C++, 設定ファイルは Python で記述されている. BSD ラ イセンス体系をとるフリーソフトウェアであるため,ユー ザによるソースコードの変更や追加によるシミュレータの 拡張が可能となっている. また,各コンポーネントによっ てメモリシステムやインターコネクションネットワークが モデルがされており,パラメータを設定することで柔軟に コンピュータシステムをシミュレートすることが可能で ある.ネットワークモデルはオンチップのインターコネク ションネットワークモデルである Garnet [9] によってサ ポートされている.本章では,Garnet でサポートされて いるネットワークモデルについて述べる.

### 2.1 ネットワークトポロジー

各デバイス間を接続するネットワークの形状を指定す ることができ、Gem5 ではオンチップを対象としたネット ワークトポロジーがモデル化されている.既存のトポロ ジーとしては各デバイスが1つのスイッチに接続されてい る Crossbar,各ルータが格子状に接続されている Mesh, すべてのノード間がリンクによって接続されている Point to Point などが存在する.また、トポロジーは Python の 設定ファイルによって指定されるため、この設定ファイル を追加することで、新たにネットワークトポロジーを追加 することが可能である.

# 2.2 フロー制御

ネットワークに流れるデータは複数のパケットに分割さ れて転送される.パケットが転送される際にはサイクルあ



たりに転送可能なサイズに分割されて送信され,パケット を分割したものをフリットという.フリットは物理層での データの転送単位である物理ユニット(Phit)によって構 成される.図1に示されるようにヘッドフリット,ボディ フリット,テイルフリットに分けられ,ヘッドフリットは 経路制御に関する情報を保持し,ボディフリットとテイル フリットはこの経路制御情報に基いてルーティングされる. テイルフリットが目的地まで到達した時点で1つのパケッ トの転送が完了したことになる.各フリットはルータの入 力に到達するとバッファに格納されてヘッドフリットによ る経路演算が行われる.これにより,ルータの出力ポート が決定し,同時に次のルータのバッファを確保する.次の ルータのバッファが確保できなければフリットの転送を行 えないため,上流ルータは下流ルータのバッファに空きが あることが保証されている必要がある.

Gem5ではクレジットベースフロー制御によってフリットの転送が行われる.上流ルータは下流ルータのバッファの空きを示すクレジットという値を持ち,クレジットが0でない場合,下流ルータに向けてフリットを送信することができる.下流ルータにフリットが送られる度に上流ルータではクレジットをデクリメントし,下流ルータのバッファからフリットが移動し,バッファに空きができる度にクレジットがインクリメントされる.これにより,バッファ確保が保証されている状態でフリットの転送が行われるため,下流ルータのバッファを溢れさせることなくフリットの転送が行われる.

### 2.3 ルータマイクロアーキテクチャ

Gem5 でモデル化されているルータのマイクロアーキテ クチャを図2に示す. ルータに到達したフリットは以下の 各ステージを通過してルーティングされる.

# Buffer Write(BW)

フリットを予め割り当てられている仮想チャネルの バッファに書き込む.

### Route Computation(RC)

バッファリングされた先頭フリットの経路制御情報か ら演算を行い,ルータの出力ポートを決定する.

### Switch Allocation(SA)

ラウンドロビン方式で選ばれた各入力ユニットの仮想 チャネルは出力リンク先のルータの入力ユニットに おけるフリーな仮想チャネルを1つ選択する.各仮想 情報処理学会研究報告

**IPSJ SIG Technical Report** 





図2 ルータマイクロアーキテクチャ

チャネルは出力ポートを確保するためのリクエストを 発行する。各出力ポートに関して、リクエストを出し た仮想チャネルの中からラウンドロビン方式で1つの 仮想チャネルを選択し、スイッチの割り当てを行う.

#### VC Selection(VC)

出力ポート割り当てが行われた仮想チャネルは出力リ ンク先のルータの仮想チャネルを選択する.

### Switch Traversal(ST)

出力ポートの割り当てが行われたフリットはスイッチ を横断し,出力ポートへ送信される.

### Link Traversal(LT)

出力ポートに到達したフリットをリンクへ流し,下流 ルータへと送信する.

# Gem5の階層的なインターコネクション ネットワーク拡張

Gem5 は第2節で述べたようにオンチップネットワーク を対象としたシミュレータであるため階層的なネットワー クモデルはサポートされていない.本節では,階層的な ネットワークシミュレーションを可能にするために行った シミュレータの拡張について述べる.

### 3.1 階層的なネットワークトポロジーの追加

Gem5 でモデル化されているネットワークトポロジーは オンチップのインターコネクションネットワークを対象と したものであり、チップ外のネットワークは想定されてい ない.そのため、オンチップのネットワークからチップ間 を繋ぐボード上ネットワークまでの2階層のネットワーク トポロジーの実装を行った.本稿で実装したトポロジーで ある、チップ間をクロスバー構造で接続した Crossbar of Crossbar Chips (CC)とチップ間をメッシュ構造で接続 した Mesh of Crossbar Chips (MC)をそれぞれ図3及び 図4に示す.実装した2つの階層的なネットワークトポロ ジーは各コントローラやノード間の接続リンクを定義した のみである.ネットワークにおける階層的なリンクモデル については次項で述べる.



**図** 3 Crossbar of Crossbar Chips **図** 4 Mesh of Crossbar Chips

# 3.2 異なる複数のバンド幅を想定したリンクモデル拡張

計算機内のネットワークでは階層ごとにリンクの長さや 転送レートが異なるため、シミュレーションには階層ごと のリンクモデルを指定できる必要がある。Garnet のモデ ルではネットワークの性能に関する設定パラメータとして バンド幅を設定することができず、サイクルあたりの転送 単位であるフリットサイズとリンクを通過するのに係る遅 延サイクル数によって性能を決定する. これは, Garnet がオンチップのネットワークを対象としているため、ネッ トワーク内のすべてのリンク幅が同じであることが前提と なっているからである。リンクごとに遅延をかけることで 擬似的に低バンド幅を表現することは可能である。しかし ながら、実際のシステムにおいてフリットサイズが通過す るリンクの幅より大きい場合、転送可能な物理転送単位で ある Phit に分割して送信が行われるモデルが考えられる. そこで、本拡張ではリンクごとにバンド幅の設定を可能と し、バンド幅に応じてフリットの分割・併合を行うモデル へと拡張を行った.

図5は拡張前のリンクモデルであり、オンチップネッ トワークからチップ間リンクへ流れ、再びオンチップリン クへと流れるフリットの転送フローを表している.オン チップリンクの幅を16Byte/cycle、チップ間リンクの幅を 4Byte/cycleとしたとき、フリットサイズが16Byteである ためチップ間リンクへ流れる場合、4Byteごとに分割され たと仮定して4cycleの遅延をかけることで低バンド幅を 再現している.この場合、シミュレータ上でチップ間リン クは一度しか動作していないことになるが、実際には4分 割で4回に分けてデータが送信されているため、リンクの 動作率やこれを用いて算出する電力値に実際のシステムを 差異ができてしまう.また、リンク幅ごとにフリットの分 割・併合を行うためそのためのバッファリング時間がかか り、その間は該当リンクを他のデータが通過することがで きないため、フリットの挙動も異なってしまう.

以上を考慮して,図6に示すようにリンク幅に応じてフ リットを分割・併合して転送するモデルになるよう拡張を 行った.それぞれのリンクの幅は拡張前と同値であるが, 拡張後のモデルではチップ間リンクに転送される前にルー タの出力部分でフリットをPhitに分割して送信し,受信 側のルータでフリットを再構成する.



# 3.3 ルータマイクロアーキテクチャの拡張

拡張後リンクモデルのようにフリットの分割・併合を行 うようにルータマイクロアーキテクチャの拡張を行った. オンチップリンクからルータに到達したフリットは BW ス テージから ST ステージまでの処理を経て出力ユニットか らリンクへ送信される.この時,次に流れるリンク幅がフ リットよりも小さい場合,リンク幅に合わせてフリットの 分割を行う.分割されたフリットが1サイクルずつ送られ ていく間,他の分割フリットは転送を待つ必要があるため, 出力部分にバッファ機能をもつインターフェースを用意し た.送信された分割フリットは下流ルータ側に到達すると 入力ユニットでバッファリングされ,同一フリットを構成 するすべての分割フリットが到達するまで待ち,フリット の再構成が行われる.

この構造によってルータの入力リンクと出力リンクが異 なるリンク幅を持つような場合のフリットの挙動がモデル 化可能となり,階層的なネットワークのシミュレーション が可能となった.

# 4. DSENT の概要

DSENT (Design Space Exploration for Network Tool) [10] は電気と光混合のネットワークのためのモデリング ツールである.ネットワークパラメータの設定ファイルと テクノロジーパラメータの設定ファイルを読み込むことで 指定したネットワークアーキテクチャのパワートレース が可能となっている.データ量に依存する電力に関しては ネットワークへのデータの流入率を設定することで,各デ バイスの動作率とデータサイズから算出が行われている. そのため,この動作率にアーキテクチャシミュレータの実 行結果を用いることで,電力値の推定が可能である.本研 究では,DSENTを用いて Gem5 シミュレータの実行結果 から消費電力の算出を行った.

# 4.1 ネットワークの電力モデル

DSENT でサポートされるネットワークの電力値は式1 で表される.電気デバイスの電力は式2に表されるように 電気ルータ及びリンク,ドライバーやレシーバー等の電気-



図7 拡張後のルータマイクロアーキテクチャ

光インターフェースとリング共振器のチューニングによる 消費電力の和であり,光デバイスの電力は式3に表される ようにレーザ光源による消費電力である.

$$P_{total} = P_{electrical} + P_{optical} \tag{1}$$

$$P_{electrical} = P_{router} + P_{link} + P_{interface} + P_{tuning} (2)$$

$$P_{optical} = P_{laser} \tag{3}$$

式 1~3 の各消費電力は動的電力と静的電力の 2 つに大 別される。静的電力はデバイスの稼働率やアイドル時間に 関係なく消費されるリーク電力として定義される。動的電 力は稼働率に依存し、各デバイスのイベントあたりのエネ ルギーとその頻度の積によって定義される。そのため、各 デバイスの消費電力は式4によって表され、P<sub>static</sub> は静的 電力の合計値を、E<sub>i</sub>、f<sub>i</sub> はそれぞれのイベントのエネル ギーコストとイベントの頻度を表している。

$$P = P_{static} + \sum E_i * f_i \tag{4}$$

本稿の評価では  $f_i$  を Gem5 シミュレータの実行結果に 置き換えることでパワートレースを行った.

# 5. 評価結果

本稿では、Gem5 シミュレータの拡張によって階層的な インターコネクションネットワークの評価を可能とした. 本節では拡張前後のモデルでの評価結果の差異についての 比較と、拡張後モデルに関してチップ間リンクに電気及び 光伝送を適用した場合の評価結果の比較を行った.

### 5.1 評価アプリケーション

Gem5 ではアプリケーションのバイナリ実行が可能であ る.本稿では並列計算のベンチマークである NAS Parallel Benchmarks (NPB)を用いて評価を行った.NPB は5つ のカーネルベンチマークと3つのアプリケーションベンチ マークによって構成されており,その中から CG, FT, BT の3つを採用し,問題サイズをWに設定したものを実行 した.

### 5.2 拡張前後のモデルでの評価結果

**表**1は拡張前後のモデルでのネットワークパラメータ

情報処理学会研究報告

IPSJ SIG Technical Report

| <b>表 1</b> 拡張前後でのネットワークパラメータ |              |                         |  |  |
|------------------------------|--------------|-------------------------|--|--|
|                              | オリジナル        | 拡張後                     |  |  |
| フリットサイズ                      | 16Byte       | 4Byte                   |  |  |
| オンチップリンク幅                    | 16Byte/cycle | 16Byte/cycle            |  |  |
| チップ間リンク幅                     | 16Byte/cycle | 4Byte/cycle             |  |  |
| オンチップリンク遅延                   | 1cycle       | 1cycle                  |  |  |
| チップ間リンク遅延                    | 4cycle       | 1cycle                  |  |  |
| ルータ遅延                        | 2cycle       | 2cycle + buffering time |  |  |



図8 拡張前後の平均パケット遅延

である.オリジナルモデルは低バンド幅を遅延によって 擬似的に表現するモデルであるため、フリットサイズを 16Byteとし、チップ間リンク幅の4Byte/cycleを表すため に4cycleの遅延を与える.拡張後モデルではフリットの 分割・併合が想定されているモデルであるため、フリット サイズを4Byteに設定し、オンチップ上は4つのフリット をまとめた状態でデータ転送を行い、チップ間リンクに流 れる際に元の1フリットに分割して転送を行う.1チップ あたり4コアの64コア構成で、図3、図4に示した2つ のネットワークトポロジーを用いて NPBの3つのベンチ マークで拡張前後のモデルのシミュレーションを行った.

拡張前後のモデルでのシミュレーションによる平均パ ケット遅延の結果を図8に示す。図中、CC及びMCはそ れぞれ 3.1 項で述べた Crossbar of Crossbar Chips と Mesh of Crossbar Chips を表している。オリジナルのモデルと比 較して拡張後のモデルでは平均パケット遅延が増加してい る。これはチップ間リンクにフリットが流れる際にフリッ トの分割のためにバッファリングが行われ、また、受信側 の入力バッファでフリットの再構成のためにバッファリン グが行われるためである。 チップをまたぐ通信の頻度が高 い FT ではオリジナルのモデルと比較して, CC で 1.87 倍, MCで1.80倍の遅延増加が確認された. これはボード間や ラック間等のより大規模なシステムの評価を行う際に無視 できない誤差であり、性能評価を行う上での弊害になって しまう.また、オリジナルのモデルでは正確にリンクの動 作率をシミュレートできないため、消費電力の評価にも誤 差が生じてしまう.

以上のことから,階層的なネットワークの評価には複数 のリンク幅を考慮したモデルが必要であり,本拡張の有用 性が確認された. Vol.2017-ARC-225 No.25 Vol.2017-SLDM-179 No.25 Vol.2017-EMB-44 No.25 2017/3/9

| 表 2 | チップ間電気及び光り | ンク適用時のネッ | トワークパラメータ |
|-----|------------|----------|-----------|
|-----|------------|----------|-----------|

|            | チップ間電気               | チップ間光                |
|------------|----------------------|----------------------|
| 動作周波数      | 2.4GHz               | 2.4GHz               |
| フリットサイズ    | 4Byte                | 8Byte                |
| オンチップリンク幅  | 16Byte/cycle         | 16Byte/cycle         |
| チップ間リンク幅   | 4Byte/cycle          | 8 Byte/cycle         |
| オンチップ転送レート | $38.4 \mathrm{GB/s}$ | $38.4 \mathrm{GB/s}$ |
| チップ間転送レート  | $9.6 \mathrm{GB/s}$  | $19.6 \mathrm{GB/s}$ |
| オンチップリンク遅延 | 1cycle               | 1cycle               |
| チップ間リンク遅延  | 1cycle               | 1cycle               |
| OE/EO 変換   | -                    | 1cycle               |

### 5.3 チップ間電気及び光リンクでの評価結果

拡張後モデルのチップ間リンクに電気伝送と光伝送を適 用した場合のシミュレーションを行った. それぞれのネッ トワークの設定パラメータを**表 2**に示す. オンチップは どちらも電気リンクを想定し, チップ間電気リンクのモ デルはプロセッサ間接続技術であるインテルの QuickPath Interconnect (QPI) [11] を, チップ間光リンクのモデルは Binkert 等のモデル [2] を参考としてパラメータの設定を 行った. また, ルータでの経路制御は電気信号によって行 われるため, 光リンクモデルではルータの入出力で電気-光 (Electrical-Optical:OE) 変換が必要となる. この変換 にかかるオーバヘッドを 1cycle に設定し評価を行った.

チップ間電気及び光伝送を適用した2つのネットワーク トポロジーでNPBのCG,FT,BTの3つのベンチマー クアプリケーションを実行した際のパケット遅延を図9に 示す.チップ間電気モデルと比較して光モデルでは平均パ ケット遅延が削減され、チップ間リンクの通信頻度の高い FTではCCで約36%,MCで約35%の削減が確認できる. チップ間の通信頻度の低いCGでは遅延の削減率も低く、 このことから流れるデータレートが高いほど光リンクによ る恩恵が大きいことがわかる.

DSENT を用いた電力推定によって得られたネットワー ク全体の消費電力を図 10 に伝送効率を図 11 に示す。 チップ間光伝送は電気と比較して FT で CC, MC ともに 約36%の消費電力が削減されており、伝送効率もFTが最 も高く,ビットあたり 7pJ 台での伝送が可能となってい る。一方で、チップ間伝送の頻度が低い BT や CG では電 気と比較して光による伝送効率の改善はあまり見られず, MC で CG を実行した場合の消費電力はわずかであるが光 伝送のほうが大きい結果となっている。本来、電気伝送は 経路長とリンクを流れるデータレートに電力が依存するた め、光伝送と比較した場合チップ間転送が多い場合に消費 電力が増大する。一方で、光伝送は静的電力の割合が高く、 経路長にほとんど依存しないため,チップ間転送が多い場 合に高い伝送効率を示す. そのため, 伝送距離の長いリン クや高データレートでは光伝送は高い伝送効率となるが, 低データレートでは光と電気による差は小さく、電気のほ

IPSJ SIG Technical Report



図9 チップ間電気/光リンクでの平均パケット遅延







図 11 ビットあたりの伝送エネルギー

うが伝送効率が良いケースも存在する.このため,電気伝送と光伝送のトレードオフを見極め,伝送効率が最も良い ネットワークモデルの組み合わせを評価していくことが重要である.

# 6. おわりに

本稿では階層的なインターコネクションネットワークの シミュレーションのために Gem5 シミュレータの拡張を 行い,拡張前後のモデルでの評価比較及びチップ間リンク に電気伝送と光伝送を適用した際の評価比較を行った.拡 張前後のモデルの評価結果から平均パケット遅延に最大で 約1.87 倍の差が確認され,これは大規模システムの性能評 価において無視できない誤差となることから,本拡張の必 要性が確認された.また,チップ間リンクに電気伝送と光 伝送を適用した際の評価では,高データレートにおいて光 伝送による高速化や高い伝送効率が確認された一方で,低 データレートでは電気よりも消費電力が増加するケースも 見られた.以上のことから,電気伝送と光伝送のトレード オフを見極め,最も伝送効率の高いネットワークの組み合 わせについて検討する必要があり,それを可能とする本シ ミュレータは今後の光インターコネクトの研究における評 価ツールとして有用であることが確認できた.

**謝辞** 本研究の一部は、NEDO「超低消費電力型光エレ クトロニクス実装システム技術開発」 プロジェクトの委託 を受けたものである。

### 参考文献

- [1] 荒川泰彦:超低消費電力型光エレクトロニクス実装シス テム技術開発,技術報告, NEDO (2016).
- [2] Binkert, N., Davis, A., Jouppi, N. P., McLaren, M., Muralimanohar, N., Schreiber, R. and Ahn, J. H.: The role of optics in future high radix switch design, 2011 38th Annual International Symposium on Computer Architecture (ISCA) (2011).
- [3] Laer, A. V., Jones, T. and Watts, P. M.: Full System Simulation of Optically Interconnected Chip Multiprocessors Using Gem5 (2012).
- [4] Glick, M., Rumley, S., Hendry, R., Bergman, K. and Dutt, R.: Modeling and simulation environment for photonic interconnection networks in high performance computing, 2013 15th International Conference on Transparent Optical Networks (ICTON) (2013).
- [5] Pan, Y., Kumar, P., Kim, J., Memik, G., Zhang, Y. and Choudhary, A.: Firefly: Illuminating Future Networkon-chip with Nanophotonics, *Proceedings of the 36th Annual International Symposium on Computer Architecture*, ISCA '09 (2009).
- [6] Binkert, N., Beckmann, B., Black, G., Reinhardt, S. K., Saidi, A., Basu, A., Hestness, J., Hower, D. R., Krishnã, T., Sardashti, S., Sen, R., Sewell, K., Shoaib, M., Vaish, N., Hill, M. D. and Wood, D. A.: The Gem5 Simulator, SIGARCH Comput. Archit. News (2011).
- [7] Binkert, N. L., Dreslinski, R. G., Hsu, L. R., Lim, K. T., Saidi, A. G. and Reinhardt, S. K.: The M5 Simulator: Modeling Networked Systems, *IEEE Micro* (2006).
- [8] Martin, M. M. K., Sorin, D. J., Beckmann, B. M., Marty, M. R., Xu, M., Alameldeen, A. R., Moore, K. E., Hill, M. D. and Wõod, D. A.: Multifacet's General Execution-driven Multiprocessor Simulator (GEMS) Toolset, SIGARCH Comput. Archit. News (2005).
- [9] Agarwal, N., Krishna, T., Peh, L.-S. and Jha, N.: GAR-NET: A detailed on-chip network model inside a fullsystem simulator, *Performance Analysis of Systems* and Software, 2009. ISPASS 2009. IEEE International Symposium on, pp. 33–42 (2009).
- [10] Sun, C., Chen, C.-H. O., Kurian, G., Wei, L., Miller, J., Agarwal, A., Peh, L.-S. and Stojanovic, V.: DSENT - A Tool Connecting Emerging Photonics with Electronics for Opto-Electronic Networks-on-Chip Modeling, *Proceedings of the 2012 IEEE/ACM Sixth International* Symposium on Networks-on-Chip (2012).
- [11] Intel: An Introduction to the Intel QuickPath Interconnect.