#### 

チップ内ネットワークはパケット処理を行うルータを多数用いることで,高スケー ラビリティ,高スループットを実現している.しかし,ルータ構造はルーティング計 算,仮想チャネル,クロスパなどの複雑な内部処理を行うため,リピータバッファを 用いた従来のパス構造に比べて転送遅延が増大する.そこで,本稿では,(1)チップ 内ネットワークにおいてパケットの転送遅延を削減するために,予測機構を持つルー タを適用することを提案し,(2)遅延,スループット,ハードウェア量,消費エネル ギーの側面から複数の予測アルゴリズムを用いたシミュレーション評価を行う.評価 結果より,単純な予測アルゴリズムを持つ予測機構の導入により,ハードウェア量は 20%,エネルギーは 26%の増加となるが,無負荷時のパケットの遅延は既存のワー ムホールネットワークに比べ最大 32%の削減を達成した.また,単純な予測アルゴ リズムを用いることで,予測が100%成功する理想的なネットワークの遅延に比べて 7.4%の増加にとどめることができることが分かった.

# A Low-latency Network-on-chip Using Predictive Routers

# Michihiro Koibuchi,<sup>†1,†2</sup> Tsutomu Yosinaga,<sup>†3</sup> Hirokazu Murakami,<sup>†3</sup> Hiroki Matsutani<sup>†4</sup> and Hideharu Amano<sup>†4</sup>

Network-on-chip achieves both high scalability and high throughput, by using a large number of packet routers. However, every router performs internal complicated operations, such as routing computation, virtual-channel and crossbar allocation, that increase the packet latency, compared with traditional bus structure with repeater buffers. In this paper, (1) we propose to apply predictive routing algorithms into network-on-chip in order to reduce the packet latency, and (2) we evaluate its latency, throughput, the amount of hardware, and energy. Evaluation results show that a simple prediction algorithm reduces by up to 32% the unloaded packet latency, compared with that of a conventional wormhole network, although the prediction mechanism increases by 20%, and 26% the amount of hardware and energy, respectively. The simple prediction algorithm increases only by 7.4% the packet latency comapred with that of an ideal packet network where all predictions succeed.

## 1. はじめに

半導体技術の進歩によって単一チップ上にプロセッサやメモリ, I/O など複数の設計モジュールをタイル状に実装できるようになり,このようなタイルどうしの結合にチップ内ネットワーク(Network-on-Chip: NoC)が用いられるようになった.チップ内ネットワークのルータは,高い動作周波数,高スループットを実現するためにパケット処理を複数に細分化するパイプライン方式を採用している.そして,パケットはルーティングテーブル計算,出力ポートの設定,アービタ,クロスバ転送などの複数のステージを経て入力ポートから出力ポートへ転送される.

WAN (Wide Area Network)やLAN などのチップ間通信と異なり,リンク長がmm オーダときわめて短いため,パケットのルータ遅延がネットワークの転送遅延の多くを占め ることになる.よって,チップ内ネットワークは従来のリピータバッファを用いたバスに比 べて,ホップごとにデータ転送遅延が増大してしまうという問題がある.チップ内通信では 一般的にチップ間通信に比べて,ノード,通信粒度(データサイズ,頻度)ともに小さく, 細かくなるため通信遅延に対する要求が厳しい.そのため,通信遅延の削減がチップ内ネッ トワークの研究領域の大きな課題となっている<sup>1)</sup>.さらに,Intel 80 コア NoC チップ<sup>2)</sup> に 代表されるように,コア数は増加する一方であり,2012年にはチップ内に RAW アーキテ クチャのタイルが 1,024 個配置可能という見積りもある<sup>3)</sup>.つまり,コア数の増大にともな い,ルータ数も増加し,通信遅延の問題がより顕著になる傾向にある.

<sup>†1</sup> 国立情報学研究所

National Institute of Informatics

<sup>†2</sup> 総合研究大学院大学

The Graduate University for Advanced Studies

 <sup>\*3</sup> 電気通信大学大学院情報システム学研究科
 Graduate School of Information Systems, University of Electro-Communications
 \*4 慶應義塾大学大学院理工学研究科

Graduate School of Science and Technology, Keio University

タは予測ルータと併用することが可能であり,相反する技術ではない.

Preferred Path<sup>6)</sup> はデータパスを変更することで遅延を削減することができるが,ソー スルーティングを対象とし、さらにルータアーキテクチャが特化される.また、Preferred Path はクロスバを通過するデータパスと、それを迂回するデータパスの両方が必要となる.

2. 関連研究 並列分散システムの相互結合網におけるルータの通信遅延を削減する研究は近年さかん に行われている。

投機ルータ<sup>5)</sup>は,クロスバの調停と出力仮想チャネル割当てなどのルータ内パイプライ ンステージを同時に、投機的に実行することでルータあたりのパケット転送遅延を削減す

る、しかし、パケットが到着した後、そのパイプライン処理を開始するためルーティング計

算のステージなどの遅延を削減することが困難である.次章以降で述べるとおり,投機ルー

ド数と予測成功率の関係を明らかにし、5章においてシミュレーションを用いて、予測ルー タを用いたチップ内ネットワークの遅延,スループット,ハードウェア量,エネルギーにつ いての評価結果を示し,6章において結論を述べる.

# メニーコアに代表される多数のノード(コア)を持つシステムでは強い規則性を持つ2次 元トーラス,メッシュ,あるいはツリー系のトポロジでコア間を接続することが多い.この ような場合には、トポロジとルーティングの規則性をパケットの出力方向の予測に用いるこ とができるため高い予測成功率を達成することができる.

60 予測機構を持つルータを用いた低遅延チップ内ネットワークに関する研究

り有効性を明らかにする.

ン処理と同じ遅延となる4).

そこで、本稿では数十~数百コアシステムを想定したチップ内ネットワークにおいて、パ

予測ルータは,各入力ポートが次に到着するパケットの出力ポートを事前に予測し,出力

ポート,アービタ,クロスバなどのルータ内パイプライン処理をパケットの到着前に事前に

投機的に実行する.予測ルータは,パケットが入力ポートに到着した直後に出力ポートにた

だちに転送される.したがって,予測が成功した場合(すなわち,ルータが予測した出力

ポートとパケットの適切な出力ポートが一致した場合),パケット転送におけるルータ遅延

を劇的に削減することができる.また,予測が外れた場合には並列に実行している通常のパ

イプライン処理によりパケット転送が行われることになるため、既存のルータのパイプライ

ケットの遅延を隠蔽するために予測ルータ4)を適用することを提案し,総合的な評価によ

以降,2章において関連研究,3章において予測ルータについて述べる.4章においてノー

一方,予測ルータは予測の成否に関わらず,パケットは同一のクロスバを通過するデータパ スにより転送される。

Express VC は, 仮想的に非隣接ルータ間でバイパス経路を構成することにより中継ルー タにおける所要パイプライン段数を削減する<sup>7)</sup>.したがって,局所性を持つ通信パターンに 対する低遅延化効果は有さない、マッドポストマンスイッチングは、パケットヘッダの受信 完了を待たずにパケット出力を開始する.よって,ビットシリアルリンクを使用した場合, すなわち、チップ間通信におけるパケットヘッダの逐次受信遅延の削減を念頭においた技術 である、また、予測ルータは、動的通信予測による柔軟な設定ができる点でマッドポストマ ンスイッチングと異なる.

3. チップ内ネットワークにおける予測ルータ

3.1 パケットのパイプライン処理

予測ルータは,入出力ポート,制御回路,ならびにクロスバユニットにより構成されるパ イプラインルータにおいて、予測器を制御回路に加えた構成をとる、

パイプラインルータにおけるパケット処理は4つのプリミティブに分けることができる. ここでは,説明のために4段パイプライン処理を採用している典型的なルータ<sup>8)</sup>を用いて予 測ルータの仕組みを簡単に説明する、この4段パイプラインルータは、(1)入力ポートにおい てパケットのヘッダから出力ポート情報を解読,あるいはルータの制御ユニットから出力ポー ト情報を獲得し(Routing Computation: RC), (2) 出力ポートを設定し(Virtual-Channel Allocation: VA), (3) 出力ポートへのクロスバの設定を行い(Switch Allocation: SA), (4) パケット転送 (Switch Transfer: ST) することで、パケットは出力ポートへ転送され る.この様子を図1に示す.

予測ルータでは, RC ステージにおいて,同時に予測機構 (predictor)によりあらかじめ



情報処理学会論文誌 コンピューティングシステム Vol. 1 No. 2 59-69 (Aug. 2008)

© 2008 Information Processing Society of Japan

設定された出力ポートへパケットを転送する(Predictive Switch Transfer: PST). 予測が 成功した場合には,パケットの先頭部分(ヘッダフリット)はそのまま出力ポートに転送さ れる.チップ内予測ルータでは予測が失敗した場合には,間違った出力ポートに転送された フリットを削除し,上記4ステージの通常のルータのパイプライン処理を行う.

我々は、チップ間通信を対象とし、シリアル転送、あるいはナローチャネル転送において パケットのヘッダフリットのルーティング情報が到達次第、パイプライン処理を開始する ルータ<sup>4)</sup> について議論してきた、予測ミスを検出した場合にも一部のビット転送はすでに 行われているため、予測ミスパケットの隣接ルータへの伝搬を止めることは困難となる、同 様の問題はマッドポストマンスイッチングにおいても指摘されている、そこで予測ミス発生 時に一部のフリットが隣接ルータに伝搬するという問題に対処するパケットの処理方法、予 測ミスを最小限に抑える賢い予測アルゴリズムについて検討を進めてきた<sup>4)</sup>.

一方,本稿が対象とするチップ内ルータは,パラレル転送,つまりファットチャネル転送 を行っているため,入力ポートにおいて各フリットを1度,完全にバッファリングした後, RC/PST 処理を行う.そのため,予測ミスが生じた場合,自身のルータの出力ポート,あ るいは隣接ルータの入力ポートにバッファリングしている間に削除することが可能となる. よって,いずれの削除方法においても,チップ内ネットワークでは予測ミスパケットが複数 のルータに伝搬し,他のパケットの進行をブロックする状況は生じない.また,軽量化,予 測ミスパケットの伝搬防止を含めたルータアーキテクチャに特化した詳細な議論,定量的な 評価は文献 9)にまとめている.

3.2 予測アルゴリズム

入力ポートにおいて,次に到着するパケットの出力ポートを予測するアルゴリズムは,予 測ルータを用いたチップ内ネットワークの性能に大きく影響を与える.最も単純な予測アル ゴリズムは静的に出力ポートを予測する方法である.静的直進予測アルゴリズム(SS)は入 カパケットがつねに同一次元を直進すると予測する.すなわち,2次元トーラスにおいて北 の入力ポートに到着したパケットは南の出力ポートへ,東からは西へといった具合である. ランダム予測アルゴリズム(Rand)はランダムに予測出力ポートを選択する.

一方,直前ポート予測アルゴリズム(LP)は,入力パケットが1つ前のパケットと同一の出力ポートを選択すると動的に予測する.したがって,通信履歴は入力ポートごとに1つ分が必要となる.より洗練された方法としては,パターンマッチ予測アルゴリズム(SPM)がある.SPMは文献10)で提案されたパターンマッチングに基づくユニバーサル予測アルゴリズムに,系列の長さ制限などの制約条件を付けたものである<sup>4)</sup>.過去の通信履歴から繰

返しパターンを検索することによって,並列プログラムが持つ通信の規則性を抽出しやすい という利点を持つ.

4. 予測成功率

本章では典型的なチップ内ネットワークのトポロジであるトーラス, Fat ツリーにおける 予測成功率を経路の分散から求める.

4.1 トーラス

4.1.1 経 路 数

トーラストポロジは対称性を持つため,次元順ルーティングにおいてルータ間チャネルを 通過する経路数(出発地-目的地対数)は均一となる.ここで,各ノード(コア)は1つの ルータと1つのプロセッシングエレメント(PE)で構成されているとする.

図 2 に示したように,次元順ルーティングを用いた k-ary 1-cube トーラス(k は奇数)に おけるルータ間チャネル上の経路数  $T_{1d}$ ,その中で直進する経路数  $T_{1dss}$  はそれぞれ式(1), (2)のようになる.

$$T_{1d} = 1 + 2 + \ldots + \left(\frac{k}{2} - \frac{1}{2}\right) = \sum_{i=1}^{\frac{k}{2} - \frac{1}{2}} i$$
(1)

$$T_{1d_{ss}} = 0 + 1 + \ldots + \left(\frac{k}{2} - \frac{3}{2}\right) = \sum_{i=1}^{\frac{k}{2} - \frac{1}{2}} (i-1) = \sum_{i=1}^{\frac{k}{2} - \frac{3}{2}} i$$
(2)

チップ内ネットワークでは,2次元/3次元トーラスが対象となる<sup>11)</sup>ため,次に n次元トーラスへ拡張を行う.次元順ルーティングの規則性を利用して,あるルータへの入力チャ



Fig. 2 Distribution of paths on one-dimensional torus (k is odd numbers).

情報処理学会論文誌 コンピューティングシステム Vol. 1 No. 2 59-69 (Aug. 2008)

© 2008 Information Processing Society of Japan

ネルを通過する経路数 T と , その中で直進する経路数  $T_{ss}$  はそれぞれ式 (3) , (4) のようになる .

$$T = k^{n-1} \sum_{i=1}^{\frac{k}{2} - \frac{1}{2}} i$$

$$T_{ss} = k^{n-1} \sum_{i=1}^{\frac{k}{2} - \frac{3}{2}} i$$
(3)
(4)

次元順ルーティングでは,あるルータにおいて i 次元入力チャネルから j 次元出力チャネ ル ( $i \le j$ ) へ通過する経路数  $T_{(i,j)}$  は,そのルータにおいて  $1, \ldots, (j-1)$  次元方向の移動が 完了した経路の集合となるため式 (5) となる.また,i 次元入力チャネルからそのルータに 連結している PE を目的地とする経路数  $T_{PE}(i)$  は式 (6) となる.

$$T_{(i,j)} = \left(\frac{k}{2} - \frac{1}{2}\right)^2 k^{n+i-j-1}$$
(5)

$$T_{PE}(i) = \left(\frac{k}{2} - \frac{1}{2}\right)k^{i-1}$$
(6)

### 4.1.2 予測成功率

各 PE はポアソン分布に従ってパケットを独立に生成,注入し,目的地はランダム(ユニフォームトラフィック)と仮定する.ユニフォームトラフィックは,局所性を持たないため予測が難しいアクセスパターンといえる.この場合,予測成功率は,ルータにおいて入力チャネルを通過する経路の中で予測した出力チャネルを通過する経路の割合となる.直進予測の成功率(*P<sub>ss</sub>*),ランダム予測の成功率(*P<sub>rad</sub>*)を表1に示す.

直前ポート予測の予測成功率 *P*<sub>*lp*</sub> は, ある入力チャネルを通過するパケットが2回連続で 1 つの出力チャネルに転送される確率となる.よって,経路の分布から直前ポート予測の成 功率は表1のようになる.

ポアソン分布に従って各 PE が独立にパケットを注入するため,次に到着するパケットの出力チャネルを,1つ前のパケットの出力チャネルと同じと予測する LP と,履歴の中からパターンマッチングをとる SPM を用いた場合の予測成功率は同じとなる.同様にして, PE からの入力チャネルポートにおける予測成功率(P<sub>{ss,rad,lp,spm}PE</sub>)を表2に示す.な お,PE からの入力チャネルポートにおける直進予測は,次元順ルーティングの特性から第 1次元方向出力チャネルを予測するものとする.

表 1 i 次元入力チャネルポートにおける予測成功率

Table 1 Prediction success rate of *i*-dimensional input channel port.

| $P_{ss}$     | $\frac{T_{ss}}{T}$                                                                           |
|--------------|----------------------------------------------------------------------------------------------|
| $P_{rad}$    | $\frac{1}{n}\sum_{j=1}^{n}\frac{1}{2(n-j+1)}$                                                |
| $P_{lp,spm}$ | $(\frac{T_{ss}}{T})^2 + (\frac{T_{PE}(i)}{T})^2 + 2\sum_{j=i+1}^{n} (\frac{T_{(i,j)}}{T})^2$ |

表 2 入力ローカルチャネルポートにおける予測成功率

| Table 2 Prediction success rate of input local-channel | el port. |
|--------------------------------------------------------|----------|
|--------------------------------------------------------|----------|

| $P_{ss_{PE}}$       | $\frac{T_{PE}(n)}{k^n - 1}$                          |
|---------------------|------------------------------------------------------|
| $P_{rad_{PE}}$      | $\frac{1}{2n}$                                       |
| $P_{(lp,spm)_{PE}}$ | $\frac{2\sum_{i=1}^{n}T_{PE}(i)^{2}}{(k^{n}-1)^{2}}$ |

最後に次元内ノード数 k が偶数の場合を求める.偶数の場合, k ホップ離れたノードへの経路が2つ存在するが,この経路を半分ずつ使いチャネル利用率が均一と仮定する.この場合,各チャネルを通過する経路数が次式のように異なる.

$$T = k^{n-1} \sum_{i=1}^{\frac{k}{2}} \left( i - \frac{1}{2} \right) = k^{n-1} \left( \sum_{i=1}^{\frac{k}{2}} i - \frac{k}{4} \right)$$
(7)

$$T_{ss} = k^{n-1} \sum_{i=1}^{\frac{k}{2}-1} \left(i - \frac{1}{2}\right) = k^{n-1} \left(\sum_{i=1}^{\frac{k}{2}-1} i - \frac{k}{4} + \frac{1}{2}\right)$$
(8)

偶数の場合における各予測アルゴリズムの予測成功率は,(式(7),(8)を用いた)表1, 表2となる.

#### 4.2 Fat ツリー

Fat ツリーにおける直進予測(SS)は下位チャネルからの入力ポートにおいては1つの 上位チャネルを,上位チャネルからの入力ポートにおいては,1つの下位チャネルを予測す るものとする.また,出発地においてパケットの経路を定めることで静的に経路分散してい るものとする.

4.2.1 経 路 数

トーラスの場合と異なり, Fat ツリーは経路数の分布がチャネルの階層ごとに異なる.こ こでは各ルータの階層数 *i* を PE からの距離と定義し, PE を便宜的に階層 0 とする. 図 3 に 1 つの出発地からの経路数を示したが, 階層 i ルータから上位チャネルを通過する 経路数  $T_{up}(i)$  は,上位リンク(チャネル)数 p,下位リンク数 q,階層数 rを用いて式 (9) のようになる.

$$T_{up}(i) = \left(\frac{q}{p}\right)^{i} (q^{r} - q^{i}) = \frac{q^{i+r} - q^{2i}}{p^{i}}$$
(9)

階層 i ルータにおいて,入力下位チャネルから出力下位チャネルへ通過する経路数  $T_{dw_{dw}(i)}$ は Fat ツリーの規則性から式 (10)のようになる.

$$T_{dw_{dw}(i)} = \frac{q^{i-1}}{p^{i-1}} \tag{10}$$

4.2.2 予測成功率

トーラスの場合と同様にして,経路数の分布からユニフォームトラフィックにおける予測 成功率を表3に示す.なお,ルータにおいて上位チャネルを通過する経路の中で,1つの下 位チャネルを通過する経路の割合は  $\frac{1}{a}$ と均一になる.



#### 表 3 階層 *i* ルータにおける入力下位チャネルポートにおける予測成功率

Table 3 Prediction success rate of lower input channel port at rank-i router.

| $P_{ss}$     | $\frac{T_{up}(i)}{T_{up}(i-1)}$                                                    |
|--------------|------------------------------------------------------------------------------------|
| $P_{rad}$    | $\frac{1}{p+q-1}$                                                                  |
| $P_{lp,spm}$ | $p(\frac{T_{up}(i)}{T_{up}(i-1)})^2 + (q-1)(\frac{T_{dw_{dw}}(i)}{T_{up}(i-1)})^2$ |

## 5.評価

本章では,予測成功率,無負荷状態のネットワークにおけるパケット遅延,スループット, 電力,ハードウェア量について,予測ルータと既存の投機ルータ,ワームホールネットワー クとの比較をシミュレーションにより行う.

5.1 予測成功率

表1,表2からユニフォームトラフィックにおける次元順ルーティングのパケットの予測 成功率を算出した.その各ネットワークサイズにおける結果を図4に示す.

本研究の対象は,数十~数百コアのチップ内ネットワークであるが,参考のため1,000 コ ア規模までの結果を示し,傾向が分かりやすいようにした.

図には含めていないが,5.3節で示す2次元チップ内ネットワークシミュレーションにおいて測定した予測成功率との誤差は3.3%と小さかった.図4より,直進予測(SS)と直前 ポート予測(LP)はコア数が多くなるにつれて予測成功率が向上していき,500ノードを 超えるあたりで徐々に一定に近づいていくことが分かる.また,近隣通信が多い場合は直進 予測は成功率が低くなることが報告されているが<sup>4)</sup>,局所性のないユニフォームトラフィッ クでは数十ノードから数百ノードのすべてのサイズにおいて直進予測が直前ポート予測に 比べて高い予測成功率となった.これは,次元順ルーティングの特徴である,パケットが次 元内で必要ホップ数直進した後,他の次元に転送されることに起因する.

同様にしてツリー系のトポロジにおける予測成功率を図5,図6に示す. "LP, SPM with Up only"は,ルート以外のルータにおいて入力ダウンチャネルポートのみ予測を行った場



情報処理学会論文誌 コンピューティングシステム Vol. 1 No. 2 59-69 (Aug. 2008)

© 2008 Information Processing Society of Japan



合を示している.ツリー (1,4,r) は Fat ツリー (2,4,r) に比べて上位リンク数が少ないため, 各ノード対の経路数が少なくなる.その結果,予測成功率が高くなっている.トーラスの場 合と同様の理由で,直進予測(SS),直前予測(LP)の予測成功率がランダム予測成功率 に比べ,最大 65%増ときわめて高い.ツリー系のトポロジではノード数が増加するにつれ て,直進予測,直前予測の予測成功率は向上していき,64 ノード以上はほぼ一定となった. よって,数十から数百コアという本議論の対象サイズにおいて,予測機構をほぼ最大限利用 することができるといえる.

5.2 無負荷状態におけるパケットの転送遅延

無負荷状態のワームホールネットワークにおけるパケット転送遅延は式 (11) で求まる<sup>12)</sup>.



図 7 無負荷状態のネットワークにおけるパケット遅延 (k-ary 2-cube トーラス) Fig. 7 Pacekt latency on unloaded network (k-ary 2-cube torus).



図 8 無負荷状態のネットワークにおけるパケット遅延(k-ary 3-cube トーラス) Fig. 8 Pacekt latency on unloaded network (k-ary 3-cube torus).

 $T_r$ ,  $T_a$ ,  $T_s$ , d, h はそれぞれルータにおけるルーティング, 調停, スイッチング遅延, ホップ数, ヘッダを表す.

$$Lat = T_{LinkProp}(d+1) + (T_r + T_a + T_s)d + \frac{PacketSize + hd}{LinkBW}$$
(11)

予測が成功した場合には  $T_r = 0$ ,  $T_a = 0$  とし, 前章での予測成功率を用いて, ユニフォームトラフィックにおけるパケットの平均転送遅延を結果を図7, 図8に示す.

本研究の対象は,数十~数百コアのチップ内ネットワークであるが,参考のため1,000 コ ア規模までの結果を示した.

その他のパラメータは,チップ内ネットワーク向けに軽量化した3段パイプラインルー



図 9 無負荷状態のネットワークにおけるパケット遅延 (k-ary 2-cube トーラス, Intel 80 コア NoC モデル) Fig. 9 Pacekt latency on unloaded network (k-ary 2-cube torus, Intelo 80-Core NoC model).

 $\mathbf{9}^{(4)}$ から抽出した ( $T_r = 1$ ,  $T_a = 1$ ,  $T_s = 1$ ). パケット長はチップ間通信の場合に比べて 短い 16 フリットとした.

また,ケーススタディとして Intel 80 コアのチップ内ネットワークの5 サイクルルータ (調停2サイクル)を想定した結果を図9に示すが,3サイクルルータの場合と比べて各予 測方式の遅延削減効果の傾向に違いはない.

各図において,横軸はノード数,縦軸は無負荷状態のネットワークにおけるパケット遅延 を表している. "Conv"は予測を行わない基となるワームホールネットワーク,"Ideal"は 予測が100%成功すると仮定した理想的な予測ルータネットワーク, "Spec"は,予測は行 わないが,2章で述べた投機実行により2サイクル転送する場合,"SS+Spec"は直進予測 を用いた予測ルータを用い,かつ,予測が失敗した場合,投機実行により2サイクル転送す るという予測ルータと投機ルータを組み合わせた場合の結果を各々表す.

図4,図7,図9より,予測成功率が高い場合ほど遅延が小さくなることが分かる.つまり,3つの予測アルゴリズムの中で予測成功率が高い直進予測が最も遅延が小さく,ランダム予測が最も遅延が大きい.

また,500 ノード規模やそれ以上と大きくなるほど予測機構を導入したことによる遅延 削減の効果が大きいといえる.また,数十ノードから数百ノードの範囲内において,元の ワームホールルータに比べて予測ルータを用いることで最大 32%遅延を削減できているこ とが分かる.また,直進予測(SS),直前ポート予測(LP)を用いた予測ルータは,予測 が100%成功したと仮定した理想的な場合に比べて,遅延が7.4%増えるにとどまり,数十 ノードから数百ノードの範囲内ではきわめて有効であることが分かる.



図 10 無負荷状態のネットワークにおけるパケット遅延 (ツリー (1,4,r)) Fig. 10 Pacekt latency on unloaded network (tree (1,4,r).



次に,無負荷状態のツリー系のトポロジにおけるパケットの平均転送遅延を図10,図11 に示す.パケットの目的地はランダムに選択し,均一な分布となるようにした.その他のパ ラメータはトーラスの場合と同様である.これらの結果より,各ルータにおいて入力ダウン チャネルにのみ予測ルータを設置することで一定の遅延削減効果が得られていることが分か る.これは入力アップチャネルからのパケットの出力チャネルの予測が難しいことに起因す る.ツリー系のトポロジでは予測成功率が低いため,予測ルータは投機ルータに比べてパ ケット遅延が大きくなっている.よって,ツリー系のトポロジにはより賢い予測アルゴリズ ムが必要であるといえる.



Fig. 12 Throughput and latency (2D torus, 64 PEs, LU decomposition).

# 5.3 スループット

スループット評価のために, C++で記述されたフリットレベルシミュレータを用いて評価を行った.予測成功率の評価環境と同様となるように,2次元トーラスにおける2本の仮想チャネルを用いた次元順ルーティングを採用した.また,各ノードは1つのルータとPEを持つものとし,64,256ノード構成規模とした.通信パターンとしては,ユニフォームトラフィックと NAS Parallel Benchmark (NPB)プログラム LU 分解から得られた通信パターンを用いた.

本シミュレータはフリット単位で処理をする一方,LU分解のトラフィックトレースにお いて各パケットは,生成クロック,出発地,目的地,データサイズ(*x* Byte)の4項目で構 成されている.そのため,本シミュレータにおいてLU分解の評価を行うために16Byte/ フリットの可変長パケットとして扱った.一方,各パケットは16フリット(内ヘッダ1フ リット)とした.

また,ネットワーク内において,特に空間的,時間的局所性を持つLU分解のトラフィックパターンではパケットの衝突が発生する.そのため,前節での無負荷状態のネットワークにおける評価と異なり,パケットの衝突が,本評価の平均遅延に影響している.

図 12, 図 13 は, 平均遅延と受信トラフィックの関係を示している. 両図のように可変長 (LU分解), 固定長パケットのいずれにおいても予測ルータは遅延を削減することができて いる.さらに,各パケットがネットワークにとどまる時間が短くなることにより,パケット の衝突の発生が抑えられ,その結果,スループットについても約22%改善された.LU分 解においては,SPM が直進予測(SS)に比べて高いスループット,低遅延を達成している



図 13 スループットとレイテンシ (2D トーラス, 256 PEs, ユニフォーム) Fig. 13 Throughput and latency (2D torus, 256 PEs, uniform).

ことが分かる.これは,パケットのホップ数が少ない局所性を持つトラフィックでは,ルー タ内を直進するパケットの割合が減ることに起因する.また,トラフィックの空間的,時間 的局所性に応じて予測出力ポートを動的に選択する SPM はユニフォームトラフィック,LU 分解の両方において安定した性能を達成していることが分かった.

#### 5.4 ハードウェア量

ネットワークのハードウェア量は, PE のネットワークインタフェース(NI)とルータが 大部分を占める.評価のために3ステージ(RC,VC/SA,ST)のパイプラン処理を行う ワームホールルータを設計した.これは,我々がこれまで議論,評価してきたルータ<sup>11)</sup>に 予測機構を追加した構成をとり,VCとSAは統合され1サイクルで実行することができる. フリットは64ビット幅,各入力仮想チャネルは4フリットを格納できるFIFOバッファを 持つ.ルーティング実装は,ソースルーティング法を仮定し,ネットワークサイズに大きさ が依存するルーティングテーブルは持たない.また,仮想チャネル数は2本とした.ネット ワークインタフェース(NI)は,ハードウェア量を抑えるために,フリットをスイッチング するために必要となる2フリットのFIFOバッファを持つ設計とした.そして,Synopsys Design CompilerバージョンY-2006.06-SP2,ASPLA90nmスタンダードセルライプラリ を用いてチップ内ネットワークルータ,NIを合成した.また,合成条件は面積優先とした.

図 14 と表 4 は, 2 本の仮想チャネルを持つ 64 ノード 2D トーラス, 256 ノード H-Tree, 256 ノード 2D トーラス, 2 本の仮想チャネルを持つ 256 ノード 2D トーラスネットワークに おけるルータの合成結果とその内訳である.これらにおいて, "Conv"は,基となるワーム ホールルータを表し, "Predictive (LP)"は LP 予測アルゴリズムを用いた予測ルータを表 す.図 14 より,予測機構付きネットワークがトーラス,ツリー系トポロジにおいて 20%の



Fig. 14 Total amount of hardware for routers of two-dimensional torus networks.

表 4 5-ポート仮想チャネルルータと NI の面積の内訳 (Kilo gate) Table 4 Breakdown of area for 5-port virtual-channel router and NI (kilo gate).

|            | Conv. ルータ          | 予測ルータ(LP)          |
|------------|--------------------|--------------------|
| Xbar & Arb | 2.448 ( $7.5%$ )   | 2.698 ( $6.8%$ )   |
| Channels   | 29.894 ( $91.4%$ ) | 36.070 ( $91.5%$ ) |
| Misc       | 0.360 ( $1.10%$ )  | 0.634 ( $1.6%$ )   |
| Total      | 32.701             | 39.401             |
| NI         | 6.757              | 6.757              |

ハードウェア量の増加で実現できることが分かった.

### 5.5 消費エネルギー

前節で実装した予測ルータの消費電力を求めるために,(1) Design Compiler でルータ 回路を合成し,(2) Verilog-XL でシミュレーションを行い Switching Activity Interchange Format (SAIF)を生成し,(3) Power Compiler でこの SAIF をもとに消費電力を解析し た.解析には,動作電圧 1.0 V の 90 nm CMOS プロセスを使用した.

パケットストリームは,最大リンクバンド幅の30%の利用率となるようにした.各ヘッ ダフリットは目的地アドレスを含み,データフリットはランダムなデータが入ったペイロー ドとした.ハードウェア量の評価に用いた予測ルータにおいて,予測の成否にかかわらず予 測に基づくパイプライン(1サイクル)と通常のパイプライン(3サイクル)の両方を実施 し,ルータ外の物理チャネルには片方のみにフリットを転送する.そのため,図15に示し たように,ルータにおいて1ビット転送するために必要となる消費エネルギーは予測ルー タを用いる場合,26%増加する.ただし,現状では,Alpha 21364マイクロプロセッサの電



Fig. 15 Energy comparison of predictive router.

カに占めるネットワークの割合は 20%, MIT RAW プロセッサでは 36% とチップ全体の電力に占めるネットワーク自体の割合は支配的ではない<sup>13)</sup>.よって,このエネルギーの増分は致命的にはならない可能性が高い.

さらに,パイプラインの段数が深いルータの場合,電力削減のため,予測が成功した場合 における通常のパイプライン転送を途中で中止する機構を追加するなどの検討が重要にな るが,本評価では軽量な3段パイプラインルータであるため,この中止機構は搭載してい ない.なお,予測ルータの導入により,ホップ数,経路が変更されることはないため,元の ワームホールルータと予測ルータにおける1ビットあたりの出発地から目的地までの転送 エネルギー比はルーティングアルゴリズムによらず一定となる.

## 6. ま と め

本稿では、予測機構を持つルータを用いて投機的にパケットのパイプライン処理を実行す ることで、パケットの遅延を削減するチップ内ネットワークについて様々な側面から評価を 行った.評価結果より、チップ内ネットワークの典型的なトポロジであるトーラス.Fat ツ リーにおいて単純な予測アルゴリズムを用いることで既存のワームホールネットワークに比 べて 32%のパケット遅延の削減、また、予測が 100%成功した理想的なネットワークの遅延 に比べて 7.4%の増加にとどまることが分かった.トレードオフとして予測機構の導入によ るハードウェア量の増加は 20%、エネルギーの増加は 26%であった.ただし、現状ではこ れらの点について、チップ全体に占めるネットワークの割合は支配的とはなっていない<sup>13)</sup>

ため, 致命的にはならないと考えられる.また, コア数が増加するにつれて, 予測機構を持つルータのパケット転送遅延の削減効果が大きくなることが分かった.

今後は,適応型ルーティング向け予測ルータの拡張を行う.さらに,予測ミスが生じた場合にも経路変更することでそのままパケットを目的地まで配送する仕組みについても提案する予定である.

謝辞 本研究の一部は,科学技術振興機構「JST」の戦略的創造研究推進事業「CREST」における研究領域「情報システムの超低消費電力化を目指した技術革新と統合化技術」の研究課題「ULP-HPC:次世代テクノロジのモデル化・最適化による超低消費電力ハイパフォーマンスコンピューティング」により行った.

# 参考文献

- 1) Final report, Workshop on On- and Off-Chip Interconnection Networks for Multicore Systems (Dec. 2006). available at http://www.ece.ucdavis.edu/~ocin06/
- Vangal, S., et al.: An 80-Tile 1.28TFLOPS Network-on-Chip in 65 nm CMOS, Proc. International Solid-State Circuits Conference (Feb. 2007).
- Pinkston, T.M. and Shin, J.: Trends Toward On-Chip Networked Microsystems, International Journal of High Performance Computing and Networking, Vol.3, No.1, pp.3–18 (2005).
- 4) 吉永 努,村上弘和,鯉渕道紘: 2-D トーラスネットワークにおける動的通信予測の 効果,先進的計算基盤システムシンポジウム(SACSIS)論文集,pp.219-226 (May 2007).
- 5) Peh, L.S. and Dally, W.J.: A Delay Model and Speculative Architecture for Pipelined Routers, Proc. 7th International Symposium on High-Performance Computer Architecture (HPCA), pp.256–266 (Jan. 2001).
- 6) Michelogiannakis, G., Pnevmatikatos, D. and Katevenis, M.: Approaching Ideal NoC Latency with Pre-Configured Routes, Proc. ACM/IEEE International Symposium on Networks-on-Chip (May 2007).
- 7) Kumar, A., Peh, L.S., Kundu, P. and Jha, N.K.: Express Virtual Channels: Towards the Ideal Interconnection Fabric, Proc. 34th International Symposium on Computer Architecture (ISCA) (June 2007).
- 8) Dally, W.J. and Towles, B.: *Principles and Practices of Interconnection Networks*, Morgan Kaufmann (2004).
- 9) 松谷宏紀, 鯉渕道紘, 天野英晴, 吉永 努:予測機構を持った低遅延オンチップルータ アーキテクチャ, 情報処理学会技術研究報告[計算機アーキテクチャ], 2008-ARC-178, pp.99-104 (May 2008).
- 10) Jacquet, P., Szpankowski, W. and Apostol, I.: A universal predictor based on

pattern matching, IEEE Trans. Info. Theory, pp.1462–1472 (2002).

- 11) 松谷宏紀, 鯉渕道紘, 天野英晴: Network-on-Chip における Fat H-Tree トポロジ に関する研究, 情報処理学会論文誌: コンピューティングシステム, Vol.48, No.SIG 13(ACS19), pp.178–192 (2007).
- 12) Henessy, J.L. and Patterson, D.A.: Computer Architecture: A Quantitative Approach 4th Edition, Appendix E: Interconnection Networks, Morgan Kaufmann (2006).
- 13) Soteriou, V. and Peh, L.S.: Exploring the Design Space of Self-Regulating Power-Aware On/Off Interconnection Networks, *IEEE Trans. Parallel and Distributed Systems*, Vol.18, No.3, pp.393–408 (2007).

(平成 20 年 1 月 29 日受付)(平成 20 年 5 月 27 日採録)

# 鯉渕 道紘(正会員)

平成 12 年慶應義塾大学理工学部情報工学科卒業.平成 15 年同大学大 学院理工学研究科開放環境科学専攻博士課程修了.博士(工学).平成 14 年度より 16 年度まで日本学術振興会特別研究員.現在,国立情報学研究 所助教,総合研究大学院大学複合科学研究科情報学専攻助教(兼任).八 イパフォーマンスコンピューティングとインターコネクトに関する研究に

従事. IEEE Computer Society Japan Chapter Young Author Award 2007, 平成 19 年 度情報処理学会論文賞受賞. IEEE,電子情報通信学会各会員.

# 吉永 努(正会員)

昭和 61 年宇都宮大学工学部情報工学科卒業.昭和 63 年同大学大学院工 学研究科修士課程修了.同年より宇都宮大学工学部助手.平成9年から翌 年にかけて電子技術総合研究所・客員研究員.平成12年より電気通信大 大学院情報システム学研究科助教授.現在,同准教授.博士(工学).並 列計算機アーキテクチャ,クラスタ計算,ホームネットワーク等に興味を

持つ.IEEE,電子情報通信学会各会員.





村上 弘和(学生会員)

平成18年電気通信大学電気通信学部卒業.平成20年同大学大学院情報 システム学研究科博士前期課程修了.並列計算機ネットワーク,ルーティ ングアルゴリズム等に興味を持つ.現在,株式会社プリヂストンに勤務.



天野 英晴(正会員) 昭和 56 年慶應義塾大学工学部電気工学科卒業.昭和 61 年同大学大学 院工学研究科電気工学専攻博士課程了.工学博士.現在,慶應義塾大学理 工学部情報工学科教授.計算機アーキテクチャの研究に従事.



松谷 宏紀(学生会員)

平成16年慶應義塾大学環境情報学部卒業.平成20年同大学大学院理 工学研究科開放環境科学専攻博士課程修了.博士(工学).現在,同大学 大学院理工学研究科訪問研究員.平成18年度より日本学術振興会特別研 究員.チップ内ネットワークの研究に従事.

情報処理学会論文誌 コンピューティングシステム Vol. 1 No. 2 59-69 (Aug. 2008)