# 多電源可変パイプラインルータ を用いた細粒度な電源制御

## 中 村 武 $at^{\dagger 1}$ 松 谷 宏 $紀^{\dagger 1}$ 鯉 渕 道 $at^{\dagger 2}$ 宇佐美 公 $et^{\dagger 3}$ 天 野 英 $tf^{\dagger 1}$

メニーコアにおけるプロセッサ-キャッシュ間ネットワーク(Network-on-Chip,NoC) を低消費電力化するために細粒度多電源可変パイプラインルータ(Multi-Vdd Fine-Grained variable pipeline router: MVFG-VP router)を提案する。MVFG-VP ルータでは、トラフィック負荷に応じて個々のルータのパイプライン段数(最大遅 延)と供給電圧を、入力パッファ単位の細粒度で切り替える.Dynamic voltage and frequency scaling(DVFS)ルータとは異なり、すべてのルータは同じ動作周波数で 動作するため、異なる周波数ドメイン間の同期を考慮する必要がない。ルータ単位で 電圧を切り替える多電源可変パイプラインルータに比べて、ルータの利用していない 部分で高い電圧を使う必要がなく、さらに低い電圧を用いることのできる範囲を増や すことができる。本論文では、MVFG-VP ルータを 65nm プロセスを用いて設計し、 さらに CMP シミュレータ上で評価した.その結果、全て高い電圧を用いた場合に比 べて、31.1%の電力を削減した。その際、性能のオーバーヘッドは 5.2%であった。

Fine-grained power control using a multi-voltage variable pileline router

Takeo Nakamura,<sup>†1</sup> Hiroki Matsutani,<sup>†1</sup> Michihiro Koibuchi,<sup>†2</sup> Kimiyoshi Usami<sup>†3</sup> and Hideharu Amano<sup>†1</sup>

We propose a Multi-Vdd fine-grained variable pipeline (MVFG-VP) router in order to reduce the power consumption and improve the reliability of Networkon-Chip (NoC) designed for many-core processors. MVFG-VP router adjusts its pipeline depth (i.e., communication latency) and supply voltage level of input buffers whether the packet is coming or not. Unlike Dynamic voltage and frequency scaling (DVFS) routers, MVFG-VP routers share the same operating frequency, and thus there is no need to synchronize neighboring routers working at different frequencies. Compared with MV-VP (Multi-Vdd Variable Pipeline) router which applies multiple voltage control to the whole router, MVFG-VP router increases the area and possibility to apply low voltage, as the voltage control is applied to each input buffer. An MVFG-VP router is designed by using a 65nm process, and evaluated using a full-system CMP simulator. Evaluation results show that 31.1% power is reduced with 5.2% performance overhead.

## 1. はじめに

マルチコアプロセッサのコア数は年々増大し、バスやクロスバスイッチを用いた接続は限 界に達しつつある<sup>1)</sup>.これに代わりチップ上のネットワークによりパケット転送を行う方式 である Network-on-Chip (NoC)<sup>2)</sup>が注目されている.NoC の問題点の一つとして、ルー タを動作させるのに必要な消費電力が大きいことが挙げられる.MIT RAW CMP<sup>3)</sup>では NoC の消費電力はチップ全体の 36 %であり、Intel TeraFLOPS プロセッサ<sup>4)</sup>では 28 %で ある.一般に NoC の電力の多くはルータによって消費されることから、チップ全体に対し てルータが占める消費電力を無視することはできない.プロセッサの低消費電力化技術と して一般的な Dynamic Voltage and Frequency Scaling (DVFS)は、オンチップルータ にも応用されており、実チップでも動作が報告されている<sup>5)</sup>.しかし DVFS では動作周波 数を変えるため、隣接する 2 つの電源ドメインで違った電圧を 用いるばあい そ の動作周波数を整数比にしなければならず、選択可能な周波数(電圧)に制限が生じる.と りわけ NoC では通信負荷に偏りが生じやすく、ルータ単位で独立に電圧および周波数を調 整することが望ましいため、既存の DVFS 手法は向いていない.NoC 全体を非同期化して DVFS を用いた試み<sup>6)</sup>も報告されているが、非同期回路は設計が困難な点がある.

一方,負荷に応じてパイプライン段数を最適化する手法<sup>7)</sup>や それに加えて Time Borrowing によって各パイプラインステージの最大遅延を平均化することによって周波数を上 げる手法<sup>8)</sup>も提案されているが これも動作周波数を変化させることが前提である.

そこで,我々は,個々のルータの動作周波数ではなく,パイプライン段数を切り替えると

 †2 国立情報学研究所 / 総合研究大学院大学 National Institute of Informatics / The Graduate University for Advanced Studies
†3 芝浦工業大学 情報工学科

Department of Information Science and Engineering, Shibaura Instritute of Technology

<sup>†1</sup> 慶應義塾大学大学院 理工学研究科 Graduate School of Science and Technology, Keio University

**IPSJ SIG Technical Report** 

ともに電圧制御を行う可変パイプラインルータ (MV-VP router)を提案した<sup>9)</sup>.負荷が高 い場合,電圧を上げてパイプライン段数を減らすことで通信サイクル数を減らしレイテンシ を下げ性能を上げる.一方,負荷が低い場合,電圧を下げると共にパイプライン段数を増 やしてクリティカルパスを減らし,低電力動作を実現する.この手法は周波数を変えずに, 電圧とパイプライン段数を制御することで,性能に対する悪影響を抑えながら負荷の低い ルータの電力を削減できる点が特徴である.

文献<sup>9)</sup> では,電圧の制御の単位としてルータ1個のみを考えていた.しかし,例えばルー タごとに高い電圧で駆動していても,使われていない入力仮想チャネル,入力物理チャネ ルがあるため余分な電力が消費されている可能性があった.そこで文献<sup>10)</sup> では 入力仮想 チャネル 入力物理チャネル ルータのそれぞれの単位で最適な電圧切り替えドメインのサ イズを検討した その結果 入力物理チャネルごとに電圧を切り替えることが最適であるこ とが分かった

そこで本報告では 従来のルータごとに電圧を供給する方法ではなく パケットが通る 入力 (物理) チャネルと出力チャネルの電圧を下げることで,更なる電力最適化を行う多 電源細粒度可変パイプラインルータ (Multi-Vdd Fine-Grained Variable Pipeline router: MVFG-VP router)を提案する。

本報告の構成は以下のとおりである.2節で MVFG-VP ルータの構造を説明する.3節 で MVFG-VP ルータの電源電圧切り替えポリシを示す.4節で MVFG-VP ルータの回路 レベルの評価 並びに CMP シミュレータを用いた各ベンチマークの評価結果を示す 最 後に5節で本報告をまとめる.

2. MVFG-VP  $\mu - \varphi$ 

2.1 ベースラインルータ

最初に基本となるルータ構造について述べる. ここではフリット幅 64-bit のワームホール ルータを用いる.物理チャネル数 5本,仮想チャネル数 4本,仮想チャネルごとに 4-flit 分 の入力パッファを持つものとした.ルータ内のパケット処理は,1)経路計算を行う routing computation (RC),2) 出力仮想チャネルの割り当てを行う virtual-channel allocation (VA),3) 出力ポートの割り当てを行う switch allocation (SA),4) クロスバ上のフリッ ト転送を行う switch traversal (ST)の4ステージに分割される.さらに,5) リンク上の フリットを転送を行う link traversal (LT)に1サイクル必要となる.LTを含め,以上の 5ステージから成るルータをここでは 5-cycle ルータと呼ぶ.

| 表1 切り替え可能なパイプライ | ンモー | ド |
|-----------------|-----|---|
|-----------------|-----|---|

| Mode    | Pipeline             | Vdd   | Freq                 |
|---------|----------------------|-------|----------------------|
| 2-cycle | [RC/VA/SA] [ST,LT]   | 1.00V | $386.5 \mathrm{MHz}$ |
| 3-cycle | [RC/VA/SA] [ST] [LT] | 0.78V | $386.5 \mathrm{MHz}$ |

この基本的な 5-cycle ルータは パイプラインステージが多いためレイテンシィが大きい. このため ステージを並列実行することによりレイテンシィを小さくする構成が一般的であ る. 表 1 にここで用いる二つのパイプライン方式を示す.ここでは,括弧は 1 サイクルの処 理,"/"は並列実行","は逐次実行を示す. VA と SA の投機実行<sup>11)</sup>により両者は並列実 行できる([VA/SA]).また,1つ手前のルータにおいて該当ルータの RC を実施する技術 である先読みルーティング<sup>11)</sup>を行うことで RC と VA/SA を並列に実行することができる ([RC/VA/SA]).2-cycle mode では出力チャネルにあるレジスタを迂回して ST を LT に マージして逐次実行しているため,[ST,LT] がクリティカルパスとなり,最大動作周波数が 落ちるため 2-cycle mode では高い電圧を与える必要がある.

2.1.1 パイプラインモード

3-cycle ルータと 2-cycle ルータの構造上の差はわずかであるため 簡単な切り替えハード ウェアにより動作を切り替えることができる. ただし 2-cycle ルータの場合 同一電源を 用いると動作周波数が低下する. そこで ここでは二電源を持ち これをパイプラインモー ドの切り替えと共に切り替えることで 同一の周波数でパイプラインステージを変える手 法を用いる. 表 1 には 二つのモードを切り替える場合の動作周波数 電圧を併せて示す. この数値は後に示す Fujitsu e-shuttle のライブラリを用いて回路シミュレーションにより 決めている.

2.2 MVFG-VP ルータの構造

図1に MVFG-VP ルータの構造を示す.

多電源可変パイプラインルータ (MV-VP router) は,ルータ全体の電圧を一括して制御 していた.NoC においては一部のリンクが負荷が高く,一部のリンクは空いていることが 良くある.このような場合でもルータ全体は 2-cycle mode で高い電圧で動作しなければな らない.したがって,ルータの中で大きな面積を占める入力バッファ単位で電圧を切り替え ることができれば,より細かい単位で消費電力を削減できる.幸い,仮想チャネル,入力 バッファの動作は mode に依存せず,パケットが到着すればスイッチ,ルータ制御を 2-cycle mode にして電圧を上げ,それ以外の場合は,低い電圧を用いれば良い.このようにルータ 内の要素単位で電圧を制御する方法をここでは細粒度制御と呼ぶ.図1に示す通り X+

#### 情報処理学会研究報告

IPSJ SIG Technical Report



方向から X-方向にパケットが転送される時には X+方向の入力チャネルと X-方向の出 カチャネル部分のみを 2cycle-mode にし 残りの部分は 3cycle-mode で動作させる制御を 行った.このように 細粒度で電源制御を行っても 全てルータの構成部分においてもの動 作周波数が同じであるため 非同期通信を行わずに済むのが特徴である.

MV-VP ルータでは入力ポートと出力ポートを繋ぐためにクロスバスイッチを用いてい たが 今回提案する MVFG-VP ルータではパケットが通過する部分 (パケットが通る入力 チャネル クロスバ 出力チャネル)のみに高い電圧を与えるため クロスバを各出力チャ ネルに分解して実装した. これにより 供給電圧の制御が入力チャネルと出力チャネルだけ に絞られるため 制御が簡素化するという利点がある.

上述の2段可変パイプライン方式の MVFG-VP ルータを Verilog-HDL で設計し, Fujitsu 65nm 高速ライブラリを用いて Synopsys Design Compiler で合成, Synopsys IC Compiler で配置配線した.配置配線後の静的タイミング解析の結果,電源電圧が1.0V のとき 3-cycle mode の最大遅延は 1679.3 psec, 2-cycle mode の最大遅延は 2587.4 psec となった.ST と LT はマージされているため, 2-cycle mode では LT ステージ分の時間を足す必要がある.ルータ間の通信はルータ間距離に依存するがクリティカルパスにはならないため,今回は 1000ps かかると想定した.また, 2-cycle mode の [ST, LT] がクリティカルパスになる ため,タイムスチーリング<sup>12)</sup> という手法を用いることで,このクリティカルパスを軽減することができ周波数を更に高くすることができる.

#### 2.3 MVFG-VP ルータの設計

MVFG-VP ルータでは,動作周波数は変えずに,負荷に応じてパイプライン段数と供給 電圧を切り替える.2-cycle mode を 1.0V (Vdd-high)で 386.5MHz で動作させるとき, 3-cycle mode は 0.78V (Vdd-low)まで落としても 386.5MHz で動作可能である.切り替 え可能なパイプラインモードを表1にまとめる.パイプラインモード切り替えは以下の手 順で行う.

- 3-cycle → 2-cycle: Vdd-low から Vdd-high に電圧が上がったのち, 2-cycle mode に切り替える.
- 2-cycle → 3-cycle: 3-cycle mode に切り替えたのち, Vdd-high から Vdd-low に電 圧を下げる.

この手順に従わないと,切り替え時にタイミング違反が生じ,通信データの値化け等が生じ る恐れがある.逆にこの順番を守れば切り替え自体は1クロックサイクルで可能であり パケット転送を止める必要はない.

#### 3. スタンバイ電力削減ポリシ

今回の設計では,4 章において検討するようにパイプラインモードを切り替えるのに要する 時間は1クロックサイクル (2.58nsec) 以内である.ここでは,現在の条件でアプリケーショ ンの実行時間をなるべく増やさないで電力を減らす切り替えポリシを検討する.

スタンバイ電力を減らすためのポリシは,MV-VP ルータ<sup>9)</sup>と同じく以下の通りである.

- パケットを処理していない状態(もしくは,負荷が非常に低い状態)では,可能な限り 3-cycle mode @ Vdd-low にしてスタンバイ電力を減らす.
- パケットを処理している状態では,可能な限り 2-cycle mode @ Vdd-high にして通信 遅延を減らす.

ルータの先読み機能により,事前にパケットが送られる入力チャネルと出力チャネルが分か る. それに従い,該当するルータの構成部分の電圧を昇圧する.low-to-high の電圧切り替え に要す遅延は 386.5MHz 動作時で1サイクルに設定すると、パケットが到着する1サイク ル前に電圧を low-to-high に切り替え,パケットが通過したら high-to-low に戻せばよい.

今回提案する入力バッファごとの電圧制御の電圧切り替えポリシを説明する.ここでは、 図2に示す通り、分かりやすくするためにクロスバを描画しているが、実際は電源コントロー ルの簡単化のため、クロスバは各出力チャネルに組み込まれている点を注意されたい. 以下に図3に各サイクルで行われる処理について記述する.

#### Vol.2012-ARC-200 No.15 Vol.2012-OS-121 No.15 2012/5/8



情報処理学会研究報告

**IPSJ SIG Technical Report** 

図 2 Router A から Router C にパケットを転送するときの切り替えの様子



- 1 サイクル目で、次ホップの Router B の入力チャネル(X-方向)、出力チャネル(Y+ 方向)を計算する.
- 2 サイクル目で,Router A の入力チャネルから出力チャネルにパケットが移る.
- 3サイクル目で、Router BのX-方向の入力チャネル、入力チャネルと出力チャネルを結ぶ クロスバ、Y+方向の出力チャネルの供給電圧を高くする.同時に Router A から Router

| 表 2 八・ | ードウェア量の内訳       | (単位は kilo gate). |
|--------|-----------------|------------------|
| Router | 1 Level shifter | 1 Voltage switch |
| 63.13  | 4.11            | 0.54             |

. . . . . . . . . . . .

| 衣 3 ハートリエア重の内訳(単位は kilo gat | 表 3 | ▶ェア量の内訳(単位 | <b>J</b> kilo gate |
|-----------------------------|-----|------------|--------------------|
|-----------------------------|-----|------------|--------------------|

|          |        | · · · · · · · · · · · · · · · · · · · | aller (   Image anna 8an |                |
|----------|--------|---------------------------------------|--------------------------|----------------|
|          | Router | Level shifter                         | Voltage switch           | Total          |
| Original | 59.41  | 0.00                                  | 0.00                     | 59.41          |
| Proposed | 63.13  | 4.11                                  | 0.68                     | 67.92 (+14.3%) |

Bにパケットが転送される.

- 4 サイクル目で、次ホップの Router C の経路を計算する. (1 サイクル目と同じ)
- 5 サイクル目で,Router Bの入力チャネルから次ホップの Router Cの該当する経路の 電圧を高くし,Router Cにパケットが転送される.

というプロセスを繰り返す.

また,以下の通りに制約を設ける.

- パケットがルータ内に来ないときには全ての入力物理チャネル、クロスバ、出力チャネ ルは 3-cycle mode @ Vdd-low のままにする.
- パケットがルータ内に入ってきたとき、パケットを転送しなければならない入力物理チャネル、クロスバポート、出力チャネルのみを 2-cycle mode @ Vdd-high に設定する.

## 4.評価

最初に MVDF-VP ルータの回路レベルの評価を行い,そこで得られた回路パラメータを もとに CMP のフルシステムシミュレータを用いたシステムレベルの評価を行う.

4.1 回路レベルの評価

まず,2節で実装した多電源可変パイプラインルータのレイアウト結果(GDSファイル)か ら Cadence QRC Extraction を用いて SPICE ネットリストを抽出する.これを Synopsys HSIM を用いて回路シミュレーションすることで,電圧スイッチを操作してからルータの電 圧が切り替わるまでの遅延,電圧切り替えに要すオーバヘッドエネルギーを求める.

4.1.1 ハードウェア量

DVFG-VP ルータでは,電圧を切り替えるための電圧スイッチセル,電源ドメイン間の 電圧レベルの違いを吸収するためのレベルシフタセルが必要となる(図1).電圧スイッチ の個数を増やすことで,電圧切り替えに要す遅延は小さくなる.ここで、レベルシフタセ **IPSJ SIG Technical Report** 

ルと電圧切り替えスイッチの面積を比較する。表 2 より、全ての入力ポートに挿入された 5 つのレベルシフタセルは、電圧切り替えスイッチよりも十分小さい。レベルシフタ 1 つ の面積が 0.822[kilo gates] に対し、電圧切り替えスイッチ 1 つの面積は  $6.75 \times 10^{-3}$  [kilo gates] であり 100 分の 1 以上も小さいため、電圧切り替えスイッチの個数を増やすことに よる面積増加は気にしなくてもよい。

ここで、入力バッファと出力バッファ1 個を 1 クロック以内で Vdd-low から Vdd-high ま たは Vdd-high から Vdd-low に切り替えられるようにするため、電圧切り替えスイッチの 数を、それぞれ 16 個と 4 個と設定した。これにより、1 ポートで 20 個のスイッチが必要 となり、ルータ 1 個あたり 100 個のスイッチが必要となる。既存の 3 サイクルルータと提 案ルータの面積を比べると、ハードウェア量が 14.1%増加した.

4.1.2 切り替えレイテンシ

図 4 に high-to-low および low-to-high の電圧切り替え時間 (折れ線グラフ,目盛は Y 軸 右側)を示す.Vdd-high が 1.2V,Vdd-low が 0.8V のとき,high-to-low の遅延は 5.3nsec, low-to-high の遅延は 3.1nsec となった.つまり,3-cycle から 2-cycle のモード切り替えで は,まず,電源電圧を切り替えてから 3.1nsec (392.2MHz 駆動では 2 サイクル)待ち,パ イプラインを 2-cycle mode に切り替える必要がある.

4.1.3 切り替えオーバヘッドエネルギー

提案ルータの電圧切り替え時に,一定のエネルギーが消費される.図4にhigh-to-low切 り替えおよび low-to-high 切り替え時の消費エネルギー(棒グラフ,目盛はY軸左側)を示 す.low-to-high 切り替えでは,切り替え直後に,Vdd-high からルータ回路へ電荷が流れ込 み,オーバヘッドエネルギーが消費される.一方,high-to-low 切り替えでは,ルータ回路 内にたまった Vdd-high の電荷が,切り替え後に,Vdd-low 側の電源に流れ込む.この電 荷は Vdd-low 側のキャパシタンスに蓄積され,電圧切り替え後に徐々に消費されていくた め,電圧切り替え時のオーバヘッドエネルギーはマイナス(つまりチャージされる)となる. 入力バッファにおいて、Vdd-high が 1.0V,Vdd-low が 0.8V のとき,low-to-high の消費 エネルギーは 44.5pJ,high-to-low の消費エネルギーは-16.7pJとなった.つまり,1回の 電圧切り替え(low-to-high + high-to-low)で消費されるエネルギーは27.8pJである.同 様に、出力バッファにおいては1回の電圧切り替えで3.13pJのエネルギーが消費される。 従って、入力バッファ、出力バッファに与える供給電圧を同時に切り替えると、30.9pJの 消費エネルギーとなる。



(b) Vdd-low から Vdd-high への遷移.

図 4 電圧切り替え時の遅延とオーバヘッドエネルギー(Vdd-low を変えた評価).

4.2 システムレベルの評価

3 章で提案したスタンバイ電力削減ポリシを実際の CMP を想定したフルシステムシミュレータ上で評価する.

4.2.1 シミュレーション環境

CMP アーキテクチャ

16 コア CMP で使われる NoC をシミュレーションする.本報告では共有 L2 キャッシュ を持った CMP アーキテクチャに MVFG-VP ルータを適用する.つまり、各タイルの L2 キャッシュバンクを全タイルで共有し,チップ全体として1つの大きな共有 L2 キャッシュ を形成するアーキテクチャである.キャッシュのコヒーレンスを取るため,ここではディレ クトリベースのコヒーレンスプロトコルを用いる.end-to-end のプロトコル(要求・応答) デッドロックを防ぐため,仮想チャネルを3本(もしくは4本)用いる.共有 L2 ではネッ

## 情報処理学会研究報告

IPSJ SIG Technical Report



(b) Vdd-low から Vdd-high への遷移.

図 5 電圧切り替え時間とルータ面積(電圧スイッチの個数を変えた評価).

トワーク上のトラフィック量は多いことに注意されたい。

シミュレーションモデル

このような CMP のフルシステムシミュレータとして GEMS<sup>13)</sup> と Wind River Simics<sup>14)</sup> を組み合わせて使用する.NoC モデルとして GEMS に付属の Garnet<sup>15)</sup> を拡張すること で, MVFG-VP ルータを cycle-accurate でシミュレーションできるようにした.表4にプ ロセッサとメモリ関連,表5に NoC とオンチップルータ関連のシミュレーション条件を示 す.ここでは主記憶アクセスの影響を排除するため,各ルータにメモリポートを持たせて いる.

## ベンチマークプログラム

MVFG-PV ルータの性能とスタンバイ電力を評価するため, OpenMP 版の NAS Parallel ベンチマーク (NPB)<sup>16)</sup> から IS を用いる. OS として Sun Solaris 9 を 16 コア CMP のう

#### Vol.2012-ARC-200 No.15 Vol.2012-OS-121 No.15 2012/5/8

| 4 シミュレーション余件(フロセッサ、メモ・ |                     |
|------------------------|---------------------|
| Processor              | UltraSPARC-III      |
| L1 I-cache size        | 16 KB (line:64B)    |
| L1 D-cache size        | 16 KB (line:64B)    |
| # of processors        | 16                  |
| L1 cache response      | 1 cycle             |
| L2 cache size          | 256 KB (assoc:4)    |
| # of L2 cache banks    | 16                  |
| L2 cache response      | 6 cycle             |
| Memory size            | 4  GB               |
| Memory response        | $160 (\pm 2)$ cycle |
| # of memory ports      | 16                  |

夫

#### 表 5 シミュレーション条件 (NoC, オンチップルータ関連)

| $4 \times 4 \text{ mesh}$ |  |
|---------------------------|--|
| dimension-order           |  |
| 4                         |  |
| 4 flit                    |  |
| 64  bit                   |  |
| 1 flit                    |  |
| 9 flit                    |  |
|                           |  |



(a) 16 コアタイル(L2 共有).

図 6 NPB アプリケーションの実行時間 (完全 2 サイクルルータの実行時間を 1.0 として正規化).

えで動作させる. NPB ベンチマークプログラムを Sun Studio 12 でコンパイルし, Solaris 9 上で動作させる. 問題サイズは S, スレッド数は 16 とする.



Delay



Y XXXXXX

図 7 IS 実行時の NoC のスタンバイ電力 (オーバヘッド電力を含む).

4.2.2 アプリケーション実行時間

情報処理学会研究報告

CMP 向け NoC に多電源可変パイプラインルータを適用する.そのうえで IS のプログラムを走らせ,その実行サイクル数を求める.ここでは以下の3つのルータモードを比較する.

- All 2-cycle transfer: 常に 2-cycle mode @ Vdd-high に固定
- Proposed: スタンバイ時は 3-cycle mode @ Vdd-low だが, パケットが来たらできるだけ 2-cycle mode @ Vdd-high で転送
- All 3-cycle transfer: 常に 3-cycle mode @ Vdd-low に固定

図 6 に IS の実行時間を示す.図 6(a) が L2 共有の場合である。実行時間 (グラフの Y 軸)は All 2-cycle transfer の実行時間を 1.0 として正規化してある.グラフより,提案手 法は常に 2-cycle mode @ Vdd-high の場合と比べて 1.0% ~ 2.1%性能が落ちている.これ はパケット転送の 1 ホップ目は Vdd-low から Vdd-high への昇圧が間に合わず, 3-cycle 転 送が生じたためである.次節では,常に 2-cycle mode @ Vdd-high の場合と比べて提案手 法がどれだけスタンバイ電力を減らすことができたか評価する.

## 4.2.3 スタンバイ電力の削減量

4.1 節で述べたとおり,1回の電圧切り替え(low-to-high + high-to-low)で消費されるエ ネルギーは30.9pJである.また,ルータ単体のスタンバイ電力は2-cycle mode @ Vdd-high 時で15.1mW, 3-cycle mode @ Vdd-low 時で9.19mW である.今回提案した手法を用い ることで、実行時間は5,2%増えたが、消費電力は10.4mW になったため、可変パイプライ ン機構を何も実装しないときと比べて、31.1%削減できた。 5. ま と め

MV-VP ルータは、電源電圧と共にルータのパイプライン構造を変更することで同一の周 波数のクロックを全ルータで利用することを可能とする.MVFG-VP ルータはこの考えをさ らに発展させ、切り替えの単位を入力バッファ、出力バッファにすることで、さらに電力を削 減することができる. MVFG-VP ルータを 65nm プロセスを用いて設計し、さらに CMP シミュレータ上で評価した.その結果、全て高い電圧を用いた場合に比べて、31.1%の電力 を削減した.その際、性能のオーバーヘッドは 5.2%であった.

今回は単一のアプリケーションのみで評価したが、より多くのアプリケーションでの評価 が必要である.また、ルータ全体を制御する MV-VP ルータとの比較についても今後の課題 である.

謝 辞 本研究では株式会社半導体理工学研究センター,(株)イー・シャトル,富士通株式会社の協 力で半導体設計ライブラリを利用させていただいた.また,本研究で使用した電圧スイッチおよびレベ ルシフタセルを提供してくださった芝浦工業大学 馬橋雄祐氏に感謝致します.

## 参考文献

- Pande, P.P.: Performance evaluation and design trade-offs for network-on-chip interconnect architectures, *Computers, IEEE Transactions on*, Vol.54, No.8, pp.1025–1040 (2005).
- Dally, W.J. and Towles, B.: Route Packets, Not Wires: On-Chip Interconnection Networks, Proceedings of the Design Automation Conference (DAC'01), pp.684–689 (2001).
- 3) Kim, J.S., Taylor, M.B., Miller, J.E. and Wentzlaff, D.: Energy Characterization of a Tiled Architecture Processor with On-Chip Networks, *Proceedings of the International* Symposium on Low Power Electronics and Design (ISLPED'03), pp.424–427 (2003).
- 4) Leon, A.S., Tam, K.W., Shin, J.L., Weisner, D. and Schumacher, F.: A Power-Efficient High-Throughput 32-Thread SPARC Processor, *IEEE Journal of Solid-State Circuits*, Vol.42, No.1, pp.7–16 (2007).
- 5) Howard, J. et al.: A 48-Core IA-32 Message-Passing Processor with DVFS in 45nm CMOS, Proceedings of the International Solid-State Circuits Conference (ISSCC'10), pp.108–109 (2010).
- 6) Beigne, E., Clermidy, F., Lhermet, H., Miermont, S., Thonnart, Y., Tran, X.-T., Valentian, A., Varreau, D., Vivet, P., Popon, X. and Lebreton, H.: An Asynchronous Power Aware and Adaptive NoC Based Circuit, *IEEE Journal of Solid-State Circuits*, Vol.44, No.4, pp.1167–1177 (2009).
- 7) Hirata, Y., Matsutani, H., Koibuchi, M. and Amano, H.: A Variable-pipeline On-chip Router Optimized to Traffic Pattern, Proc. of the 3rd Internatinal Workshop on Network on Chip Architectures (NoCArc'10), pp.57–62 (2010).

<sup>(</sup>a) 16 コアタイル (L2 共有).

#### 情報処理学会研究報告

IPSJ SIG Technical Report

- Zhou, P., Yin, J., Zhai, A. and Sapatnekar, S.S.: NoC frequency scaling with flexiblepipeline routers, *ISLPED*, pp.403–408 (2011).
- 9) Hiroki Matsutani, Y. H.: A Multi-Vdd Dynamic Variable-Pipeline On-Chip Router for CMPs, Proc. of the 17th Asia and South Pacific Design Automation Conference (ASP-DAC'12), pp.xx-xx (2012).
- 10) 中村武雄,松谷宏紀,鯉渕道絋,宇佐美公良,天野英晴:多電源可変パイプラインルータにおける電源ドメインサイズの解析,電子情報通信学会技術研究報告 CPSY2011-62, Vol.111, No.398, pp.49-54 (2012).
- Dally, W.J. and Towles, B.: Principles and Practices of Interconnection Networks, Morgan Kaufmann (2004).
- 12) A.K., M., R., D., S., E., R., I., N., V. and C.R., D.: A case for dynamic frequency tuning in on-chip networks, *Microarchitecture*, 2009. MICRO-42. 42nd Annual IEEE/ACM International Symposium on, pp.292–303 (2009).
- 13) Martin, M. M.K., Sorin, D.J., Beckmann, B.M., Marty, M.R., Xu, M., Alameldeen, A.R., Moore, K.E., Hill, M.D. and Wood, D.A.: Multifacet General Execution-driven Multiprocessor Simulator (GEMS) Toolset, ACM SIGARCH Computer Architecture News (CAN'05), Vol.33, No.4, pp.92–99 (2005).
- 14) Magnusson, P.S., Christensson, M., Eskilson, J., Forsgren, D., Hallberg, G., Hogberg, J., Larsson, F., Moestedt, A. and Werner, B.: Simics: A Full System Simulation Platform, *IEEE Computer*, Vol.35, No.2, pp.50–58 (2002).
- 15) Agarwal, N., Peh, L.-S. and Jha, N.: Garnet: A Detailed Interconnection Network Model inside a Full-system Simulation Framework, Technical Report CE-P08-001, Princeton University (2008).
- 16) Jin, H., Frumkin, M. and Yan, J.: The OpenMP Implementation of NAS Parallel Benchmarks and Its Performane, NAS Technical Report NAS-99-011 (1999).