# パイプラインステージ統合によるプロセッサの消費エネルギーの削減

嶋田の 創† 安 藤 秀 樹† 島 田 俊 夫†

近年のモバイルプロセッサにおいては,低消費エネルギーと高性能の両立が求められている.これ らの要求に応えるため,現在では,DVS(dynamic voltage scaling)と呼ばれる方式が導入されて いる.DVSは,低クロック周波数での動作時に,電源電圧を低下させ,消費エネルギーを削減する. DVSは現在では有効な方式であるが,将来のプロセス技術においては,電源電圧の可変範囲が縮小 し,有効性が低下する.これに対して我々は,低クロック周波数での動作時に,電源電圧を最大値に 保ったまま複数のパイプラインステージを統合するパイプラインステージ統合(PSU: pipeline stage unification)と呼ぶ方式を提案する.現在および将来のプロセス世代における DVSと PSU の効果 を比較した結果,現在において,PSUは DVSに対して 11~14%程度消費エネルギーを削減できる ことが分かった.さらに,将来では DVSは大幅にその効果を落とすのに対し,PSU はその効果を維 持し,その結果,約10年後には PSU は DVS に対して 27~34%と大きく消費エネルギーを削減で きることが分かった.

## Reducing Processor Energy Consumption with Pipeline Stage Unification

## HAJIME SHIMADA,<sup>†</sup> HIDEKI ANDO<sup>†</sup> and TOSHIO SHIMADA<sup>†</sup>

Recent mobile processors are required to exhibit low-energy consumption as well as high performance. To satisfy these requirements, a method called dynamic voltage scaling or DVS is currently employed. DVS reduces energy consumption by decreasing the supply voltage when a processor runs at a low clock frequency. Although DVS is an effective method for reducing energy consumption, its effectiveness will be limited in future process generations because the variable supply voltage range will become small. As an alternative, we propose a method called pipeline stage unification or PSU, which unifies multiple pipeline stages when the processor runs at a low clock frequency, leaving the supply voltage at its maximum level. We compared PSU to DVS in terms of their effectiveness in current and future process generations. Our evaluations show that currently PSU reduces energy consumption only moderately (11–14%) more than DVS. Furthermore, in the future, DVS will significantly decrease its effectiveness, whereas PSU will maintain its effectiveness. As a result, PSU will reduce energy consumption by 27–34% more than DVS after about 10 years.

### 1. はじめに

近年のモバイルプロセッサでは,低消費エネルギー と高性能の両方が要求されている.この要求を満たす ために,現在 DVS(dynamic voltage scaling)と呼 ばれる方式が導入されている(たとえば,Transmeta CrusoeのLongRun<sup>1),2)</sup>,Intel Mobile Pentium III 4 のSpeedStep<sup>3)~5)</sup>, AMD Mobile Athlon 4の PowerNow!<sup>6)</sup>).DVS はバッテリ持続時間要求やプロセッ サ負荷に応じて,動的にクロック周波数と電源電圧を 変更するものである.バッテリ持続時間要求が強いか, 与えられた負荷が低ければ,クロック周波数を低下さ せ,消費電力を削減する.さらに,延びたクロックサ イクル時間に信号の遅延を合わせ,電源電圧を低下さ せる.これにより,プログラム実行に要する消費エネ ルギーを削減する.

このように,DVS は消費エネルギーを削減する有 効な手法であるが,プロセス技術の進歩に応じて将来, この有効性は減少すると我々は考える.その理由は以 下の2点である.まず第1に,プロセス技術の進歩に 応じて,電源電圧とトランジスタの閾値電圧はこれま でスケーリングされてきた.しかし,一般に閾値電圧 のスケーリングは電源電圧のスケーリングに比べて緩 やかである.加えて,今後,閾値電圧を大きく低下さ せると,サプスレッショルドリーク電流が劇的に増加

<sup>†</sup> 名古屋大学大学院工学研究科

Graduate School of Engineering, Nagoya University

するため, 閾値電圧のスケーリング速度は, さらに緩 やかになると考えられる、トランジスタが正しく動作 する電源電圧は閾値電圧によって下限が与えられるた め, DVSにおける電源電圧の可変の範囲(正確には, 最大の電源電圧に対する可変の範囲の割合)は減少す る.第2に,今後のプロセス技術においては,DVSが 過渡故障をより増加させる点である.先に述べたよう にプロセス技術の進歩に応じて,電源電圧は下げられ ていくが,今後は,過渡故障が大きな問題となるレベ ルにまで下げられていく<sup>7)</sup>.過渡故障は電源電圧の低 下に従って増加するため,電源電圧をより低下させる DVSでは、この問題は悪化する.このため、DVSに よる電源電圧の低下は制限される.これら2つの点よ リ, DVSの消費エネルギーの削減の要となる,電源 電圧の可変の範囲は減少するため, DVS の有効性は 減少することになる。

これに対して,我々はパイプラインステージ統合 (PSU: pipeline stage unification)と呼ぶ手法を提案 する<sup>8)~10)</sup>. PSU は単純だが効果的に消費エネルギー を削減することができる. PSU では DVS と同様に, プロセッサの消費エネルギーを削減するためにクロッ ク周波数を低下させるが, DVS と異なり, 電源電圧 を低下させるのではなく,パイプラインレジスタをバ イパスさせることによって複数のパイプラインステー ジを統合する.PSUによって消費エネルギーを削減 できる理由は次の2点である.まず第1に,バイパス されるパイプラインレジスタへのクロックの供給を止 めることにより, クロックドライバの総負荷を減少さ せることができる.これにより,消費電力が削減され る.第2に,パイプラインステージの統合によりプロ セッサのパイプラインが短くなる.これにより,プロ グラムの実行に必要なサイクル数が削減され,電力を 消費する時間を短くすることができる.たとえば,フ ロントエンドパイプラインを短縮させることにより, 分岐予測ミスペナルティは削減され,実行サイクル数 は削減される.

残りの論文の構成は以下のとおりである.2章では PSUの実装について述べ,3章ではDVSとPSUに よる消費エネルギーの削減について解析的に分析する. 4章では評価における仮定について説明し,5章で評 価結果を提示し,その考察を行う.6章では関連研究 について述べ,最後に,7章でこの論文についてまと める.

### 2. PSU の実装

本章では, PSU の実装について述べる.2.1 節で



PSU を実現するための基本的な回路の変更を示す. PSU の大部分は,この節で説明する方法で実装でき るが,例外的に取り扱わなければならない部分が存在 する.2.2節ではこれについて述べる.最後に,2.3節 では,さらなるエネルギー削減のためのPSUとDVS の併用について述べる.

2.1 PSU のための回路

図1にPSUに関連する信号線とパイプラインレジ スタとの結線関係を示す.説明を簡単にするために, 2ステージの統合を例としている.図1に示すように, 常時クロック,一時クロック,統合信号と呼ぶ3本の 信号線が存在する.まず,クロックは統合時の動作が 異なる常時クロックと一時クロックの2系統に分割さ れる.常時クロックと一時クロックの2系統に分割さ れる.常時クロックは統合をするかしないかにかかわ らず,つねに動作しているクロックである.一方,一 時クロックは統合を行ったときには動作を停止させる クロックであり,統合を行わないときのみ動作する. 動作時の周波数と位相は常時クロックと同一である. 統合信号は統合を指示する信号である.

図1(a)はステージを統合していない状態を,図1(b) は統合した状態を示す.図中の黒い部分は動作,ある いは,アサートされている部分を示し,灰色の部分は 動作していない,あるいは,アサートされていない部 分を示す.図1(a)に示すように,通常のパイプライ ンでは,隣接する組合せ論理回路AとBは,それら の回路の間のパイプラインレジスタが動作しているた め,異なったステージとして動作する.一方,図1(b) ではこのパイプラインレジスタは動作せず,2つの組 合せ論理回路は1つのステージとして動作する.

ここで,パイプラインレジスタには,フロントエン ド,実行コア,バックエンド間にある命令ウィンドウ などデカップリング用の記憶素子を含まないことを注 意しておく.これらは,パイプラインレジスタと同じ くステージをつなぐ記憶素子であるが,複数の命令の





Fig. 2 Interlock logic.

状態を記憶する機能が必要なので,バイパスさせることはできない.

パイプラインレジスタをバイパスさせるには,2つ の方法が考えられる.1つめの方法は,統合時にクロッ クとは無関係に信号が通過するようパイプラインレジ スタの論理を構成することである.透過型のラッチで パイプラインレジスタを実現する場合,この論理の変 更は容易である.2つめの方法は,パイプラインレジ スタの後方にマルチプレクサを配置し,パイプライン レジスタの出力と前方のステージの出力を統合信号 により選択する方法である.この方法は,パイプライ ンレジスタをどのような回路で構成しても適用可能で ある.

インターロック回路にもわずかな変更が必要である. 図2に変更したインターロック回路を示す.図2(a) に統合していない状態での信号の流れを,図2(b)に 統合した状態での信号の流れを示す.

一般に,あるステージのストール信号がアサートされるのは,そのステージでハザードを検出するか,または,後方のステージのストール信号が真のときである.図2に示した例では, $S(A) \ge H(A)$ を,それぞれ,ステージAのストール信号,ハザード信号とすると,S(A)は以下の式により与えられる:

$$S(A) = H(A) + S(B) \tag{1}$$

ステージ A と B を統合する場合,統合後のステージのストール信号 S(A+B) は, A または B がストールするときアサートされる必要があるので,以下のようになる:

S(A+B) = H(A) + S(B)(3)

となり,結局,S(A)と等しいことが分かる.

ところで,ストール信号によりステージを実際にス トールさせるためには,そのステージの前方にあるパ イプラインレジスタの更新を抑止し,後方のパイプラ



インレジスタへ渡す信号を NOP に変更する必要があ る.組合せ回路 A の前方のパイプラインレジスタへ渡 す信号は,統合前後で,それぞれ,S(A),S(A + B)なので,式(1),(3)より変更の必要がないことが分か る.一方,組合せ回路 B の後方のパイプラインレジス タへ渡す信号については,統合するかどうかに応じて S(B)とS(A + B)を切り替える必要がある.このた めにマルチプレクサが必要である.

以上では2ステージ統合の場合についてのみ述べ たが,一時クロック,統合信号,および,関連する回 路を複数用意して適切に動作させることにより,さら に多くのステージの統合を行えるように,統合するス テージ数に比例する程度の複雑さで拡張可能である.

## 2.2 ループをなす信号パスにおけるパイプライン レジスタ

前節で述べたように,統合するステージ間のパイプ ラインレジスタは基本的にバイパスさせるが, 例外が ある.ループをなす信号パスにおいて,後方のステー ジヘ信号を出力するパイプラインレジスタは,統合す るステージ間であってもバイパスさせない.図3に例 を示す.図3(a)は,ステージFの出力がパイプライ ンレジスタを通り,後方のステージAに入力され,再 びステージ F に戻るという , ループをなす信号パスを 持つパイプラインを示している . ステージ F とその次 のステージを統合する際,図3(b)に示すように,統 合されるステージ間のパイプラインレジスタは基本的 にバイパスさせるが,ループをなす信号パス上にある 部分はバイパスさせない.パイプラインレジスタをバ イパスさせないことにより,ループをなす信号パスは 正しいタイミングを維持できる.このようなループを なす信号パスの例として、プログラムカウンタの読み 出しと更新,命令ウィンドウやロードストアキューの 割当てにおけるヘッド /テールポインタの更新,命令 発行とそれによる命令の wakeup, 命令の実行結果の フォワーディングなどがあげられる.

111 ... 111

プラインレジン



Fig. 4 Timing of result forwarding.

図4に,命令の実行結果のフォワーディングのタ イミングを例として示す.単純な DLX 型の5段のパ イプライン<sup>11)</sup>において,実行ステージ(Exec)とメ モリアクセスステージ (Mem)を統合した場合を考 える. Exec と Mem ステージの間のパイプラインレ ジスタは基本的にバイパスされるが,実行結果のフォ ワーディングの部分ではバイパスされない.図4(a) および (b) は, それぞれ統合前および統合後のタイミ ングを示している.図4(b)に示すように,Execス テージで得られた add 命令の結果は, バイパスさせ ない Exec と Mem ステージ間のパイプラインレジス タで保持され,次のサイクルに,正しいタイミングで Exec ステージの 1w 命令に渡される.一方, Mem ス テージで得られる 1w 命令の結果は,通常のタイミン グで Exec ステージの sub 命令に渡される . 統合後 も, add 命令のレイテンシは1サイクルであるが, 1w 命令のレイテンシは統合により,1サイクルに短縮さ れることに注意されたい.

2.3 PSU と DVS の組合せ

PSUは  $f_{max}$ を最大のクロック周波数,  $U(\ge 2)$ を 統合されるステージ数としたとき,  $f_{max}/U$ の点(以 下,スイッチングポイントと呼ぶ)ごとに段階的に消 費エネルギーを削減する.このことは,PSUはDVS と異なり,クロック周波数のスケーリングに対して連 続的にエネルギー消費を削減することはできないこと を意味している.この欠点を補うためには,PSUと DVSを組み合わせればよい.つまり,各スイッチング ポイントではステージを統合し,スイッチングポイン トの間はDVSを適用する.より具体的には,まず,電 源電圧とクロック周波数を,最大値から最初のスイッ チングポイント( $f_{max}/2$ )まで減少させていく.次に, 電源電圧を最大値に戻し,2ステージを統合する.同 様に,次のスイッチングポイント( $f_{max}/3$ )まで電源 電圧は最大値から減少させていく.このプロセスをク ロック周波数を減少させている間,繰り返す.クロッ ク周波数を上昇させるときはこの反対を行う.5章で 述べるが,スイッチングポイントにおいては,PSUは DVSより多くの消費エネルギーを削減できる.した がって,PSUにDVSを組み合わせれば,すべての周 波数において,PSUはDVSより多くの消費エネル ギーを削減できる.

なお,本論文では,PSUとDVSを組み合わせた場合の評価は行っていない.

### 3. 消費エネルギー削減量の解析

本章では,DVSとPSUによる消費エネルギーの削減 について解析的に説明する.一般に,プログラムの実行 の際に消費するエネルギー E は以下の式で表される:

$$E = P \times T_{ex} \tag{4}$$

ここで, *P* は消費電力, *T<sub>ex</sub>* は実行時間である. *P* と *T<sub>ex</sub>* は以下の式で与えられる:

$$P = a \times f \times C \times V_{DD}{}^2 \tag{5}$$

$$T_{ex} = \frac{N}{IPC \times f} \tag{6}$$

ここで, f はクロック周波数, C はスイッチするノー ドの全容量, a はアクティビティファクタ, つまり, 各ノードの平均スイッチング確率, N は実行命令数, IPC は1サイクルあたりの実行命令数の平均である.

#### 3.1 DVS による消費エネルギー削減

式 (5) と (6) を式 (4) に代入し,以下に示す消費エ ネルギー *E*(*f*, *V*<sub>DD</sub>) が得られる:

$$E(f, V_{DD}) = \frac{a \times N \times C \times V_{DD}^2}{IPC}$$
(7)

通常モードでは最大のクロック周波数 fmax と最大の電源電圧 VDDmax で動作し,低消費電力モードでは flow と VDDlow で動作する DVS プロセッサを考える. 通常モードの消費エネルギーで正規化した低消費電力 モードにおける消費エネルギーは以下の式となる:

$$E_{DVS,n}(f_{low}, V_{DDlow}) = \frac{IPC_{max}}{IPC_{low}} \times \left(\frac{V_{DDlow}}{V_{DDmax}}\right)^2$$
(8)

ここで, *IPC<sub>max</sub>* と *IPC<sub>low</sub>* はそれぞれ通常モード と低消費電力モードでの IPC である.プロセッサ以 外のデバイスも,プロセッサのクロック周波数の低下 に応じて動作速度を低下させるという単純な仮定をお くと, *IPC<sub>low</sub>* は *IPC<sub>max</sub>* に等しい.よって,次の 式が導かれる:

$$E_{DVS,n}(f_{low}, V_{DDlow}) = \left(\frac{V_{DDlow}}{V_{DDmax}}\right)^2 \qquad (9)$$

上式より,消費エネルギーの削減は電源電圧の低下 によってのみ達成されることが分かる.また,電源電 圧の低下によるエネルギーの削減は,電源電圧の比の 2乗の関数となっていることが分かる.2乗の関数の ため,消費エネルギーは劇的に削減される.同時に, 式 (9) は,将来のプロセス技術では DVS の効果は急 速に減少することを意味している.将来のプロセス技 術では、 $V_{DDlow}/V_{DDmax}$ は現在のプロセス技術ほど 小さくできない.なぜなら,トランジスタが確実に動 作するためには, V<sub>DDlow</sub>は, 閾値電圧の2倍以上が 必要であるが12),1章で述べたように,閾値電圧は電 源電圧より緩やかにしかスケーリングされないからで ある.DVSの電源電圧の可変範囲の比を大きくする ために,閾値電圧をより低下させるという選択肢も考 えられる.しかし,閾値電圧を低下させるとリーク電 流が劇的に増加するため、この選択肢は得策ではない. さらに,1章で述べたように,今後のプロセス技術に おいては, DVS による電源電圧の低下は, 通常より も過渡故障を増加させることになる.この過渡故障へ の対策という面からも電源電圧を低下させることは制 限され, DVS の効果は減少する.

3.2 PSU による消費エネルギー削減

2章で述べたように,PSUは一時クロックのドライ バを停止することによって消費電力を削減する.Uス テージ統合(以下,これを統合度Uと呼ぶ)でプロ セッサが動作しているとき,理想的にはクロックドラ イバが消費する電力は1/Uとなる.また,通常のプ ロセッサと同じく,総消費電力はクロック周波数の低 下率に比例して削減する.したがって,クロック周波 数 flow で動作する,統合度UのPSUプロセッサの 消費電力は以下の式で表される:

$$P_{PSU}(f_{low}, U) = \left(P_{total} - P_{clock} + \frac{P_{clock}}{U}\right) \times \frac{f_{low}}{f_{max}}$$
(10)

ここで, *P*total と *P*clock はそれぞれ,通常モードに おけるプロセッサの総消費電力とクロックドライバの 消費電力である.

式(4)を用い,通常モードで正規化した消費エネル ギーは以下の式で表される:

$$E_{PSU}, n(f_{low}, U) = \frac{P_{PSU}(f_{low}, U) \times T_{ex}(f_{low}, U)}{P_{total} \times T_{ex}(f_{max}, 1)}$$
(11)

ここで,  $T_{ex}(f,U)$ はクロック周波数 f と統合度 Uにおける実行時間である.  $T_{ex}(f_{max},1)$ は通常モードにおける実行時間であることを注意されたい.式(6)と(10)を式(11)に代入することにより,以下の式を

表1 ベンチマーク Table 1 Benchmarks.

| ベンチマーク     | 入力          | 実行命令数            |
|------------|-------------|------------------|
| compress95 | bigtest.in  | $95\mathrm{M}$   |
| gcc        | genoutput.i | $84\mathrm{M}$   |
| go         | 2stone9.in  | $75 \mathrm{M}$  |
| ijpeg      | specmun.ppm | $450 \mathrm{M}$ |
| li         | train.lsp   | $183\mathrm{M}$  |
| m88ksim    | ctl.in      | $100 \mathrm{M}$ |
| perl       | scrabbl.in  | $80 \mathrm{M}$  |
| vortex     | vortex.in   | $80 \mathrm{M}$  |

得ることができる:

$$E_{PSU}, n(f_{low}, U) = \frac{IPC_{max}}{IPC_{low}} \times \left\{ 1 - k \times \left(1 - \frac{1}{U}\right) \right\} \quad (12)$$

ただし ,

$$k = \frac{P_{clock}}{P_{total}} \tag{13}$$

である.

式 (12) から分かるように,消費エネルギーは IPC の向上に反比例する(パイプラインが短縮されるため,  $IPC_{max} < IPC_{low}$ であることに注意).また,消費 エネルギーの削減は,クロックドライバにより消費さ れる電力が,プロセッサの総消費電力のどれだけの割 合を占めているかということに依存する.この割合は, 近年の高速なプロセッサでは非常に大きく(たとえば, Alpha 21264 では  $32\%^{13}$ ),この傾向は深いパイプ ラインや小さいクロックスキューなどの達成のために 将来も続き,PSU は消費エネルギーを大きく削減で きると期待できる.

4. 評価環境

3 章の式 (12) から分かるように, PSU の消費エネ ルギーには IPC と統合度 U とクロックドライバの消 費電力の割合 k が関係する.本章では最初に IPC の 評価環境を示す.次に,具体的にパイプラインを仮定 し,どのように統合するか述べる.最後に,クロック ドライバの消費電力の割合 k に関する仮定について 説明する.

4.1 シミュレーション環境

SimpleScalar Tool Set <sup>14)</sup>中の out-of-order 実行シ ミュレータを用いて,パイプラインのステージ数を変 化させ,IPCを測定した.命令セットは SimpleScalar PISA である.表1に示すように,ベンチマークプロ グラムとして,SPECint95の8本を用いた.ベンチ マークプログラムのバイナリは gcc ver.2.7.2.3を用 い,-O6 -funroll-loopsのオプションでコンパイルし

| Table 2Processor configuration. |          |            |             |              |                |                           |                            |           |           |          |           |        |
|---------------------------------|----------|------------|-------------|--------------|----------------|---------------------------|----------------------------|-----------|-----------|----------|-----------|--------|
|                                 |          | 命令発行幅      |             |              | 8              |                           |                            |           |           |          |           |        |
|                                 |          |            | RUU         |              | 64 エントリ        |                           |                            |           |           |          |           |        |
|                                 |          |            | LSQ         |              |                | 32 エン                     | ノトリ                        |           |           |          |           |        |
|                                 |          |            | *           | モリポ-         | リポート           |                           |                            | 8         |           |          |           |        |
|                                 |          |            |             |              | 整数 AL<br>動物重い  | U<br>                     |                            | 8         |           |          |           |        |
|                                 |          | 機能         | ユニット        | 207 <b>=</b> | 整奴莱际<br>油小粉上   | 〔昇<br>                    |                            | 4         |           |          |           |        |
|                                 |          |            |             | · 子里<br>· 运香 | 助小数点<br>11小数占1 | ALU<br>乗陸管                |                            | 8         |           |          |           |        |
|                                 |          |            |             | /子里          | 不测方:           | * log 昇<br>ポ              |                            | 4 ach     | aro       |          |           |        |
|                                 |          |            |             |              | 「原歴            | -6                        |                            | らどい       | v F       |          |           |        |
|                                 |          | 分          | 岐予測         | 1            | /復/正<br>(ンデッ/  | ケス                        | 0 ビット<br>13 ビット            |           |           |          |           |        |
|                                 |          |            | ~ 1 //1     |              | BTB            |                           | 13 L ット<br>2048 エントリ/4-wav |           | v         |          |           |        |
|                                 |          |            |             |              | RAS            |                           | 2040エントリ<br>16エントリ         |           | 0         |          |           |        |
|                                 |          |            |             |              | L1 命令          | \$                        | 64 KB/32 B ライン/1-wav       |           | way       |          |           |        |
|                                 |          | <b>+</b> † | ァッシュ        |              | L1デー           | タ                         | $64\mathrm{KB}$            | /32 B 🗄   | ライン/1-    | way      |           |        |
|                                 |          |            |             |              | L2 統合          | È                         | $2 \mathrm{MB}$            | /64 B ₹   | ·イン/4-v   | way      |           |        |
|                                 |          |            | (=)         | 初期           | 参照レイ           | テンシ                       |                            | 64        | 1         |          |           |        |
|                                 |          |            | 、モリ         | バー           | -スト転i          | 送間隔                       |                            | 2         |           |          |           |        |
|                                 |          |            |             |              | 命令             |                           | 16                         | エントリ      | J/4-way   |          |           |        |
|                                 |          | 1          | $\Gamma LB$ |              | データ            | ,                         | 32 エントリ/4-way              |           |           |          |           |        |
|                                 |          |            |             | Ξ            | スレイテ           | ンシ                        |                            | 12        | 8         |          |           |        |
|                                 |          |            |             |              |                |                           |                            |           |           |          |           |        |
| NextPC                          | NextPC   | Fetch      | Fetch       | Drive1       | Alloc          | Rename                    | Rename                     | Queue     | Schedule  | Schedule | Schedule  |        |
|                                 | Dispatch | Dispatch   | Register    | Register     | <u> </u>       | -<br>→ ALU                | Exec                       | Flags     | Writeback | Commit   | ]         |        |
|                                 |          |            | LI          |              | , 🎼            |                           |                            |           |           |          | ן<br>ו    |        |
|                                 |          |            |             |              |                | Branch                    | Exec                       | Flags     | BrnChk    | Drive2   | ]         |        |
| Load Cache Cache Cache Writeb   |          |            |             |              |                |                           |                            | Writeback | Commit    |          |           |        |
| Store Cache Cache Cache Cache   |          |            |             |              |                |                           | ]                          |           |           |          |           |        |
| (a) べース                         |          |            |             |              |                |                           |                            |           |           |          |           |        |
| (a) <b>ヘース</b>                  |          |            |             |              |                |                           |                            |           |           |          |           |        |
| NextPC                          | NextPC   | Fetch      | Fetch       | Drive1       | Alloc          | Rename                    | Rename                     | Queue     | Schedule  | Schedule | Schedule  |        |
|                                 | Dispatch | Dispatch   | Register    | Register     | ] 🖳            | → ALU                     | Exec                       | Flags     | Writeback | Commit   | ]         |        |
|                                 |          |            |             |              | I/             | Branch                    | Exec                       | Flags     | BrnChk    | Drive2   | ]         |        |
|                                 |          |            |             |              |                | Load                      | Cache                      | Cache     | Cache     | Cache    | Writeback | Commit |
|                                 |          |            |             |              |                | Store                     | Cache                      | Cache     | Cache     | Cache    | ]         |        |
|                                 |          |            |             |              | (b             | <ul> <li>) 統合度</li> </ul> | 2                          |           | 1         |          | 1         |        |
|                                 |          |            |             |              |                |                           |                            |           |           |          |           |        |
| NextPC                          | NextPC   | Fetch      | Fetch       | Drive1       | Alloc          | Rename                    | Rename                     | Queue     | Schedule  | Schedule | Schedule  |        |
|                                 | Dispatch | Dispatch   | Register    | Register     | ] 🖳            | → ALU                     | Exec                       | Flags     | Writeback | Commit   | ]         |        |
|                                 |          |            |             |              |                | Branch                    | Exec                       | Flags     | BrnChk    | Drive2   | ]         |        |
|                                 |          |            |             |              |                | Load                      | Cache                      | Cache     | Cache     | Cache    | Writeback | Commit |
|                                 |          |            |             |              |                | Store                     | Cache                      | Cache     | Cache     | Cache    | ]         |        |
|                                 |          |            |             |              | ,              |                           | 4                          | Guorid    | 00016     | 00010    | ]         |        |
|                                 |          |            |             |              | (0             | ) 統百度                     | 4                          |           |           |          |           |        |

表 2 プロセッサの構成



Jan. 2004

作成した.シミュレーション時間が過大にならないようにするために,命令ミックス,関数の出現頻度など, 特徴をほぼ維持しつつ,それぞれのベンチマークプロ グラムへの入力を調整した.

表 2 に,シミュレーションにおいて仮定したプロ セッサの構成を示す.プロセッサは近年のプロセッサ と同様に,深いパイプラインを持つと仮定した.メモ リアクセス時間は,プロセッサのクロック周波数の低 下に比例して遅くなると仮定した.そのため,プロセッ サのクロック周波数によらず,メモリアクセスのサイ クル数は一定である.

4.2 パイプラインの仮定

図 5 (a) に示すように,評価においては,Pentium 4<sup>15)</sup>のパイプラインとほぼ等しいパイプラインをベースとした.図中の各ステージの動作については,以下のとおりである.

- NextPC:分岐予測による次の PC の決定
- Fetch: 命令キャッシュからの命令フェッチ
- Drive1:フェッチした命令のデコーダへの転送
- Alloc: RUU register update unit ),LSQ load/ store queue )の割当て
- Rename: レジスタリネーミング
- Queue: RUU への書き込み
- Schedule:命令スケジューリング
- Dispatch: RUU からの発行
- Register:レジスタ読み出し
- Exec: 命令の実行
- Flags: フラグの書き込み
- BrnChk:分岐命令の実行結果と分岐予測の比較
- Drive2:分岐結果のフロントエンドへの転送
- Cache : データキャッシュアクセス
- Writeback: RUU へのライトバック
- Commit:実行結果のコミット

図5(b)と図5(c) にそれぞれ2ステージおよび4ス テージの統合したパイプラインを示す.表3に,これ らのパイプラインにおける命令の実行レイテンシ,分 岐予測ミスペナルティ,キャッシュヒットレイテンシを 示す.表の2行目に示すように,1,2,4ステージを 統合した場合,それぞれ最大クロック周波数の100%, 50%,25%で動作する.

なお,整数/浮動小数点除算と平方根演算について は,同一資源を繰り返し使用し完全なパイプライン化 はされておらず,ステージの統合はできないと仮定し た.レイテンシはそれぞれ,20,12,24 サイクルと した.

- 表 3 PSU において仮定する実行レイテンシ,キャッシュヒットレ イテンシ,分岐予測ミスペナルティ
- Table 3 Assumptions of execution latencies, cache hit latencies, and branch misprediction penalty in PSU processor.

| 統合され             | 1         | 2    | 4   |     |
|------------------|-----------|------|-----|-----|
| クロック周波数          |           | 100% | 50% | 25% |
|                  | 整数乗算      | 3    | 2   | 1   |
| 実行レイテンシ          | 浮動小数点 ALU | 2    | 1   | 1   |
|                  | 浮動小数点乗算   | 4    | 2   | 1   |
| L1 キャッシュヒットレイテンシ |           | 4    | 2   | 1   |
| L2 キャッシュ         | 16        | 8    | 4   |     |
| 分岐予測ミ            | 20        | 10   | 5   |     |

#### 4.3 クロックの消費電力の割合の仮定

プロセッサの総消費電力に対するクロックの消費電 力の割合 k は , プロセッサの設計によって異なる . 文 献 13), 16)~18) によれば, その範囲は 18~40%で ある.そこで,5章の評価においては,特に断わりの ない限り,これらの値のほぼ中央値である 30%と仮 定した.また,クロックドライバが消費する電力は, 駆動するパイプラインレジスタ数に比例すると仮定 し,単純に統合度 U に反比例するとした.この仮定 はおおまかではあるが,以下の理由で我々の評価にお いては妥当であると考える.一般に,クロックは多段 のネットワークにより分配するが,クロックドライバ の消費電力のほとんどは,最終段のドライバで消費さ れる(たとえば, Intel Itanium 2の階層化クロック ネットワークの場合,88%を最終段のドライバが消費 している<sup>16)</sup>).また,最終段のドライバの負荷は,お よそ,そのファンアウトであるパイプラインレジスタ の数に比例すると考えられる.

5. 評価結果

本章では,まず,現在の180nmのプロセス技術に おけるエネルギー削減の評価結果を示す.次に,プロ セッサの総消費電力に対するクロックが消費する電力 の割合の違いにより,消費エネルギー削減量がどのよ うに変化するかを示す.最後に,将来のプロセス技術 における DVS と PSU の消費エネルギーの比較結果 を示す.

5.1 現在のプロセス技術における消費エネルギー の比較

本節では,現在の180nmのプロセス技術における PSUによるIPCの向上を評価し,次にPSUとDVS の消費エネルギーを比較する.表4に評価における クロック周波数と電源電圧の関係の仮定を示す.DVS における各仮定は,Transmeta Crusoe TM5400<sup>19)</sup> の対応するデータをもとにしている.なお,PSUで

#### 表 4 180 nm プロセス技術における DVS と PSU のクロック周 波数と電源電圧の仮定

Table 4 Assumptions of clock frequencies and supply voltages for DVS and PSU in the 180 nm technology.

| クロック団連数 | 電源電圧             |                  |  |  |  |
|---------|------------------|------------------|--|--|--|
| クロック同波数 | DVS              | PSU              |  |  |  |
| 100%    | $1.65\mathrm{V}$ | $1.65\mathrm{V}$ |  |  |  |
| 50%     | $1.35\mathrm{V}$ | $1.65\mathrm{V}$ |  |  |  |
| 25%     | $1.10\mathrm{V}$ | $1.65\mathrm{V}$ |  |  |  |

の電源電圧はクロック周波数によらず一定である.

図6に,各ベンチマークにおける,PSUによるIPC の向上率とその平均を示す.各ベンチマークの2本の 棒はそれぞれ統合度2(f=50%)と統合度4(f=25%) の場合のIPC向上率である.積層された棒は下から それぞれ分岐予測ミスペナルティ,L1キャッシュヒッ トレイテンシ,L2キャッシュヒットレイテンシ,命 令の実行レイテンシの短縮による寄与である.IPC はf=50%時に平均48%,f=25%時に平均95%向上 した.特に,ijpeg,m88ksim,vortexを除くベンチ マークでは,IPCが大幅に向上することが分かる.IPC が大きく向上すれば,3.2節で示した式(12)から分か るように,消費エネルギーの大幅な削減が期待できる.

IPCの向上の内訳について説明する.分岐予測ミス ペナルティの減少は, vortex を除くすべてのベンチ マークにおいて,最も大きく寄与している.平均では, IPCの向上のうち63%が分岐予測ミスペナルティの減 少によるものであった . 特に , gcc , go , li では , IPC の向上のうち70%以上が分岐予測ミスペナルティの減 少によるものであった.次に IPC の向上への影響が 大きかったものは,L1 キャッシュのヒットレイテンシ の減少である. 平均で IPC の向上のうち 27%を占め た.この効果は、どのベンチマークにおいても同程度 の IPC の向上として現れた.L2 キャッシュのヒット レイテンシの減少は,平均で IPC の向上のうち 9%と 少ないが, vortex においては, IPC の向上の 44%と, 最も大きな割合を占めた.これに対して,命令の実行 レイテンシの変化が IPC に及ぼしたものは, ほとん どなかった.これは, SPECint95 では整数演算命令 が命令の大部分を占めるが,実行レイテンシが短くな る整数演算命令が少ないためである.

図7に,図6と3.2節の式(12)から得られる PSU の消費エネルギーと,表4と3.1節の式(9)から得ら れる DVSの消費エネルギーの評価結果を示す.縦軸 は,通常モードにおける消費エネルギーで正規化した 消費エネルギーである.各ベンチマークにおける2本 の棒グラフはともに,PSUにおける正規化消費エネル ギーである.左の棒グラフはf=50%における正規化





Fig. 7 Normalized energy consumption for f=50% and f=25% in the 180 nm technology.

消費エネルギーを,右の棒グラフは f=25%における 正規化消費エネルギーを示す.また,2本の横線(破 線)は,DVSにおける正規化消費エネルギーを示して いる.上下の破線は,それぞれ f=50%と f=25%の 場合である.なお,3.1節の式(9)から分かるように, DVSにおいては,エネルギーの削減は電源電圧の減少 のみによって達成されるため,正規化消費エネルギー はどのベンチマークにおいても等しい.

図より, f=50%における PSU の消費エネルギーは, すべてのベンチマークにおいて DVS よりも少ないこと が分かる.正規化消費エネルギーは DVS で平均 0.67 である一方 PSU では平均 0.57 であり, PSU を用いる ことで DVS より 14%削減された.f=25%において は, PSU の DVS に対する優位さは小さくなり, PSU は一部のベンチマーク(ijpeg, m88ksim, vortex)で DVS より多くのエネルギーを消費している.これは, DVS のエネルギー消費は電源電圧の減少の 2 乗で削 減されるが, PSU による IPC の増加はそれほど急速 ではないからである.図 6 から分かるように,上記の



図 8 様々なクロックの消費電力の割合に対する消費エネルギーの 削減

Fig. 8 Energy consumption reduction for various clock power rates.

3本のベンチマークでは IPC の向上率が少ない.しか しながら,平均ではエネルギー消費は 0.44(DVS)か ら 0.39(PSU)へと,DVSより 11%削減されている. 現在のプロセス技術における PSU の優位性はこの程 度にとどまっているが,5.3.2 項ではこの優位性は将 来のプロセス技術ではより大きくなることを示す.

## 5.2 クロックの消費電力の割合が異なる場合

3.2 節の式 (12) により, PSU によって削減される 消費エネルギーは, プロセッサの消費する電力に対す る,クロックが消費する電力の割合 k に依存してい ることを示した.これまで k を 30%と仮定してきた が,k はプロセッサの設計により変化する.文献 13), 16)~18)の例では,k は 18%から 40%と幅がある.こ の節では,k を変化させたときの消費エネルギーの評 価結果を示す.

図8に評価結果を示す.表4に示した180nmのプ ロセス技術における仮定をしている. グラフの横軸は クロックの消費電力の割合であり,縦軸は,通常モー ドにおける消費エネルギーで正規化した消費エネル ギーである.クロックの消費する電力の割合ごとに2 本の棒グラフがある.両棒グラフはともに,PSUにお ける正規化消費エネルギー(ベンチマーク平均)であ る. 左の棒グラフは f=50%における正規化消費エネ ルギーを,右の棒グラフは f=25%における正規化消 費エネルギーを示している.また,2本の横線(破線) は, DVS における正規化消費エネルギーを示してい る.上下の破線は,それぞれ f=50%と f=25%にお ける正規化消費エネルギーを示す.図より,クロック の消費電力の割合が減少すると, DVS に対する PSU の優位さは減少するが,すべての条件において,PSU は DVS よりも消費エネルギーを削減可能なことが分

かる . PSU が最も不利となる 20%の場合においても , f=50%において 9% , f=25%において 2%消費エネル ギーを削減可能である .

5.3 将来のプロセス技術における消費エネルギー 本節では,将来のプロセス技術におけるDVSとPSU の消費エネルギーの削減量を比較する.

5.3.1 将来の DVS プロセッサにおける電源電圧 のスケーリングの見積り

将来における DVS による消費電力の削減量を見積 もるには,プロセス技術の進歩に応じて,どのように 電源電圧が変化するか,また,低下させたクロック周 波数に対して電源電圧をどこまで減少させることがで きるかを調べる必要がある.

最大クロック周波数で動作する通常モードでの電源 電圧 *V<sub>DDmax</sub>* については,これまで発表されたプロ セッサの電源電圧のトレンド<sup>20)</sup>,および,TSMCと UMC が発表している電源電圧<sup>21),22)</sup>より求めた.そ の結果,以下の式が得られた:

 $V_{DDmax} = 0.0381 \times Technology^{0.7171}$  (14) ここで, *Technology* [nm] は, プロセス技術の最小加 工寸法である.

一方,低消費電力モードでの電源電圧に関しては, *V<sub>DDmax</sub>*と同様の方法で見積もるだけの十分なデータ はなかった.そこで,以下のようにして求めた.

ー般に,電源電圧と閾値電圧が与えられたとき,それらとゲートが動作する最大クロック周波数 f との間に,以下に示す関係がある(たとえば,文献 23)):

$$f \propto \frac{\left(V_{DD} - V_{th}\right)^2}{V_{DD}} \tag{15}$$

ここで, f を通常モードでのクロック周波数で正規 化した低消費電力モードでのクロック周波数とし,比 例定数を a とおくと,上式は次のように表すことが できる:

$$f = a \times \frac{\left(V_{DD} - V_{th}\right)^2}{V_{DD}} \tag{16}$$

比例定数 a は f = 100% のときの電源電圧  $V_{DDmax}$ (式(14))と  $V_{th}$  から得ることができる:

$$a = \frac{V_{DDmax}}{(V_{DDmax} - V_{th})^2} \tag{17}$$

一方 V<sub>th</sub> は V<sub>DDmax</sub> と同様の方法で見積もり,以
 下の式を得た:

 $V_{th} = 0.0226 \times Technology^{0.5111} \tag{18}$ 

比例定数 *a* を用い,低消費電力モードにおける *V*<sub>DD</sub> を式 (16) より求めることができる:

$$V_{DD} = \frac{A + \sqrt{A^2 - 4a^2 V_{th}^2}}{2a} \tag{19}$$

| 正規化した   | TM5400           |      | TM5800           |      |
|---------|------------------|------|------------------|------|
| クロック周波数 | $V_{DD}$         | M    | $V_{DD}$         | M    |
| 100%    | $1.65\mathrm{V}$ | 1.00 | $1.30\mathrm{V}$ | 1.00 |
| 50%     | $1.35\mathrm{V}$ | 1.24 |                  |      |
| 25%     | $1.10\mathrm{V}$ | 1.39 | $0.90\mathrm{V}$ | 1.41 |

表 5 式 (21) のマージン M の計算結果 Table 5 Calculation results of margin M in Eq. (21)

ただし,

$$A = 2aV_{th} + f \tag{20}$$

である.

実際の電源電圧は,上式で定まる V<sub>DD</sub> にある程度 のマージンが必要と思われる.種々の理由で,電源電 圧が低いほどこのマージンを大きくとる必要がある. たとえば,式(15)から分かるように,プロセスのば らつきによる V<sub>th</sub> のばらつきのクロック周波数への影 響は,V<sub>DD</sub> が低いほど大きい.また,V<sub>DD</sub> が低いほ どノイズの影響を受けやすい.そこでこのマージンを M とし,式(19)を以下のように書き直す:

$$V_{DD} = M \times \frac{A + \sqrt{A^2 - 4a^2 V_{th}^2}}{2a}$$
(21)

ここで, M は通常モードのとき 1,低消費電力モードのとき M > 1であり,プロセス世代によらず一定とする.

本研究で関心のある f=50%, f=25%の M を計 算するため, Crusoe TM5400(180 nm プロセス)と TM5800(130 nm プロセス)の  $f \ge V_{DD}$ の関係の データを用いた.これらのデータと式(17),(18)よ り与えられる  $a \ge V_{th}$  を式(21)に代入することによ り, M を計算することができる.表5に計算結果を まとめる .これより, M を以下にように決定した:

$$M = \begin{cases} 1.00, & f = 100\% \\ 1.24, & f = 50\% \\ 1.40, & f = 25\% \end{cases}$$
(22)

以上まとめると,通常モードの電源電圧 V<sub>DDmax</sub>は, 式 (14) より得られる.低消費電力モードで f=50%, f=25%での電源電圧は,式(17),(18),(22)を式(21) に代入して得られる.

図 9 に  $V_{DDmax}$ ,  $V_{DD50}$ ,  $V_{DD25}$ の見積り結果を示す.ここで,  $V_{DD50}$ ,  $V_{DD25}$ は, それぞれ, f=50%, f=25%のときの電源電圧である.図には, 同時にSIA予測<sup>24)</sup>の電源電圧の範囲も示している.図から分かるように,  $V_{DD50}/V_{DDmax}$ と $V_{DD25}/V_{DDmax}$ はプロ



図 9 将来の DVS プロセッサの V<sub>DDmax</sub> と V<sub>DDmin</sub> の見積 り結果

Fig. 9 Estimation of  $V_{DDmax}$  and  $V_{DDmin}$  in the future DVS processors.



図 10 将来のノロセス技術における f=50%と f=25%における 正規化消費エネルギー

Fig. 10 Normalized energy consumption at f=50% and f=25% in the future technology.

セスが進むに応じて増加していく.このことは,将来 DVSの有効性が減少していくことを意味している.

# 5.3.2 将来のプロセス技術における消費エネルギー の比較

前項で見積もった V<sub>DDmax</sub>, V<sub>DD50</sub>, V<sub>DD25</sub>を用 いて,将来における DVS と PSU の消費エネルギーを 比較する.表6に前項で見積もった各プロセス世代に おけるクロック周波数と電源電圧の関係をまとめる.

図 10 に,各プロセス世代において,通常モードの 消費エネルギーで正規化した消費エネルギー(ベン チマーク平均)を示す.まず,DVSの有効性はプロ セス世代の進歩に応じて低下していくことが分かる. f=50%の場合はおよそ $3 \sim 4\%$ /世代,f=25%の場合 は $5 \sim 7\%$ /世代の割合で消費エネルギーは増えていく. この結果,プロセス世代が現在の180 nmからおよそ 10 年後の32 nmの世代になると,消費エネルギーの 削減率は,f=50%の場合は33%から21%,f=25%の

 $V_{DDmax}$ には、データの一貫性を保つため式 (14)から得られる 値ではなく、実際の値を用いた.また、TM5800のf=50%お ける電源電圧は残念ながら入手できなかった.

表 6 将来のプロセス技術における DVS と PSU のクロック周波数と電源電圧の関係の仮定

 
 Table 6
 Assumptions of clock frequencies and supply voltages in the future technology for DVS and PSU.

|                  |                  | DVS              |                  | PSU              |                  |                  |
|------------------|------------------|------------------|------------------|------------------|------------------|------------------|
| ノロセス             | 100%             | 50%              | 25%              | 100%             | 50%              | 25%              |
| $180\mathrm{nm}$ | $1.58\mathrm{V}$ | $1.29\mathrm{V}$ | $1.06\mathrm{V}$ | $1.58\mathrm{V}$ | $1.58\mathrm{V}$ | $1.58\mathrm{V}$ |
| $130\mathrm{nm}$ | $1.25\mathrm{V}$ | $1.04\mathrm{V}$ | $0.86\mathrm{V}$ | $1.25\mathrm{V}$ | $1.25\mathrm{V}$ | $1.25\mathrm{V}$ |
| $90\mathrm{nm}$  | $0.96\mathrm{V}$ | $0.81\mathrm{V}$ | $0.68\mathrm{V}$ | $0.96\mathrm{V}$ | $0.96\mathrm{V}$ | $0.96\mathrm{V}$ |
| $65\mathrm{nm}$  | $0.76\mathrm{V}$ | $0.65\mathrm{V}$ | $0.56\mathrm{V}$ | $0.76\mathrm{V}$ | $0.76\mathrm{V}$ | $0.76\mathrm{V}$ |
| $45\mathrm{nm}$  | $0.58\mathrm{V}$ | $0.51\mathrm{V}$ | $0.44\mathrm{V}$ | $0.58\mathrm{V}$ | $0.58\mathrm{V}$ | $0.58\mathrm{V}$ |
| $32\mathrm{nm}$  | $0.46\mathrm{V}$ | $0.41\mathrm{V}$ | $0.36\mathrm{V}$ | $0.46\mathrm{V}$ | $0.46\mathrm{V}$ | $0.46\mathrm{V}$ |
| $22\mathrm{nm}$  | $0.35\mathrm{V}$ | $0.32\mathrm{V}$ | $0.28\mathrm{V}$ | $0.35\mathrm{V}$ | $0.35\mathrm{V}$ | $0.35\mathrm{V}$ |

場合は 55%から 40%に減少する.削減率が単調に減 少していく理由は,前項で述べたように,通常モード における電源電圧に対する低消費電力モードでの電源 電圧の割合が増加していくためである.

これに対して, PSUの消費エネルギーはプロセス世 代の進歩に関係なく一定である.その結果,32 nmのプ ロセス技術においては, PSUはDVSよりも f=50%に おいて27%, f=25%において34%多くの消費エネル ギーを削減できる.この理由は,PSUの消費エネル ギーの削減が,電源電圧の低下に依存しているのでは なく,動的なアーキテクチャの変更によって達成され ているためである.

#### 6. 関連研究

Albonesi は,動的にプロセッサの資源のサイズと クロック周波数を変更し,実行時間を削減する方法を 提案した<sup>25)</sup>.一般に,資源サイズと実現可能なクロッ ク周波数は,トレードオフの関係にある.このトレー ドオフの最適点を求め,プログラムの実行時間を削減 する.

Bahar らは、プログラムの実行中に同時発行命令数 が大きく変化することに着目し、必要に応じて動的に 命令発行論理と機能ユニットの一部を停止させ、消費 電力を削減することを提案した<sup>26)</sup>.

Manne らは分岐予測ミスしたパスからフェッチし た命令を減らして消費電力を削減することを提案し た<sup>27)</sup>.具体的には,分岐予測の信頼性が低い分岐命令 が連続してフェッチされた場合,その後の命令のフェッ チを停止することにより,分岐予測ミスしたパスから フェッチした命令数を削減する.

Canal らは, データ, アドレス, 命令をある特別の エンコーディングによって圧縮し, パイプラインの活 動量を減少させ, 消費電力を削減する方法を提案し た<sup>28)</sup>.

クロックの消費電力が多いことに着目し,その削減を

試みた研究には,クロック分配線を最適化するもの<sup>29)</sup> や,クロック分配線の一部を低電圧化するもの<sup>30)</sup>や, クロックゲーティングを工夫するもの<sup>31),32)</sup>があげら れる.

#### 7. ま と め

本論文では, PSU と呼ぶ消費エネルギーを削減す る手法を提案し,現在と将来のプロセス技術において 現在の手法である DVS と比較した. PSU はクロック 周波数が減少したときに,電源電圧を最大値に保った まま、複数のパイプラインステージを統合することに よって消費エネルギーを削減する手法である.PSUを 実装するために、それぞれ常時クロック、一時クロック と呼ぶ複数のクロック分配線と,ステージ統合を行う という信号を送る統合信号が必要となる.消費電力の 削減は,パイプラインステージ統合時に,一時クロッ クのドライバの動作を停止することによって達成され る.また, PSU を適用するとパイプラインが短くな るため, 分岐予測ミスペナルティやキャッシュヒット レイテンシが短縮され,クロック周波数の低下による 性能低下を抑えることが可能である.この2つの効果 により, PSU は従来の DVS よりも効果的に消費エネ ルギーを削減することができる.将来のプロセス技術 では電源電圧の可変範囲が減少するため, DVS の効 果は減少する一方,電源電圧に依存せずにアーキテク チャの変更によって消費エネルギーを削減する PSU は,その効果を維持することができる.

評価の結果,現在では PSUは DVS よりも f=50% のとき 14%, f=25%のとき 11%多く消費エネルギー を削減できる.この改善率はプロセス技術の進歩にと もなって増加していく.たとえば,10年後には,改善 率は f=50%のとき 27%, f=25%のとき 34%に増加 する.このように,PSUは将来のモバイルプロセッサ においては,より魅力的なエネルギー削減手法となる. より深いパイプラインがプロセッサの性能をさらに 向上させるという予測がいくつかの文献で述べられて いる<sup>33)~35)</sup>.パイプラインがより深くなれば,全消費 電力に対するクロックの消費電力の割合は増加する. この結果,統合できるステージ数も増加する.このた め,PSUの有効性は本論文で述べたよりもさらに大 きくなると考えられる.

#### 参考文献

- Deifendroff, K.: Transmeta Unveils Crusoe, *Microprocessor Report*, Vol.14, Archive 1, pp.15–16 (2000).
- Transmeta Corporation: Crusoe Processor Model TM5800 Product Brief (2001).
- Intel Corporation: Mobile Pentium III Processor in BGA2 and Micro-PGA2 Packages Datasheet (2001).
- 4) Intel Corporation: Mobile Intel Pentium III Processor-M Datasheet (2002).
- 5) Intel Corporation: Mobile Intel Pentium 4 Processor-M Datasheet (2002).
- Advanced Micro Devices, Inc.: Mobile AMD Athlon 4 Processor Model 6 CPGA Data Sheet (2001).
- Anghel, L. and Nicolaidies, M.: Cost Reduction and Evaluation of a Temporary Faults Detecting Technique, *Proc. 2000 Design, Automation, and Test in Europe*, pp.591–598 (2000).
- 8) 嶋田 創, 安藤秀樹, 島田俊夫:低消費電力化 のための可変パイプライン,情報処理学会研究報 告, 2001-ARC-145, pp.57-62 (2001).
- 9) Shimada, H., Ando, H. and Shimada, T.: Pipeline Stage Unification for Low-Power Consumption, Int. Symp. on Low-Power and High-Speed Chips (COOL Chips V) Presentation Slides, pp.194–200 (2002).
- 10) 嶋田 創,安藤秀樹,島田俊夫:パイプラインス テージ統合:将来のモバイルプロセッサのための 消費エネルギー削減技術,先進的計算基盤システム シンポジウム SACSIS2003, pp.283-290 (2003).
- Hennessy, J.L. and Patterson, D.A.: Computer Architecture: A Quantitative Approach, 2nd Edition, Morgan Kaufmann Publishers Inc. (1996).
- Semiconductor Industry Association: International Technology Roadmap for Semiconductors 2001 Process Integration, Devices, Structures (2001).
- 13) Gowan, M.K., Biro, L.L. and Jackson, D.B.: Power Considerations in the Design of the Alpha 21264 Microprocessor, 35th Design Automation Conf., pp.726–731 (1998).
- 14) Burger, D. and Austin, T.M.: The SimpleScalar Tool Set, Version 2.0, Technical Re-

port CS-TR-97-1342, University of Wisconsin-Madison Computer Sciences Dept. (1997).

- Glaskowsky, P.N.: Pentium 4 (Partially) Previewed, Vol.14, Archive 8, pp.1–4 (2000).
- 16) Anderson, F.E., Wells, J.S. and Berta, E.Z.: The Core Clock System on the Next-Generation Itanium Microprocessor, 2002 IEEE International Solid-State Circuits Conf. Visual Supplement to the Digest of Technical Papers, pp.110–111 (2002).
- 17) Clark, L.T., Hoffman, E.J., Miller, J., Biyani, M., Liao, Y., Strazdus, S., Morrow, M., Velarde, K.E. and Yarch, M.A.: An Embedded 32-b Microprocessor Core for Low-Power and High-Performance Applications, *IEEE Journal* of Solid-State Circuits, Vol.36, No.11, pp.1599– 1608 (2001).
- 18) Gronowski, P.E., Bowhill, W.J., Preston, R.P., Gowan, M.K. and Allmon, R.L.: High-Performance Microprocessor Design, *IEEE Journal of Solid-State Circuits*, Vol.33, No.5, pp.677–686 (1998).
- Laird, D.: Crusoe Processor Products and Technology, Transmeta Corporation (2000).
- 20) Butts, J.A. and Sohi, G.S.: A Static Power Model for Architecture, Proc. 33rd Annual Int. Symp.on Microarchitecture, pp.191–201 (2000).
- Diefendorff, K.: TSMC Sets Sights on #1, Microprocessor Report, Vol.14, Archive 6, pp.17– 21 (2000).
- 22) http://www.umc.com/
- 23) Mudge, T.: Power: A First-Class Architectural Design Constraint, *IEEE Computer*, Vol.34, No.4, pp.52–58 (2001).
- 24) Semiconductor Industry Association: International Technology Roadmap for Semiconductors 2000 Update Process Integration, Devices, Structures (2000).
- 25) Albonesi, D.H.: Dynamic IPC/Clock Rate Optimization, Proc. 25th Annual Int. Symp. on Computer Architecture, pp.282–292 (1998).
- 26) Bahar, R.I. and Manne, S.: Power and Energy Reduction Via Pipeline Balancing, Proc. 28th Annual Int. Symp. on Computer Architecture, pp.218–229 (2001).
- 27) Manne, S., Klauser, A. and Grunwald, D.: Pipeline Gating: Speculation Control For Energy Reduction, Proc. 25th Annual Int. Symp. on Computer Architecture, pp.132–141 (1998).
- 28) Canal, R., Gonzalez, A. and Smith, J.E.: Very Low Power Pipelines using Significance Compression, *Proc. 33rd Annual Int. Symp. on Mi*croarchitecture, pp.181–190 (2000).
- 29) Xi, J.G. and Dai, W.W.-M.: Buffer Insertion

and Sizing Under Process Variations for Low Power Clock Distribution, *Proc. Design Au*tomation Conf. 1995, pp.491–496 (1995).

- 30) Pangjun, J. and Sapatnekar, S.S.: Clock Distribution Using Multiple Voltages, Proc. Int. Symp. on Low-Power Electronics and Design 1999, pp.145–150 (1999).
- 31) Donno, M., Ivaldi, A., Benini, L. and Macii, E.: Clock-Tree Power Optimization based on RTL Clock-Gating, *Proc. Design Automation Conf. 2003*, pp.622–627 (2003).
- 32) Farrahi, A.H., Chen, C., Srivastava, A., Tellez, G. and Sarrafzadeh, M.: Activity-Driven Clock Design, *IEEE Trans. Computer-Aided Design of Integrated Circuits and Systems*, Vol.20, No.6, pp.705–714 (2001).
- 33) Hartstein, A. and Puzak, T.R.: The Optimum Pipeline Depth for a Microprocessor, *Proc. 29th* Annual Int. Symp. on Computer Architecture, pp.7–13 (2002).
- 34) Hrishikesh, M.S., Jouppi, N.P., Farkas, K.I., Burger, D., Keckler, S.W. and Shivakumar, P.: The Optimal Useful Logic Depth Per Pipeline Stage is 6-8 FO4, Proc. 29th Annual Int. Symp. on Computer Architecture, pp.14–24 (2002).
- 35) Sprangle, E. and Carmean, D.: Increasing Processor Performance by Implementing Deeper Pipelines, Proc. 29th Annual Int. Symp. on Computer Architecture, pp.25–34 (2002).

(平成 15 年 5 月 7 日受付)(平成 15 年 7 月 5 日採録)



嶋田 創(学生会員) 1976年生.1998年名古屋大学工 学部情報工学科卒業.2000年同大 学大学院工学研究科情報工学専攻博 士課程前期課程修了.2003年同大学 院工学研究科電子情報学専攻博士課

程後期課程満了.現在,同大学院工学研究科電子情報 学専攻研究生.電子情報通信学会/情報処理学会2003 年先進的計算基盤システムシンポジウム優秀学生論文 賞受賞.計算機アーキテクチャの研究に従事.



安藤 秀樹(正会員)

1959年生.1981年大阪大学工学 部電子工学科卒業.1983年同大学 大学院修士課程修了.京都大学工学 博士.1983年三菱電機(株)LSI研 究所.ISDN用ディジタル信号処理

LSI,第5世代コンピュータ・プロジェクトの推論マシン用プロセッサの設計に従事.1991年 Stanford 大学 客員研究員.1997年名古屋大学大学院工学研究科電 子情報学専攻講師.1998年名古屋大学助教授.1998 年~2001年東京大学大学院理学系研究科助教授併任. 1998年,2002年情報処理学会論文賞,電子情報通信 学会/情報処理学会 2003年先進的計算基盤システム シンポジウム優秀学生論文賞受賞.計算機アーキテク チャ,コンパイラの研究に従事.ACM,IEEE,電子 情報通信学会会員.



島田 俊夫(正会員)

1968年東京大学工学部計数工学 科卒業.1970年同大学大学院修士 課程修了.同年電子技術総合研究所 入所.1993年より名古屋大学大学院 工学研究科電子情報学専攻教授.人

工知能向き言語,LISP マシン,データフロー計算機 の研究に従事.最近はマイクロプロセッサのアーキテ クチャやチップ内並列処理の研究を行っている.1988 年度市村賞,1994年度情報処理学会論文賞,1995年 度注目発明賞,2001年度情報処理学会論文賞,電子 情報通信学会/情報処理学会2003年先進的計算基盤シ ステムシンポジウム優秀学生論文賞受賞.工学博士.