# 電源ノイズ削減のためのマルチコアプロセッサ向け クロックゲーティング機構の提案

川部 純<sup>1,a)</sup> 武内 良典<sup>1,b)</sup> 劉 載勲<sup>1,c)</sup> 今井 正治<sup>1,d)</sup>

概要:タスクの並列処理により高速化を達成するマルチコアプロセッサは消費電流の変化量が大きく,消 費電流の変化が電源ノイズを大きくさせる原因となっている.電源ノイズはチップの誤動作を引き起こし プロセッサの信頼性を低下させる.本稿では消費電力の削減手法であるクロックゲーティングをコアに対 して適用し,プロセッサの電流変化量を動的に抑制する機構を提案する.提案する機構により,プロセッ サの性能低下を抑えつつ電流変化量を一定以下に保証する.実験により4コアマルチプロセッサの性能 低下を最大7%に抑えることを確認した.提案するクロックゲーティング機構により,性能低下が起きな い条件下で,電流変化量を2ビット実装の場合41.2%,3ビット実装の場合37.3%,4ビット実装の場合 35.1%削減することを確認した.

# An Efficient Clock-Gating Mechanism for Multi-Core Processor to reduce Power Supply Noise

Kawabe Jun<sup>1,a)</sup> Takeuchi Yoshinori<sup>1,b)</sup> Yu Jaehoon<sup>1,c)</sup> Imai Masaharu<sup>1,d)</sup>

**Abstract:** Multi-core processors achieve high performance by parallel processing of tasks. However, the large amount of current change of multi-core processors makes power supply noise large. Power supply noise causes low reliability of the processor. This paper proposes a mechanism which dynamically suppresses the amount of current change of the processor by controlling the execution of cores using clock-gating. The mechanism guarantees the amount of current change under certain level keeping performance. Evaluation results show that the performance degradation of 4 core multi-processor was within 7% by proposed mechanism, and amount of current change was reduced 41.2% by 2-bit implementation, 37.3% by 3-bit implementation, 35.1% by 4-bit implementation, respectively.

# 1. 序論

1

システム高速化の手段としてマルチコアプロセッサを用 いることが多くなってきている.マルチコアプロセッサで は複数のコアでタスクを並列実行することで高速化を達成 するが、タスク実行の並列度の増加に伴い、プロセッサの 消費電流の変動量が大きくなりやすい.電源配線上には寄 生インダクタンスが存在する.インダクタの両端の電位差 はインダクタを流れる電流の単位時間当たりの変化量に比 例するため、大きな電流変化は大きな電圧降下を引き起こ す.これを電源ノイズと呼ぶ.電源ノイズによるプロセッ サ供給電圧の低下は素子遅延増加、ロジックの誤動作等の 原因となり、プロセッサの信頼性を低下させる.近年では プロセス技術の進歩によるプロセッサの低電圧動作や動作 周波数の増大により、プロセッサの電流変動に伴う電源ノ イズの影響が大きくなりやすい.電源ノイズは一般的にデ カップリングコンデンサと呼ばれるコンデンサの挿入で 対策される.電荷を保持するコンデンサの性質によりプロ セッサ電圧の低下が抑制される.しかし設計時には最悪時 の電源ノイズを想定する必要があるため、予想される電源 ノイズが大きいほど大きな容量のデカップリングコンデン

大阪大学 大学院情報科学研究科 Dept. Information Systems Engineering, Graduate School of Information Science and Technology, Osaka University

<sup>&</sup>lt;sup>a)</sup> j-kawabe@ist.osaka-u.ac.jp

 $<sup>^{\</sup>rm b)}$  takeuchi@ist.osaka-u.ac.jp

<sup>&</sup>lt;sup>c)</sup> yu.jaehoon@ist.osaka-u.ac.jp

<sup>&</sup>lt;sup>d)</sup> imai@ist.osaka-u.ac.jp



図 1: クロックゲーティング回路

サが必要となる. デカップリングコンデンサがチップ面積 の 10%を占める例が報告されており [1],回路面積を大き くさせる原因となっている.

本稿ではアーキテクチャによりプロセッサの電流変化を 抑え電源ノイズを削減する手法を提案する.近年の集積シ ステムは集積密度が増加しており、全ての機能ユニットを 動かすのではなく、不要な機能ユニットを停止し効率化を 図ることが主流となっている [2]. クロックゲーティングは システムの動作に不要な回路へのクロック供給を制御する ことでスイッチング電流を削減する技術である.図1にク ロックゲーティング回路を示す.機能ユニットへのクロッ ク供給をイネーブルロジックにより決定しラッチと AND 素子を用いてゲーティング済みクロックを生成する.ク ロックゲーティングは仕組みが簡単であるため広く使われ ているが、システムの動作不要部分を随時的確に決定する ことは難しい. また粒度を細かく制御するためにはクロッ クゲーティングのための回路も大きくなってしまう.本研 究では、クロックゲーティングをマルチプロセッサのコア に対して適用し,マルチコアプロセッサの電流変化量が一 定以下となるようにクロックゲーティングを行う.

本稿の構成は以下の通りである.2節で本研究で対象と するマルチコアプロセッサについて述べ,記号を定義する. 3節で提案するクロックゲーティング機構を説明する.4 節でクロックゲーティング機構の効果を実験的に評価し, 5節で結論を述べる.

# 2. 対象アーキテクチャと記号の定義

# 2.1 対象アーキテクチャ

本研究ではメモリ共有方式がNORA (No Remote Memory Access) [3] であるマルチコアプロセッサを仮定し,命 令の実行に伴うメモリアクセスの競合は発生しないとす る.ハードウェア・インターロック機構は持たず,パイプ ラインハザードは分岐命令によるパイプラインのフラッ シュ以外では起きないとする.特定のステージの実行に複 数サイクルかかるマルチサイクル命令は持たず,全ての命 令が特定のパイプライン段数で実行完了するとする.命令 メモリ,データメモリ,命令レジスタは読み書きする内容 に依存せず同じ電流遷移を伴うとする.命令を実行しない 機能ユニットや値の書き込みが行われないレジスタに流れ る電流は時間によらず一定であるとする.

|    | 表 1: 定数の定義 |
|----|------------|
| 記号 | 定義         |
| C  | コア数        |
| S  | パイプライン段数   |
| A  | 命令の集合      |
| F  | 機能ユニットの集合  |

| 表 2: 関連 | 数の仕様 |
|---------|------|
|         |      |

| 関数                          | 機能                            |
|-----------------------------|-------------------------------|
| $\operatorname{Current}(f)$ | 機能ユニット $f \in F$ の消費電流        |
| $\operatorname{Unit}(a, j)$ | 命令 $a \in A$ が $j$ ステージ目で使用する |
|                             | 機能ユニットの集合                     |

# **2.2** 記号の定義

本稿で使用する定数の定義を表 1 に示す.マルチコアプ ロセッサのコア数を *C*,パイプライン段数を *S* で表す.命 令 (ADD, SUB など)の集合を *A*,機能ユニット (ALU, レジスタなど)の集合を *F* で表す.本稿で使用する関数 の仕様を表 2 に示す.Current(*f*) は機能ユニット  $f \in F$ の消費電流を返す関数である.Unit(*a*, *j*) は命令  $a \in A$  が パイプラインの *j* ステージ目で使用する機能ユニットの集 合を返す関数である. $I_{aj}$  を命令 *a* の *j* (0  $\leq j \leq S - 1$ ) ステージ目の消費電流とするとき, $I_{aj}$  は以下の式で表さ れる.

$$I_{aj} = \sum_{f \in \text{Unit}(a,j)} \text{Current}(f)$$
(1)

あるクロックサイクル(以降「サイクル」と表記する.)に おいてコアi ( $0 \le i \le C - 1$ )で実行される命令の集合を  $D_i = \{d_{i0}, d_{i1}, ..., d_{i(S-1)}\}$  ( $D_i \subset A$ )とする. $d_{ij}$ はコアiでjステージ目が実行される命令を表す.このときコアiの消費電流 $Q_i$ は、パイプライン実行される命令の各ステー ジで消費される電流の和であるから、以下の式で表される.

$$Q_i = \sum_{0 \le j \le S-1} I_{d_{ijj}} \tag{2}$$

# 3. クロックゲーティング機構

図 2に提案するクロックゲーティング機構の構成を示 す.破線で囲まれた部分がマルチコアプロセッサに追加す るクロックゲーティング機構である.クロックゲーティン グ機構は(1)コアの消費電流の計算回路,(2)実行/停止 コアの決定回路,(3)ゲーティング回路から構成される. (1)は次のサイクルにおいてコアでパイプライン実行され る命令を基に各コアの消費電流を計算する.図 2の IR は 命令レジスタを表す.(2)は次のサイクルにおけるマルチ コアプロセッサ全体の消費電流を計算し,前のサイクルの 消費電流との差を計算する.電流差は予め設定される制約 電流値と比較され,制約を超えている場合どのコアを停止 するかを決定する.(3)は図 1の破線で囲まれた部分に相 当し,ゲーティング済みクロックを生成する.



図 2: クロックゲーティング機構の構成



図 3: コアの消費電流の計算回路

## 3.1 消費電流の計算回路

図3にコアの消費電流の計算回路を示す。回路の入力は 前のサイクルでフェッチされた命令である。回路の出力は 次のサイクルのコアの消費電流である。ルックアップテー ブル(LUT)は全ての命令の各ステージごとの消費電流 (以降「命令の消費電流」と表記する。)を保持しており,命 令a o jステージ目の消費電流 $v_{aj}$ を出力する。 $v_{x0}$ は命 令フェッチ時の消費電流を表す。命令フェッチ時の消費電 流は命令の種類に依存せず一定とし加算器に別途入力して いる。チェーン状に接続されたレジスタ $r_{tj}$ は、命令aが フェッチされた時刻を $t_0$ とする時、時刻 $t_0 - t$ にフェッチ された命令のjステージ目の消費電流を記憶する。クロッ クごとに保持する電流値をシフトすることで、パイプライ ン実行を考慮した次のサイクルのコアの消費電流を計算で きる。各ステージの消費電流は加算器に入力され最終的に コアiの消費電流 $Q_i$ を出力する。

# 3.2 実行/停止コアの決定法

実行コア,停止コアの決定法は非常に重要である.停止 コアに割り当てられているタスクは実行されないためシス テム全体の処理性能に直接影響を与える.本節では性能低 下を抑えた停止コアの選択法について説明する.



|                                                 | -1μA) | ⊐Р1<br>(9µА) | -172<br>(8μA) | ⊐73<br>(9µА) | 合計<br>[µA] | 電流差<br>[µA] | 制約超過? |                       |
|-------------------------------------------------|-------|--------------|---------------|--------------|------------|-------------|-------|-----------------------|
| 1                                               | 0     | 0            | ×             | ×            | 16         | 12          | NO    | 3コア実行すると              |
| 2                                               | 0     | 0            | 0             | ×            | 24         | 20          | NO    | 利約下で消貨電流を<br>是大化できるため |
| 3                                               | 0     | 0            | 0             | 0            | - 33       | 29          | YES   | この組み合わせを選択            |
| 前のサイクルの消費電流: 4µA, 制約電流: 20µA<br>(コア0から選択開始する場合) |       |              |               |              |            |             |       |                       |

(b) 最大値選択法の近似法

図 4: あるサイクルの実行/停止コアの組み合わせ例

## 3.2.1 性能低下を最小化する最適解

実行するタスク(命令列)が予め分かる場合,各サイク ルにおけるコアの実行/停止の全組み合わせを再帰的に計 算することで実行サイクル数を最小化するコアの実行/停 止の組み合わせ(最適解)を求めることができる.図4に あるサイクルにおけるコアの実行/停止の組み合わせの例 を示す.4つのコアがそれぞれ次のサイクルで7µA,9µA, 8µA,9µA 消費するとする.前のサイクルの消費電流を 4µA,電流変化の制約値を20µAとする.全てのコアを実 行すると33µA 消費するため前のサイクルとの電流差が制 約を超える.図4aに示すように,電流変化が制約を超え ない12個の組み合わせそれぞれを採用した場合について 再帰的に計算し最適解を求める.しかし組み合わせが膨大 であるためタスク数(命令数)が多くなると現実的な時間 で求めることができない.

#### 3.2.2 最大值選択法

最適解は現実的な時間で求めることができないため,各 サイクルにおいて制約以下で消費電流を最大化する組み合 わせのみ計算する.この方法を「最大値選択法」と呼ぶ. 図 4aの例では電流変化が制約を超えず且つ消費電流が最 大となる組み合わせが2つ存在する.それぞれを採用した 場合について再帰的に計算を行う.全ての組み合わせを計 算しないため最適解に比べ計算量が大幅に削減される.

## 3.2.3 最大値選択法の近似法

最大値選択法は全ての組み合わせについて消費電流を計 算する必要があるため実装コストが大きい.そこで調べる

組み合わせを限定して各サイクルの消費電流が大きくなる ような選択法を提案する.提案手法はあるコアから連続す る2コアを動かした場合、連続する3コアを動かした場 合, ..., 全てのコアを動かした場合について消費電流を計 算し,制約以下で最も消費電流が大きくなるような組み合 わせを選択する.図4bに提案手法を用いる場合の例を示 す. コア0から連続する2コア,3コア,4コアを動かし た場合の消費電流を計算し前のサイクルの消費電流との差 を計算する. 例では制約以下で消費電流が最も多く流れる 組み合わせ「コア0,1,2を実行,コア3を停止」を採用 する. この方法は必ずしも消費電流を制約以下で最大化す る組み合わせを選択できないが、消費電流を計算する組み 合わせが少ないため実装コストが小さい. 図 4b の例では コア0から連続するコアについて計算したが、次のサイク ルではコア1から、その次はコア2から、というように計 算を開始するコアを順番に変えてコアの実行率の偏りを無 くす.

## 3.3 実行/停止コアの決定回路

3.2.3 項で説明した実行/停止コアの決定法を図5に示す 回路で実現する.図5は4コアの場合の回路である.右上 のカウンタは実行コアとして選択を開始するコアを順番に 更新しコアの実行率の偏りを無くす役割をもつ.クロック 入力の度に 0,1,2,3,0,1,2,...のように更新される. 3 つの加 算器はそれぞれ2コア実行する場合,3コア実行する場合, 全てのコアを実行する場合の消費電流を計算する. 加算器 に入力されるコアの消費電流はカウンタの値に応じて変え る必要があるため、カウンタの出力を図5上部のセレクタ の選択信号に入力している. 各加算器の結果は減算器に入 力され、前のサイクルの消費電流 Iprev との差を計算する. 電流差は比較器で制約電流値 I<sub>lim</sub> と比較される.比較器 は消費電流の変化が制約を超えている場合は0を出力し, 制約を超えていない場合は1を出力する.組み合わせ回路 は比較結果とカウンタの値を基にゲーティング信号を出力 する.

#### 3.4 消費電流の量子化

提案するクロックゲーティング機構では消費電流を動的 に計算するために図3のLUTに命令の消費電流を保持す る.命令の消費電流の最大値をIP<sub>max</sub>とすると,IP<sub>max</sub>は 以下の式で表される.

$$IP_{\max} = \max_{0 \le j \le S-1, \ a \in A} I_{aj} \tag{3}$$

LUT の大きさは  $IP_{max}$  を表現するために必要なビット数 に大きく依存し,短いビット数で表現することが望ましい. 次項より  $IP_{max}$ ,  $I_{aj}$  を表現するためのビット数について 考察する.



図 5: 実行/停止コアの決定回路

#### 3.4.1 一般的な量子化手法と問題点

量子化とは連続値をとる定義域から離散値をとる定義域 に写像することである.時刻 t ( $0 \le t < T$ )にとる値を  $d_t$ とし,その値域を  $0 \le d_t \le h$ とする.値域の最大値 h を  $2^w - 1$ に割り当てると量子化幅 r は次の式で表される.

$$r = \frac{h}{2^w - 1} \tag{4}$$

 $d_t$ の量子化後のビット表現 $v_t$ は、以下の条件を満たす値となる.

$$v_t r - \frac{r}{2} < d_t \le v_t r + \frac{r}{2} \tag{5}$$

したがって  $d_t$  の量子化後の値は  $v_t r$  で表される.  $\varepsilon$  を平均 二乗誤差とすると,次の式で表される.

$$\varepsilon = \sqrt{\frac{\sum_{t=0}^{T-1} (d_t - v_t r)^2}{T}} \tag{6}$$

この量子化手法を本研究の消費電流の量子化にそのまま 適用すると以下の2つの問題が発生する.

- A. 命令の消費電流が実際よりも小さく近似された場合に 電流変化の大きさを保証できない
- B. 量子化誤差が大きくなる場合がある

問題 A は式 5 より量子化後の値が元の値よりも小さく 近似される場合があるため発生する。制約を満たすように クロックゲーティングしても実際には制約を超える可能性 がある。

問題 B は量子化するデータによっては量子化誤差が大き くなる場合があるため発生する.前述の量子化方法では量 子化するデータの最大値 h をビット表現 2<sup>w</sup> – 1 に割り当 てた.これにより量子化ビット数 w に対して量子化幅を最

## Algorithm 1 量子化アルゴリズム

Input: 命令の消費電流 d<sup>\*</sup>, 量子化ビット数 w, パイプライン段数 S. コア数 C Output: 命令の消費電流の量子化値 v<sub>t</sub>\* 1:  $h \leftarrow \max d_t^*$ 2:  $r_{\min} \leftarrow \lceil h/(2^w - 1) \rceil$ 3:  $r_{\max} \leftarrow \lfloor h/(2^{w-1}-1) \rfloor$ 4:  $\varepsilon \leftarrow \infty$ 5: for  $r = r_{\min}$  to  $r_{\max}$  do  $k \leftarrow 0$ 6: 7: for t = 0 to SC - 1 do  $v'_t \leftarrow \lceil d_t/r \rceil$ 8: 9:  $k \leftarrow k + (d_t - v'_t r)^2$ end for 10: $\varepsilon' \leftarrow \sqrt{k/(SC)}$ 11:  $\ \, {\bf if} \ \varepsilon' < \varepsilon \ {\bf then} \ \,$ 12: $\varepsilon \leftarrow \varepsilon'$ 13:14: $v_t^* \leftarrow v_t'^*$ 15:end if 16: end for 17: return  $v_t^*$ 

も細かく設定できる.しかし,量子化するデータが予め決 まっている場合,量子化幅をあえて荒く設定する方が誤差 が小さくなる場合がある.

3.4.2 量子化アルゴリズム

本項では 3.4.1 項で説明した問題を改善した量子化アル ゴリズムを説明する.

問題 A は式 5 を以下のように改善することで解決する.  $d_t$  は量子化するデータ, $v_t$  は量子化後のビット表現,r は量子化幅を表す.

$$(v-1)r < d_t \le vr \tag{7}$$

量子化後の電流値が元の値と比べて大きいか等しくなるように近似されるため問題 A を解決できる.

問題 B は,量子化幅を変化させて最も平均二乗誤差が 小さくなるような量子化幅で量子化することで解決する.  $r_{\min}$ を量子化ビット数 w に対して設定できる最も細かい 量子化幅, $r_{\max}$ を最も荒い量子化幅とすると,それぞれ以 下の式で表される.hは量子化するデータの最大値を表す.

$$r_{\min} = \left\lceil \frac{h}{2^w - 1} \right\rceil, \quad r_{\max} = \left\lfloor \frac{h}{2^{w-1} - 1} \right\rfloor$$
(8)

以上の改善を行った量子化アルゴリズムを Algorithm 1 に示す.  $d_i^*$  は命令の消費電流  $\{d_0, d_1, \dots, d_{SC-1}\}$  を表す. まず命令の消費電流の最大値 h と量子化幅を変化させる下 限  $r_{\min}$ , 上限  $r_{\max}$  を求める. 量子化幅  $r \in r_{\min}$  から  $r_{\max}$ まで変化させ, それぞれについて量子化を行い最小二乗誤 差を求める. 最小二乗誤差が最も小さくなれば誤差を  $\varepsilon$  に, 量子化結果を  $v_i^*$  に記憶する. 全量子化幅について計算し たら最も誤差が小さい量子化結果  $v_i^*$  を返す. 量子化結果  $v_i \in v_i^*$  は  $0 \le v_i \le 2^w - 1$  となり w ビットで表現できる.

## 4. 評価実験

本節では提案するクロックゲーティング機構を用いた場 合の性能低下について評価し,最終的にどの程度,電流変 化量を抑えることができたのかを評価する.

#### 4.1 評価環境

本評価ではプロセッサのコアとして Brownie STD 32 [4] を用いた.Brownie STD 32 は 32 ビットデータバス,32 ビット命令バス,4 段パイプライン,ハーバードアーキテ クチャを持つ RISC プロセッサである.プロセッサの動作 電圧は 1.8V である.実験するシステムは4つの Brownie STD 32 プロセッサコアとコアの実行を制御するクロッ クゲーティング機構で構成される.クロックゲーティン グ機構は命令の消費電流を10 ビット,4ビット,3ビッ ト,2ビットで量子化した場合の4種類を実装した.10 ビット実装は、測定した命令の消費電流を整数に丸めた値 をそのまま用いた実装である.システムの実装後 Design Compiler を用いてクロックゲーティング機構の面積や消 費電力を測定した.用いたスタンダードセルライブラリは TSMC 0.18µm の Typical で,遅延や面積を最小化して測 定を行った.

評価のために, DSPstone [5] からランダムに選んだ 100 個のプログラムをタスクとして与えた. これらのプログラ ムは ASIP Meister [6] によって生成された Brownie STD 32 のコンパイラを用いてコンパイルした. 全てのタスクの 実行にかかった実行サイクル数を性能低下の評価に用いた.

#### 4.2 実験結果

#### 4.2.1 プロセッサの性能低下の評価

図6と表3に制約電流値を変化させたときの実行サイク ル数を示す.この制約電流値には混乱を防ぐ目的でクロッ クゲーティング機構の消費電流を含めていない.1コアの 最大電流変化量を考慮して制約電流値の下限を700µAに 設定した.最大値選択法は3.2.2項で説明した方法で事前 に計算して得られた結果で,それ以外は提案手法である最 大値選択法の近似法を用いた場合の結果である.クロック ゲーティング機構を用いない場合のサイクル数は図6より 2,100サイクルである.制約電流値が小さくなるほどコア が停止される確率が高くなり,いずれの場合も実行サイク ル数が増加していることが分かる.制約電流値が700µAの とき性能低下が最も大きく,最大値選択法では0.43%,10 ビット実装では1.90%,4ビット実装では3.14%,3ビット 実装では3.24%,2ビット実装では7.00%サイクル数が増 えた.

#### 4.2.2 電流変化量の削減率の評価

提案するクロックゲーティング機構の面積と消費電力の



図 6: 性能低下の実験結果

| 制約<br>電流値 | 最大値<br>選択法 | 最大値選択法の近似法 [cycles] |          |          |          |
|-----------|------------|---------------------|----------|----------|----------|
| $[\mu A]$ | [cycles]   | 10 ビット              | 4 ビット    | 3 ビット    | 2 ビット    |
| 700       | 2,109      | 2,140               | 2,166    | 2,168    | 2,247    |
|           | (+0.43%)   | (+1.90%)            | (+3.14%) | (+3.24%) | (+7.00%) |
| 750       | 2,106      | 2,119               | 2,134    | 2,144    | 2,247    |
|           | (+0.29%)   | (+0.90%)            | (+1.62%) | (+2.10%) | (+7.00%) |
| 800       | 2,105      | 2,116               | 2,121    | 2,144    | 2,247    |
|           | (+0.24%)   | (+0.76%)            | (+1.00%) | (+2.10%) | (+7.00%) |
| 850       | 2,104      | 2,112               | 2,121    | 2,144    | 2,247    |
|           | (+0.19%)   | (+0.57%)            | (+1.00%) | (+2.10%) | (+7.00%) |
| 900       | 2,101      | 2,107               | 2,112    | 2,117    | 2,247    |
|           | (+0.05%)   | (+0.33%)            | (+0.57%) | (+0.81%) | (+7.00%) |
| 950       | 2,102      | 2,104               | 2,108    | 2,117    | 2,139    |
|           | (+0.10%)   | (+0.19%)            | (+0.38%) | (+0.81%) | (+1.86%) |

表 3: 性能低下の実験結果

測定結果を表4に示す.消費電力とプロセッサの動作電 圧を基に計算した消費電流も合わせて掲載している.表4 より最小の量子化ビット数である2ビットで実装した場 合,10ビット実装の場合から面積を68.7%,消費電力を 69.8%削減できた.量子化ビット数が3ビット,4ビット と大きくなるにつれて面積や消費電力が増大した.

提案するクロックゲーティング機構を用いない場合の 最大電流変化量は、事前の測定により5,824µAであった. 図 6より、性能低下が起こらない(実行サイクル数が増 えない)条件下では、マルチプロセッサの電流変化量を2 ビット実装の場合1,850µA、3ビット実装の場合1,650µA、 4ビット実装、10ビット実装の場合1,450µAまで削減で きた.しかし実際にはクロックゲーティング機構の消費電 流も考慮する必要がある.表4に示した消費電流をそれ ぞれ加算して、提案するクロックゲーティング機構を用い た場合の最大電流変化量は、2ビット実装の場合3,427µA (-41.2%)、3ビットの場合3,653µA(-37.3%)、4ビットの場 合3,780µA(-35.1%)まで削減することができた.10ビッ ト実装の場合は、クロックゲーティング機構の消費電流が 5,220µAと大きく電流変化量を削減できなかった.

|  | 表 4: | クロックゲーテ | ング機構の面積と消費電力 |
|--|------|---------|--------------|
|--|------|---------|--------------|

|          | 面積 $[\mu m^2]$ | 消費電力 [mW] | 消費電流 [μA] |  |  |
|----------|----------------|-----------|-----------|--|--|
| 10 ビット実装 | 20,470         | 9.396     | 5,220     |  |  |
| 4 ビット実装  | 9,573          | 4.194     | 2,330     |  |  |
|          | (-53.2%)       | (-55.4%)  |           |  |  |
| 3 ビット実装  | 7,940          | 3.606     | 2,003     |  |  |
|          | (-61.2%)       | (-61.6%)  |           |  |  |
| 2 ビット実装  | $6,\!596$      | 2.838     | 1,577     |  |  |
|          | (-68.7%)       | (-69.8%)  |           |  |  |

# 5. 結論

本論文では電源ノイズの原因となるプロセッサの電流変 化を一定以下の大きさに抑えるためのクロックゲーティン グ機構を提案した.提案手法では実行/停止コアの決定アル ゴリズムを工夫することで回路の実装コストを抑えつつプ ロセッサの性能低下を抑えた.評価実験によって,クロッ クゲーティングに伴うプロセッサの性能低下を最大7%に 抑えることを確認した.また提案するクロックゲーティン グ機構を用いることで,性能低下が起きない(実行サイク ル数が増加しない)条件下で,電流変化量を2ビット実装 の場合41.2%,3ビット実装の場合37.3%,4ビット実装の 場合35.1%削減することを確認した.

# ACKNOWLEDGEMENT

本研究は JSPS 科研費 JP26330064 の助成を受けたもの である.

# 参考文献

- C.-H. Lu, H.-M. Chen, and C.-N. J. Liu, "Effective decap insertion in area-array soc floorplan design," ACM Transactions Design Automation of Electronic Systems, vol. 13, no. 4, pp. 66:1–66:20, Oct. 2008.
- [2] J. Henkel, S. Pagani, H. Khdr, F. Kriebel, S. Rehman, and M. Shafique, "Towards performance and reliabilityefficient computing in the dark silicon era," in 2016 Design, Automation Test in Europe Conference Exhibition (DATE), March 2016, pp. 1–6.
- [3] M. Sueishi, M. Kitakami, and H. Ito, "Fault-tolerant message switching based on wormhole switching and backtracking," in *Dependable Computing*, 2004. Proceedings. 10th IEEE Pacific Rim International Symposium on, March 2004, pp. 183–190.
- [4] H. Iwato, T. Hieda, H. Tanaka, J. Sato, K. Sakanushi, Y. Takeuchi, and M. Imai, "A highly extensible base processor for short-term asip design," *IPSJ SIG Technical Reports*, vol. 2007, no. 114, pp. 133–138, 2007 (in Japanese).
- [5] V. Zivojnovic, J. Mart, C. Schlager, and H. Meyr, "DSPstone: A DSP-oriented benchmarking methodology," in Proceedings of the International Conference on Signal Processing Applications and Technology, 1994.
- [6] M. Imai, Y. Takeuchi, K. Sakanushi, and N. Ishiura, "Advantage and possibility of application-domain specific instruction-set processor (ASIP)," *IPSJ Transactions on System LSI Design Methodology*, vol. 3, pp. 161–178, 2010.