# 幅広い動作性能領域で最小エネルギー動作を実現する 電源電圧としきい値電圧の動的決定手法

園田 翔也<sup>1,a)</sup> 塩見 準<sup>1</sup> 小野寺 秀俊<sup>1</sup>

概要:本稿では,要求遅延制約に応じて電源電圧としきい値電圧を動的に調節し,集積回路の消費エネル ギーを最小化する手法を提案する.本稿では,要求遅延制約を満たしつつ消費エネルギーを最小化する電源 電圧としきい値電圧の組を最小エネルギー点とよぶ.先行研究では,最小エネルギー点の追跡に反復的かつ 微少量の電圧調節が必要になる,または追跡可能な動作性能領域が限られる課題があった.本稿では,要求 遅延制約と電圧のルックアップテーブル,および MEP をモデル化した式に基づき,幅広い動作性能領域で 2-6 回の電圧調節により最小エネルギー点を追跡可能な手法を提案する.さらに,商用の 65 nm SOTB プ ロセスを用いて設計した 32bit RISC プロセッサの実測で,提案手法により消費エネルギーのオーバーヘッ ド 5% 以内で最小エネルギー点を追跡可能であることを示す.

# Runtime Energy Optimization over a Wide Operating Performance Region Based on Dynamic Supply and Threshold Voltage Scaling

Shoya Sonoda $^{1,\mathrm{a})}~$  Jun Shiomi $^1~$  Hidetoshi Onodera $^1$ 

Abstract: This paper proposes a runtime voltage-scaling method that optimizes the supply voltage  $(V_{dd})$ and the threshold voltage  $(V_{th})$  under a given delay constraint. This paper refers to the optimal voltage pair as a Minimum Energy Point (MEP). Although MEP tracking techniques have been widely studied, there are some issues; for example, (1) the target operating performance region is limited, or (2) fine-grained and iterative  $V_{dd}$  tuning is required. This paper proposes a voltage scaling technique enabling to set  $V_{dd}$  and  $V_{th}$  to near the MEP without iteratively tuning the voltages. The proposed technique is based on a lookup table and a closed-form function that determines the MEP over a wide operating performance region ranging from the above-threshold region down to the sub-threshold region. Measurement results based on a 32-bit RISC processor fabricated in a 65-nm process technology shows that the proposed method estimates the MEP within a 5% energy error in comparison with the actual MEP operation.

# 1. 序論

近年, 普及が進む IoT デバイスの多くは内蔵バッテリー のみで長時間継続して動作する必要がある.したがって, 集 積回路の低消費エネルギー化は重要な課題となっている.

集積回路の消費エネルギーを低減する手法として, 電源 電圧 ( $V_{dd}$ ) やしきい値電圧 ( $V_{th}$ ) の動的調節が挙げられる. Dynamic Voltage and Frequency Scaling (DVFS) により 要求遅延制約に応じて  $V_{dd}$  を調節することで, 動的消費エ (ABB) により  $V_{th}$  を調節することで,回路の動作速度を遅 くし静的消費エネルギー ( $E_s$ ) を低減できる [1]. DVFS と ABB を組み合わせて  $V_{dd}$  と  $V_{th}$  を同時に調節することで, 要求遅延制約を満たしながらより効果的に消費エネルギー を削減できる [1]. 本稿では要求遅延制約を満たしながら, 集積回路の消費エネルギーを最小化する  $V_{dd}$  と  $V_{th}$  の組 を最小エネルギー点 (Minimum Energy Point: MEP) と 呼ぶ. MEP は要求遅延制約,活性化率,チップ温度により 幅広く変動する [2]. 活性化率は回路中のトランジスタが 1 クロックサイクルで 0 から 1 に変化する平均確率を表し,

ネルギー (E<sub>d</sub>) を低減できる [1]. Adaptive Body Biasing

<sup>1</sup> 京都大学大学院情報学研究科

<sup>&</sup>lt;sup>a)</sup> s\_sonoda@vlsi.kuee.kyoto-u.ac.jp

 $E_{\rm d}$  と強い相関がある. 同様に, チップ温度は  $E_{\rm s}$  と強い相関がある.

MEP の追跡に関する研究は 20 年以上前から行われてお り、様々な手法が提案されている. 先行研究 [2,3] により要 求遅延制約, 活性化率, チップ温度が変化しても幅広い動作 性能領域で MEP を追跡することができる. しかし, 反復 的かつ微少量の  $V_{dd}$  の調節を必要とするため, MEP の追 跡に時間がかかり, 同時にハードウェアコストが大きい課 題がある. 先行研究 [4–6] は MEP を解析的に導出してい るため反復的な電圧調節を必要としないが, 解析式を利用 可能な動作性能領域が限られている課題がある. 本稿では, 要求遅延制約,  $V_{dd}$ ,  $V_{th}$  のルックアップテーブル (LookUp Table: LUT) と解析式に基づき MEP を追跡する手法を提 案する. 提案手法により, 幅広い動作性能領域で, 反復的か つ微少量の  $V_{dd}$  の調節を行わずに MEP を追跡できる.

本稿の構成を以下に示す. 第2章では, 先行研究と本稿 の成果を述べる. 第3章では, 対応表と解析式に基づき MEP を追跡する手法を述べる. 第4章では, 商用の 65 nm SOTB プロセスを用いて設計した 50 段 ファンアウト4 (FO4) インバータチェインのトランジスタレベルシミュ レーションと 32-bit RISC プロセッサの実測により, 提案 手法の検証を行う. 第5章で本稿をまとめる.

#### 2. 関連研究と本稿の成果

集積回路の消費エネルギーを低減するための電圧調節技 術は広く研究されている.電圧調節に基づく低消費エネル ギー化の代表的な手法として DVFS がある. DVFS は,要 求動作速度と V<sub>dd</sub> の LUT を事前に用意し, LUT に基づき V<sub>dd</sub> を変更する技術である [7]. DVFS により,要求動作速 度が遅くなった場合に消費エネルギーを低減できるが,以 下の 2 点の理由により,消費エネルギーのオーバーヘッド が発生する.

- V<sub>th</sub> の変更を行わないため E<sub>s</sub> を効率よく削減できない.
- 事前に用意した LUT に基づき V<sub>dd</sub> を決定するため、 温度の変化や製造プロセスで生じる性能ばらつきを考 慮した V<sub>dd</sub> のマージンが必要になる。

DVFS で発生する消費エネルギーのオーバーヘッドを改善 するために,要求動作速度を満たしながら $V_{dd}$ と $V_{th}$ を同 時に調節することで,消費エネルギーを最小化する手法が 研究されている.文献 [8] で提案されている基板電圧生成 回路 (Body Bias Generator: BBG) により自律的に $V_{th}$ を 調節し,要求遅延制約を満たしながら $E_s$ を最小化できる.

本稿では要求遅延制約を満たしながら,集積回路の消費 エネルギーを最小化する  $V_{dd} \geq V_{th}$  の組み合わせを MEP と呼ぶ. 文献 [2,3] では,反復的かつ微小量の  $V_{dd}$ ,  $V_{th}$  の 調節により, MEP を追跡するアルゴリズムが提案されて いる. 文献 [2,3] の手法により要求遅延制約,活性化率,温 度が幅広く変化しても MEP を追跡できる. しかし, 電圧 調節のたびに回路の稼働状況をモニタし MEP 動作して るか確認する必要があるため追跡にかかる時間が長く, 反 復的かつ微小量の  $V_{dd}$  の調節にかかるハードウェアコス トが大きい課題がある. 文献 [4–6] では, Complementary Metal-Oxide Semiconductor (CMOS) 回路の性能モデル式 を利用して MEP をモデル化した式が提案されている. し かし, MEP をモデル化可能な動作性能領域が, アバブス レッショルド領域 ( $V_{dd} \gg V_{th}$ ) またはサブスレッショルド 領域 ( $V_{dd} \le V_{th}$ ) の一方かつその内部のみに限られている 課題がある.

本稿では、LUT と MEP を閉形式関数でモデル化した式 (MEP 決定式) を利用して, MEP を追跡する手法を提案す る. 提案手法では, LUT に基づき V<sub>dd</sub>, V<sub>th</sub> を調節し, 必ず 要求遅延制約を満たす動作点に移動する. ただし, DVFS では要求動作速度と V<sub>dd</sub>の対応関係を保持した LUT を利 用していたが、提案手法では要求遅延制約と V<sub>dd</sub>, V<sub>th</sub>の対 応関係を保持した LUT を利用する. LUT に基づき V<sub>dd</sub>,  $V_{\rm th}$ を変更した後, MEP 決定式により最適な  $V_{\rm dd}, V_{\rm th}$ の 値を決定する. MEP 決定式の計算には現在の動作点にお ける *E*<sub>d</sub>, *E*<sub>s</sub>, *T* の測定結果を利用する. *E*<sub>d</sub> の測定に利用 するモニタ回路は文献 [9,10] で提案されている. 同様に, *E*<sub>s</sub>のモニタ回路は文献 [10,11] で, *T*のモニタ回路は文 献 [11] で提案されている. MEP 決定式により V<sub>dd</sub>, V<sub>th</sub> の 最適値を求められるため,反復的かつ微小量の V<sub>dd</sub> の調節 が不要になる. さらに, 本稿で提案する MEP 決定式は, ニ アスレッショルド領域 ( $V_{dd} \approx V_{th}$ ) を含む幅広い動作性能 領域で利用可能である.

## 3. 最小エネルギー点追跡手法

#### 3.1 最小エネルギー点の性質

本稿では、集積回路の消費エネルギーを 1 クロックサイ クルあたりに消費されるエネルギーと定義する.式 (1)–(3) に示すように、総消費エネルギー  $E_t$  は動的消費エネルギー  $E_d$  と静的消費エネルギー  $E_s$  の和で表せる.  $E_d$  は負荷容 量の充放電により消費されるエネルギーで,式 (2) に示す ように  $V_{dd}$  の 2 乗に比例して変化するが、 $V_{th}$  には依存し ない.  $E_s$  は主にサブスレッショルドリーク電流により消 費されるエネルギーで、式 (3) に示すように、 $V_{dd}$  とクリ ティカルパス遅延 D に比例し、 $V_{th}$  の指数関数に比例する.  $k_1, k_2$  はフィッティング係数である.  $V_0$  は MOSFET の 理想係数 n と熱電圧  $v_t$  の積である.  $v_t$  は絶対温度 T に比 例して変化する.

$$E_{\rm t} = E_{\rm d} + E_{\rm s}.\tag{1}$$

 $E_{\rm d} = k_1 \cdot V_{\rm dd}^2. \tag{2}$ 

$$E_{\rm s} = k_2 \cdot D \cdot V_{\rm dd} \cdot e^{-\frac{V_{\rm th}}{V_0}}.$$
(3)

D は式 (4)-(6) でモデル化できる. 式 (4)-(6) はそれぞ



図 1 温度 25°C, 活性化率 0.01 における遅延等高線, エネルギー 等高線, MEP.

れアバブスレッショルド領域 [4], ニアスレッショルド領 域 [12], サブスレッショルド領域 [6] の遅延を表す.  $k_3$  か ら  $k_7$  と  $\alpha$  はフィッティング係数を表し,  $\alpha$  は 1 から 2 の 値を取る.

$$D = \frac{k_3 \cdot V_{\rm dd}}{(V_{\rm dd} - V_{\rm th})^{\alpha}}.$$
(4)

 $D = k_4 \cdot V_{\rm dd} \cdot e^{-k_5 (V_{\rm dd} - V_{\rm th}) - k_6 (V_{\rm dd} - V_{\rm th})^2}.$  (5)

$$D = k_7 \cdot V_{\rm dd} \cdot e^{-\frac{V_{\rm dd} - V_{\rm th}}{V_0}}.$$
 (6)

先行研究 [4–6] では式 (4) または (6) に基づき MEP を モデル化しているため, MEP をモデル化した式を利用可能 な動作性能領域に制限がある. そこで,本稿では式 (7) に 示す Enz-Krummenacher-Vittoz (EKV) モデルに基づく 遅延モデルを利用して,幅広い動作性能領域で MEP をモ デル化する [13].

$$D = \frac{K V_{\rm dd}}{\ln^{\alpha} \left(1 + \mathrm{e}^{\frac{V_{\rm dd} - V_{\rm th}}{\alpha V_0}}\right)}.$$
 (7)

図1に遅延等高線, エネルギー等高線, MEP の軌跡の一 例を示す. 図1は 50段 ファンアウト4 (FO4) インバー タチェインのトランジスタレベルシミュレーションから得 られらた結果である. 青い線, 黒い点線, 赤いバツ印はそれ ぞれ遅延等高線, エネルギー等高線, MEP を表す. 図1が 示すように, 一般的な CMOS 回路において遅延等高線は 概ね直線状になり, エネルギー等高線は年輪上に広がって いく. さらに, MEP は遅延等高線とエネルギー等高線の接 点になる [2].

#### **3.2** 提案手法の概要

本稿は幅広い動作性能領域で MEP を追跡する手法を 提案する. 図 2 に提案手法の概要を示す. "init" は現在の 動作点を表す. 図 2 に示すように, 始めに要求遅延制約と  $V_{dd}, V_{th}$ の対応関係を保持する LUT に基づき動作点を変 更する. ただし, DVFS と同様, 必ず要求遅延制約を満たす 動作点に移動するために, マージンを設定した LUT を利 用する必要がある. したがって, LUT に基づき決定した動



作点は要求遅延制約よりも小さい遅延で回路が動作してい るため、V<sub>th</sub> を変更し要求遅延制約を追跡する. 文献 [8] の BBG により、V<sub>th</sub> を自律的に変更し要求遅延制約を追跡で きる. 以降, LUT に基づき電圧調節を行った後, 基板電圧 生成回路を用いて要求遅延制約を満たす動作点に移動する ことを"LUT と BBG に基づき遅延制約を追跡する"と表 現する. LUT と BBG に基づく要求遅延制約の追跡に必要 な電圧調節回数は 3 回である.

次に、図 2 に示すように "init2" を初期点として MEP を追跡する. ただし、要求遅延制約の追跡が完了している 状態でのみ MEP の追跡を行うため、追跡の前後で要求遅 延制約は変化しないと仮定する. MEP の追跡には、幅広 い動作性能領域で MEP をモデル化した MEP 決定式を利 用する. 現在の動作点で  $E_d$ ,  $E_s$ , T をモニタし、MEP 決 定式に代入することで、MEP の推定値を求める. その後、  $V_{\text{th}}$ ,  $V_{\text{dd}}$  を MEP の推定値に調節する. MEP の推定値の 追跡に必要な電圧調節回数は 2 回または 3 回である. LUT の詳細は 3.3 節で述べる. MEP 決定式の導出は 3.4 節で 述べる. MEP 決定式を利用して MEP を追跡するアルゴ リズムは 3.5 節で述べる.

#### 3.3 ルックアップテーブルの作成

3.2 節で述べたように、提案手法では LUT と BBG に基 づき、必ず要求遅延制約を満たす動作点に移動する. LUT を参照することで、要求遅延制約を入力すると 1 つの動作 点、つまり V<sub>th</sub>、V<sub>dd</sub> の組を出力できる. 出力された V<sub>th</sub>、 V<sub>dd</sub> に動作点を移動させることで、必ず要求遅延制約を満 たす動作点に移動できる. ただし、DVFS と同様、温度や製 造プロセスで生じる性能ばらつきを考慮し、V<sub>th</sub> または V<sub>dd</sub> にマージンを設定する必要がある. したがって、静的タイ ミング解析などを用いて、クリティカルパス遅延の最悪値 を事前に評価した結果に基づいて、V<sub>th</sub>、V<sub>dd</sub> のマージンを 設定し LUT を作成する.

#### 3.4 最小エネルギー点決定式の導出

3.1 節で述べたように, 本稿では EKV モデルに基づく遅

延モデルを利用して MEP 決定式を導出する. MEP 決定 式の導出には, 文献 [2,4] と同様, 以下に示す CMOS 回路 の 2 つの特性を利用する (図 1 参照).

• 遅延等高線は概ね直線状になる.

MEP は遅延等高線とエネルギー等高線の接点になる.
 遅延等高線が概ね直線状になることから,遅延等高線は式
 (8)のように近似できる.ただし, *f*(*D*), *g*(*D*) は遅延等高線の傾き,切片をそれぞれ表す.

$$V_{\rm dd} = f(D)V_{\rm th} + g(D). \tag{8}$$

3.2 節で述べたように、MEP の追跡は要求遅延制約が一定 という条件の下で行われる. そこで、要求遅延制約を満たす 動作点の 1 つを ( $V_{\text{th,init}}, V_{\text{dd,init}}$ ) とする. f(D), g(D) は  $V_{\text{th,init}}, V_{\text{dd,init}}$ を用いて式 (9)–(11) のように表せる.

$$p = \exp\left(\frac{V_{\rm dd,init} - V_{\rm th,init}}{\alpha V_0}\right). \tag{9}$$

$$f(D) = \frac{\frac{\partial D_{\text{th}}}{\partial V_{\text{th}}}}{-\frac{\partial D}{\partial V_{\text{dd}}}}$$
$$= \frac{V_{\text{dd,init}}}{V_{\text{dd,init}} - (1 + \frac{1}{p}) \cdot V_0 \cdot \ln(p+1)}.$$
(10)

$$g(D) = V_{\rm dd,init} - f(D)V_{\rm th,init}.$$
 (11)

f(D) と同様にして, MEP におけるエネルギー等高線の傾 き  $s_{\rm E}$  を式 (12) に示すように求められる.

$$s_E = \frac{\frac{\partial E_{\rm t}}{\partial V_{\rm th}}}{-\frac{\partial E_{\rm t}}{\partial V_{\rm dd}}} = \frac{E_{\rm s,MEP} \cdot V_{\rm dd,MEP}}{(2E_{\rm d,MEP} + E_{\rm s,MEP})V_0}.$$
 (12)

MEP は遅延等高線とエネルギー等高線の接点になること から、MEP において  $f(D) = s_E$  が成り立つ.したがって、 式 (10) と (12) を等式で結ぶことで、MEP における  $E_s$  と  $E_d$  の比を式 (13) のように求められる.ただし、 $V_{dd,MEP}$ は  $f(D)V_0$  より 5–10 倍以上大きいことから式 (13) に示 す近似を用いている.

$$(E_{\rm s}/E_{\rm d})_{\rm MEP} = \frac{2f(D) \cdot V_0}{V_{\rm dd,MEP} - f(D)V_0} \approx \frac{2f(D) \cdot V_0}{V_{\rm dd,MEP}}.$$
(13)

式 (13) の左辺に式 (2), (3) を代入することで, V<sub>th,MEP</sub> を 式 (14) のように求められる. 式 (14) を式 (8) に代入する ことで V<sub>dd,MEP</sub> を式 (15) のように求められる.

$$V_{\rm th,MEP} = V_0 \cdot \ln\left(\frac{k_2 \cdot D}{2k_1 \cdot f(D) \cdot V_0}\right). \tag{14}$$

$$V_{\rm dd,MEP} = f(D) \cdot V_{\rm th,MEP} + g(D).$$
(15)

式 (14) には回路の稼働状況に応じて変動するフィッティ ング係数  $k_1, k_2$  が含まれている.本稿では,  $k_1, k_2$  の動的 変動を予測するために,  $E_s, E_d$  をモニタ回路により測定し た値を利用する.したがって,式 (2), (3) を利用し  $k_1, k_2$ を消去することで, MEP 決定式 (16)–(19) を初期点におけ る回路の稼働状況  $V_{dd,init}, V_{th,init}, E_{d,init}, E_{s,init}, T_{init}$  の 関数で表現できる. ただし,  $\alpha$  と n は事前にフィッティン グを行い, 求めておく必要がある.

$$p = \exp\left(\frac{V_{\rm dd,init} - V_{\rm th,init}}{\alpha V_0}\right).$$
 (16)

$$f(D) = \frac{V_{\rm dd,init}}{V_{\rm dd,init} - (1 + \frac{1}{p}) \cdot V_0 \cdot \ln(p+1)}.$$
 (17)

$$V_{\rm th,MEP} = V_{\rm th,init} + V_0 \cdot \ln\left(\frac{E_{\rm s,init} \cdot V_{\rm dd,init}}{2f(D)V_0 \cdot E_{\rm d,init}}\right).(18)$$

$$V_{\rm dd,MEP} = f(D)(V_{\rm th,opt} - V_{\rm th,init}) + V_{\rm dd,init}.$$
 (19)

#### 3.5 最小エネルギー点追跡アルゴリズム

MEP 追跡アルゴリズムのフローチャートを図 3 に示す. 始めに、回路の稼働状況をモニタし、現在の動作点が MEP 動作しているか判定する. MEP 動作していないと判定さ れた場合のみ、MEP の追跡を行う. MEP を追跡する場合、 モニタ結果を MEP 決定式 (16)–(19) に代入して MEP の 推定値を求める. 推定値に基づき、V<sub>th</sub>, V<sub>dd</sub> を変更すること で MEP を追跡する.

MEP 動作判定は, 文献 [3] と同様の方法で行う. MEP 付近では  $E_{\rm s}/E_{\rm d}$  が変化しても消費エネルギーのオーバー ヘッドはほとんど発生しないことが知られている. した がって, MEP 動作判定式  $r_{\rm min} \leq E_{\rm s,init}/E_{\rm d,init} \leq r_{\rm max}$  を 満たすかによって MEP 動作しているか判定する.

図 4 に MEP 追跡のために  $V_{\text{th}}$ ,  $V_{\text{dd}}$  を調節するときの要 点を示す.ただし,  $D_{\text{clk}}$  はクロック周期を表す. MEP 追跡 中にタイミングバイオレーションを起こさないために, 図 4 に示すように, 常に  $D_{\text{clk}}$  の遅延等高線より左上の領域で動 作点を移動させる.したがって,  $V_{\text{dd,init}}$  と  $V_{\text{dd,MEP}}$ の大小



図3 最小エネルギー点追跡アルゴリズムのフローチャート.





関係により V<sub>th</sub>, V<sub>dd</sub> の調節順序を変更する. 図 5 に MEP 追跡時の動作点の変更順序を示す. V<sub>dd,init</sub> < V<sub>dd,MEP</sub> の とき、 $V_{\rm dd}$ を $V_{\rm dd,MEP}$ に変更してから $V_{\rm th}$ を変更する.し たがって、必要な電圧調節回数は2回である. Vth の変 更に文献 [8] の BBG を利用することで, D<sub>MEP</sub> の遅延 等高線上に,動作点を自律的に移動させることができる.  $V_{\rm dd,init} > V_{\rm dd,MEP}$ のとき、はじめに  $V_{\rm th}$ を  $V_{\rm th,margin}$ に変 更してから, V<sub>dd</sub> を V<sub>dd,MEP</sub> に変更する. V<sub>th,margin</sub> はタ イミングバイオレーションを起こさないように V<sub>th.MEP</sub> に マージンを取ったしきい値電圧を表す. その後, Vth を変 更し D<sub>MEP</sub> の遅延等高線上に動作点を移動させる. した がって、必要な電圧調節回数は3回である.ただし、動作 点  $(V_{\text{th,margin}}, V_{\text{dd,MEP}})$ は、いかなる状況においても、常に D<sub>MEP</sub> の遅延等高線より左上の領域に存在しなければなら ない. 遅延等高線の傾きは常に1より大きくなるため [14], 初期点を通る傾き 1 の直線上で V<sub>dd</sub> = V<sub>dd,MEP</sub> となる点 を考えることで、V<sub>th,margin</sub>を式 (20)のように表せる.

$$V_{\rm th,margin} = V_{\rm th,init} + V_{\rm dd,MEP} - V_{\rm dd,init}.$$
 (20)

### 4. 提案手法の検証

本章では、50段 FO4 インバータチェインのシミュレー ション結果と 32-bit RISC プロセッサの実測結果を用い て,提案手法の検証を行う.要求遅延制約の変化による MEP の変化を追跡する場合, MEP の追跡を開始する初 期点は LUT と BBG に基づいて決定される.本章では、 LUT と BBG に基づき求められた電圧条件を初期点とし て MEP 追跡アルゴリズムの検証のみを扱う. 検証対象の 回路の設計には 65-nm SOTB プロセスを用いた. MEP 動 作判定式の rmin, rmax は, それぞれ 0.05 および 0.40 とす る. 検証対象の FO4 インバータチェインが  $D_{\text{MEP}} = 2 \text{ ns}$ , *act* = 0.01, *T* = 25 °C で動作するとき, MEP 動作点判定 式 0.05 ≤ r ≤ 0.40 を満たす動作点では, MEP と比べた消 費エネルギーのオーバーヘッドが 5% 以内になる. act は 活性化率を,rは $E_{\rm s}/E_{\rm d}$ を表す. $D_{\rm MEP}$ , act, Tが幅広く 変動しても, MEP 動作点判定式を満たす動作点では, MEP と比べた消費エネルギーのオーバーヘッドが概ね 5% 以内 になる.



図 6 評価対象の 50 段 FO4 インバータチェイン.



図 7 シナリオ 1,2 の MEP 追跡.

# 4.1 50 段 ファンアウト 4 インバータチェインの検証 結果

始めに,図6に示す50段FO4インバータチェインの トランジスタレベルシミュレーション結果を用いて,提案 手法の有効性を検証する.前段の4つのFO4インバータ と後段の2つのFO4インバータは,それぞれ入力スルー レートと負荷容量を再現するために挿入する.MEPの追 跡は以下のシナリオを想定して行う.

- (1)活性化率 0.01,温度 25°C において、要求遅延制約が 2 ns に変化する.LUT と BBG に基づき要求遅延制 約を満たす動作点に移動してから MEP の追跡を行う ため、変化前の要求遅延制約の値は考慮しない.
- (2) 温度が 100 °C に上昇する. ただし, 温度の変化による 遅延の変化は BBG により, 自律的に追跡されている と仮定する.
- (3)要求遅延制約が100 ns に変化し、活性化率が0.05 に 変化する.

シナリオ 1,2 の結果を図 7 に示す. ただし,r は  $E_s/E_d$ を表す. "init1" はシナリオ 1 において LUT と BBG に基 づく要求遅延制約の追跡が完了した動作点である. "init1" では真の MEP ("Actual MEP1") と比べた消費エネルギー のオーバーヘッドが 20.2% となる. 提案手法により MEP を追跡し,動作点を"Tracked MEP1" に移動させること で,消費エネルギーのオーバーヘッドは 2.02% に減少す る. "init2" はシナリオ 2 において MEP の追跡を開始す る点である. 温度の上昇により,  $E_s$  が増加し r は大きくな る. したがって, "init2" は MEP 動作判定式を満たさなく



図 8 シナリオ 3 の MEP 追跡.



図 9 測定対象の 32-bit RISC プロセッサ.

なり, 再度 MEP の追跡が行われる. "init2" では 46.0% の 消費エネルギーのオーバーヘッドが発生するが, "Tracked MEP2" に動作点を移動させることで消費エネルギーの オーバーヘッドは 0.81% に減少する.

シナリオ 3 の結果を図 8 に示す. ただし, LUT と BBG に基づき要求遅延制約を追跡する過程は示していない. "init3"は LUT と BBG に基づく要求遅延制約の追跡が 完了した動作点である. "init3"では MEP と比べた消費 エネルギーのオーバーヘッドが 22.0% となる. 提案手法に より MEP を追跡することで, 消費エネルギーのオーバー ヘッドは 0.05% に減少する.

#### 4.2 32-bit RISC プロセッサを用いた検証

次に、32-bit 4 段パイプラインの RISC プロセッサの実 測結果を用いて、提案手法の有効性を検証する. ただし、プ ロセッサは離散コサイン変換を計算するプログラムを実行 する. 図 9 に検証対象のプロセッサのチップ写真を示す. プロセッサは 8-kB の I-SPM (Scratch Pad Memory) と 16-kB の D-SPM を搭載する. SPM はラッチを用いたデジ タルメモリにより設計される. VCO (Voltage-Controlled Oscillator) はチップに供給するクロック信号の生成に利用 される. MEP の追跡は以下のシナリオを想定して行う. た だし、 $V_{\rm th}$  は基板電圧  $V_{\rm bb}$  を印加して調節する [1].

- 温度 25 °C において, 要求遅延制約が 8.6 ns に変化 する.
- (2) 要求遅延制約が 160 ns に変化する.
- (3)活性化率が 1/8 に減少する. ただし, MEP の活性化



図 10 シナリオ 1 の MEP 追跡.



図 11 シナリオ 2,3 の MEP 追跡.

率依存性を評価するために *E*<sub>d</sub> は活性化率に比例する と仮定する.

シナリオ 1 の結果を図 10 に示す. "init1" は LUT と BBG に基づく要求遅延制約の追跡が完了した動作点であ る. "init1" では MEP と比べた消費エネルギーのオーバー ヘッドが 25.0% となる. 提案手法により MEP を追跡し, 動作点を "Tracked MEP1" に移動させることで, 消費エネ ルギーのオーバーヘッドは 0.81% に減少する.

シナリオ 2,3 の結果を図 11 に示す. "init2" はシナリ オ 2 において LUT と BBG に基づく要求遅延制約の追跡 が完了した動作点である. "init2" では MEP と比べた消 費エネルギーのオーバーヘッドが 13.4% となる. 提案手 法により MEP を追跡することで,消費エネルギーのオー バーヘッドは 0.21% に減少する. "init3" はシナリオ 3 に おいて MEP の追跡を開始する点である. 活性化率の減少 により,  $E_d$  が減少し r は小さくなる. したがって, "init3" は MEP 動作判定式を満たさなくなり,再度 MEP の追跡 が行われる. "init3" では 42.7% の消費エネルギーのオー バーヘッドが発生するが, MEP を追跡することで消費エ ネルギーのオーバーヘッドは 1.4% に減少する.

検証結果より, 幅広い動作性能領域で MEP と比べた消 費エネルギーのオーバーヘッド 5% 以内で MEP を追跡で きることを示した. 先行研究 [2,3] では V<sub>th</sub>, V<sub>dd</sub> を 10 mV ずつ反復的に調節し MEP を追跡するため, 10–150 回の電 圧調節が必要である.提案手法では,LUT と解析式を利用 することで 2-6 回の電圧調節で MEP を追跡できる.つま り,提案手法により,MEP 推定精度を落とさずに電圧調節 回数を大きく削減できる.

#### 5. 結論

本稿では、電源電圧  $V_{dd}$  としきい値電圧  $V_{th}$  を動的に変 更し、幅広い動作性能領域で最小エネルギー点 (MEP) を 追跡する手法を提案した.提案手法により要求遅延制約、 活性化率、温度が幅広く変動しても MEP を追跡すること ができる.提案手法は要求遅延制約と  $V_{dd}$ ,  $V_{th}$  の対応関係 を保持するルックアップテーブル (LUT) と基板電圧生成 回路を利用し、要求遅延制約を満たす動作点に移動した後、 MEP を閉形式関数でモデル化した式を利用して MEP を 追跡する. MEP をモデル化した式に、現在の動作点におけ る動的消費エネルギー、静的消費エネルギー、温度を測定し た値を代入することで MEP の推定値を求められる.

65-nm SOTB プロセスで設計した 50 段 ファンアウト 4 インバータチェインのシミュレーション結果と 32-bit RISC プロセッサの実測結果を用いて提案手法の検証を 行った.要求遅延制約,活性化率,温度が幅広く変化しても 提案手法により,消費エネルギーのオーバーヘッド 5% 以 下で MEP を追跡できる.

MEP の追跡を開始する初期点は MEP 推定精度に影響 を与える.したがって, MEP 追跡精度を向上される LUT の詳細な実装方式は今後の検討課題である.

謝辞 本研究は JSPS 科研費 (19K21531, 16H01713) に よる支援によって行われた.本研究は東京大学大規模集積 システム設計教育研究センターを通し,シノプシス株式会 社,日本ケイデンス株式会社,メンター株式会社の協力で行 われた.測定したプロセッサのアーキテクチャの設計を行 われた,名古屋大学大学院情報学研究科の石原亨教授に感 謝申し上げる.

#### 参考文献

- L. Yan, Jiong Luo, and N. K. Jha, "Joint Dynamic Voltage Scaling and Adaptive Body Biasing for Heterogeneous Distributed Real-Time Embedded Systems," *IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems*, vol. 24, no. 7, pp. 1030– 1041, July 2005.
- [2] S. Hokimoto, T. Ishihara, and H. Onodera, "Minimum Energy Point Tracking Using Combined Dynamic Voltage Scaling and Adaptive Body Biasing," in 2016 29th IEEE International System-on-Chip Conference (SOCC), Sep. 2016, pp. 1–6.
- [3] J. Lee, Y. Zhang, Q. Dong, W. Lim, M. Saligane, Y. Kim, S. Jeong, J. Lim, M. Yasuda, S. Miyoshi, M. Kawaminami, D. Blaauw, and D. Sylvester, "A Self-Tuning IoT Processor Using Leakage-Ratio Measurement for Energy-Optimal Operation," *IEEE Journal of Solid-State Circuits*, vol. 55, no. 1, pp. 87–97, 2020.

- [4] K. Nose and T. Sakurai, "Optimization of V<sub>DD</sub> and V<sub>TH</sub> for Low-Power and High-Speed Applications," in Proceedings 2000. Design Automation Conference. (IEEE Cat. No.00CH37106), Jan 2000, pp. 469–474.
- [5] D. Markovic, V. Stojanovic, B. Nikolic, M. A. Horowitz, and R. W. Brodersen, "Methods for True Energy-Performance Optimization," *IEEE Journal of Solid-State Circuits*, vol. 39, no. 8, pp. 1282–1293, Aug 2004.
- [6] Bo Zhai, D. Blaauw, D. Sylvester, and K. Flautner, "Theoretical and Practical Limits of Dynamic Voltage Scaling," in *Proceedings. 41st Design Automation Conference, 2004.*, July 2004, pp. 868–873.
- [7] H. Okano, T. Shiota, Y. Kawabe, W. Shibamoto, T. Hashimoto, and A. Inoue, "Supply Voltage Adjustment Technique for Low Power Consumption and Its Application to SOCs with Multiple Threshold Voltage CMOS," in 2006 Symposium on VLSI Circuits, 2006. Digest of Technical Papers., 2006, pp. 208–209.
- [8] A. Quelen, G. Pillonnet, P. Flatresse, and E. Beigne, "A 2.5μW 0.0067 mm<sup>2</sup> Automatic Back-Biasing Compensation Unit Achieving 50% Leakage Reduction in FDSOI 28nm over 0.35-to-1V VDD Range," in 2018 IEEE International Solid - State Circuits Conference - (ISSCC), 2018, pp. 304–306.
- [9] A. Sinha, N. Ickes, and A. P. Chandrakasan, "Instruction Level and Operating System Profiling for Energy Exposed Software," *IEEE Transactions on Very Large Scale Integration (VLSI) Systems*, vol. 11, no. 6, pp. 1044–1057, Dec 2003.
- [10] H. T. Mair, G. Gammie, A. Wang, R. Lagerquist, C. J. Chung, S. Gururajarao, P. Kao, A. Rajagopalan, A. Saha, A. Jain, E. Wang, S. Ouyang, H. Wen, A. Thippana, H. Chen, S. Rahman, M. Chau, A. Varma, B. Flachs, M. Peng, A. Tsai, V. Lin, U. Fu, W. Kuo, L. Yong, C. Peng, L. Shieh, J. Wu, and U. Ko, "A 20nm 2.5GHz Ultra-Low-Power Tri-Cluster CPU Subsystem with Adaptive Power Allocation for Optimal Mobile SoC Performance," in 2016 IEEE International Solid-State Circuits Conference (ISSCC), Jan 2016, pp. 76–77.
- [11] A. K. M. M. Islam, J. Shiomi, T. Ishihara, and H. Onodera, "Wide-Supply-Range All-Digital Leakage Variation Sensor for On-Chip Process and Temperature Monitoring," *IEEE Journal of Solid-State Circuits*, vol. 50, no. 11, pp. 2475–2490, Nov 2015.
- [12] S. Keller, D. M. Harris, and A. J. Martin, "A Compact Transregional Model for Digital CMOS Circuits Operating Near Threshold," *IEEE Transactions on Very Large Scale Integration (VLSI) Systems*, vol. 22, no. 10, pp. 2041–2053, Oct 2014.
- [13] C. C. Enz, F. Krummenacher, and E. A. Vittoz, "An Analytical MOS Transistor Model Valid in All Regions of Operation and Dedicated to Low-Voltage and Low-Current Applications," *Analog integrated circuits and signal processing*, vol. 8, no. 1, pp. 83–114, 1995.
- [14] T. Takeshita, T. Ishihara, and H. Onodera, "Guidelines for Effective and Simplified Dynamic Supply and Threshold Voltage Scaling," in 2016 International Symposium on VLSI Design, Automation and Test (VLSI-DAT), April 2016, pp. 1–4.