# HDR アーキテクチャを対象とした 複数電源電圧指向の低電力化高位合成手法

阿部晋矢<sup>†1</sup> 柳澤政生<sup>†2</sup> 戸川  $2^{\dagger 1}$ 

携帯機器の駆動時間や発熱が問題となる現代,低電力化を意識したLSI 設計が必要 である.半導体の微細化技術の向上のため,ゲート遅延に対する配線遅延の割合が増 加し,配線遅延を考慮した設計も必要である.システムLSIの設計手法として高位合 成があるが,低電力化と配線遅延の双方を意識した高位合成として HDR アーキテク チャを対象とした複数電源電圧指向の高位合成がある.しかし,これはスケジューリ ング/FU バインディングの際,直接的に消費エネルギーを最小化するのではなく,実 行時間の最小化を目的とすることで2次的に消費エネルギーを削減している.本稿で は,HDR アーキテクチャを対象とした,複数電源電圧を考慮した消費エネルギーの 最小化を目的とするスケジューリング/FU バインディングを提案する.計算機実験に より提案手法は,従来のレジスタ分散型アーキテクチャを対象とした手法と比較して 最大 15.9% 程度消費エネルギーを削減できることを確認した.

## Multiple Supply Voltages aware High-level Synthesis for HDR architecture

Shin-ya Abe,<sup>†1</sup> Masao Yanagisawa<sup>†2</sup> and Nozomu Togawa<sup>†1</sup>

As buttery runtime and overheating problems for portable devices become unignorable, energy-aware LSI design is strongly required. Moreover, an interconnect delay should be explicitly considered there because it exceeds a gate delay as the semiconductor devices are downsized. We must take account of energy efficiency and interconnect delay even in high-level synthesis. Recently, a *huddle-based distributed-register architecture (HDR architecture)*, which is a kind of island-based distributed-register architecture for multi-cycle interconnect communications, and its associated synthesis algorithm have been proposed. The algorithm is composed of scheduling/FU binding, huddling, unhuddling, and floorplanning. However, the original scheduling/FU binding does not minimize energy consumption directly but minimizes execution time. In this paper we propose a new scheduling/FU binding algorithm whose purpose is the minimization of energy consumption considering multiple supply voltages for HDR architectures. Experimental results show that our algorithm achieves 45.1 % energy-saving compared with the conventional distributed-register architectures and conventional algorithms, and 15.9 % energy-saving compared with the conventional algorithm for HDR architecture.

## 1. はじめに

携帯機器に搭載される LSI では駆動時間を伸ばすことが問題となり,据え置き器に搭載 される LSI では動作時の発熱が問題となっている.双方を解決するため低電力化を意識し た LSI 設計が求められる.その他の LSI 設計時の問題として,配線遅延がある.配線遅延 はモジュール間の通信に必要な遅延である.LSI 全体の遅延を考えた場合,半導体の微細化 技術によりゲート遅延が減少する一方,配線遅延の占める割合は増加傾向にある.今後もこ の傾向が継続すると予想されるため,配線遅延を考慮した LSI 設計が必要となる.LSI の 設計手法として高位合成が注目されるが,低電力化と配線遅延は高位合成においても意識す べきである.本稿では,低電力化および配線遅延を考慮した高位合成手法に着目する.

低電力化を意識した高位合成手法として,複数電源電圧を考慮する手法<sup>4),9)</sup>がある.電 圧を低くできれば消費電力を抑えられるが,回路の遅延が増加する.複数電源電圧では回路 のクリティカルパスに高電圧を用い,速度を求められない部分に低電圧を割り当てること で低電力化を図る.しかし,これらの手法は電力の最適化のみを目的とし,配線遅延は考 慮されておらず配線遅延の割合が増加する現状に則さない.また,これらの手法は演算器 の電圧も制約として与えており,消費エネルギーを最小化する演算器の電圧を求めることは できない.演算器の電圧を決定するLSI設計の方法としては,高位合成より後の工程であ るフロアプランで決定する方法<sup>3),10)</sup>がある.しかし,フロアプラン時には演算の実行タイ ミングが決定しており,タイミング制約を満たした上で電圧を大幅に下げることは難しい. そのため,高位合成時に複数電源電圧を適用した場合と比較し,消費エネルギーの削減量が 少なくなっている.

<sup>†1</sup> 早稲田大学大学院基幹理工学研究科情報理工学専攻

Dept. of Computer Science and Engineering, Waseda University.

<sup>†2</sup> 早稲田大学大学院基幹理工学研究科電子光システム学専攻 Dept. of Electronic and Photonic Systems, Waseda University.

## 情報処理学会研究報告 IPSJ SIG Technical Report

配線遅延を考慮した高位合成手法として、フロアプランを意識する高位合成手法がある<sup>1),2),5),6)</sup>. これらは従来のレジスタ集中型アーキテクチャではなく、レジスタを演算器に 分散させレジスタ-レジスタ間の通信にクロックサイクルを割り当てる、レジスタ分散型アー キテクチャを基にしている. 6) では Generalized Distributed-Register アーキテクチャ(以下 GDR)を提案している. GDR はモジュールを個別にフロアプランすることで高速かつ小面 積な解を得ることができる. しかし、モジュールを個別に扱う GDR に新たなモジュールを 追加することは難しく、複数電源電圧と GDR を同時に扱うことは難しい. 2) では Regular Distributed-Register アーキテクチャ(以下 RDR)を提案している. RDR はチップを均一 の区画に分割することで、高位合成中の配線遅延の予測を容易にしている. また、区画内の モジュールの配置は抽象化され、モジュールの変化にも対応しやすい. 区画によるモジュー ルの抽象化で、RDR には多くの派生アーキテクチャ<sup>2),7)</sup>がある. しかし、RDR はチップ を一定の大きさに分割するため、面積のオーバヘッドが大きく結果として消費電力も大きく なる.

配線遅延と低電力化を同時に考慮した高位合成手法として,HDR アーキテクチャを対象 とした複数電源電圧指向の高位合成<sup>1)</sup>を提案した.1)では低電力化手法を適用しやすいレ ジスタ分散型アーキテクチャとして HDR アーキテクチャを提案している.HDR アーキテ クチャはハドル (Huddle) と呼ぶ可変の区画により,各モジュールを抽象化することでレベ ルコンバータの様な新たなモジュールの追加を容易にする.また,ハドルは可変の区画のた め,RDR と比較し面積のオーバヘッドが少なく消費エネルギーの少ないアーキテクチャと なっている.1)では HDR アーキテクチャを対象とした複数電源電圧による低電力化高位合 成手法が提案されている.1)では複数電源電圧による消費エネルギーの削減をスケジュー リング/FU バインディングで考慮している.1)のスケジューリング/FU バインディングで は,直接消費エネルギーの削減を目的とするのではなく,実行時間の最小化を目的とするこ とで 2 次的に消費エネルギーを削減している.そのため,1)は消費エネルギーの最小化が 不十分である.

以上の背景から、本稿では HDR アーキテクチャを対象とした複数電源電圧指向の高位合 成のうち、消費エネルギー最小化を目的としたスケジューリング/FU バインディングを提 案する.提案手法は演算器集合とハドルの配置から、配線遅延を考慮したスケジューリン グ/FU バインディングを実行する.その際、時間制約の中で動的消費エネルギーを最小化 するように演算に電圧を割り当てる.それにより、従来手法<sup>1)</sup>と比較し最大 10% 消費エネ ルギーを削減できた.



図 1 HDR アーキテクチャの構成. Fig. 1 HDR architecture.

## 2. HDR アーキテクチャ

GDR は高速かつ小面積という利点があり, RDR はモジュールの追加がしやすいという 利点がある.しかし, GDR はモジュールの追加が難しく, RDR は面積が大きいという欠 点がある.それぞれの欠点から,既存のレジスタ分散型アーキテクチャは低電力化に向かな い.そこでモジュールを追加しやすく,かつ小面積で消費電力の少ないレジスタ分散型アー キテクチャ,Huddle-based Distributed Register アーキテクチャ(以下 HDR)が提案され た<sup>1)</sup>. HDR は GDR にハドル (Huddle) という区画を導入し,各モジュールを抽象化した アーキテクチャである.ハドル導入によるモジュールの抽象化で,RDR と同様にモジュー ルを容易に追加できる.ハドルはクロック周期により決定される範囲内において任意の矩形 を取り,演算器やレジスタ,コントローラ,レベルコンバータを共有する.任意の矩形を取 るハドルに対しフロアプランするため,GDR と同様に小面積で消費電力の少ないアーキテ クチャとなる.

ハドルは以下の要素からなる.

- Huddled Local Register (HLR)
   各ハドル専用のローカルレジスタとマルチプレクサの集合.
- Huddled Functional Unit (HFU)
   ハドルに集められた演算器の集合.ハドル内で処理する演算に必要な演算器を必要数持

## 情報処理学会研究報告

## IPSJ SIG Technical Report

ち,同一のハドル内の HLR のみにアクセスできる.

- Finite State Machine (FSM)
   各ハドル専用のコントローラ、同一ハドルの HFU と HLR を制御する.
- Huddled Level Converter (HLC)

ハドルに集められたレベルコンバータの集合. 電圧の異なるハドルとデータ転送を行う 際, HLC を用いる.

ハドルは図1の様に配置する. 同一ハドル内の HFU でデータを処理する場合, ハドル内の HLR を使うことでデータ転送時間は無視できる. 異なるハドルの HFU 同士でデータ通信する場合, HLR 間データ転送を行う. HLR 間データ転送をする際, 各ハドルの電圧が異なる場合 HLC を用いる.

## 問題の定式化

提案手法では高位合成の対象として HDR アーキテクチャ<sup>1)</sup> を対象とする. HDR アーキ テクチャの構成を図1に示す.

入力としてコントロールデータフローグラフ (以下 CDFG) を与える. CDFG G(N, E)は有向グラフで表現される. N は演算ノード  $N_o$  と制御ノード  $N_c$  からなる. E はデータ フローエッジ  $E_d$  とコントロールフローエッジ  $E_c$  からなる. クロック周期制約として  $T_{clk}$ , ステップ制約  $S_{max}$  を与える.

入力として p 個の演算器の集合  $F = \{f_1, \dots, f_p\}$ を与え、演算器  $f_i$  の遅延を  $D_f(f_i)$  で表 す.  $S_f(f_i)$  は  $f_i$  の必要ステップ数を表し、クロック周期  $T_{clk}$  より  $S_f(f_i) = [D_f(f_i)/T_{clk}]$ と計算される、演算器  $f_i$  が 1 回の処理につき消費するエネルギーを  $E(f_i)$  で表す.

 $q @ (q \le p) のハドル H = \{h_1, \dots, h_q\}$ に各演算器を割り当てる. 演算器  $f_i$ を割り当てるハドルを  $Hud(f_i)$  で表す. 一方, ハドル  $h_j$  に割り当てられた演算器の集合を  $F(h_j)$  で表す. ハドル  $h_j$  における HLR の遅延を  $D_{reg}(h_j)$  で表す.

各ハドルに割り当てる電圧は $v_l, v_m, v_h(v_l < v_m < v_h)$ の3種類とする.ハドル $h_j$ の電圧 を $V(h_j)$ で表す. $v_l$ から $v_m$ へ電圧を変更する際のレベルコンバータの遅延を $D_{lc}(v_l, v_m)$ で表す. $v_l$ から $v_h$ など他の電圧についても同様である.

演算器 *f<sub>i</sub>* における,クロック周期から演算処理に必要な時間を除いた時間を以下の式で表す.

 $Slack(f_j) = T_{clk} \cdot S_f(f_i) - D_f(f_i)$ (1)

RDR のアイランド<sup>2)</sup> を参考に  $Slack(f_i)$  から矩形であるハドル  $h_j = Hud(f_i)$  の幅, 高さ

を以下の式で求める.

$$2 \cdot D_w(W(h_j) + H(h_j)) + D_{reg}(h_j) \le \min_{f_i \in F(h_i)} \{Slack(f_i)\}$$
(2)

式 (2) において  $W(h_j)$  はハドル  $h_j$  の幅,  $H(h_j)$  はハドル  $h_j$  の高さを表す.  $D_w(x)$  は距離 x における配線遅延を表す. 配線遅延は距離の 2 乗に比例するとし, 配線遅延係数  $C_d$  を 用いて  $D_w(x) = C_d x^2$  で計算される. 式 (2) をハドルサイズ制約と呼ぶ.

演算器  $f_i$  からハドル  $h_k$  ヘデータ転送する場合を考える.  $Hud(f_i) = h_j$  とする時,  $h_j$  と  $h_k$  の中心間のマンハッタン距離を  $Dist(h_j, h_k)$  で表すと,  $h_j$ ,  $h_k$  間の配線遅延は  $D_w(Dist(h_j, h_k))$  となる.  $f_i$  からデータを転送し,  $h_k$  の HLR へ書き込むまでの時間は以 下の式で表される.

 $Tr(f_i, h_k) = D_w(Dist(h_j, h_k)) + D_{lc}(V(h_j), V(h_k)) + D_{reg}(h_k)$ (3)  $Slack(f_i) および Tr(f_i, h_k) より f_i から h_k \sim データ転送する際必要なクロック数 DT(f_i, h_k)$ は以下の式で表される.

$$DT(f_i, h_k) = \begin{cases} 0 \quad (Slack(f_i) \ge Tr(f_i, h_k)) \\ [Tr(f_i, h_k)/T_{clk}] \quad (Slack(f_i) < Tr(f_i, h_k)) \end{cases}$$
(4)

このとき, DTとはp行q列の行列で, i行k列の要素が $DT(f_i, h_k)$ となるものとする. 以上より, HDR アーキテクチャを対象とした複数電源電圧高位合成問題を次のように定 義する.

定義 1. HDR アーキテクチャを対象とした複数電源電圧高位合成問題とは、CDFG、クロック周期制約、ステップ制約、演算器の集合が与えられた時、消費エネルギーを最小化するように CDFG をスケジューリングおよびバインディングし、各演算器をハドルに割り当て、ハドルに電圧を割り当てることである.□

## 4. HDR アーキテクチャを対象とした低電力化高位合成アルゴリズム

#### 4.1 高位合成アルゴリズム全体の構成

HDR アーキテクチャを対象とした複数電源電圧を考慮した高位合成として1) がある.1) では複数電源電圧による消費エネルギーの削減をスケジューリング/FU バインディングで 考慮している.1)のスケジューリング/FU バインディングでは,直接消費エネルギーの削 減を目的とするのではなく,実行時間の最小化を目的とすることで2次的に消費エネルギー

## 情報処理学会研究報告 IPSJ SIG Technical Report



図 2 HDR 合成アルゴリズム. Fig. 2 Synthesis algorithm for HDR architecture.

を削減している.そのため、1)は消費エネルギーの最小化が不十分である.そこで本稿では、演算の動的エネルギー最小化することで、全体の消費エネルギー最小化を目指すスケジューリング/FUバインディングを提案する.

HDR を対象とする高位合成は以下の要素から構成される.

- 初期ハドル合成
- スケジューリング/FU バインディング
- レジスタ/コントローラ合成/フロアプラン
- ハドル合成
- ハドル分割

スケジューリング/FUバインディングについては本稿で提案するアルゴリズムを適用し,他の要素については1)を適用する.

最終的な高位合成アルゴリズムを図2に示す. なお,説明を簡単にするため本章では入力は DFG のみを考えるが,入力を CDFG としても同様である.

## 4.2 スケジューリング/FU バインディング

スケジューリング/FU バインディングの入力は、クロック周期制約 T<sub>clk</sub>,ステップ制約

 $S_{max}$ , CDFG G(N, E), 演算器数, ハドルの構成, ハドルの電圧, 配置情報である. 出力 は演算ノード集合  $N_o$  を実行するコントロールステップ, 実行する演算器, ハドルの電圧で ある. ただし, 第1回目の反復はフロアプランの実行前のため, 全てのハドル間の配線遅延 を 0 とする.

HDR アーキテクチャを対象とした複数電源電圧を考慮した高位合成として1)が提案された. 1)では、スケジューリング/FUバインディングで演算に電圧を割り当て、スケジューリング/FUバインディングで決定した電圧をもとに他の要素を実行する. 1)のスケジューリング/FUバインディングでは、直接消費エネルギーの削減を目的とするのではなく、実行時間の最小化を目的とすることで2次的に消費エネルギーを削減している. そのため、1)は消費エネルギーの最小化が不十分である.本節では、スケジューリング/FUバインディング時に演算処理の動的エネルギーを最小化することで、回路全体の消費エネルギーの最小化を目指したスケジューリング/FUバインディングを提案する.

提案するスケジューリング/FU バインディングでは、各ハドルへ電圧を割り当てることで、ハドルに含まれる演算器に電圧を割り当てる.電圧を割り当てられた演算器に演算をバインディングすることで、演算に電圧を割り当てる.

スケジューリング/FUバインディングは初期フェーズ,電圧上昇フェーズ,電圧下降フェーズの3つのフェーズで構成される.初期フェーズは前回の反復時の配置,電圧を変更せずにスケジューリング/FUバインディングを行う.電圧上昇フェーズは初期フェーズの結果がステップ制約を満たさない場合実行され,ステップ制約を満たすようハドルの電圧を上げる.電圧下降フェーズはステップ制約を満たす範囲で消費エネルギーが最小となるようハドルの電圧を下げる.各フェーズを通し,動的エネルギーが最小となる結果を採用する.

電圧上昇フェーズ,電圧下降フェーズにおいて電圧を変更するハドルは優先度により選択 する. 優先度はハドルに所属する演算器が1回の処理に消費するエネルギーの合計とし,ハ ドル $h_i$ の優先度 $P_s(h_i)$ を以下の式で表す.

$$P_s(h_j) = \sum_{f_i \in F(h_j)} E(f_i)$$
(5)

## 初期フェーズ

初期フェーズはスケジューリング/FUバインディングで最初に実行され,前回の反復時の ハドルの配置,電圧を変更せずにスケジューリング/FUバインディングを行う.初期フェー ズ,電圧上昇フェーズ,電圧下降フェーズ全てのフェーズで共通する処理を図3に示す.初 期フェーズでは共通処理のみを実行し,初期フェーズの結果がステップ制約を満たさない場

### 情報処理学会研究報告

#### IPSJ SIG Technical Report

#### 共通処理

- データ転送する際必要なクロック数を表す行列 DT を計算.
- (2) DT ベースのスケジューリング/FU バインディング<sup>5)</sup>.
- (3) ステップ制約を満たす場合,以下の操作で動的エネルギーを最小化.
  - (a) 電圧 v<sub>l</sub>, v<sub>m</sub> の乗算器がある場合以下を実行.
    - (i) v<sub>m</sub> で実行する乗算を1つ選択.
      - (ii) 選択した乗算を v<sub>l</sub> で実行することとし、他の演算の電圧は変更せず、DT ベースのスケジューリング/FU バインディング<sup>5)</sup> を実行。
    - (iii) ステップ制約を満たす場合採用し、ステップ制約を満たさない場合電圧を戻す.
    - (iv) v<sub>m</sub> で実行する乗算をすべて試行したら (a) を終了し、そうでない場合 i へ戻る.
  - (b) 電圧 v<sub>l</sub>, v<sub>h</sub> の乗算器がある場合, v<sub>h</sub> の乗算に対し (a) と同じ処理を実行.
  - (c) 電圧  $v_m$ ,  $v_h$  の乗算器がある場合,  $v_h$  の乗算に対し (a) と同じ処理を実行.
  - (d) 電圧  $v_l$ ,  $v_m$  の加算器がある場合,  $v_m$  の加算に対し (a) と同じ処理を実行.
  - (e) 電圧  $v_l$ ,  $v_h$  の加算器がある場合,  $v_h$  の加算に対し (a) と同じ処理を実行.
  - (f) 電圧  $v_m$ ,  $v_h$  の加算器がある場合,  $v_h$  の加算に対し(a) と同じ処理を実行.

図 3 共通処理.

#### Fig. 3 Common processing algorithm.

#### 電圧下降フェーズ

- (1)  $v_h$ のハドルのうち、最大の優先度  $P_s$ を持つハドルを選択 (ただし、一度選んだハドルは選ば ない)、電圧を  $v_m$  へ変更
- (2) 共通処理
- (3) ステップ制約を満たさない場合,電圧を $v_h$ へ戻す
- (4) 選択したことのない  $v_h$  のハドルがある場合, 1 へ
- (5) v<sub>m</sub>のハドルのうち、最大の優先度 P<sub>s</sub>を持つハドルを選択 (ただし、一度選んだハドルは選ばない)、電圧を v<sub>l</sub> へ変更
- (6) 共通処理
- (7) ステップ制約を満たさない場合,電圧を vm へ戻す
- (8) 選択したことのない  $v_m$  のハドルがある場合,5 へ
  - 全ての vm のハドルを選択した場合,終了

#### 図 5 電圧下降フェーズの処理.

Fig. 5 Voltage-decreasing phase algorithm.

|         | 表 1 演算器の情報.               |
|---------|---------------------------|
| Table 1 | FU component information. |

表 2 レベルコンバータの情報. Table 2 Level converter information.

| 演算器         | 面積          | 遅延   | エネルギー | リーク電力     | Vin - Vout    | 面積          | 遅延   | エネルギー | リーク電力     |
|-------------|-------------|------|-------|-----------|---------------|-------------|------|-------|-----------|
| (電圧)        | $[\mu m^2]$ | [ns] | [fJ]  | $[\mu W]$ |               | $[\mu m^2]$ | [ns] | [fJ]  | $[\mu W]$ |
| 加算器 (1.2 V) | 386         | 0.75 | 92    | 3.9       | 1.2 V - 1.0 V | 113         | 0.17 | 83    | 49.1      |
| 加算器 (1.0 V) | 386         | 1.22 | 64    | 3.2       | 1.2 V - 0.8 V | 113         | 0.22 | 71    | 32.3      |
| 加算器 (0.8 V) | 386         | 2.71 | 41    | 2.6       | 1.0 V - 1.2 V | 113         | 0.17 | 76    | 45.0      |
| 乗算器 (1.2 V) | 2161        | 1.65 | 1135  | 19.8      | 1.0 V - 0.8 V | 113         | 0.30 | 55    | 18.3      |
| 乗算器 (1.0 V) | 2161        | 2.7  | 788   | 16.5      | 0.8 V - 1.2 V | 113         | 0.22 | 86    | 39.1      |
| 乗算器 (0.8 V) | 2161        | 6.0  | 504   | 13.2      | 0.8 V - 1.0 V | 113         | 0.30 | 55    | 18.3      |

## 電圧下降フェーズ

電圧下降フェーズはステップ制約を満たす中で,動的エネルギーを最小とする電圧を探す フェーズである.電圧下降フェーズの処理を図5に示す.

## 5. 計算機実験結果

提案手法を C++言語を用いて計算機上に実装した.計算機実験環境は、CPU が AMD Quad-Core Opteron 2360 SE 2.5 GHz × 2,メモリ容量が 16 GB である.対象アプリ ケーションとして DCT (ノード数 48), EWF3 (ノード数 102),7 次 FIR フィルタ (ノー ド数 75) を用いた.実験で用いた演算器情報を**表 1** に示し、レベルコンバータの情報<sup>8)</sup> を**表 2** に示す.各演算器は 16 bit 幅と仮定し、クロック周期を 2.5 ns とする.電圧は  $v_l = 0.8 \text{ V}, v_m = 1.0 \text{ V}, v_l = 1.2 \text{ V}$  とする.コントローラの面積は Synopsys 社の Design Compiler により実際に論理合成して求めた. 配線遅延は配線長の 2 乗に比例すると仮

## (1) v<sub>l</sub>のハドルのうち,最小の優先度 P<sub>s</sub>を持つハドルを選択,電圧を v<sub>m</sub>へ変更 (2) 共通処理

**雷圧上昇フェーズ** 

- (3) ステップ制約を満たす場合,終了 ステップ制約を満たさない場合,vl のハドルがあれば1へ,なければ4へ
- (4)  $v_m$  のハドルのうち,最小の優先度  $P_s$  を持つハドルを選択,電圧を  $v_h$  へ変更
- (5) 共通処理
- (6) ステップ制約を満たす場合、もしくは $v_m$ のハドルがない場合、終了 ステップ制約を満たさない場合、 $v_m$ のハドルがあれば $4 \sim$

図 4 電圧上昇フェーズの処理.

Fig. 4 Voltage-increasing phase algorithm.

合電圧上昇フェーズへ移行し、ステップ制約を満たす場合は電圧下降フェーズへ移行する.

## 電圧上昇フェーズ

電圧上昇フェーズは初期フェーズでステップ制約を満たさない場合に実行される.電圧上 昇フェーズの目的は初期フェーズ結果がステップ制約を満たさない場合,電圧を上昇するこ とでステップ制約を満たすハドルの電圧を発見することである.電圧上昇フェーズの処理を 図4に示す.

#### 表 3 計算機実験結果.

Table 3 Experimental result.

| App. | FUs  | CS | Architechture | Area        | Rectangular            | Dynamic    | Leak       | All Energy |
|------|------|----|---------------|-------------|------------------------|------------|------------|------------|
|      |      |    |               | $[\mu m^2]$ | Area[µm <sup>2</sup> ] | Energy[pJ] | Energy[pJ] | [pJ]       |
| ewf3 | +3*2 | 50 | GDR           | 47792       | 55250                  | 414.34     | 57.64      | 471.98     |
| 1    |      |    | RDR           | 69530       | 69530                  | 362.35     | 85.06      | 447.41     |
|      |      |    | HDR           | 52506       | 62252                  | 331.95     | 77.96      | 409.91     |
|      |      |    | HDR + 10)     | 53405       | 66196                  | 267.02     | 99.47      | 366.49     |
|      |      |    | 1)            | 43074       | 47674                  | 231.62     | 89.15      | 320.77     |
|      |      |    | MHDR          | 47002       | 49400                  | 241.11     | 87.53      | 328.64     |
| fir  | +3*3 | 35 | GDR           | 36840       | 48278                  | 223.34     | 38.35      | 261.69     |
|      |      |    | RDR           | 81920       | 81920                  | 191.34     | 105.18     | 296.52     |
|      |      |    | HDR           | 30082       | 35910                  | 191.65     | 31.61      | 223.26     |
|      |      |    | HDR + 10)     | 30082       | 35910                  | 191.65     | 31.61      | 223.26     |
|      |      |    | 1)            | 35028       | 40400                  | 138.60     | 60.08      | 198.69     |
|      |      |    | MHDR          | 52051       | 61500                  | 122.22     | 60.04      | 182.26     |
| fir  | +4*4 | 30 | GDR           | 34540       | 36000                  | 211.94     | 44.00      | 255.94     |
|      |      |    | RDR           | 82816       | 82816                  | 188.83     | 123.57     | 312.40     |
|      |      |    | HDR           | 32047       | 35624                  | 207.59     | 33.05      | 240.64     |
|      |      |    | HDR + 10)     | 32047       | 35624                  | 207.59     | 33.05      | 240.64     |
|      |      |    | 1)            | 25836       | 29400                  | 145.32     | 36.79      | 182.11     |
|      |      |    | MHDR          | 44554       | 48174                  | 128.59     | 43.60      | 172.19     |
| dct  | +3*3 | 15 | GDR           | 48551       | 58843                  | 181.96     | 13.56      | 195.52     |
|      |      |    | RDR           | 59544       | 59544                  | 144.15     | 15.99      | 160.13     |
|      |      |    | HDR           | 47321       | 63096                  | 127.58     | 17.42      | 145.00     |
|      |      |    | HDR + 10)     | 48076       | 55770                  | 112.25     | 25.10      | 137.35     |
|      |      |    | 1)            | 44850       | 68392                  | 94.50      | 33.11      | 127.61     |
|      |      |    | MHDR          | 51269       | 55221                  | 86.17      | 21.17      | 107.34     |
| dct  | +4*4 | 10 | GDR           | 53864       | 58378                  | 152.01     | 11.00      | 163.01     |
|      |      |    | RDR           | 81476       | 81476                  | 127.87     | 13.69      | 141.57     |
|      |      |    | HDR           | 58184       | 71520                  | 128.71     | 13.69      | 145.22     |
|      |      |    | HDR + 10)     | 58184       | 71520                  | 128.71     | 13.69      | 145.22     |
|      |      |    | 1)            | 49503       | 54758                  | 97.21      | 27.02      | 124.23     |
|      |      |    | MHDR          | 58272       | 68255                  | 89.11      | 25.37      | 114.48     |

定し、 $250 \,\mu m^2$  あたり 1 ns とする.

GDR<sup>6)</sup>, RDR<sup>2)</sup>, 1 電源の HDR, 1 電源の HDR として作成した後 10) を適用し複数電 源電圧とした HDR, 複数電源電圧を考慮した HDR(MHDR: MultiV<sub>dd</sub> HDR)<sup>1)</sup>, 提案手 法を適用した複数電源電圧の MHDR を比較する.

実験結果を表3に示す. MHDR は従来手法と比較し,平均23.2%,最大45.1%全消 費エネルギーを削減できた.ダイナミック電力による消費エネルギーに関しては,MHDR は従来手法と比較し平均29.3%,最大52.6%削減されている.一方リーク電力による消 費エネルギーに関しては,MHDR は従来手法より平均26.8%消費エネルギーが増大して いる.複数電源電圧の手法全てでリーク電力による消費エネルギーが増大していることよ り,エネルギー増大の原因はレベルコンバータによるものと考えられる.複数電源電圧を適 用した場合同士で比較しても,平均13.5%,最大28.4%全消費エネルギーを削減できた. 1)と比較しても,平均7.0%,最大15.9%全消費エネルギーを削減できた.

## 6. おわりに

本稿では低電力化を考慮したレジスタ分散型アーキテクチャHuddle-based Distributed Register(以下 HDR) アーキテクチャをを対象とした複数電源電圧による低電力化高位合成 手法を提案した.提案手法は配線遅延を考慮する HDR アーキテクチャを対象に低電力化す ることで,配線遅延と低電力化を同時に考慮する高位合成となっている.提案手法は従来手 法と比較し,全消費エネルギーにおいて最大 45.1 %,平均で 23.2 % のエネルギー削減を 実現できた.

## 謝 辞

本研究は NEDO の助成による.

## 参考文献

- 阿部晋矢,柳澤政生,戸川望,"複数電源電圧および複数サイクルレジスタ間通信指向の低電力化高位合成手法," 情報処理学会 DA シンポジウム 2011 論文集, 2011.
- J.Cong, Y.Fan, G.Han, X.Yang, and Z.Zhang, "Architecture and synthesis for on-chip multicycle communication," *IEEE Trans. on Computer-Aided Design of Integrated Circuits and* Systems, pp. 550–564, Apr. 2004.
- W.P.Lee and Y.W.Chang, "Voltage island aware floorplanning for power and timing optimization," in Proc. of ICCAD '06, pp. 389–394, 2006.
- A.Manzak and C.Chakrabarti, "A low-power scheduling scheme with resources operating at multiple voltages," *IEEE Trans. on VLSI Systems*, vol. 10, no. 1, pp. 6–14, 2002.
- A.Ohchi, S.Kohara, N.Togawa, M.Yanagisawa, and T.Ohtsuki, "Floorplan-driven high-level synthesis for distributed/shared-register architectures," *IPSJ Trans. on System LSI Design Methodology*, vol. 1, pp. 78–90, 2008.
- 6) A.Ohchi, N.Togawa, M.Yanagisawa, and T.Ohtsuki, "Floorplan-aware high-level synthesis for generalized distributed-register architectures," *IEICE Trans. on Fundamentals of Electronics, Communications and Computer Sciences*, vol. 92, no. 12, pp. 3169–3179, 2009.
- 7) S.Tanaka, M.Yanagisawa, T.Ohtsuki, and N.Togawa, "A fault-secure high-level synthesis algorithm for RDR architectures," *IPSJ Trans. on System LSI Design Methodology*, vol.4, 2011.
- C.Q.Tran, H.Kawaguchi, and T.Sakurai, "Low-power high-speed level shifter design for blocklevel dynamic voltage scaling environment," in *Proc. of ICICDT 2005*, pp. 229–232, May 2005.
- 9) H.-C.Yang and L.-R.Dung, "On multiple-voltage high-level synthesis using algorithmic transformations," in *Proc. of ASP-DAC '05*, pp. 872–876, Jan 2005.
- B.Yu, S.Dong, S.Goto, and S.Chen, "Voltage-island driven floorplanning considering levelshifter positions," in *Proc. of GLSVLSI '09*, pp. 51–56, 2009.