| 間 | 瀬 | ΤĒ | $\mathbf{B}^{\dagger 1}$ | 中 | Ш |   | 亮 $^{\dagger 1}$            | 大 | 或 | 直 | 人 $^{\dagger 1}$ |
|---|---|----|--------------------------|---|---|---|-----------------------------|---|---|---|------------------|
| 白 | 子 |    | <b>準</b> †1              | 木 | 村 | 啓 | $\underline{-}^{\dagger 1}$ | 笠 | 原 | 博 | $徳^{\dagger 1}$  |

マルチコアプロセッサ上でアプリケーションプログラム実行時の消費電力を削減す るためには,コンパイラやユーザによるプログラム実行中のチップ内リソースの適切 な周波数・電圧・電源制御が必要であり,電力制御の指示が可能な API の利用が必要 となる.本論文ではリアルタイム情報家電用マルチコア向けの OSCAR (Optimally Scheduled Advanced Multiprocessor) API を用いた自動並列化コンパイラによる 低消費電力化手法を提案する.本手法は OSCAR コンパイラに実装されており,最 小時間での処理を保証しつつ消費電力を最小化する最速実行モードと、メディアアプ リケーションなどのリアルタイム処理において、リアルタイム制約を満たしつつ消費 電力を最小化するリアルタイム制約モードをサポートする.NEDOの"リアルタイ ム情報家電用マルチコア技術"プロジェクトにおいて,ルネサステクノロジ,日立製 作所, 早稲田大学が開発した 8 コアの情報家電用マルチコア RP2 上で提案手法を 評価したところ,4コアを用いた場合の最速実行モードにおいて,消費エネルギーが SPEC2000 の art で 13.06%, SPEC2000 の equake で 3.99%, AAC エンコーダ で 3.84%, MPEG2 デコーダで 9.01%削減されることが確かめられた.また,8コ アを用いた場合のリアルタイム制約モードにおいて,平均電力がAACエンコーダで 87.9%, MPEG2 デコーダで 76.0%削減されることが確かめられた。

# A Power Reduction Scheme for Parallelizing Compiler Using OSCAR API on Multicore Processors

Masayoshi Mase,<sup>†1</sup> Ryo Nakagawa,<sup>†1</sup> Naoto Ohkuni,<sup>†1</sup> Jun Shirako,<sup>†1</sup> Keiji Kimura<sup>†1</sup> and Hironori Kasahara<sup>†1</sup> reduction techniques need an application program interface (API) that enables power control inside a user program. This paper proposes a power reduction scheme for multicore processors using OSCAR API developed in NEDO "Multicore for Realtime Consumer Electronics" project. The proposed scheme has been implemented in OSCAR compiler to realize the power reduction for fastest execution mode, which minimizes power consumption without performance degradation, and the realtime execution mode to minimize power consumption under realtime constrains. The proposed scheme is evaluated on an 8 cores SH4A multicore processor RP2, newly developed for consumer electronics by Renesas Technology Corp., Hitachi, Ltd. and Waseda University in the above project. For the fastest execution mode, using 4 cores, consumed energy was reduced by 13.06% for SPEC2000 art, 3.99% for SPEC2000 equake, 3.84% for AAC encoder and 9.01% for MPEG2 decoder. Also, for the realtime execution mode, using 8 cores, consumed power was reduced by 87.9% for AAC encoder and 76.0% for MPEG2 decoder.

### 1. はじめに

半導体集積度向上にともなったスケーラブルな処理性能と高い電力効率を実現するため に、マルチコアプロセッサは次世代プロセッサアーキテクチャの主流となりつつある.これ らマルチコアプロセッサの有効利用には実行するプログラムの適切な並列化が必須であり、 従来より多くの自動並列化コンパイラに関する研究が行われている<sup>1)-3)</sup>.OSCAR コンパ イラ<sup>4),5)</sup>では、従来の市販コンパイラで用いられていたループ並列処理に加え、粗粒度タ スク並列処理、近細粒度並列処理を組み合わせたマルチグレイン並列処理を実現しており、 プログラム全域にわたる並列化が可能である.

また,マルチコアでは処理性能の向上に加え,増加する消費電力をいかに抑えるかが大 きな課題となっており,従来から様々な手法が提案されている.たとえばキャッシュミス回 数測定用カウンタや命令キューなどのハードウェアサポートにより実行時にプログラム中 の各フェーズにおける負荷を判断し,不要なリソースを停止させる Adaptive Processing<sup>6)</sup> や,計算資源の各部分に対して実行時の負荷に応じた周波数・電圧制御(FV 制御)を行 う Online Methods for Voltage and Frequency Control<sup>7)</sup> や実行時に各プロセッサの負荷 の分散度を計算し,負荷不均衡が発生した場合には DVFS (Dynamic Voltage Frequency

Efficient power reduction of an application program on multicore processors requires appropriate power control namely frequency-voltage control and power gating for on-chip resources by parallelizing compilers or users. These power

<sup>†1</sup> 早稲田大学基幹理工学部情報理工学科

Department of Computer Science, Waseda University

Scaling)やタスク再配置を行うことで消費エネルギーの削減を行う手法<sup>8)</sup>や,ループイタ レーションレベルのプロセッサ間の負荷不均衡に対して,実行時のハードウェアサポートに より電力制御を行うThrifty Barrier<sup>9)</sup>などがある.しかし,これらの実行時の情報を利用 した手法では,プログラム全域にわたるグローバルな消費電力の最適化は難しく,局所的な 最適化にとどまってしまう.また,実行時電力制御のための処理やハードウェア追加が必要 となるため遅延が大きいという欠点がある.このような手法に対して,コンパイル時の静的 な情報に基づく低消費電力化手法では,プログラムの解析による詳細な情報を利用すること ができるため,よりきめ細かな電力制御が可能となり,プログラム全域にわたる消費電力の 最適化が実現できる.コンパイラ制御によるシングルプロセッサの低消費電力化手法として compiler-directed DVS(dynamic voltage scaling)<sup>10)</sup>があげられる.しかし,この手法は シングルプロセッサのみを対象としており,マルチコアプロセッサ向けの並列処理と電力制 御との両立を実現できていない.マルチコアプロセッサ向けのOSCAR コンパイラではマ ルチグレイン並列処理による並列性抽出に加え,プログラムの各部分に対するコアごとの適 切な動作周波数/電圧および電源遮断のタイミングを決定し,必要な処理性能を維持しつつ 電力を低減させている<sup>11)</sup>.

さらに,これらの OSCAR コンパイラによる並列化および低消費電力化を様々な種類の マルチコアに適用する目的で OSCAR API<sup>12)</sup>が提案されている.OSCAR APIは NEDO "リアルタイム情報家電用マルチコア技術"プロジェクトにおいて,早稲田大学,東芝,日 本電気,パナソニック,日立製作所,富士通研究所,ルネサステクノロジによって開発され た情報家電用マルチコア向け並列化 APIである.OSCAR APIを用いることで,OSCAR コンパイラによる最適化を様々なマルチコアで実現することができ,並列プログラムの大幅 な生産性向上が期待できる.

本論文では,OSCAR コンパイラによって従来実現されてきた低消費電力化手法に加え て,3.2 節で述べる実行時のコスト変動によるプロセッサ間の負荷不均衡に対する低消費電 力化手法,および 3.3 節で述べるリアルタイムアプリケーションを対象とした低消費電力化 手法を提案する.さらに,これらOSCAR コンパイラによる低消費電力化手法をOSCAR APIを用いて実現し,8 コアの情報家電用マルチコア RP2上で評価を行った.コンパイラ によるマルチコアの電力制御を実マルチコア上で実現し,評価を行ったのは,筆者らの知る 限り本研究が世界で初めてである.

本論文の構成は以下のとおりである.2章では提案する OSCAR コンパイラによる低消 費電力化手法の前提となるマルチグレイン並列処理について述べる.3章では OSCAR コ ンパイラによる低消費電力化手法について述べる.4章では OSCAR API における電力制 御用指示文について述べる.そして,5章で性能評価について述べ,6章でまとめを述べる.

2. OSCAR コンパイラによるマルチグレイン並列処理

本章では OSCAR コンパイラによるマルチグレイン並列処理の概要を述べる.

**2.1** マクロタスク生成

マルチグレイン並列処理では、プログラムは基本ブロックおよびその融合ブロック BPA, ループなどの繰返しブロック RB,サブルーチン,関数を表す SBの3種類のマクロタスク MT<sup>5)</sup>すなわち粗粒度タスクに分割される.図1に示すように,RBやSBの内部は再帰的 にマクロタスク分割され,階層的なマクロタスク構造となる.

2.2 マクロタスクグラフ生成

各階層におけるマクロタスク間のデータ依存,制御フローをもとに最早実行可能条件解析<sup>4),5)</sup>を適用し,マクロタスク間の並列性を抽出したマクロタスクグラフ MTG を生成する.マクロタスクグラフも入れ子構造をとり,プログラム全域にわたる階層的な粗粒度タスク並列性が抽出される.

2.3 マクロタスクスケジューリング

階層的に定義されたマクロタスクは,プロセッサの集合であるプロセッサグループ PG に より実行される.適切な PG のグルーピングとタスクスケジューリングにより,階層的な並 列性が有効利用される.この際,並列ループは複数の小ループに分割され,粗粒度タスクと してプロセッサに割り当てられる.



Fig. 1 Hierarchical macro task definition.

情報処理学会論文誌 コンピューティングシステム Vol. 2 No. 3 96-106 (Sep. 2009)

 $\bigodot$  2009 Information Processing Society of Japan

### 3. OSCAR コンパイラによる低消費電力化手法

マルチグレイン並列処理によりプログラムの最大限の並列化が可能であるが,実プログラ ムの完全な並列化は一般的に難しく,同期やデータ送受信によりプロセッサがアイドル状 態となる可能性がある.また,リアルタイム処理においてタスク実行が早く終了した場合, デッドライン時刻までの待機時間が発生する.これらプログラム中のアイドル時間(余裕 度)を利用しプロセッサの動作周波数低減や電源遮断を適用することにより,効果的な電力 削減が可能となる.

本章では OSCAR コンパイラによる低消費電力化手法について述べる.本手法は以下の アーキテクチャサポートを持つマルチコア上で最適に利用可能である.

- プロセッサコアごとに周波数が可変
- 周波数に応じて電圧も低減可能
- コアごとの電源/クロック遮断が可能
- 3.1 コンパイル時における低消費電力化手法

本節では,コンパイル時の情報をもとに静的に適用される低消費電力化手法の概要を述べ る.本手法はプログラムの最小処理時間を維持するための最速実行モード,与えられたデッ ドライン制約の範囲内における電力消費量最小化を目指すデッドライン制約モードの2つ の実行モードを持つ.マクロタスクグラフに対する一般的な低消費電力化手法の手順は以下 のとおりである.

- (1) マクロタスクグラフの処理時間の算出
- (2) 各マクロタスクにおける動作周波数の決定
- (3) アイドル時間に対する電源遮断
- 3.1.1 マクロタスクグラフの処理時間

マルチグレイン並列処理により,マクロタスク MT は各プロセッサグループ PG に適切 に割り当てられる.図2に示す例では,3つの PG に対し MT がスケジューリングされ, ユーザによって指定されたデッドライン時間が定められている.図中の time が時間経過を 表しており,周波数が最速の場合の1クロックを単位時間とする.また,MT 間の実線は データ依存を表している.当該 MTG の実行終了時間 *T<sub>MTG</sub>* を表すため,以下の定義を行 う.マクロタスク *MT<sub>i</sub>* に対して,

 $T_i: MT_i$ の処理時間

 $T_{start_i}: MT_i$ の実行開始時刻





 $T_{end_i}: MT_i$ の実行終了時刻

を定義する.また,当該 MTG の開始時刻を 0 とする.図 2 の入口ノードである *MT*<sub>1</sub> のように,当該 PG が最初に実行する MT であり,かつ他の MT にデータ依存しない *MT<sub>i</sub>*の実行開始時刻 *T<sub>starti</sub>* は

 $T_{start_i} = 0$ 

となり,実行終了時刻は

 $T_{end_i} = T_{start_i} + T_i = T_i$ 

となる. 一方それ以外の  $MT_i$  に関しては,当該 PG が先行して実行するマクロタスク  $MT_j$  と  $MT_i$  がデータ依存するマクロタスク集合 { $MT_k, MT_l, ...$ } が終了した時点で  $MT_i$  の実 行が開始されるため,実行開始時刻は

 $T_{start_i} = max(T_{end_i}, T_{end_k}, T_{end_l}, \ldots)$ 

となり,終了時刻は

 $T_{end_i} = T_{start_i} + T_i$ 

となる. 図 2 を例として考えると  $MT_2$ ,  $MT_3$ は  $MT_1$ が終了した時点で実行されるため 開始時刻は

 $T_{start_2} = T_{start_3} = T_{end_1} = T_1$ となり,終了時刻は

$$T_{end_2} = T_{start_2} + T_2 = T_1 + T_2$$

$$T_{end_3} = T_{start_3} + T_3 = T_1 + T_3$$

である.また, $MT_6$ は $MT_2$ と $MT_3$ が終了した時点で実行が開始されるため

 $T_{start_6} = max(T_{end_2}, T_{end_3})$ 

より,

 $T_{start_6} = max(T_2, T_3) + T_1$ 

となる.同様に計算し,出口ノードである*MT*8の終了時刻は

 $T_{end_8} = T_1 + T_8 + max(T_2 + T_5, T_6 + max(T_2, T_3), T_7 + max(T_3, T_4))$ と表される.

ここで一般形を考えると,出口ノード MTexit の終了時刻は

 $T_{end_{exit}} = T_m + T_n + \ldots + max_1(\ldots) + max_2(\ldots) + \ldots$ 

と表記される.入口ノードの実行開始時刻を0としたため,この $T_{end_{exit}}$ が当該 MTGの実行終了時間 $T_{MTG}$ となる.

3.1.2 各マクロタスクにおける動作周波数の決定

MTG に対して与えられたデッドライン時間を  $T_{MTG\_deadline}$ , 全 MT を最速の周波数で 実行した場合の処理時間を  $T_{MTG\_fast}$  と定義する. $T_{MTG\_fast}$  は  $T_{MTG}$  の式を用いて算 出される.これらの定義より, 2 つの実行モードにおける制約条件は以下のようになる.

• 最速実行モード:  $T_{MTG} = T_{MTG-fast}$ 

• デッドライン制約モード:  $T_{MTG} \leq T_{MTG\_deadline}$ 

本手法では,それぞれの制約条件を満たしつつ全体の電力消費量が最小となるよう各 MT の動作周波数を決定する<sup>11)</sup>.

3.1.3 アイドル時間に対する電源遮断

図 3 に示すように,各 MT の動作周波数決定後も同期待ちなどによりプロセッサがアイ ドル状態となる場合がある.ただし,図 3 中の MID は最速周波数の半分の動作周波数で当



図 3 周波数・電圧制御の結果の例 Fig. 3 Example of F/V control result.

該 MT を実行することを表す.本手法ではアイドル状態にあるプロセッサに対して,電源 遮断あるいはクロック遮断を適用することでアイドル中の無駄な電力消費を削減する<sup>11)</sup>. 3.2 実行時負荷不均衡に対する低消費電力化手法

本節では,実行時に生じうるプロセッサ間の負荷不均衡に対する低消費電力化手法を提案 する.コンパイル時に各プロセッサに処理が均等に割り当てられたとしても,プログラムの 入力などに依存する処理の不確定性により,実行時にプロセッサ間で負荷の不均衡が起こる 可能性がある.特に,ループボディに条件分岐を含む並列ループを分割し各プロセッサに割 り当てた場合においてそのような負荷不均衡は発生しやすく,提案手法ではそのような並列 ループをコンパイル時に検出し,電力制御命令をプログラム中に挿入することで,実行時 の負荷不均衡により生じるアイドル時間に対して電源遮断を行い,無駄な電力消費を削減 する.

あるループを本手法の制御対象とする必要条件は以下のとおりである.

複数のプロセッサによって並列処理される.

- ループボディに条件分岐が存在する、または回転数が変動する内部ループを持つ、
- 電力制御オーバヘッドと比較して処理時間が十分に大きい.

上記の条件を満たす実行時負荷不均衡ループを含む MTG 中において,負荷不均衡ルー プを実行した後に,プロセッサ間でバリア処理が必要な場合にビジーウェイトによって消 費される電力を削減するため,先行してバリアに到達したプロセッサに対して電源遮断を 適用する.ただし,「電力制御オーバヘッドと比較して処理時間が十分に大きい」とは,並 列ループの逐次実行時のコンパイラによる推定処理時間を Cost,当該並列ループを処理す るプロセッサ数を PE,電源遮断状態から最速の電力状態に復帰するためのオーバヘッドを *Overhead<sub>poweroff</sub>*,電力制御オーバヘッドに対するループのコスト比を Ratio としたとき, 以下の式を満たすことをいう.

 $Overhead_{poweroff} \times Ratio \leq Cost/PE$ 

なお,5章の RP2 上での評価においては *Overhead*<sub>poweroff</sub> には実測値の 100 [µs] を用 い, Ratio は 100 とした.

提案手法では,カウンティングセマフォアを用いることで最後にバリアに到達した PG を 実行時に判定し,以下の処理に移る.

- 最終 PG:電源遮断中の他 PG を復帰.
- 他 PG:電源遮断状態に移行.

図4に負荷不均衡のある並列ループに対する本手法の適用例を示す.この例では,負荷



不均衡により PG3, PG2, PG1の順にバリアに到達し電源遮断状態に移行している.最後 にバリアに到達した PG0 により PG1~PG3 に対して電源復帰命令が発行される.

3.3 デッドライン時刻までの待機電力最小化

3.1 節ではデッドライン制約に応じて各 MT の処理周波数を適切に低減させる手法につい て述べた.しかしデッドライン時間が十分に大きい場合,全 MT を最低周波数に指定した 場合でもデッドライン時刻よりも早く処理が終了することがある.特にメディアアプリケー ションなどの周期的なリアルタイム処理においては,全 MT の処理終了後にプログラムへ の入力待ちなどによる待機時間が発生する可能性がある.本節では,このような制約時刻ま での待機をともなうデッドライン制約モードをリアルタイム制約モードと定義し,待機時間 中の不要な電力消費を最小化する手法を提案する.本手法は4章で述べるプログラム中で の現在時刻を取得するタイマ API を用いる.

3.3.1 制御対象階層の検出

提案手法では,ユーザにより与えられたデッドライン時間と 3.1.1 項の方法によってコン パイル時に推定した周波数制御後の MTG の処理時間を比較し,当該 MTG における待機 時間 *T<sub>wait</sub>* を算出する.なお,周波数制御後の各 MT の処理時間は,その周波数に応じた 比率(50%の周波数なら2倍,25%の周波数なら4倍)を MT の処理時間にかけて推定す る.動作周波数を低減させてもバスやメモリの速度は変わらないため,動作周波数を半分に しても実際には処理時間は2倍にならないこともあるが,本手法では最大の遅延を考慮す ることで,デッドライン時刻を超過するのを防いでいる.

また,当該 MTG に割り当てられた全プロセッサが電源遮断と動作状態への復帰を行う ためのオーバヘッドを T<sub>OH-power</sub>,同様にクロックの遮断・復帰に必要なオーバヘッドを T<sub>OH-clock</sub> とする.これら各 MT の処理時間および電源遮断,クロック遮断オーバヘッド の推定では,対象マルチコア上でのプロファイル情報を用いることで精度を高めている<sup>11)</sup>. 提案手法ではこれらのパラメータを比較し,以下の判断基準で電力制御を適用する.

•  $T_{wait} \leq T_{OH\_clock}$ :制御なし

•  $T_{OH\_clock} < T_{wait} \leq T_{OH\_power}$ : クロック遮断

• *T*<sub>OH-power</sub> < *T*<sub>wait</sub>: 電源遮断

3.3.2 タイマを用いた実行時デッドライン管理

当該 MTG が電源遮断あるいはクロック遮断の適用階層と判断された場合,その MTG での最後の MT を処理するプロセッサ(PG内の先頭プロセッサ)がマスタプロセッサに指定される.マスタプロセッサ以外のプロセッサは,自身に割り当てられた最後の MT の終了後に電源遮断あるいはクロック遮断状態に移行する.マスタプロセッサは自身に割り当てられた先頭 MT の開始時刻をタイマを用いて取得し,最後の MT の終了時に最低動作周波数に移行後,タイマ API を用いてデッドラインまで待機する.デッドラインに到達後,電源遮断あるいはクロック遮断状態にある他のプロセッサを復帰させ,次の処理に移る.

図 5 に提案手法の適用例を示す.ここではコア0(PG0内先頭プロセッサ)がマスタプ ロセッサに選択され,最後のMT6終了後にデッドライン時刻まで最低の消費電力状態で待 機している.

4. OSCAR API における電力制御用指示文

本章では提案手法を実装した OSCAR コンパイラが出力する OSCAR API における電力 制御用の指示文について述べる.OSCAR API は OpenMP をベースとした API で,並列 実行,メモリ配置,データ転送,電力制御,タイマ,同期の6つのカテゴリ,15の指示文 で構成される<sup>12)</sup>.本論文では OSCAR API のうち,図6に示す3つの API を用いて,情 報家電用マルチコア RP2上での電力制御を実現した.

指示文 get\_fvstatus によって, pe\_no 番目のプロセッサの, module\_id で示されたモジュー ルの電力状態を変数 fv\_state に取得することができる.モジュールとしては, CPU, キャッ

#pragma oscar get\_fvstatus(pe\_no, module\_id, fv\_state)
#pragma oscar fvcontrol(pe\_no, (module\_id, fv\_state))
#pragma oscar get\_current\_time(current\_time, timer\_no)



図 6 本手法で用いた OSCAR API Fig.6 OSCAR API for proposed scheme.



シュあるいは CPU とキャッシュを含むコア全体など,マルチコアを構成する各種要素を指 定できる.本手法ではこの指示文を用いて,状態遷移中の電源復帰命令発行の防止を実現し た.また,指示文 fvcontrol によって,pe\_no 番目のプロセッサの,module\_id で示された モジュールの電力状態を変数 fv\_state で指定した電力状態に変更することができる.また, 指示文 get\_current\_time によって,timer\_no 番目のタイマーから現在時刻を取得し,変数 current\_time に取得することができる.この指示文を用いて,3.3 節で述べたリアルタイム 制約モードでの低消費電力化手法を情報家電用マルチコア RP2 上で実現した.

## 5. 性能評価

3 章で述べた低消費電力化手法を実装した OSCAR コンパイラの性能評価を情報家電用 マルチコア RP2 上で行った.

#### 5.1 情報家電用マルチコア RP2

本節では,提案手法の評価に用いた RP2 について述べる.RP2 は NEDO の "リアルタ イム情報家電用マルチコア技術" プロジェクトにおいて,早稲田大学,ルネサステクノロジ, 日立製作所によって共同開発された情報家電向けマルチコアプロセッサで,1つのチップ上 に8つの SH-4A コアを搭載している.RP2 の構成図を図7に示す.各プロセッサコアに は,CPU,キャッシュ,ローカルメモリ(命令メモリ ILRAM,データメモリ OLRAM), 分散共有メモリ(URAM),データ転送ユニット(DTU)が搭載されており,4コアまでは スヌープコントローラが MESI プロトコルでキャッシュコヒーレンシを保証する SMP モー ドとして動作する.5コア以上を使用する場合は,ソフトウェアが明示的にキャッシュコヒー レンシを保証する必要がある.

RP2 では, 各 CPU の周波数を 600 MHz, 300 MHz, 150 MHz, 75 MHz に独立して変 更することが可能である.また,供給電圧はチップー括での変更が可能である.それに加え

| 状態名                                              | クロック遮断対象モジュール               | 電源遮断対象モジュール                              | 消費電力 [W] |
|--------------------------------------------------|-----------------------------|------------------------------------------|----------|
| $\rm FULL$ ( $600\rm MHz$ , $1.404\rm V$ )       | なし                          | なし                                       | 5.29     |
| $\rm MID$ ( $\rm 300~MHz$ , $\rm 1.196~V$ )      | なし                          | なし                                       | 2.44     |
| $\rm LOW$ ( $\rm 150MHz$ , $\rm 1.004V$ )        | なし                          | なし                                       | 1.22     |
| VERYLOW ( $75\mathrm{MHz}$ , $1.004\mathrm{V}$ ) | なし                          | なし                                       | 0.99     |
| Light Sleep ( $1.004\mathrm{V}$ )                | CPU                         | なし                                       | 1.096    |
| Normal Sleep ( $1.004\mathrm{V}$ )               | CPU , cache , ILRAM , OLRAM | なし                                       | 0.743    |
| Resume Standby ( $1.004\mathrm{V}$ )             | URAM                        | CPU , cache , ILRAM , OLRAM , DTU        | 0.566    |
| CPU off ( 1.004 V )                              | なし                          | CPU , cache , ILRAM , OLRAM , DTU , URAM | 0.554    |

表 1 RP2 の電力状態 Table 1 Power Modes of RP2.

て、コア中の CPU のみのクロックを遮断する Light Sleep、コア中の URAM と DTU 以 外のクロックを遮断する Normal Sleep、コア中の URAM のクロックを遮断し、それ以外 を電源遮断する Resume Standby、コアの電源をすべて遮断する CPU off の 4 つの低電力 状態もとることが可能である.表1に RP2の持つ電力状態と、8 つのプロセッサコアすべ てを各電力状態にした場合の消費電力を示す.

また,電源復帰は他のコアからの割込み処理によって実現されている.

5.2 最速実行モードの評価

最速実行モードは 3.1 節で述べたコンパイル時における低消費電力化手法と 3.2 節で述 べた実行時負荷不均衡に対する低消費電力化手法を用いており,本節ではこれらの手法をま とめて本手法と呼ぶ.

SPEC2000 の art, equake および MediaBench の MPEG2 デコーダを制約付き C<sup>13)</sup> に 書き換えたプログラムとルネサステクノロジ提供の AAC エンコーダを用いて, RP2 上で 最速実行モードでの電力評価を行った.なお, MPEG2 デコーダの実行条件として,画面 サイズは  $352 \times 240$ ,フレームレートは 30 [fps],ビットレートは 5000 [kbps] のものを用い た.AAC エンコーダについては,16 bit ステレオ,ビットレート 128 [kbps] のものを用い た.評価には 4 コアの SMP モードを用い,使用しないプロセッサはプログラム開始時に CPU off を適用した.また,電源制御には Resume Standby を使用した.

4 コアでの並列化による速度向上としては,1 コアを用いた場合と比較して,art において 2.49 倍, equake において 2.67 倍, AAC エンコーダにおいて 3.29 倍, MPEG2 デコー ダにおいて 2.67 倍の速度向上が得られた.

本手法を適用した場合と適用しない場合の,実行時間とRP2チップ全体の消費エネルギー を比較した.ただし,データの入出力部分は評価から除いている.まず実行時間を図8に



Fig. 8 Execution time in fastest execution mode.

示す.図の横軸が各アプリケーション,縦軸が実行時間を表しており,各アプリケーション のバーは左から,1コアを用いた場合,4コアを用いて本手法を適用しなかった場合,4コ アを用いて本手法を適用した場合を表している.4コアを用いた場合における本手法適用に よる遅延率は art において 0.0042%, equake において 0.62%, AAC エンコーダにおいて 0.11%, MPEG2 デコーダにおいて 2.22%であった.これらの遅延は 3.2 節で述べた実行時 負荷不均衡に対する低消費電力化手法によるものである.

次に消費エネルギーを図 9 に示す.本手法による消費エネルギー削減効果は art に おいて 13.05% (1795.32 [J] から 1560.92 [J]), equake において 3.99% (3071.64 [J] から 2949.07 [J]), AAC エンコーダにおいて 3.84% (3.03 [J] から 2.91 [J]), MPEG2 デコーダ において 9.01% (25.68 [J] から 23.37 [J]) となった.

ここで最速実行モードにおいて, 3.2節で述べた実行時負荷不均衡並列ループに対する制









御が特に有効であった art について詳しく考察する.art の処理時間の約6割を占める並列 ループにおいて,最も処理が早く終了したプロセッサと最も遅く処理が終了したプロセッサ では,平均で51.1%の時間差があった.この並列ループは,コンパイル時には均等に分割さ れ各プロセッサに処理が割り当てられたが,プログラムの入力によって並列ループの内側の ループの回転数が決定されるため,実行時にプロセッサ間で負荷不均衡が生じた.本手法で はこのループを含む MTG に対して電力制御が適用された.

art を実行した際の電力波形の抜粋を図 10 に示す.図の横軸が時刻,縦軸が消費電力を 表している.また,縦の破線に囲まれた領域がループの1周期を表している.図10 で電力 が低減されていることには,前述したループを含む MTG に対する電力制御が寄与してい る.図10 の電力制御が適用された箇所の波形を見ると,まず2.25 [W] 付近まで電力が下が り(a),次に1.9[W]付近まで電力が下がっていることが分かる(b).これは,処理時間の約6割を占めるループを実行する際,各プロセッサが処理終了後にバリアに到達した順に 電力制御が適用されたためである.

次に,本手法で発生した遅延率について考察する.本手法では,対象 MTG のバリア同 期の直前のタイミングで電源制御を適用していたため,制御オーバヘッドに応じた遅延が 生じていた.最も遅延率が大きかった MPEG2 デコーダにおいては,9.01%の消費エネル ギーの削減効果が得られた一方,遅延率が2.22%となっている.最速実行モードにおいて は遅延が発生しないことが理想となるため,遅延率を低減させる必要があると考えられる. 遅延を生じさせずに電力制御を行うためには,制御オーバヘッドを考慮して電源制御をバリ ア同期よりも一定時間前のタイミングで行う必要があり,このような制御の最適化は今後の 課題である.

#### 5.3 リアルタイム制約モードの評価

リアルタイム制約モードは 3.1 節で述べたコンパイル時における低消費電力化手法と 3.2 節 で述べた実行時負荷不均衡に対する低消費電力化手法と 3.3 節で述べたデッドライン時刻 までの待機電力最小化手法を用いており,周期的なリアルタイムデッドラインを持つような プログラムを対象としたモードである.本節ではこれらの手法をまとめて本手法と呼ぶ.

ルネサステクノロジ提供の AAC エンコーダと, MediaBench の MPEG2 デコーダを制 約付き C に書き換えたプログラムを用いて, RP2 上でリアルタイム制約モードでの電力評 価を行った.AAC エンコーダにおけるリアルタイム制約は 44.1[フレーム/s], MPEG2 デ コーダにおけるリアルタイム制約は 30[フレーム/s] とした.なお,評価に先立ち, RP2 上 でこれらのプログラムを実行したプロファイル情報(プログラム中のループや関数の実行時 間や実行回数の情報)をコンパイラに与え,各マクロタスクのコスト見積り精度を高めて いる.

本手法を適用した場合と適用しない場合の平均電力を図 11 に示す.図 11 の各アプリ ケーションの左側の2つのバーは、リアルタイム制約を満たせる最少のコア数で実行した際 の、本手法適用時と非適用時の平均電力を示している.AAC エンコーダにおいては1コア、 MPEG2 デコーダにおいては2コアでリアルタイム制約を満たすことができた.右側の2 つのバーは8コアを用いて実行した際の、本手法適用時と非適用時の平均電力を示してい る.各コア数における本手法による電力削減効果は、AAC エンコーダにおいて1コア使用 時に66.0%(1.88[W]から0.64[W])、8コア使用時に87.9%(5.40[W]から0.65[W])で あり、MPEG2 デコーダにおいて2コア使用時に20.1%(2.44[W]から1.95[W])、8コア



使用時に 76.0% (5.41 [W] から 1.30 [W]) であった.

AAC エンコーダおよび MPEG2 デコーダを 8 コアを用いて実行した際の電力波形の抜粋 をそれぞれ図 12 と図 13 に示す.図の横軸が時刻,縦軸が電力を表す.AAC エンコーダに おいては,リアルタイムデッドラインまでの余裕度が十分に大きいため,エンコード処理は LOW の状態で行われ,その後デッドラインまで VERY LOW および電源遮断(Resume Standby)が適用された.MPEG2 デコーダにおいては,リアルタイムデッドラインまでの 余裕度が小さいため,主要のデコード処理については LOW の状態で 8 コアで並列処理さ れたが(a),他の処理については FULL の状態と電源遮断(Resume Standby)が併用し て適用された.

リアルタイム制約を満たせる最少のコア数を用いて本手法を適用した場合と,8コアを用 いて本手法を適用した場合の平均電力を比較する.AAC エンコーダにおいては,1コアで 実行した場合でもデッドラインまでの余裕度が十分にあるため,8コアを用いた場合と同様 にエンコード処理がLOWの状態で実行された.8コアを用いた場合,同期や電源復帰の オーバヘッドが1コアを用いた場合よりも大きいため,1コアを用いた場合の方が8コアを 用いた場合よりも1.4%平均電力が低くなった.一方,MPEG2デコーダにおいてはデッド



ラインまでの余裕度が小さいため、1 コアでのリアルタイム実行は不可能で、2 コアを用いた場合でも、主要のデコード処理を最速(FULL)でない周波数状態で実行するとリアルタイム制約が満たせなくなってしまう.そのため、2 コアを用いた場合は主要のデコード処理をFULLで実行後、デッドラインまで VERY LOW および電源遮断(Resume Standby)が適用された.そのため、8 コアを用いた場合の方が2 コアを用いた場合よりも 33.7%平均電力が低くなった。

## 6. ま と め

本論文では OSCAR API を用いたマルチコアプロセッサ向けの低消費電力化手法を提案 し,情報家電用マルチコア RP2 上で評価を行った.最速実行モードでは,実行時に負荷不

均衡が起こりうる並列ループを含む MTG において電源遮断を適用することで,ビジーウェ イトなどによる無駄な電力消費の削減を実現し,SPEC2000の art, equake および AAC エ ンコーダ,MPEG2 デコーダにおいて消費エネルギーをそれぞれ 13.06%, 3.99%, 3.84%, 9.01%削減することができた.また,メディアアプリケーションのリアルタイム処理向けの リアルタイム制約モードでは AAC エンコーダと MPEG2 デコーダにおいて,リアルタイ ム制約を守りつつ平均電力をそれぞれ 87.9%, 76.0%削減することができた.

謝辞 本研究の一部は NEDO"リアルタイム情報家電用マルチコア技術""情報家電用へ テロジニアスマルチコア技術"プロジェクト,早稲田大学グローバル COE"アンビエント SoC"の支援により行われた.

## 参考文献

- 1) Wolfe, M.: *High Performance Compilers for Parallel Computing*, Addison-Wesley Publishing Company (1996).
- Eigenmann, R., Hoeflinger, J. and Padua, D.: On the Automatic Parallelization of the Perfect Benchmarks, *IEEE Trans. Parallel and Distributed Systems*, Vol.9, No.1 (1998).
- Hall, M.W., Anderson, J.M., Amarasinghe, S.P., Murphy, B.R., Liao, S., Bugnion, E. and Lam, M.S.: Maximizing Multiprocessor Performance with the SUIF Compiler, *IEEE Computer* (1996).
- 4) 本多,岩田,笠原:Fortran プログラム粗粒度タスク間の並列性検出手法,電子情報 通信学会論文誌, Vol.J73-D-1, No.12, pp.951–960 (1990).
- 5) 笠原:最先端の自動並列化コンパイラ技術,情報処理, Vol.44, No.4, pp.384–392 (2003).
- 6) Albonesi, D.H., et al.: Dynamically tuning processor resources with adaptive processing, *IEEE Computer* (2003).
- 7) Wu, Q., Juang, P., Martonosi, M. and Clark, D.W.: Formal Online Methods for Voltage/Frequency Control in Multiple Clock Domain Microprocessors, 11th International Conference on Architectural Support for Programming Languages and Operating Systems (2004).
- 8) 高務,小林,小野寺:エネルギ最小周波数を利用したタスク再配置によるマルチプロ セッサ向け消費エネルギ削減手法,電子情報通信学会技術研究報告,Vol.104, No.711, pp.37-42 (2005).
- Li, J., Martinez, J.F. and Huang, M.C.: The Thrifty Barrier: Energy-Aware Synchronization in Shared-Memory Multiprocessors, *Proc. High Performance Computer Architecture* (2004).
- 10) Hsu, C. and Kremer, U.: The Design, Implementation and Evaluation of a Com-

piler Algorithm for CPU Energy Reduction, The ACM SIGPLAN Conference on Programming Language Design and Implementation (2003).

- 11) 白子,吉田,押山,和田,中野,鹿野,木村,笠原:マルチコアプロセッサにおけるコンパイラ制御低消費電力化手法,情報処理学会論文誌:コンピューティングシステム, Vol.47, No.ACS15 (2006).
- 12) OSCAR API 仕様書.http://www.kasahara.cs.waseda.ac.jp/api/regist.html
- 13) 間瀬,馬場,長山,田野,益浦,宮本,白子,中野,木村,笠原:情報家電用マルチ コア smp 実行モードにおける制約付き c プログラムのマルチグレイン並列化,組込み システムシンポジウム 2007 (2007).

(平成 21 年 1 月 27 日受付)(平成 21 年 5 月 1 日採録)



間瀬 正啓(学生会員)

昭和 58 年生.平成 17 年早稲田大学理工学部電気電子情報工学科卒業. 平成 19 年同大学大学院理工学研究科情報・ネットワーク専攻修士課程修 了.平成 19 年同大学院基幹理工学研究科情報理工学専攻博士後期課程進 学.平成 20 年早稲田大学基幹理工学部情報理工学科助手,現在に至る.

# 中川 亮

昭和 59 年生.平成 19 年早稲田大学理工学部コンピュータ・ネットワー ク工学科卒業.平成 21 年同大学大学院修士課程修了.平成 21 年株式会 社 NTT データ入社,現在に至る.

# 大國 直人

昭和 61 年生. 平成 21 年早稲田大学理工学部コンピュータ・ネットワー ク工学科卒業. 平成 21 年同大学大学院基幹理工学研究科情報理工学専攻 修士課程進学,現在に至る.



# 白子 準(正会員)

昭和 54 年生.平成 14 年早稲田大学理工学部電気電子情報工学科卒業. 平成 19 年同大学大学院博士課程修了.博士(工学).平成 17 年同大学同 学部助手.平成 19 年学振特別研究員 PD.平成 20 年アメリカ合衆国 Rice 大学コンピュータサイエンス工学科ポスドク研究員,現在に至る.



#### 木村 啓二(正会員)

昭和47年生.平成8年早稲田大学理工学部電機工学科卒業.平成13年 同大学大学院理工学研究科電気工学専攻博士課程修了.平成11年早稲田 大学理工学部助手.平成16年同大学理工学部コンピュータ・ネットワー ク工学科専任講師.平成17年同助教授.平成19年同大学情報理工学科准 教授,現在に至る.マルチコアプロセッサのアーキテクチャとソフトウェ

アに関する研究に従事.



## 

昭和 55 年早稲田大学理工学部電気工学科卒業.昭和 60 年同大学大学 院博士課程修了,工学博士.昭和 61 年早稲田大学理工学部専任講師,平 成9年同教授,現在情報理工学科教授,アドバンストマルチコアプロセッ サ研究所長.昭和 60 年カリフォルニア大学バークレー校,平成元年~2 年イリノイ大学 Center for Supercomputing R&D 客員研究員.昭和 62

年 IFAC World Congress Young Author Prize, 平成9年情報処理学会坂井記念特別賞, 平成20年 LSI オブザイヤー準グランプリ受賞. IEEE Computer Society 理事,情報処理 学会ARC 主査,論文誌 HG 主査,文部科学省地球シミュレータ中間評価委員,経済産業 省/NEDO "アドバンスト並列化コンパイラ" "リアルタイム情報家電用マルチコア"等プロ ジェクトリーダ歴任.