# CPUとDRAMの消費電力制限下でのMHDシミュレーション コードの電力特性

深沢 圭一郎<sup>†1, †2, †3</sup> 青柳 睦<sup>†1</sup> 津秦 伴紀<sup>†4</sup> 吉田 匡平<sup>†4, †5</sup> 稻富 雄一<sup>†3, †6</sup> 井上 弘士<sup>†3, †6</sup>

現在,エクサフロップス級計算機システムを実現するために,消費電力を削減することが重要な課題となっている. しかしながらアプリケーションレベルでは消費電力について研究が進んでおらず,アプリケーションが持つ消費電力 特性もよく調べられていないのが現状である.そこで本研究では,CPU 消費電力,DRAM 消費電力に制限をかけた 場合の惑星磁気圏 MHD シミュレーションコードがどのような消費電力特性を持つかを調べた.その結果,差分計算 を行い計算負荷が高い箇所では CPU 消費電力制限の影響を強く受け,境界値設定などデータのやりとりが多い箇所 では DRAM 消費電力制限の影響を受けやすいことが明らかになった.さらに CPU,DRAM の消費電力を同時に制限 することで,MHD シミュレーションコードがどのような実効性能の変化を見せるかを調べ,コードにとって最適な CPU-DRAM 消費電力比率があることを明らかにした.

# Power Consumption Evaluation of an MHD Simulation under CPU and DRAM Power Capping

KEIICHIRO FUKAZAWA<sup>†1, †2</sup> MUTSUMI AOYAGI<sup>†1</sup> TOMONORI TSUHATA<sup>†3</sup> KYOHEI YOSHIDA<sup>†3</sup> YUICHI INADOMI<sup>†5</sup> KOJI INOUE<sup>†5</sup>

Recently to achieve the Exa-flops next generation computer system, the power consumption becomes the important issue. On the other hand, the power consumption character of application program is not so considered now. In this study we examine the power character of our Magnetohydrodynamic (MHD) simulation code for the global magnetosphere to evaluate the power consumption behavior of the simulation code under the CPU and DRAM power capping on the parallel computer system. As a result, it is confirmed that there are different power consumption parts in the MHD simulation code, which the execution performance decreases or does not change under the CPU power capping. This indicates the capability of performance optimization with the power capping.

## 1. はじめに

現在、エクサフロップス級スーパーコンピュータシステム(エクサ級スパコン)を作る上で、消費電力問題が最大の問題となっていることがよく知られている[1,2]. エクサ級スパコンで利用可能な電力は 20 MW 程度と予測されており[2],50 Flops/W の電力性能効率が求められている.これは現在の Green500 の Top 1 と比べても 13 倍程度の電力性能が必要となり[3],達成が難しい状況である.一方で、計算機センターにとっても消費電力の増大に伴い電力料金が運用コストの大部分を占めるようになり、運用の面からも消費電力の削減は重大な問題となっている.これら電力問題を解決するためには、ハードウェアだけでなく、アプ

Research Institute for Information Technology, Kyushu University †2 現在、京都大学学術情報メディアセンター リケーションレベルでの電力性能最適化が重要なアプロー チと考えられる. つまり,現在のハードウェアやアプリケ ーションの最適手法ではエクサ級スパコンを実現するため には不十分と考えられる. このような状況において,電力 性能最適化を行うために,アプリケーション開発者は自分 のアプリケーションがどのような消費電力特性を持ってい るか理解しておく必要がある.

本研究では、CPU と DRAM 消費電力に制限をかけた場 合、どのような電力性能特性を持つかを調べるため、電磁 流体力学(MagnetoHydroDynamic: MHD)シミュレーショ ンを実行した. MHD シミュレーションコードは流体シミ ュレーションコードの1種であり、今回の研究結果は一般 の流体計算にも適用できると考えられる.評価・測定には 表1のような特徴を持つ九州大学情報基盤研究開発センタ ーの Fujitsu CX400 と、CX400 では DRAM 消費電力制御が うまく行えなかったために、表2のような自作サーバを利 用した.

現在, アプリケーションの消費電力をコントロールする いくつかの手法が提案されている. 例えば, Adagio Runtime [4] は DVFS (Dynamic Voltage and Frequency Scaling)を利用 し, 計算性能を下げずに消費電力を削減している(UMT2K や ParaDiS を利用). 近年では RAPL (Running Average Power

<sup>†1</sup> 九州大学情報基盤研究開発センター

Now, Academic Center for Computing and Media Studies, Kyoto University †3 独立行政法人科学技術振興機構,CREST

CREST, JST

<sup>\*4</sup> 九州大学大学院システム情報科学府情報知能工学専攻 Department of Advanced Information Science and Electrical Engineering, Graduate School of Information Science and Electrical Engineering, Kyushu University

<sup>†5</sup> 現在、富士通

Now, Fujitsu

<sup>☆6</sup> 九州大学大学院システム情報科学研究院情報知能工学部門 Department of Advanced Information Technology, Faculty of Information Science and Electrical Engineering, Kyushu University

| CPU    | Architecture    | 8 cores Xeon E5 2680 |
|--------|-----------------|----------------------|
|        |                 | (Sandy Bridge)       |
|        | Frequency       | 2.7 GHz              |
|        | Cache           | L2: 256 KB/core      |
|        |                 | L3 :20 MB/CPU        |
| DRAM   | DDR3-800        | 8 GB × 8 /CPU        |
| B/F    | 51.2/172.8      | 0.30                 |
| Node   | Number of CPUs  | 2                    |
|        | Memory size     | 128 GB               |
| System | Number of nodes | 1476 (23,616 cores)  |
|        | Rmax            | 510.1TFlops          |
|        | Node comm.      | InfiniBand FDR       |

表1 富士通 CX400 の諸元 Table 1 System of Fujitsu CX400

| 表2 自作サーバの諸 |
|------------|
|------------|

| Table 1   System of hand-made sever |                |                        |  |  |  |
|-------------------------------------|----------------|------------------------|--|--|--|
| CPU                                 | Architecture   | 6 cores Xeon E5 2620   |  |  |  |
|                                     |                | (Sandy Bridge)         |  |  |  |
|                                     | Frequency      | 2.0 GHz                |  |  |  |
|                                     | Cache          | L2: 256 KB/core        |  |  |  |
|                                     |                | L3 :15 MB/CPU          |  |  |  |
| DRAM                                | DDR3-1333      | 16 GB × 8 /CPU         |  |  |  |
| B/F                                 | 85.333/192     | 0.44                   |  |  |  |
| Node                                | Number of CPUs | 2                      |  |  |  |
|                                     | Memory size    | 256 GB                 |  |  |  |
| Mother                              | SuperMicro     | X9DRL-iF               |  |  |  |
| board                               |                | (Chip set: Intel C602) |  |  |  |

Limit) が Sandy Bridge 世代以降の Intel CPU で利用でき, Rountree らは RAPL を用いた電力制限下でのベンチマーク アプリケーションの性能測定を行っている[5].

本研究報告の構成は以下の通りである.第2章では, MHD シミュレーションモデルについて説明し,第3章で は数値計算手法,並列化手法などを簡単に説明する.第4 章で消費電力制限下での MHD シミュレーションの電力測 定結果を述べて,第5章で CPU と DRAM 消費電力割合に ついて議論し,最後に研究のまとめをする.

### 2. MHD シミュレーションモデル

#### 2.1 MHD 方程式

宇宙空間は真空と思われているが、その99%はプラズマ で満たされている.プラズマとは電離した気体のことであ り、帯電している電子とイオンが分かれて存在する状態で ある.しばしば物質の第4の状態とも呼ばれている.宇宙 空間、特に我々の暮らす太陽系においては太陽から太陽風 と呼ばれるプラズマの風が常時吹き出しており、太陽系全 体にそのプラズマが充満している.宇宙プラズマは導電率 が高いため、プラズマは磁力線に沿って動きやすく、また 磁力線を横切る動きを取りにくい特徴がある.そのため、 太陽風プラズマは太陽の磁場を伴って超音速で吹き出して おり、地球のような磁化惑星に衝突すると、その磁場を伴 ったプラズマの風が惑星の固有磁場と相互作用する.その 結果、惑星磁場が変形し、磁気圏という構造ができる.こ こでは磁気嵐などの様々なプラズマ現象が起きている.こ れらは宇宙空間で起きる現象であるため探査機を打ち上げ て観測を行うが、基本的に"その場"の観測しか行えない (立体空間情報を得ることができない).そのため、3次元 空間構造,さらにその時間発展などを調べることのできる 宇宙プラズマ計算機シミュレーションがこの分野の理論の 発展、また観測結果の理解の促進に非常に重要な役割を果 たしてきている.

このようなプラズマの振る舞いを記述する方程式とし て Vlasov-Maxwell 方程式がある.これは,無衝突 Boltzmann 方程式と Maxwell 方程式から成る.宇宙プラズマの密度は 非常に低いために,その平均自由行程が非常に長くなる. 例えば,太陽プラズマの平均自由行程は1天文単位(太陽 と地球の距離)にも達する.そのため宇宙プラズマは基本 的に衝突が無いと見なされる.Vlasov(無衝突 Boltzmann) 方程式は以下の形をとる.

$$\frac{\partial f_s}{\partial t} + \vec{v} \frac{\partial f_s}{\partial \vec{r}} + \frac{q_s}{m_s} (\vec{E} + \vec{v} \times \vec{B}) \frac{\partial f_s}{\partial \vec{v}} = 0$$
(1)

ここで $\vec{E}$ ,  $\vec{B}$ ,  $\vec{r} \geq \vec{v}$ はそれぞれ電場, 磁場, 距離, 速度 を表す. また,  $f_s(\vec{r}, \vec{v}_s, t)$ は位置-速度位相空間における 分布関数であり, sはイオンや電子など種類を示す.  $q_s$ は 電荷を $m_s$ は質量を表す.

しかしながら、Vlasov 方程式は多くの成分からなる非線 形方程式であり、計算機システムを用いても解くことが非 常に難しい.そこで、Vlasov 方程式のモーメントをとるこ とで求められる電磁流体力学(MHD)方程式が、グローバ ルなプラズマ構造を調べるときには使用されている.MHD 方程式は(1)式、Vlasov 方程式の0次、1次、2次のモーメ ントをとり、運動論的効果を無視することで得られ、以下 のようになる.

$$\frac{\partial \rho}{\partial t} = -\nabla \cdot (\mathbf{v}\rho)$$

$$\frac{\partial \mathbf{v}}{\partial t} = -(\mathbf{v} \cdot \nabla)\mathbf{v} - \frac{1}{\rho}\nabla p + \frac{1}{\rho}\mathbf{J} \times \mathbf{B}$$
(2)
$$\frac{\partial p}{\partial t} = -(\mathbf{v} \cdot \nabla)p - \gamma p \nabla \cdot \mathbf{v}$$

$$\frac{\partial \mathbf{B}}{\partial t} = \nabla \times (\mathbf{v} \times \mathbf{B})$$

上から,連続の式,運動方程式,圧力変化の式(エネルギ ーの式),最後が磁場の誘導方程式となる[6].簡単に言え ば,電磁場を考慮した流体力学方程式と呼べる.詳しい導 出方法は参考文献を参照されたい[7].

#### 2.2 数值計算手法

MHD 方程式を解く数値計算法としては, Ogino らによって開発された Modified Leap Frog (MLF) 法[8, 9]を使用 する.これは最初の1回を two step Lax-Wendroff 法で解き, 続く (l-1) 回を Leap Frog 法で解き,その一連の手続 きを繰り返す.図1に MLF 法の計算スキームを示す.lの 値は数値的に安定の範囲で大きい方が望ましいので,2次 精度の中心空間差分を採用するとき,数値精度の線形計算 と予備的シミュレーションからl=8に選んでいる.また, 並列化は MPI を利用し,プロセス並列だけを行っている.

電力を測定する際に、この数値計算を二つのパートに分 けて評価を行った.一つは MLF 法の計算が主である calc-part とし、もう一つを図1にあるような1st step と 2nd step の間で行われる配列の load/store や境界値計算, MPI 通信部分を data-part とする.計算時間の割合は、calc-part が実行時間の約85%を占め、data-part が残りの時間となる.

#### 3. MHD コードの性能評価結果

ここではMHDシミュレーションコードの性能と消費電力について測定を行った.消費電力測定と制限についてはインテルが提供しているRAPL (Running Average Power



Figure 1 Scheme of Modified Leap Frog method

Limit) [10] を利用した. RAPLはCPUやDRAMなどの消費電 力を測ることができ、また消費電力に制限を加えることが できるインターフェースである.本研究ではCPUとDRAM の消費電力に注目して測定を行っている.



図 2 RAPL で計測した PKG, DRAM, LLC access と miss rate の消費電力時間変化

Figure 2 Power consumption of PKG, DRAM, LLC access and miss rate in time line measured by RAPL

| 表3 ] | MHDシミュ | レーショ | $\mathcal{VO}$ calc-part | における消費電力 |
|------|--------|------|--------------------------|----------|
|------|--------|------|--------------------------|----------|

 Table 3
 Power consumption of calc-part in the MHD

 simulation code with several nodes

| Number<br>of nodes | CPU<br>[W] | DRAM<br>[W] | Elapse<br>time<br>[sec] | CPU/<br>node<br>[W] | DRAM/<br>node<br>[W] |
|--------------------|------------|-------------|-------------------------|---------------------|----------------------|
| 1                  | 188.32     | 65.05       | 390.58                  | 188.32              | 65.05                |
| 32                 | 5,913.20   | 2,106.83    | 394.81                  | 184.79              | 65.84                |
| 64                 | 11,985.89  | 4,867.42    | 393.68                  | 187.28              | 76.05                |
| 128                | 23,743.39  | 9,723.32    | 390.56                  | 185.50              | 75.96                |
| 256                | 47,485.39  | 19,063.96   | 392.37                  | 185.49              | 74.47                |
| 512                | 95,654.56  | 35,059.75   | 393.59                  | 186.83              | 68.48                |
| 1,024              | 187,010.42 | 63,209.26   | 388.64                  | 182.63              | 61.73                |
| 1,472              | 272,996.83 | 101,796.42  | 392.94                  | 185.46              | 69.16                |

表4 MHD シミュレーションの data-part における消費電力

 Table 4
 Power consumption of data-part in the MHD

 simulation code with several nodes

| Number<br>of nodes | CPU<br>[W] | DRAM<br>[W] | Elapse<br>time<br>[sec] | CPU/<br>node<br>[W] | DRAM/<br>node<br>[W] |
|--------------------|------------|-------------|-------------------------|---------------------|----------------------|
| 1                  | 172.45     | 77.75       | 67.58                   | 172.45              | 77.75                |
| 32                 | 5,444.98   | 2,492.62    | 67.00                   | 170.16              | 77.89                |
| 64                 | 11,379.43  | 5,563.98    | 62.30                   | 177.80              | 86.94                |
| 128                | 22,479.50  | 10,988.15   | 63.94                   | 175.62              | 85.84                |
| 256                | 44,048.63  | 22,544.07   | 68.56                   | 172.06              | 88.06                |
| 512                | 91,172.67  | 39,570.63   | 65.03                   | 178.07              | 77.29                |
| 1,024              | 179,769.18 | 65,274.78   | 106.23                  | 175.56              | 63.74                |
| 1,472              | 252,556.57 | 99,835.16   | 114.65                  | 171.57              | 67.82                |

#### 3.1 CPU 消費電力制限が無い場合

まず,消費電力制限を加えずに MHD シミュレーション を実行し, どのような消費電力特性になるかを測定した. 測定は5回行い,著しく結果が異なるものを除いて平均を 取った値を測定結果とした.また本研究では複数ノードを 利用する場合 weak scaling で測定を行った.この測定では CX400 を利用している.

図2に32ノードを利用しMHDシミュレーションを実行 した際のCPU(PKG), DRAM, LLC access rate とLLC miss rate の時間変化を示す.この結果から, calc-part と data-part の中では大きく消費電力が時間変化することは無いことが 分かる.このため,以降では各パートの平均消費電力を扱 うことにする.

表 3 と 4 に calc-part と data-part の消費電力の測定結果を 示す. ここでは最大 1,472 ノードを利用して MHD シミュ レーションの消費電力を測定した. calc-part を計算するの に 390.58 秒 かかり, ノード当たりの消費電力は CPU が 188.32 W, DRAM が 65.05 W となった. data-part では Elapse time が 67.58 秒となり, ノード当たりの CPU 消費電力が 172.45 W, DRAM が 77.75 W となった. 前述のように calc-part は数値計算のコア部分を含んでおり, CPU の消費 電力が data-part と比べて 9.2 %も高くなっている. 一方で DRAM の消費電力は data-part の方が 19.2 %も calc-part より 高くなっている.これらの傾向はコードの内容 (CPU を利 用する計算が主, データの load/store が主など) をよく反映 している結果と言える.

CX400 に搭載されている CPU の TDP (Thermal Design Power) は 260 W であり,今回の計測結果と比べてみると, MHD シミュレーションでは最大限の消費電力に達してい ないことがわかる. この点から消費電力が最適化の一つの 目安となると提案できる.

利用ノード数を増やしていくと,表 3,4 にあるように 消費電力はノードに比例して増加していく.この計測では weak scaling を用いており,ノード当たりの計算量は変化し ない.ノード数を変化させても、ノード当たりの calc-part と data-part の CPU 消費電力はそれほど変化していないが (~4%以内) DRAM の消費電力は変化が見える(~14%).こ れが data-part の Elapse time の変動に影響を与えている.

1,472 ノードを利用した場合, calc-part と data-part の消費 電力の差は 20,440.26 W となる. これは同じシミュレーシ ョンコードの中でも内容によって消費電力が大きく異なる ことを示しており, コードの書き方で計算性能がほとんど 落ちず, 消費電力は削減できる可能性を示している.

また, 1,024 と 1,472 ノード利用時に DRAM の消費電力 が低くなり, Elapse time が増えている. これは CX400 のノ ード間接続によるもので, 1,024 ノードを超えたノード間 は通信性能が 1,024 ノード間よりも低いもので構成されて いることが原因と考えられる.

#### 3.2 CPU 消費電力制限がある場合

CPU に消費電力制限をかけるには RAPL を利用した. CX400 では DRAM に消費電力制限をかけられなかったた め,ここでは CPU だけに消費電力制限をかけた1ノードで MHD シミュレーションを実行した. 消費電力は102 W か ら TDP と同じ 260 W (制限なし)まで制限を変化させた.

図3に計測した calc-part の CPU と DRAM 消費電力と Elapse time を示す.表3に示したように MHD シミュレー ションは185 W/CPU を消費電力制限なしで使用するため, 180 W までの制限下では消費電力, Elapse time もほぼ変化 がない.消費電力制限が180 W を下回ると,その効果がよ く見えてくる.制限が強くなるにつれて,Elapse time は大 きくなり,CPU の消費電力は制限通りに下がっていく.変 化量を見ると,消費電力が182 W から109 W まで変化した 場合(60%の変化),Elapse time は増加率が142%となって いる.つまり電力性能割合的には2%の増加と言える.消 費電力制限をかけていない DRAM の消費電力は CPU の消 費電力が下がるにつれて,CPU の消費電力に比べてゆっく りと下がっている.これはCPU 消費電力制限によって CPU のスループットが落ち,時間当たりのメモリアクセスが減 ったためと考えられる.









data-part の結果を図4に示す. 消費電力制限がない場合 で175W程度の消費電力だったため、data-partも180Wの 消費電力制限までそれほど大きな変化は見えない. 180W の制限以下では CPU 消費電力は下がっているが、Elapse time はそれほど変化しておらず(67~72秒), DRAMの消 費電力は Elapse time 以上に変化が見られない. これはデー タの load/store といったメモリを使う動作が多い部分では、 CPUの消費電力を減らしても、メモリ上の動作に影響が無 く,経過時間にもそれほど影響がないことを示している.

この結果はアプリケーション実行中に動的に消費電力 制限を行うと、計算性能は落とさずに、消費電力を削減で きる証拠の一つと言える.このような特徴を現在のアプリ ケーション開発者は把握していないが、これからは自分の アプリケーションがどのような消費電力特性を持つのか把 握することが重要な点と考えられる.

#### 3.3 CPU-DRAM 消費電力制限がある場合

CX400 には DRAM の消費電力制限がかけられなかった ため,制限がかけられる SuperMicro のマザーボードを利用 した自作サーバを利用して測定を行った. CX400 と同様に



図 5 自作サーバにおける CPU 電力制限下での測定結果 Figure 5 Measurement results under the CPU power capping on the hand-made sever



図 6 自作サーバにおける DRAM 電力制限下での測定結果 Figure 6 Measurement results under the DRAM power capping on the hand-made sever

CPU 消費電力制限がかかること, DRAM 消費電力制限が機能していることを確認するために制限を CPU だけの場合, DRAM だけの場合のそれぞれを測定した.図5は CPU だけ けに消費電力制限をかけた結果であり,制限が強いところ 以外(56,50 W 以外)では CX400 の場合と同様の変化を 示していることが確認できる.制限が強いところでは Elapse time が極端に遅くなっており,電力不足や動作不安 定が想像される.また,図6は DRAM だけに消費電力制限 をかけた結果を示しており,制限無しで DRAM の消費電力 は~40 W 程度しかないため,制限が効き始めるのが40 W より小さい制限からだが,DRAM の消費電力が下がってい るのが確認できる.DRAM の場合も制限が強いところで極 端に Elapse time が遅くなり,20 W では24 W 時の倍以上に 遅くなっている.

次に CPU と DRAM の消費電力に同時に制限をかけどの ような変化になるかを調べた. 図 7 に calc-part, 図 8 に data-part の消費電力制限下での Elapse time を示す. calc-part の Elapse time は図 5,6の結果と同様の結果となっており,







CPUとDRAM 消費電力制限に沿って Elapse time は遅くなっているが、どちらかに強い制限がかかると Elapse time は非常に遅くなる.このように CPU だけの結果とDRAM だけの結果を足したような測定結果に見えるが、図7の奥、緑に囲まれた赤い部分などでは、周りより良い電力性能を示していると考えられる.data-part も calc-part と同様の変化に見えるが、青から赤に変化する場所では(図8左側)、CPU 消費電力を56W程度に固定して、DRAMの消費電力を下げても性能が落ちない場合があることが分かる.このように CPU と DRAM 消費電力の組み合わせ次第で、電力性能比をあげられることがある.

実際にどの消費電力の組み合わせで電力性能比が良く なるのか調べてみた. calc-part で一番 Elapse time が早かっ たのは、98(CPU)+60(DRAM) W の場合で、49.10 秒となっ ている.一方で、98+60 W で 49.15 秒というほぼ同じ Elapse time の結果もあった.この場合 DRAM の消費電力分 20 W が性能を下げずに削減できている.また data-part では最速 が 104+52 W 時の 2.94 秒となっているが、92+52 W で 3.00 秒の結果もあった.ここでは CPU 消費電力分 12 W が削減 できている.この結果では、比較的消費電力制限が弱いと きに、アプリケーションがあまり利用しない部分の消費電 力を制限しても計算性能は下がらず、消費電力が削減でき ることが示されている.

# 4. CPU-DRAM 消費電力比

エクサ級スパコン達成の問題に電力があるように,将来 的には計算で利用する電力を現在の利用ノード数指定や経 過時間指定などと同様に指定することが考えられる.そこ である特定の電力を利用可能な場合,CPU と DRAM に供 給する電力の割合を変化させるとどのような特徴を持つの



図 8 CPU と DRAM 電力制限下での data-part 経過時間 Figure 8 Elapse time of data-part under both CPU and memory capping

か調査した.測定には DRAM に消費電力制限をかけるため, 自作のサーバを利用した.

図9にCPUとDRAMの消費電力割合を変化させた MHD シミュレーションの経過時間測定結果を示す.この測定結 果は吉田ら[11]での MHD シミュレーション電力性能測定 と基本的に同じである.吉田ら[11]は電力分配による性能 向上率について議論しているが,本報告ではそれは行わず, 性能が向上する条件について議論を行う. ここでは利用可 能電力を 90 W から 140 W まで変化させ, その中で CPU と DRAM が使える電力割合を変化させている.図で〇が付い ている割合はシステムがもともと持っていた CPU と DRAM の消費電力の割合を維持した場合の結果となって いる (Naïve). ☆が付いた割合はその利用可能電力の中で 一番 Elapse time が小さくなった,最も性能が良い場合の結 果となる (Best). 図から今までの自作サーバの電力制限下 の挙動と同様に CPU と DRAM どちらかに極端に強い制限 がかかると Elapse time は大幅に増えている. Naïve と Best はどの場合でも一致することは無く, MHD シミュレーシ ョンではどの場合でも Naïve では CPU に電力を与えすぎと 言える.利用可能な合計電力が大きい場合は DRAM に 40 Wを与える電力割合が Best となっているが, 合計電力が小 さくなってくると、DRAM に電力を多く与えると性能が良 くなるのでは無く,最も低い合計電力の場合で DRAM 消費 電力が 28 W の時に Best となっている.

ここで, Best の場合の CPU の消費電力と DRAM 消費電 力の比率を計算してみると,表 5 のようになる. Naïve の 場合は約3程度になっているが Best の場合は 2.00~2.50 と なっている. 140 W と 130 W では DRAM 消費電力をこれ 以上上げられないために少し高い比率になっていると考え られるが, 2.00~2.2 程度が最適な CPU と DRAM の消費電





カ比と想定される. この比率はどの計算システムであるア プリケーションはどのような割合で CPU と DRAM に電力 をあたえると性能が高いのを知る指数となり得る. アプリ ケーションの B/F 値と異なり,計算機システムに依存する 指数となるため,アプリケーション単体で計算することは できないが,計算機センター等での運用において性能を下 げずに消費電力を下げるための一つの指数として利用でき る.

### 5. まとめ

この研究では惑星磁気圏を解く MHD シミュレーション コードが消費電力制限下でどのような電力特性を持つのか 調べた.電力制限が無い場合,MHD シミュレーションコ ードは CPU の最大電力を使えておらず,性能最適化の余地 があることが分かった.CPU に消費電力制限をかけた場合, CPU 消費電力が下がり,CPU 負荷が高いコードの箇所では Elapse time も増えていったが,データの load/store などが主 な箇所では,CPU 消費電力は下がるが,Elapse time はそれ ほど変化が無く,コードの内容によって消費電力を制限し

| 表 5 CPU と DRAM 消費電力の |
|----------------------|
|----------------------|

| Table 5 | Ratio of  | CPU         | and DRAM    | power | consum  | ption |
|---------|-----------|-------------|-------------|-------|---------|-------|
| ruore o | itutio oi | <b>CI</b> U | und Did mit | poner | combain | puon  |

| Total power budget [W] | 140  | 130  | 120  | 110  | 100  | 90   |
|------------------------|------|------|------|------|------|------|
| CPU/ DRAM of Naïve     | 4.00 | 3.64 | 3.29 | 2.93 | 3.17 | 2.75 |
| CPU/ DRAM of Best      | 2.50 | 2.25 | 2.00 | 2.06 | 2.13 | 2.21 |

ても性能が落ちないことがあると分かった.

DRAMに消費電力制限をかけた場合,CPU負荷が高いところに比べて,データのload/storeが主なところの性能が悪くなりやすい結果となり、コードの内容を反映した挙動になることが分かった.CPUとDRAMに消費電力制限をかけた場合,比較的制限が弱い場合に、計算負荷が高いところ,load/storeが主なところで,性能を下げずにそれぞれ20W程度の消費電力削減が可能であった.

アプリケーションの最適な CPU と DRAM の消費電力比 は,計算機システムによって異なるが,最適な比率があり, 性能を下げずに消費電力を下げるための指数の一つとなり 得る.

**謝辞** 本研究の計算結果は九州大学情報基盤研究開発 センターの計算機システムを利用して得られた.本研究は JST, CREST の研究領域「ポストペタスケール高性能計算 に資するシステムソフトウェア技術の創出」の研究課題「ポ ストペタスケールシステムのための電力マネージメントフ レームワークの開発」の支援を受けている.

## 参考文献

1) P. M. Kogge, et al., Exa Scale Computing Study: Technology Challenges in Achieving Exascale Systems, *in Exascale Computing Study Report*, 2008.

(http://users.ece.gatech.edu/mrichard/ExascaleComputingStudyReports/ exascale\_final\_report\_100208.pdf) 2) P. M. Kogge, and T. J. Dysart, "Using the TOP500 to trace and project technology and architecture trends," *High Performance Computing, Networking, Storage and Analysis (SC), 2011 International Conference for*, pp.1,11, 12-18 Nov. 2011.
3) The Green 500 Site. (http://www.green500.org/)

4) B. Rountree, D. K. Lowenthal, B. de Supinski, M. Schulz, V. W.
Freeh, and T. Bletsch, "Adagio: Making DVS practical for complex HPC applications", Proceedings of the 23rd international conference on Supercomputing, June 08-12, 2009, Yorktown Heights, NY, USA doi:10.1145/1542275.1542340.

5) B. Rountree, D. Ahn, B. R. de Supinski, D. K. Lowenthal, and M. Schulz, 2012. "Beyond DVFS: A first look at performance under a hardware-enforced power bound", *Parallel and Distributed Processing Symposium Workshops & PhD Forum (IPDPSW), 2012 IEEE 26th International*, pp.947,953, 21-25 May 2012, doi: 10.1109/IPDPSW.2012.116.

6) Chang, C. L. and Lee, R. C. T.: Symbolic Logic and Mechanical Theorem Proving, Academic Press, New York (1973).

7) R. O. Dendy, 『Plasma Dynamics』, Oxford University Press, 1990.
8) T. Ogino, R. J. Walker, M. Ashour-Abdalla, A global

magnetohydrodynamic simulation of the magnetopause when the interplanetary magnetic field is northward, IEEE Trans. Plasma Sci.20, 817.828, 1992.

9) Fukazawa, K., T. Ogino, and R.J. Walker, "The Configuration and Dynamics of the Jovian Magnetosphere", J. Geophys. Res., 111, A10207, 2006.

10) Intel Quick Reference Guide to Optimization with Intel Compilers Version 13.

吉田匡兵,他, "CPUと主記憶への電力バジェット配分を考慮した HPC アプリケーションの性能評価", HPC 研究会, Vol. 2013-HPC141 No.21, 2013.