今 井 晴 基<sup>11</sup> 森 山 孝 男<sup>11</sup>

IBM Blue Gene<sup>®</sup>/P は, IBM Blue Gene<sup>®</sup> ソリューションの最新機種であり, ノード内4コアでのメモリ共有が可能となるなどいくつかの機能向上が図られている. 本論文では,この Blue Gene/P において第一原理分子動力学ソフトウェア PHASE の最適化を行った.単体ノード性能の向上のために,キャッシュブロッキングのブロッ クサイズの選定,SIMD 演算命令利用のためのコード修正,FFT ライブラリの置き 換えを行った.また,スケーラビリティ向上のため,MPIと OpenMP のハイブリッ ド並列化を行った.オリジナルコードに対して約1.8 倍の単体ノード性能の向上を実 現し,また,ハイブリッド並列化によりスケーラビリティが向上することを確認した.

# The First Principles Molecular Dynamics Software PHASE on the Blue Gene/P

# HARUKI IMAI<sup> $\dagger 1$ </sup> and TAKAO MORIYAMA<sup> $\dagger 1$ </sup>

The IBM Blue  $\text{Gene}^{(\text{B})}/\text{P}$  system is the latest machine in the IBM Blue  $\text{Gene}^{(\text{B})}$  family. One of its new functions makes it possible to share memory among the 4 cores within a node. In this paper, we optimized PHASE, a first principles molecular dynamics system for the Blue Gene/P. To improve single node performance, we used cache blocking, modified the code to generate SIMD instructions, and replaced the FFT library. To improve the scalability, we used hybrid parallelization using MPI and OpenMP. As a result, we improved the performance about 1.8-fold compared with the original code performance and achieved good scalability with hybrid parallelization.

†1 日本アイ・ビー・エム株式会社東京基礎研究所 IBM Tokyo Research Laboratory

## 1. はじめに

従来の CMOS スケーリング技術による単体プロセッサの性能向上の限界が近づく状況 においても,システム全体の性能向上を実現するために並列計算機が広く利用されている. 理化学研究所が中心となって行っている「次世代スーパーコンピュータの開発と利用プロ ジェクト」(以下,次世代スパコンプロジェクト)<sup>1)</sup>においても超並列計算機は必要不可欠 なものとなっている.このような超並列計算機を有効活用するためには,アプリケーション の開発段階からその並列性などを検討する必要がある.東京大学生産技術研究所が中心と なって行われた革新的シミュレーションソフトウェアの研究開発プロジェクト(RSS21)<sup>2)</sup> では,それらを考慮しつつ,大規模計算を行う実用的なソフトウェアの開発が行われてき た、開発されたソフトウェアの1つとして第一原理分子動力学ソフトウェアのPHASEがあ **3**. PHASE **,** SC07 ( the International Conference for High Performance Computing, Networking, Storage and Analysis)において,地球シミュレータでの性能報告がGordon Bell 賞のファイナリストに選ばれ<sup>3)</sup>, また, 次世代スパコンプロジェクトにおいても 21本 のターゲットアプリケーションソフトの1つとして選定されるなど1),国内外で評価されて いるアプリケーションである.また,小松ら4)により,さらなる超並列化への取り組みも 検討されている. 超並列計算機の1つに IBM Blue Gene<sup>®</sup> ソリューション(以下, Blue Gene)がある.Blue Geneは, Top 500 リスト(2008年6月版)<sup>5)</sup>において, Top10 のシ ステムのうち4つを占めるなど,超並列計算の有力なソリューションの1つであり,超並列 計算のプラットフォームとして,実際にさまざまな分野のアプリケーションの動作実績とそ の最適化の報告がなされてきた $^{(6),7)}$ . その最新機種である Blue Gene<sup>®</sup>/P(以下, BG/P $^{(8)}$ ) は Blue Gene<sup>®</sup>/L(以下, BG/L)の後継機種として多くの設計思想を受け継ぎ,プロセッ サ動作周波数やメモリシステムなどにいくつかの機能向上が図られたシステムである。本 i論文では, この BG/P における PHASE の最適化方法, および, その結果を報告する.以 下,2章では,BG/Pのアーキテクチャについて解説する.3章では,PHASE について, 4 章では BG/P における一般的な最適化手法に関して述べる.5 章では,それらの手法の PHASE への適用方法と実際の実行結果から性能向上について考察する,6章で本論文のま とめを述べる.

2. Blue Gene/P  $\mathcal{O}\mathcal{P} - + \mathcal{F}\mathcal{P}\mathcal{F}\mathcal{P}$ 

BG/Pは,BG/Lの後継機種としてその多くの設計思想を引き継いでいる.表1にBG/P

|                    | BG/L                            | BG/P                            |
|--------------------|---------------------------------|---------------------------------|
| Node               |                                 |                                 |
| Processor          | PowerPC440                      | PowerPC450                      |
| Frequency          | $700\mathrm{MHz}$               | $850\mathrm{MHz}$               |
| #Cores             | 2                               | 4                               |
| L1 cache (private) | 32 KB                           | $32\mathrm{KB}$                 |
| L3 cache (shared)  | $4 \mathrm{MB}$                 | $8\mathrm{MB}$                  |
| Main memory size   | $512\mathrm{MB}/1\mathrm{GB}$   | $2\mathrm{GB}$                  |
| Memory bandwidth   | $5.6\mathrm{GB/s}$              | $13.6\mathrm{GB/s}$             |
| Network            |                                 |                                 |
| Bandwidth (Torus)  | $2.1\mathrm{GB/s}$              | $5.1\mathrm{GB/s}$              |
|                    | $(175 \mathrm{MB/s} \times 12)$ | $(425 \mathrm{MB/s} \times 12)$ |
| Bandwidth (Tree)   | $700 \mathrm{MB/s}$             | $1.7\mathrm{GB/s}$              |
|                    | $(350 \text{ MB/s} \times 2)$   | $(850 \text{ MB/s} \times 2)$   |

表 1 BG/L と BG/P のハードウェア構成比較

Table 1  $\,$  Feature comparison between the BG/L and BG/P systems.

と BG/L の主なハードウェア構成を示す. プロセッサは, Power PC440 (以下 PPC440)か ら Power PC450 (以下 PPC450)になり、そのプロセッサ周波数は 700 MHz から 850 MHz に増強され,ノード内のプロセッサコア数は倍の4つになった.それにともない,メインメ モリ,およびL3キャッシュサイズもそれぞれ倍になり,また,プロセッサ周波数あたりの メモリバンド幅とノード間のネットワークバンド幅も倍になっている. BG/P のノードあ たりのピーク性能は 13.6 G FLOPS であり, 1 筐体 1,024 ノード(4096 コア)では約 14 T FLOPS となる.これは, BG/Lの1筐体に対して2.43 倍のピーク性能である.BG/Pは 電力あたりの演算性能が優れていることにも特徴があり,Green500リストの上位にも位置 している<sup>9)</sup>.BG/L ではノード内の2 つのプロセッサコアはコヒーレントなメモリ共有を 行うことができなかったが、BG/Pではキャッシュコヒーレンスが実装され、ノード内の4 つのコアは4ウェイの SMP 構成をとることで共有メモリ並列で実行可能となった.BG/P では,ノードの実行モードとして,4つのコアがメモリを共有し,1プロセス4スレッドで 動作させる SMP モード, ノード内のメモリを2つに分割し, 2つのコアでメモリを共有し, 2 プロセス 2 スレッドで動作させる DUAL モード, BG/L と同様に 1 コアそれぞれに 1 プ ロセスずつ,ノード内4プロセスで動作させる VN モードがある.ノード内の並列化には OpenMP やコンパイラによる自動並列化を利用可能である.これらのモードは実行ごとに 指定可能であり、アプリケーションの並列化の特性や利用メモリサイズなどにより、最適な 構成を選択することができる.ノード間のネットワークは BG/L 同様に,隣接ノード間の

通信に利用される 3 次元トーラスネットワークとプロードキャスト通信に利用されるツリー ネットワークから構成されているが, BG/P では各ノードに新たに DMA エンジンが搭載 され,通信が DMA にオフロードされることでプロセッサの通信処理を軽減することがで きるようになった.PPC450 には, PPC440 同様にデュアル・パイプラインの浮動小数点 演算ユニット(Dual FPU)が搭載されている.この Dual FPU では SIMD 型の浮動小数 点演算を実行可能である<sup>10)</sup>.BG/P でノード単体性能を引き出すためには,この SIMD 演 算命令の効率的な利用が不可欠である.BG/P では各プロセッサに 256 個のパフォーマン ス・カウンタが取り付けられており,計算量やキャッシュの使用状況など同時に 256 個のイ ベントを観測可能となっており,アプリケーションのプロファイリングに利用可能である.

#### 3. PHASE

PHASE は,密度汎関数理論に基づく電子状態計算ソフトウェアである.擬ポテンシャル 法の導入により平面波基底の数を減らすことで計算量の減少が図られている.ソフトウェ アはRSS21のソフトウェア公開サイト<sup>2)</sup>からダウンロード可能である.また,PHASEで 利用する擬ポテンシャルデータを作成するソフトウェア(CIAO)や入力データを作成する GUI 統合環境ソフトウェア(PHASE-Viewer)なども同サイトにおいて公開されており, 実用性も考慮されたソフトウェアである<sup>\*1</sup>.プログラムコードは主にFortran90で書かれ ており,MPIによりバンド数とk点での並列化がなされている<sup>3),4)</sup>.さまざまなプラット フォームに対応するためのMakefileやFFTライブラリのラッパールーチンが用意されて いる.また,コード内,主に計算カーネル部分には,ディレクティブを挿入することで,各 プラットフォームの最適化への対応も図られている.

4. Blue Gene/P における最適化

4.1 ノード単体性能の向上

ー般にスカラ計算機におけるノード単体性能の向上には,キャッシュやパイプラインの利用効率に関する最適化が行われる.最適化の例としては,配列アクセスのストライドの最小化,キャッシュブロッキング,ループ展開によるスケジューリングなどがあげられる.これらの最適化の一部はコンパイラが行うが,すべてコンパイラでできるわけではなく,手

<sup>\*1</sup> PHASE, PHASE-Viewer は東京大学生産技術研究所が中心となって行った「革新的シミュレーションソフト ウエアの研究開発プロジェクト」において開発されたソフトウェアである.以下のサイトからダウンロード可能 である.http://www.ciss.iis.u-tokyo.ac.jp/rss21/result/download/index.php#download\_4



| × I    | DAXPY J-r   |
|--------|-------------|
| Fig. 1 | DAXPY code. |



動のコード修正により対応する必要がある.BG/P もスカラ計算機であるため,ノード単体性能の向上のために,これらと同様の最適化を行う必要がある.代表的な計算カーネルである DAXPY(図1)は1ループ内で倍精度の配列要素を2個参照する.ループサイズ nに対しては,16nバイトの配列データが参照されるため,これらがキャッシュに収まるとき最も性能が良くなる.図2にBG/PにおけるDAXPYのループサイズnと1サイクルあたりの実効 FLOP 数を示す.VN モード 32 ノードで実行し,ノード内で同時に4プロセス走らせたときの結果である.グラフの450dはSIMD演算命令を利用したときの結果,450は利用しないときの結果である.図2を見ると,ループサイズが小さいときは,ループのオーバヘッドが大きいため,良い性能を得られていないが,ループサイズの増加にともない,2000付近まで性能が向上している.ループサイズが2000のときの2つの配列サイズの合計はL1キャッシュサイズの32KBとほぼ等しい.2000を超えるとL1キャッシュからデータが溢れるため,パフォーマンスが急激に落ちてしまう.L3キャッシュは各プロセスあたり2MBまで利用可能であるため,対応するループサイズ125000付近でL3キャッシュの最適化においては, L1 キャッシュに収まるように配列サイズを調整することが重要である.

BG/L, BG/P は SIMD 型演算命令を実行可能であるため, ノード性能を向上させるた めには,これらを効率的に利用する必要がある.以下,SIMD 演算命令を効果的に利用する 方法を DAXPY の場合を例にして示す.この SIMD 命令のロード・ストア命令を実行する ためには,キャッシュのアーキテクチャの制限からロード・ストア対象のアドレスが16 バ イト境界にアラインされている必要がある.しかし,コンパイラはすべてのアラインメン トを解釈するのは困難である.そのため,ユーザが図1のようにアラインメントの指示文 alignx を利用することでコンパイラへの指示を行い,コンパイラが SIMD 命令を出力しや すくする必要がある.さらに intrinsic 関数と呼ばれる実行命令に対応した組み込み関数を 利用することにより,複雑でコンパイラが解釈しにくい計算でも直接的に命令を生成するこ とができる<sup>11)</sup>(DAXPY の場合はコンパイラが SIMD 命令を出力するため intrinsic 関数 を使う必要はない).

4.2 スケーラビリティの向上

ー般に超並列計算機でのスケーラビリティの向上には,並列度が増加しても通信量が増加 しない計算アルゴリズムの選択,アムダールの法則に基づき,非並列化部分の少ない計算ア ルゴリズムの開発・実装が求められるが,ここでは,BG/Pの特徴である.MPIとOpenMP によるハイブリッド並列化利用時のスケーラビリティ向上に関して検討を行う.一般に MPI プログラムは並列度が上がるとそれにともないプロセス間の通信量が増加し,スケーラビリ ティを阻害する.そのため,ノード内のOpenMPによる並列化も組み合わせたハイブリッ ド並列化を利用することにより,プロセス数の増加にともなう通信量の増加を抑えられ,よ リ良いスケーラビリティを得られる可能性がある.また,OpenMPディレクティブを利用 すると MPIとは異なる部分の並列化を行うこともできる<sup>12)</sup>.また,MPIの並列数が計算 アルゴリズムや入力データにより限定されていて,最大並列数よりも利用可能なプロセッサ 数が多い場合は,OpenMPによる並列化を利用することで,より多くのプロセッサを利用 でき,スケーラビリティを確保できる可能性がある.

#### 5. PHASE への適用

#### 5.1 実行環境

本研究では, BG/P を最大1筐体 1024 ノード(4096 コア)利用した.また,コンパ イラは, IBM XL Fortran Advanced Edition for Blue Gene/P, V11.1,数学ライブラ リは ESSL/ESSL SMP ver.4.3, PHASE は ver.6.01 を利用した.入力データの作成には

情報処理学会論文誌 コンピューティングシステム Vol. 2 No. 2 144-151 (July 2009)

PHASE-Viewer (Ver.3.00)を利用し, PHASE コード内に同梱されている Si の 8 原子の サンプルデータ Si8 の単位格子を x, y, z の軸各方向に積み重ね, 512 原子の Si512 を作成 した.さらにそれを基準として 2 倍, 4 倍し, 1024 原子数 (Si1024), 2048 原子 (Si2048) を作成した.Si512 はバンド数 1,536, 平面波数 31,439, Si1024 はバンド数 3,072, 平面波 数 62,999, Si2048 はバンド数 6,144, 平面波数 126,039 を使用した.波動関数のカットオ フは 9.00Ry を利用した.Brillouin zone 内の試行 k 点は Γ 点 (0, 0, 0) のみとし, そのた め並列化はバンドのみで行った.波動関数の更新後の部分対角化は行っていない.計算は収 束させず, SCF 計算ループを 10 回だけ実行した.

5.2 ノード単体性能の向上

ここでは、PHASEの計算カーネルのキャッシュブロッキングの性能評価を行うことで BG/P で利用すべきブロックサイズを決定する.また,BG/PのSIMD 演算命令を利用す るためのコード変更を行い,ノード単体性能の向上を実現する.Si512 データとオリジナ ルコードを利用し,128 プロセスでサブルーチンごとの実行時間プロファイルを取得した. |結果として, 文献3),4)と同様に擬ポテンシャルの非局所項と波動関数の積,波動関数と |射影関数の内積 , グラム・シュミットの直交化 , FFT のルーチンでほぼ 8 割の実行時間を 占めていることが分かった.そのため,ノード単体性能の向上のため,これらの部分の最 適化を行うことにした、各ベンダの FFT ライブラリはそれぞれ少しずつサブルーチン名。 引数,データ構造が異なっているため,公開されている PHASE のコードはそれら各種の FFT ライブラリに対応するラッパルーチンが用意されている.しかし,BG/P で利用可能 な数学ライブラリの ESSL には対応していなかったため,新たにそのラッパルーチンを作 成した.一般に FFT ライブラリのデータ長 n は  $n = 2^h 3^i 5^j$  などになっている必要がある ため、PHASE コードには、データ長をそれらに整合させるルーチンが含まれている.し かし, ESSL の FFT ライブラリはそのデータ長 n の制限が多少異なり,  $n = 2^h 3^i 5^j 7^k 11^m$ (1 < h < 25: i < 2: j, k, m < 1)であるため,これに整合させるロジックを追加した.次 に実行時間のかかるルーチンの1つである擬ポテンシャルの非局所項と波動関数の積のコー ドを利用し、キャッシュブロッキング時の最適なブロックサイズの決定と SIMD 演算命令の 出力のためのコード変更を行う.この部分のコードの構造を図3に示す.

PHASE は,各カーネル部分でキャッシュブロッキングが行われており,入力ファイルに キャッシュサイズを指定するとそれをもとにブロックサイズが計算されるようになってい る.このループの場合,キャッシュに入れておくべき配列要素は,y1(bs:be),y2(bs:be), z(bs:be,1:np,1),z(bs:be,1:np,2)である.y1(bs:be),y2(bs:be)は,Loop A でキャッシュ



#### 図 3 擬ポテンシャルと波動関数の積部分のカーネル構造





図 4 擬ポテンシャルと波動関数の積部分のブロックサイズとその性能

Fig. 4 Block size and the performance of "Products of pseudo potential and wavefunctions".

に残った状態ならば, Loop B2(平面波数のループ)で再利用される.z(bs:be,1:np,1), z(bs:be,1:np,2) は Loop B1(波動関数のループ)でループ長の np 回再利用される.図4 にこのコードのブロックサイズ bsize(= be-bs+1)を変更したときの性能 [FLOP/cycle]

変化のグラフを示す.Si512のデータを128 プロセスで実行したときの結果である.グラフ の SIMD は後に述べる SIMD 演算命令出力のための変更を行った後の結果である.np は 12 であったため,ブロックサイズ 110 ではキャッシュに入るべき配列サイズは 23 KB であ り,これは L1 キャッシュの容量に近い値である.10000 を超えると L3 キャッシュからも 溢れるため,さらに性能が悪化している.この結果から実際のコードにおいても L1 キャッ シュに配列要素を収めるようなブロックサイズを利用することが望ましいことが分かる.

次に SIMD 演算命令の利用を検討する.図3の配列 s1, s2, y1, y2 は, 図3のコードの 前方で allocate 文により確保されており, y1(1) など各配列の最初の要素は 16 バイト境界 にアラインされている.しかし,キャッシュブロッキングのために配列を分割すると,最初 にアクセスされる配列要素 y1(bs) はブロックサイズ次第で 16 バイト境界にアラインされ ていない可能性がある.一方,ブロックサイズは,キャッシュに収まるように計算されるだ けであり,多少のサイズの変更は可能である.そのため,ブロックサイズを偶数に限定し, 最初にアクセスされる y1(bs) が必ず 16 バイト境界にアラインされるようにした.他の配 列 ss,z はアクセスされる配列要素が実行時に決まるため,図5 のようにバージョニング し,コードを切り替えることにした.図5 のサブルーチン sub\_align\_ee は,配列要素 z(bs, m, 1), z(bs, m, 2) が両方とも 16 バイト境界にアラインされている場合に実行され,図3 の LoopB2 がサブルーチン化されている.このループでの配列は3次元であるが,配列ア クセスは1次元方向のみであるため,sub\_align\_ee 内部では1次元配列で記述した.このよ うにすることで,コンパイラにとってコードの見通しが良くなり,より良いコードを出力し やすくなる.

 $\begin{array}{l} \mbox{do } m=1, \mbox{ np } \\ a=x(m) \\ \mbox{if } (z(bs, \mbox{ m}, 1) \mbox{ at 16 bytes boundary}) \mbox{ then} \\ \mbox{if } (z(bs, \mbox{ m}, 2) \mbox{ at 16 bytes boundary}) \mbox{ then} \\ \mbox{ call sub_align_ee}(z(bs, \mbox{ m}, 1), z(bs, \mbox{ m}, 2), \\ \mbox{ y1(bs)}, \mbox{ y2(bs)}, \mbox{ a, be-bs+1}) \\ \mbox{else} \\ \mbox{ : } \\ \mbox{ endif} \\ \mbox{ else } \\ \mbox{ : } \\ \end{array}$ 

図 5 アラインメント確認用コード Fig. 5 Code for alignment check.

図2のDAXPYにおいては,SIMD命令利用時の性能向上率はほぼすべてのループ長で 2 倍になっている.図4 では,L1 キャッシュから溢れた後L3 キャッシュに収まる部分での 性能向上率は2倍で DAXPY の場合と変わらないが, L1 キャッシュに収まる範囲での性能 向上率が 1.6 倍程度と DAXPY の場合より悪くなっている,図4のグラフ SIMD の実行 コードは,バージョニング,サブルーチン化などを含んでいるため,L1 キャッシュに収め るためにブロックサイズを小さくすると、アライメント確認やサブルーチン化した部分を 通る回数が増え,それらのオーバヘッドが増える.性能向上率の悪化はそのためと考えられ るが,依然としてL1キャッシュに収めるブロックサイズを利用することが望ましいことが 分かる.図6に擬ポテンシャルの非局所項と波動関数の積の部分に対する最適化の効果を 示す.横軸は最適化の種類であり,1つ右に行くごとに最適化手法を追加している.オリジ ナルコードに対してキャッシュブロッキングにより 46%, SIMD 命令の利用により 41%の 性能向上が得られ,全体で68%の性能向上が得られた.波動関数と射影関数の内積におい ても計算カーネルの構造は、擬ポテンシャルの非局所項と波動関数の積とほぼ同じであり、 同様の変更を加えると同様の最適化の効果が得られた.しかし,グラム・シュミットの直 交化部分では,L1,L3キャッシュに入れようとするとブロックサイズは非常に小さくなり, それにともなうループのオーバヘッドが大きくなってしまい性能が向上しないことが分かっ た、そのため、グラム・シュミットの直交化部分ではキャッシュブロッキングは行わないこ とにした.図7にSi512のデータの全体を実行したときの結果を示す.128プロセスで実行 した場合を示している.最適化の結果,全体で45%(1.8倍)の性能向上を実現した.図8 に SIMD 命令の実行率を示す.ここでは全演算量に対する SIMD 演算命令による演算量の 割合とロード・ストアされた全要素数に対する SIMD 命令でロード・ストアされた要素数



図 6 擬ポテンシャルと波動関数の積部分の最適化の効果(Si512 128 プロセス)

Fig. 6 Optimization results only for "Products of pseudo potential and wavefunctions" (Si512 128 procs).



Fig. 7 Optimization results for whole program (128 procs).



の割合で示している.これらは実行時のハードウェアカウンタの値に基づき計算した結果で ある.SIMD 命令出力のための変更により,9割以上のSIMD 命令実行率を得ることがで きた.

#### 5.3 スケーラビリティの向上

PHASE には,すでにいくつかのベンダ独自のディレクティブが挿入されており,ハイブ リッド並列化がなされているが,BG/Pで利用可能な OpenMP ディレクティブや IBM ディ レクティブは挿入されていない.今回,計算カーネル内のループにディレクティブを挿入 し実際に実行することで,BG/P におけるハイブリッド並列化すべきループを決定し,ス ケーラビリティの向上を実現した.ディレクティブとして OpenMP ディレクティブを利用 した.今回 OpenMP による並列化箇所として,図3の Loop A と Loop B1, Loop B2 を 検討した.LoopA と LoopB2 のループ長はプロセス数が増加しても変化しないが,LoopB1

情報処理学会論文誌 コンピューティングシステム Vol. 2 No. 2 144-151 (July 2009)



のループ長はプロセス数の増加とともに小さくなる.プロセス数を増やしても,スケーラビ リティを確保するためにはループ長の変わらない LoopA と LoopB2 のループを並列化する ことが望ましいと考えられる.しかし,実際に実行して両者を比較してみるとLoopB2よ リも LoopB1 を並列化した方の性能が良かった.これは LoopB2 が最内ループであるため, ここにディレクティブを挿入すると、その実行回数が増え、スレッド生成、同期など並列化 のオーバヘッドが増加してしまうためと考えられる.また,キャッシュブロッキングを行っ た状態に,ディレクティブを挿入し並列化しても,その効果を得られず,逆に並列化前よ りも遅くなってしまった.これも, OpenMP ディレクティブの実行回数の増加によるオー バヘッドの影響と考えられる、そのため、今回ハイブリッド並列化実行時には、キャッシュ ブロッキングを行わないことにした、キャッシュブロッキングを行っていないため、ハイブ リッド並列化の1スレッドの性能は,キャッシュブロッキングを行った MPIの1プロセス での性能より悪いが、OpenMP による並列化の効果が得られればハイブリッド並列化によ る性能向上が期待される.実際にSi512データを利用し計測した結果を図9に示す.横軸 はノード数であり, MPIのみの並列化の場合は各プロセッサに1プロセスずつノードあた り4 プロセス割り当てたとき, MPI+OMP はハイブリッド並列化であり, 各ノードあたり 1 プロセス4スレッドで走らせたときの結果である.縦軸は実行時間で対数表記している. MPI に関しては,キャッシュブロッキングの有無の両方をプロットした.Si512 のデータは



その並列数の制限から 1024 プロセス以上で実行することはできなかった.通信や IO のタ イミングなどにより各実行で性能のばらつく可能性があるが,512 プロセス,4 スレッドで 10 回計測したところ実行時間の誤差は0.8%以内であったため,計測ごとの誤差はほぼない と考え,計測においては1回のみ計測することにした.キャッシュブロッキングなしの状態 で MPI+OMP と MPI を比較すると,MPI+OMP のノード数が少ないときの実行時間は, MPI のキャッシュブロッキングなしとほぼ一致しているが,スケーラビリティはハイブリッ ド並列化の性能が良い.キャッシュブロッキングをすることでノード単体性能が向上するた めグラフは下方に平行移動した形となるが,ノード数を増加させたときは依然としてハイブ リット並列化の性能の方が良い.

図10に各ノードで実行時の通信と計算またはIOの実行時間を示す.これを見るとノード 数が増加してもほとんど通信時間は増加していないことが分かる.そのため,ハイブリッド 並列時のスケーラビリティの向上は,実行 MPI プロセス数の増加が抑えられることによる通 信時間の減少が原因ではないと考えられる.ここでの性能向上の原因は,MPI と OpenMP の並列化対象が異なっていることが考えられる.今回 OpenMP の並列化をしたループには LoopA のように MPI 並列化と無関係のループが存在する.このため MPI の並列化の効果 が得られなくなったときでも OpenMP の並列化の効果を得ることができたと考えられる. 次に大きなデータを利用する場合として,図11に Si1024 と Si2048 の結果を示す.理想的



なスケーリングを点線で表している.Si1024とSi2048 もSi512と同様の傾向を示している が,データが大きい場合,より理想に近いスケーリングを実現していることが分かる.今回 OpenMP ディレクティブのオーバヘッドのため,ハイブリッド並列化時にキャッシュブロッ キングを行うことができなかった.これを回避するためには,図3のコードの場合,最外 ループで並列化し,ディレクティブの実行回数を減らす必要があると考えられる.しかし, これにはディレクティブの挿入だけではなく,依存関係などを解決するためのコード変更も 必要であるため,今回は行わなかった.また,文献4)のように波数方向にもMPIの並列化 を行えば,キャッシュブロッキングに加え,さらなるスケーラビリティの向上が期待される. 5.4 ま と め

本研究では, BG/P において, PHASE の最適化を行った.キャッシュブロッキングの最 適なブロックサイズの決定, SIMD 演算命令の利用のためのコード変更, FFT の置き換え により,単体ノード性能としてはオリジナルコードに対して 1.8 倍の性能を得ることができ た.また,ハイブリッド並列化に際しては OpenMP ディレクティブを挿入するループを決 定し,スケーラビリティが改善されることを確認した.データサイズを大きくすることでス ケーラビリティが改善されることも確認した.

# 参考文献

1) 次世代スーパーコンピュータ開発実施本部 Web サイト.

http://www.nsc.riken.jp/index\_j.htm

- 2) 革新的シミュレーションソフトウェアの研究開発 Web サイト. http://www.ciss.iis.u-tokyo.ac.jp/rss21/
- 3) Ohno, T., Yamamoto, T., Yamasaki, T., Kokubo, T., Sakaguchi, Y., Fukata, D., Azami, A., Uda, T. and Koga, J.: First-Principles Calculations of Large-Scale Semiconductor Systems on the Earth Simulator, *Proc. 2007 ACM/IEEE Conference on Supercomputing, Gordon Bell Finalist Awards*, Reno, USA (2007).
- 4) 小松秀実,山崎隆浩,市川真一:第一原理分子動力学・PHASEの超並列化—次世代 スーパーコンピューティングに向けて,雑誌 Fujitsu 2008 年 9 月号 (Vol.59, No.5) (2008).
- 5) TOP500 Supercomputer Sites. http://www.top500.org
- 6) Kumar, S., Huang, C., Zheng, G., Bohm, E., Bhatele, A., Philips, J.C., Yu, H. and Kale, L.V.: Scalable molecular dynamics with NAMD on the Blue Gene/L system, *IBM Journal of Research & Development*, Vol.52, pp.137–144 (2008).
- 7) Gygi, F., Draeger, E.W., Schulz, M., de Supinski, B.R., Gunnels, J.A., Anstel, V. and Sexton, J.C., et al.: Large-Scale Structure Calculations of High-Z Metals on the Blue Gene/L Platform, Proc. 2006 ACM/IEEE Conference on Supercomputing, Gordon Bell Prize for Peak Performance winner, Tampa, USA (2006).
- 8) IBM Blue Gene Team: Overview of the IBM Blue Gene/P project, *IBM Journal of Research & Development*, Vol.52, pp.199–220 (2008).
- 9) The Green 500 List. http://www.green500.org
- 10) Chatterjee, S., Bachega, L.R., Bergner, P., Dockser, K.A., Gunnels, J.A., Gupta, M., Gustavson, F.G., Lapkowski, C.A., Liu, G.K., Mendell, M., Nair, R., Wait, C.D., Ward, T.J.C. and Wu, P.: Design and exploitation of a high-performance

SIMD floating-point unit for Blue Gene/L, *IBM Journal of Research & Development*, Vol.49, pp.377–389 (2005).

- 11) Sosa, C., et al.: IBM System Blue Gene Solution: Blue Gene/P Application Development. http://www.redbooks.ibm.com/abstracts/sg247287.html
- Cappello, F. and Etiemble, D.: MPI versus MPI+OpenMP on the IBM SP for the NAS Benchmarks, *Proc. Supercomputing2000*, Dallas, USA (2000).

(平成 20 年 10 月 3 日受付)(平成 21 年 1 月 4 日採録)



## 今井 晴基(正会員)

昭和 53 年生.平成 16 年筑波大学大学院システム情報工学研究科知能 機能システム専攻博士前期課程修了.同年日本アイ・ビー・エム(株)入 社.東京基礎研究所にて PC クライアント関連の研究開発,超並列計算機 のコード最適化技術の研究開発に従事.



### 森山 孝男(正会員)

昭和 37 年生.昭和 62 年東京工業大学工学部情報理工学専攻修士課程 修了.同年日本アイ・ビー・エム(株)入社.東京基礎研究所にて並列計 算機のシステムソフトウェア,高速 3D 表示装置,ハイブリッドアーキテ クチャ,超並列計算機の利用技術等に関する研究に従事.ACM 会員.