# スーパーコンピュータ「京」における 地震動シミュレーションコードの高性能化

## 井上 俊介<sup>1,a)</sup> 堤 重信<sup>2</sup> 前田 拓人<sup>3</sup> 南 一生<sup>1</sup>

#### 受付日 2012年12月21日, 採録日 2013年2月9日

概要:理化学研究所では、スーパーコンピュータ「京」の高性能化を目的とし、6本の重点アプリケーショ ンを選定し、高性能化、高並列化を進めてきた.うち地球科学の分野から選択された地震動シミュレーショ ンコードである Seism3D については、比較的高い Byte/Flop 値を要求する演算と、隣接プロセス間のみの 通信という特徴があげられる.よって、Seism3D の高性能化、高並列化のポイントとして、メモリバンド 幅を最大限に生かすこと、キャッシュの効率的な利用をすること、6次元メッシュ上での最適な隣接通信 を実現すること、に絞られる.我々はコードの持つ要求 Byte/Flop から求まるピーク比性能の推定を実施 し、詳細プロファイラ機能を活用することにより問題点を把握し、実測、チューニングを実施し、CPU 単 体性能向上策の検証と通信部の検証を進めた結果、82,944 並列で理論ピーク比 17.9% (1.9 PFLOPS) に 達したため、本稿で報告する.

キーワード:スーパーコンピュータ「京」,地震動シミュレーションコード,性能評価,性能最適化

# Performance Optimization of Seismic Wave Simulation Code on the K computer

Shunsuke Inoue<sup>1,a)</sup> Shigenobu Tsutsumi<sup>2</sup> Takuto Maeda<sup>3</sup> Kazuo Minami<sup>1</sup>

#### Received: December 21, 2012, Accepted: February 9, 2013

**Abstract:** In order to optimize performance of the K computer, we selected six applications from various scientific fields. We optimized CPU performance and massively parallelization to them. Seism3D which was selected from earth science field is seismic wave simulation code. It has calculation parts which demands high Byte/Flop and communication parts between neighborhood processes. So optimization points are using enough memory bandwidth, using cache effectively and realization of optimal neighborhood communications on six-dimensional mesh/torus network. We estimated theoretical performance from required Byte/Flop of code and utilized advanced profiler to have a clear grasp of bottle neck. As a result, we achieved 17.9% per peak performance by using 82,944 cpus.

Keywords: K computer, seismic wave simulation code, performance evaluation, performance optimization

## 1. はじめに

2011年6月と11月にTOP500ランキング[1]で2期連

 独立行政法人理化学研究所計算科学研究機構 RIKEN Advanced Institute for Computational Science, Kobe, Hyogo 650–0047, Japan

- Fujitsu Kyushu Systems Ltd., Fukuoka 814-8589, Japan 事京大学地震研究所
- Earthquake Research Institute, The University of Tokyo, Bunkyo, Tokyo 113–0032, Japan
- <sup>a)</sup> inoue.shunsuke@riken.jp

続1位となったスーパーコンピュータ「京」(以下,「京」と 略す)は、2012年9月に共用開始の運びとなった. 演算性 能だけではなく2011年のHPC Challenge [2]で4部門す べてで1位を獲得するなど、様々な分野のアプリケーショ ンの高性能化が期待されている.理化学研究所計算科学研 究機構では、利用者に有用となる「京」の高性能化技術を 集約すべく、6本の重点アプリケーションを選定し、「京」 の計算性能最適化手法を継続的に検証してきた.

本稿では、こうして選定されたアプリケーションの1つ である地震動シミュレーションコード Seism3D において、

<sup>2</sup> 株式会社富士通九州システムズ

ハードウェア性能との比較を軸とした高性能化,高並列化 ならびにその成果について報告する.Seism3Dに関して は,我々はこれまでにも主要な計算カーネルを題材とした 性能予測手法および性能の評価を実施してきた[3].本稿で はアプリケーション全体の高性能化のプロセスに主眼を置 き,オリジナルコードを用いた「京」での性能評価および ツールを使った問題点の抽出法についてより詳細に述べ, さらに未評価であった計算/通信ルーチンについても考察 を加え,「京」の全ノードにおける測定結果について論じ る.なお,個々の測定値においては,本稿においても開発 段階でのシステムを利用した結果となっているため,過去 の研究結果[3]とは測定値が異なるケースも散見されるが, 提案する性能評価手法およびチューニング手法は「京」に おいて汎用的である.

以降2章でSeism3Dの概要について、3章で「京」の概 要について述べる.4章でオリジナルコードの測定結果に 基づきチューニングの課題を明確にし、5章でツールを用 いた計算カーネルの性能評価方法について述べる.6章で 計算カーネルの実測および性能向上手法を検討する.7章 で通信部の評価をし、8章で「京」の全ノードでの測定結 果を報告する.

## 2. アプリケーション概要

Seism3D は粘弾性体運動方程式を Staggered grid 差 分法を用いて空間 4 次,時間 2 次精度で陽的に解く MPI/OpenMP ハイブリッド並列地震動シミュレーショ ンコードである [4].近年,従来の運動方程式に重力項を加 味することにより,地震,地殻変動,津波の連成計算を可 能にし [5],「京」でのより高精度なシミュレーションが期 待されている.Seism3D は以下の運動方程式および粘弾性 体の構成方程式を差分法により数値的に解く.

$$\begin{split} \rho \frac{\partial v_x}{\partial t} &= \frac{\partial \sigma_{xx}^D}{\partial x} + \frac{\partial \sigma_{xy}}{\partial y} + \frac{\partial \sigma_{xz}}{\partial z} - \rho_w g_0 \frac{\partial \eta_y}{\partial x} \\ \rho \frac{\partial v_y}{\partial t} &= \frac{\partial \sigma_{yx}}{\partial x} + \frac{\partial \sigma_{yy}^D}{\partial y} + \frac{\partial \sigma_{yz}}{\partial z} - \rho_w g_0 \frac{\partial \eta_y}{\partial y} \\ \rho \frac{\partial v_z}{\partial t} &= \frac{\partial \sigma_{zx}}{\partial x} + \frac{\partial \sigma_{zy}}{\partial y} + \frac{\partial \sigma_{zz}^D}{\partial z} \\ \frac{\partial \sigma_{xx}}{\partial t} &= (\lambda + 2\mu) \frac{\partial v_x}{\partial x} + \lambda \left(\frac{\partial v_y}{\partial y} + \frac{\partial v_z}{\partial z}\right) \\ \frac{\partial \sigma_{yy}}{\partial t} &= (\lambda + 2\mu) \frac{\partial v_z}{\partial y} + \lambda \left(\frac{\partial v_x}{\partial x} + \frac{\partial v_y}{\partial z}\right) \\ \frac{\partial \sigma_{zz}}{\partial t} &= (\lambda + 2\mu) \frac{\partial v_z}{\partial z} + \lambda \left(\frac{\partial v_x}{\partial x} + \frac{\partial v_y}{\partial y}\right) \\ \frac{\partial \sigma_{xy}}{\partial t} &= \mu \left(\frac{\partial v_x}{\partial y} + \frac{\partial v_y}{\partial y}\right) \\ \frac{\partial \sigma_{yz}}{\partial t} &= \mu \left(\frac{\partial v_x}{\partial z} + \frac{\partial v_z}{\partial y}\right) \\ \frac{\partial \sigma_{xz}}{\partial t} &= \mu \left(\frac{\partial v_x}{\partial z} + \frac{\partial v_z}{\partial y}\right) \end{split}$$

ここで、 $v_i$  は地震動の速度場、 $\sigma_{ij}$  および $\sigma_{ii}^D$  は応力テン ソル、 $\rho$  は弾性体の質量密度、 $\lambda \ge \mu$  は等方弾性体を特徴 付ける係数(Lame の定数)であり、地球内部構成物質に 依存する値を持つ.また、地震波の P 波・S 波速度の速さ はこれらのパラメータと  $V_p = \sqrt{(\lambda + 2\mu)/\rho}$ ,  $V_s = \sqrt{\mu/\rho}$ の関係にある。Seism3D では固体地球だけでなく海水も  $V_s = 0$ の弾性体として取り扱うことで、地震動と海中音 波・津波の統一的な扱いを可能にしている。

コードの実装は、上記速度場および応力場の微分方程式 を交互に解くため、以下の処理を繰り返す.

- (a) 応力空間微分計算
- (b) 速度時間積分計算
- (c) 速度時間積分計算(境界部)
- (d) 速度袖通信
- (e) 速度空間微分計算
- (f) 応力時間積分計算
- (g) 応力時間積分計算(境界部)
- (h) 応力袖通信

演算部の特徴として,再利用性のないストリーム配列を 多く必要とする *O*(*N*)の演算が主体であることから要求 Byte/Flop が高いといえる.また,演算部によって求めら れた速度と応力を隣接領域に転送するだけであるため,通 信部は隣接通信のみである.

## 3. 「京」の概要

CPU は新規に開発された富士通社製の SPARC64<sup>TM</sup> VIIIfx [6], [7], [8], [9] であり, 1 チップ上に 8 コアの演算 器を持つ. ピーク性能は1チップあたり128 GFLOPSで, メモリバンド幅は理論値が 64 GB/s (0.5 B/F) である. 浮 動小数点レジスタは 256 本に拡張され、コンパイラによる 命令スケジューリングが容易となっている. また SIMD 命 令の導入による、ベクトル計算、マスク演算が可能となり、 後者はコンパイラによりプログラム中の分岐での命令スケ ジューリングの向上につながる. さらにキャッシュにセク タキャッシュ機能が導入され、一部再利用性のあるデータ を留め置くことが可能となり、メモリバンド幅を圧迫し、 性能最適化にキャッシュの有効活用を必要とするアプリ ケーションでの効果を期待できる.スレッド並列について はコア間の並列処理のための同期をとるためのハードウェ アバリア機構を備えることで、複数コアでのスレッド効率 が飛躍的に向上している.

これらの計算ノードは、Tofu と呼ばれる 6 次元メッシュ/ トーラスネットワーク [10] で結合されている. バンド幅は 各次元双方向 5 GB/s で接続されており、バイセクションバ ンド幅は 30 TB/s である. 各計算ノードからは 10 本の接 続が可能で、そのうち 6 本が 3 次元メッシュ-トーラスとし て接続され、残りの 4 本で残りの 12 計算ノード (2×3×2 のメッシュ)の内部結合に用いられている. この構造によ り,ユーザの視点で見ると,システムに収まる任意サイズ の3次元トーラスを切り出すことが可能であり,さらに故 障ノードがあっても3次元トーラスを確保するルートが切 り出し可能であるという利点があり,利便性だけでなく信 頼性も向上している.

システムは、1枚のシステムボードに4個の CPU が搭載され、1台の筐体には24枚のシステムボードが搭載され ている.「京」ではこの筐体が864台設置される. ピーク 性能10.62 PFLOPS、全メモリ量1.26 PiB である.

## 4. 課題の検討

#### 4.1 測定パラメータおよび測定環境

Seism3D は、パラメータ指定により任意の地表面にお ける地震動および津波のシミュレーションが可能である. 今回、「京」の全ノードを用いた性能評価を実施するた め、1,200 km × 800 km,深さ 200 km の地表モデルを想定 した.結果として1メッシュの格子間隔は 50 m、ノード 内は (X,Y,Z) = (60,80,4000)のメッシュ規模を設定し、 想定される大規模地震のシミュレーションに対応可能とし た.また、「京」における測定環境を表1に示す.

#### 4.2 Tofu へのマッピング

Seism3D はコード開発当初は地震動のみの解析であった ため、高並列化に向けた3次元分割モデルであった.しか し津波の連成解析も実施するように改修されたため、現在 は垂直方向には分割のない2次元分割モデルとなっている. 「京」はユーザビューとしては3次元トーラスであるため、 2次元モデルを3次元上にマッピングする際に隣接通信の コストがどう影響するかを評価する必要がある.しかし、 先に述べた Tofu インタコネクトでは、3次元、2次元両分 割モデルともに、隣接通信が1ホップであることが保障さ れている.したがって、隣接袖通信が主体である Seism3D では、マッピングを物理軸に合わせることにより、隣接通 信の問題はほぼ解決すると考えられる.

## 4.3 オリジナルコードによる測定と課題の定義

「京」における高性能化に向けた具体的なアプローチを 検討する.まずはチューニング前のコードに対し,設定し たメッシュモデルを用いて各並列規模でウィークスケーリ ングによる測定を実施し,課題を洗い出す.

チューニング前のコードの TimeStep = 200 における測 定結果を図 1 に示す. 16 プロセス (4×4), 8 スレッドで, ピーク比は 11.8%であった. また, ウィークスケーリングに よる評価のため, 並列数の増加にともなう実行時間の増加が ないことを確認する.水平方向にそれぞれ 2 倍ずつプロセ ス数を増やし, 16,384 プロセス (128×128) までプロファイ ラを用いてサンプリングにより測定した結果を表 2 に示す. 図 1 より, 微分計算ルーチン (a), (e) は各プロセスと

#### 表1 「京」における測定環境

 Table 1
 Measurement environment of K computer.

| コンパイラ | Fujitsu Fortran K-1.2.0-04 |
|-------|----------------------------|
| オプション | -Kfast,parallel,openmp,ocl |



図 1 16 プロセスにおける測定結果 Fig. 1 Measurement result of 16 processes.

| 表 2 | 16.384 | プロセス | までの測定結果 |
|-----|--------|------|---------|
|-----|--------|------|---------|

Table 2Measurement result between 16 and 16,384 processes.

| Number of process | Elapse | Peak      | Efficien |
|-------------------|--------|-----------|----------|
|                   | (sec)  | ratio (%) | cy       |
| 16 (4x4)          | 68.8   | 11.8      | 1.00     |
| 64 (8x8)          | 69.5   | 11.9      | 0.99     |
| 256 (16x16)       | 71.3   | 11.7      | 0.96     |
| 1024 (32x32)      | 69.1   | 12.2      | 0.99     |
| 4096 (64x64)      | 69.2   | 12.2      | 0.99     |
| 16384 (128x128)   | 69.8   | 12.1      | 0.98     |

もほぼ均等なコストであり,速度および応力の積分計算は 構造内部と境界部の和がほぼ等しくなるため,アプリケー ション全体としてロードインバランスは発生していない. 表2では、サンプリングによる簡易測定のため、実行時 間とピーク性能比の関係に若干の誤差が発生しているが, ウィークスケール時のプロセス増加にともなうオーバヘッ ドは発生していないことが確認できる.また,各ルーチン においても並列数の増加にともなった傾向の変化は観察 されなかったため,高並列化の観点では大規模なチューニ ングを検討する必要はない.したがって,分析と性能向上 策の検討は CPU 単体性能の向上を主とし,高度化の方針 を以下と定める.ただし並列化に係る通信処理についても (2) に示す評価は実施する.

(1) 演算部について,「京」の CPU 単体性能として十分で あるか,より詳細に分析する.具体的には,コードを各サ ブルーチン,処理単位(カーネル)ごとに特性や処理デー タ量を精査し,そのカーネルが持つ要求 Byte/Flop を求 め、そこから導かれる実効性能の推定値と実測データを比 較する.推定値と実測データに著しい乖離があれば原因を 探り対処する.さらに性能向上の余地があれば、性能向上 策を評価,適用する.

(2) 隣接通信部はデータのパック/アンパック処理,通信 を正確に測定するための同期処理を含んでおり,図1の結 果はそれらのコストも含む結果となっている.この箇所を 詳細に分析することで,「京」の通信性能として十分である かを検証する.

## 5. 性能の推定および評価

#### **5.1** 評価基準値の設定

各演算部の性能が十分であるかを評価するため,まずは評価基準値を設定する.我々は,Seism3Dがストリーム配列 を多く必要とする要求Byte/Flopが高いコードであること を考え,メモリ性能を測定するSTREAM Benchmark[11] Triadの結果を用いて,評価基準値を設定することとした. 「京」では,詳細プロファイラ機能[12]が提供されており, SPARC64<sup>TM</sup> VIIIfx に備わったハードウェアカウンタを用 いることで CPU 単体性能の特徴や問題点を比較的容易に得 ることができる.本機能を用いて,STREAM Benchmark Triadを1ノード8スレッドで測定した結果を**表**3に示す.

本ベンチマークコードは,再利用性のない3つの倍精度 配列の積和演算である.表3より,「京」におけるメモリ 要求が高いループについて,以下の考察が可能であり,こ れらを Seism3D の CPU 単体性能を評価するうえでの基準 値とする.

・「京」のキャッシュラインは 128 byte であるため,た とえば単精度 4 byte のデータでは,連続アクセスでは 32 要素のうち先頭の 1 要素だけがミスをする.すなわち,単 精度では 1/32 = 3.125%,倍精度では 1/16 = 6.25%が連 続アクセスにおける各キャッシュレベルでのミス率の基準 値である.表 3 中の L1D ミス率および L2 ミス率はそれ ぞれのキャッシュレベルによるミス率を表している.本測 定は倍精度演算のため,L1,L2 キャッシュミスとも基準 値となり,これはストリーム配列のみのループにおける, キャッシュの有効利用性を見る指標となる.

・L1D ミス dm 率とは L1D ミス率のうち, load, store 命 令のアクセスによるミス率である. L1D ミス hwpf, swpf 率とはそれぞれ hardware prefetch (hwpf), prefetch 命令 (swpf) のアクセスによるミス率であり, これら 3 つが L1D ミス率の内訳となる.「京」では最内 16 ストリーム以下 であればデフォルトでは swpf は発行されず, すべて hwpf で賄われる.また, L1D ミス hwpf, swpf 率が高いほど, prefetch が効果的に発行されていると判断する.本測定に おいてもこれがいえる.

・L2 スループットが 33.23 GB/s と観察されている.メ モリスループットは、単位時間あたりのL2 キャッシュへの 表 3 STREAM Benchmark Triad の測定結果

 Table 3 Measurement result of STREAM Benchmark Triad.

| L1D ミス率       | 6.25%     |
|---------------|-----------|
| L1D ミス dm 率   | 0.61%     |
| L1D ミス hwpf 率 | 99.38%    |
| L1D ミス swpf 率 | 0.00%     |
| L2 ミス率        | 6.26%     |
| L2 スループット     | 33.23GB/s |
| メモリスループット     | 44.33GB/s |
| Peak ratio    | 2.16%     |

do i = 1, NX do k = 3, NZ-1 DZV (k,i,j) = (V(k,i,j) -V(k-1,i,j))\*R40z& - (V(k+1,i,j)-V(k-2,i,j))\*R41z end do end do

end do

図 2 Staggered grid 第 1 軸差分計算ループ Fig. 2 The spatial derivatives calculation of Z direction.

データ供給および書き戻し (write back) の総量であるのに 対し, L2 スループットは単位時間あたりの L1 キャッシュ へのデータ供給量を表す. したがって, Stream Benchmark Triad のような単純にメモリからデータが供給されるプロ グラムでは,本来であればメモリスループットと L2 スルー プットは同量であるが,上記の理由により L2 スループッ トがメモリスループットより少なく観察される. L2 スルー プットは L2 キャッシュにおける再利用性が高くなると増 大する傾向がある.

「京」の理論メモリスループットは1ノード 64 GB/s に対し、実測で 44.33 GB/s である。測定により若干の誤差が発生するため、「京」の実効メモリスループットは 46 GB/s、メモリの実効 Byte/Flop 値は 0.36 と定義する。

#### **5.2** 性能推定と検証

一般的に、要求 Byte/Flop が高いコードは同時にメモリ スループットで律速する.つまり演算時間はメモリスルー プットで決定される.「京」においても同様のことがいえ るため、「京」の1ノードにおける本コードの実効性能は、 要求 Byte/Flop とメモリの Byte/Flop の比によって推定 が可能である.例として、本コードで頻繁に利用される Staggered grid 差分による微分項計算ループ(図 2)を考 える.

具体的な性能推定手法と測定結果は過去の研究 [3] を参照されたいが、本ループは第1軸である K 軸が差分化されている場合であり、(NX,NY,NZ) = (60,80,4000) である

表 4 Staggered grid 第1軸差分計算ループの測定結果

 
 Table 4
 Measurement result of the spatial derivatives calculation of Z direction.

| L1D ミス率       | 2.09%     |
|---------------|-----------|
| L1D ミス dm 率   | 0.17%     |
| L1D ミス hwpf 率 | 99.83%    |
| L1D ミス swpf 率 | 0.00%     |
| L2 ミス率        | 2.09%     |
| L2 スループット     | 31.18GB/s |
| メモリスループット     | 46.74GB/s |
| Peak ratio    | 15.1%     |

本ループの推定性能値はピーク比 15%である,第2軸が差 分となっているループの場合は 15%,第3軸が差分となっ ているループは 7.5%となる.5.1 節と同様に詳細プロファ イラ機能を用いて第1軸差分計算ループを測定した結果を 表4に示す.

キャッシュミス率については、配列 V の隣接要素が L1 キャッシュ上で再利用されることにより、単精度の連続ア クセスの基準値より低く測定される.またメモリスルー プットが 46.7 GB/s と基準値より高めに測定されているこ とから、ピーク比は推定値より若干良い傾向であるが、高 精度で一致することが分かる.また、表 3 および表 4 で測 定されたように、ミス率が連続アクセスの基準値に収まっ ていることが、推定性能に達しているかどうかの1つの指 標となる.

Seism3D はどのルーチンにおいても、メモリ要求が高 く、「京」の実効メモリ Byte/Flop である 0.36 を下回らな い.したがって、本コードの「京」における演算部の高性 能化は、以下の手順で進めることとした.

- 各ルーチンにおいて,推定性能まで達しているか確認 する.
- 推定性能に達していない場合に、詳細プロファイラを 用いた原因の調査とそれに対する改善策を検討する。
- 3) 推定性能に達している場合,さらなる性能向上手法を 検討する.

## 6. CPU単体性能の測定と性能向上手法の評価

#### 6.1 (f), (g) 応力時間積分部

本ルーチンは、応力テンソル計算のため、最内ループに 用いられるストリーム数が多く存在することが特徴であ る.この場合、「京」の1次キャッシュは2wayであること を考慮すると、1次キャッシュにおけるキャッシュ競合を 回避させるチューニングが効果的である.

(g)の境界部の要求 Byte/Flop は 2.79 であり, 推定性能 値は 12.9%となる.オリジナルコードでは L1D ミス dm 率 が 49.93%と高く, L1D ミス率も基準値より悪い 3.54%と 測定された.5.1節で示したように,「京」では, ストリーム

表5 (g) 応力時間積分部(境界部)の測定結果

Table 5Measurement result of (g) calculation of stress by timeintegration (boundary parts).

|               | Original  | Tuning    |
|---------------|-----------|-----------|
| L1D ミス率       | 3.54%     | 2.71%     |
| L1D ミス dm 率   | 49.93%    | 11.83%    |
| L1D ミス hwpf 率 | 25.99%    | 88.17%    |
| L1D ミス swpf 率 | 24.08%    | 0.00%     |
| L2 ミス率        | 2.11%     | 1.97%     |
| L2 スループット     | 42.32GB/s | 35.79GB/s |
| メモリスループット     | 39.86GB/s | 42.87GB/s |
| Peak ratio    | 8.80%     | 10.05%    |

配列が支配的なループにおいて, L1D ミス率が 3.125% (倍 精度では 6.25%以上) かつ L1D ミス dm 率が 20%を超える 場合に,キャッシュ競合が発生していると考える.これを 改善するため,応力 3 成分を 1 つの配列に融合し,ループ 分割を適用することにより,最内でアクセスするストリー ムの絶対数を減らすアプローチを採用した.結果として, L1D ミス dm 率が 11.83%となり,最内ストリーム数の削 減により効率の良い hwpf が生成され,メモリスループッ トも 42.87 GB/s まで改善された.また,L2 スループット はオリジナルに比べて下がったが,L1 でのキャッシュ競 合により発生していた不要な L2 アクセスが解消されたも のと考える.オリジナルコードとチューニングコードの測 定結果を表5 に示す.

同様に,要求 Byte/Flop が 1.44, 推定性能が 25.0%であ る (g) 応力時間積分部においてもキャッシュ競合が観察 されたため,同様なチューニングを実施したところ,メモ リスループットが 34.84 GB/s から 42.74 GB/s へ,ピーク 性能比は 16.24%から 21.24%まで改善された.

#### 6.2 (b), (c) 速度時間積分部

推定性能値を算出する際に、コードから判別できない ケースがある.図3に示す(b)速度時間積分計算部におい ては、単精度の割り算が逆数近似計算のため、コード上は 1 演算でも演算数を8として算出する必要がある.結果と して本ループの要求 Flopは52となる.対して、要求 Byte は配列 den の再利用性を考慮すると4 byte×18となり、要 求 B/Fは1.38である.したがって、推定性能は26%とな る.対して、実測値は表6に示すように22.29%となった.

再利用性があるため,各キャッシュレベルでのミス率が 基準値より低下しており,L2スループットも向上してい る.最内のストリーム数が18と多く,そのために swpf が 発行されている.メモリスループットも45GB/sを超える 結果となり,観察される値に問題ないことを考慮すると, 性能のボトルネックはメモリであり,本ループは性能の上 限まで達していると判断した.ただし,最内のストリーム

```
do j = NY00, NY01
 do i = NX00, NX01
  do k = NZ00, NZ01
    ROX = 2.0_PN/(den(k,i,j) + den(k,I+1,J))
    ROY = 2.0_PN/(den(k,i,j) + den(k,I,J+1))
    ROZ = 2.0_PN/(den(k,i,j) + den(k+1,I,J))
    Vx(k,i,j) = Vx(k,i,j) \&
                 + ( dxSxx(k,i,j)+dySxy(k,i,j)+dzSxz(k,i,j) )*ROX*DT
    Vy(k,i,j) = Vy(k,i,j) \&
                + ( dxSxy(k,i,j)+dySyy(k,i,j)+dzSyz(k,i,j))*ROY*DT
    Vz(k,i,j) = Vz(k,i,j) \&
                 + ( dxSxz(k,i,j)+dySyz(k,i,j)+dzSzz(k,i,j) )*ROZ*DT
    vx(k,i,j) = vx(k,i,j) \&
                - grav(k,i,j) * dxEta(i,j) * dt * den_s(i,j) * ROX
    vy(k,i,j) = vy(k,i,j) \&
                - grav(k,i,j) * dyEta(i,j) * dt * den s(i,j) * ROY
  end do
 end do
end do
```

図3 速度時間積分計算ループ

Fig. 3 The calculation loop of velocity by time integration.

表 6 (b) 速度時間積分部の測定結果

 Table 6
 Measurement result of (b) calculation of velocity by time integration.

| L1D ミス率       | 2.87%     |
|---------------|-----------|
| L1D ミス dm 率   | 12.90%    |
| L1D ミス hwpf 率 | 87.01%    |
| L1D ミス swpf 率 | 0.09%     |
| L2 ミス率        | 2.38%     |
| L2 スループット     | 45.57GB/s |
| メモリスループット     | 45.39GB/s |
| Peak ratio    | 22.29%    |

数が18であること、および過去のシステム環境による測 定ではキャッシュ競合により7.5%であったことを考慮す ると、他の問題サイズにおいてキャッシュ競合の発生確率 が高まる.本ルーチンもループ分割と配列融合によって、 あらかじめリスクを回避しておく修正を実施した.

(c)境界部においては,L1D ミス率が 3.36%,L1D ミス dm 率が 42.63%とキャッシュ競合が観察されたため,同様 にループ分割および配列融合を実施することにより,メモ リスループットが 39.1 GB/s から 42.8 GB/s に,ピーク性 能比が 15.88%から 17.52%まで向上した.本処理部の推定 性能は 19.9%であることおよび実測のメモリスループット を考慮すると,十分な性能といえる. 表 7 (a), (e) 微分項部のオリジナルコード測定結果

Table 7Measurement result of (a) (e) original code of deriva-<br/>tive parts.

|               | 応力微分項     | 速度微分項     |
|---------------|-----------|-----------|
| L1D ミス率       | 2.96%     | 2.95%     |
| L1D ミス dm 率   | 3.95%     | 4.21%     |
| L1D ミス hwpf 率 | 96.05%    | 95.88%    |
| L1D ミス swpf 率 | 0.00%     | 0.00%     |
| L2 ミス率        | 2.19%     | 2.19%     |
| L2 スループット     | 43.98GB/s | 42.30GB/s |
| メモリスループット     | 43.32GB/s | 41.81GB/s |
| Peak ratio    | 10.41%    | 10.05%    |

do 
$$j = 1$$
, NY

do 
$$i = 1, NX$$

do k = 3, NZ-1

$$\begin{split} DZV (k,i,j) &= (V(k,i,j) - V(k-1,i,j))*R42 \& \\ &- (V(k+1,i,j)-V(k-2,i,j))*R43 \\ DXV (k,i,j) &= (V(k,i,j) - V(k,i-1,j))*R40\& \end{split}$$

- (V(k,i+1,j)-V(k,i-2,j))\*R41

end do end do

```
end do
```

図 4 ループ融合

Fig. 4 Loop fusion.

## 6.3 (a), (e) 微分項部

1 タイムステップあたり,速度微分項を求める staggered 差分計算が9回,応力微分項を求める staggered 差分計算 が9回の計18回利用されるルーチンであり,全経過時間の 40%を占める.速度微分,応力微分とも3次元配列の第1 軸,第2軸,第3軸が各軸方向で差分計算されるため,5.2節 の性能推定値を用いると,(15+15+7.5)/3=12.5%が期 待する推定性能値である.**表7**にオリジナルコードの測定 値を示す.

表7から,特にキャッシュまわりにおいて問題は観察で きず,また測定されたメモリスループットから考慮すると 大きな性能劣化要因はなく,ほぼ推定性能値に達している といえる.

次に、本ルーチンにおける性能向上策を検討する.本 ルーチンは、すべての軸においてメモリ要求が高く、特に 第3軸差分計算は問題サイズによりキャッシュ上では再利 用性が発生しないため、他の軸に比べてメモリ要求が2倍 高くなっている.このメモリ要求を低減する手法として、 以下3つの方法を採用した.

1) ループ融合

図 4 は, 第1軸と2軸のループ融合を実施した例である. 右辺が1回のロードで, キャッシュ上で再利用できる

| !\$OMP DO SCHEDULE(static,1)                 |
|----------------------------------------------|
| do $j = 1$ , NY                              |
| do $i = 1$ , NX                              |
| do $k = 1$ , NZ                              |
| DXV $(k,i,j) = (V(k,i,j) -V(k,i,j-1))*R40\&$ |
| - (V(k,i,j+1)-V(k,i,j-2))*R41                |
| end do                                       |
| end do                                       |
| end do                                       |
| 図 5 Cyclic 分割                                |
| <b>Fig. 5</b> Cyclic distribution            |

| 表 8     | Staggered grid 第3軸差分計算ループの測定結果                         |
|---------|--------------------------------------------------------|
| Table 8 | Measurement result of the spatial derivatives calcula- |
|         | tion of Y direction.                                   |

|               | Original  | Tuning (cyclic) |
|---------------|-----------|-----------------|
| L1D ミス率       | 3.13%     | 3.13%           |
| L1D ミス dm 率   | 0.39%     | 8.95%           |
| L1D ミス hwpf 率 | 99.61%    | 91.04%          |
| L1D ミス swpf 率 | 0.00%     | 0.00%           |
| L2 ミス率        | 3.14%     | 1.49%           |
| L2 スループット     | 38.45GB/s | 68.96GB/s       |
| メモリスループット     | 46.33GB/s | 46.84GB/s       |
| Peak ratio    | 7.49%     | 13.45%          |

変数が6つに増え、メモリ要求が左辺2×2、右辺1、演算 が10となり、要求Byte/Flopが2となる.したがって推 定性能は18%となる.実測値は17.4%となり、推定性能に 近づく、効果の高い性能向上策であることが検証された.

#### 2) Cyclic 分割

オリジナルコードでは最外ループに対し自動スレッド並 列を機能させており、第3軸差分計算ループではロードさ れるすべての変数に再利用性がない.しかし OpenMP に よる Cyclic 分割により,他スレッドがメモリからロードし たデータを, 自スレッドが再利用可能になり, メモリ負荷 の低減が狙える.これにより第3軸差分計算ループのメモ リ要求が第1,2軸差分と同等程度になることが期待でき、 推定性能はオリジナルの 7.5%から 15%となる. 図5のと おり、指示行で Cyclic 分割を指定することにより、Peak 比が 13.6%まで上昇した. 測定結果を表 8 に示すが, L2 キャッシュの再利用性が高まるため、L2 ミス率が低く、L2 スループットが高めに出ていることが観察される. またミ ス率やメモリスループットに特に問題は観察されないた め、(b)と同様に性能のボトルネックはメモリとなり、性 能の上限値まで達していると判断する.1),2)を組み合わ せた手法の性能推定および実測に関しては、過去の研究[3] を参照されたい.

表9 各軸差分ループの XFILL 指示行の測定結果

 
 Table 9 Measurement result of the derivative loops with XFILL directives.

|               | 第1軸       | 第2軸                   | 第3軸       |
|---------------|-----------|-----------------------|-----------|
| L1D ミス率       | 2.06%     | 3.27%                 | 3.12%     |
| L1D ミス dm 率   | 4.70%     | 9.10%                 | 3.01%     |
| L1D ミス hwpf 率 | 50.30%    | 75.80%                | 79.85%    |
| L1D ミス swpf 率 | 44.98%    | 15.09%                | 17.13%    |
| L2 ミス率        | 1.08%     | 0.68%                 | 2.52%     |
| L2 スループット     | 42.88GB/s | $89.62 \mathrm{GB/s}$ | 45.85GB/s |
| メモリスループット     | 43.42GB/s | 34.69GB/s             | 45.85GB/s |
| Peak ratio    | 21.22%    | 16.13%                | 8.93%     |

## 3) XFILL 指示行

「京」では、XFILLと呼ばれる高速ストア機能が提供され ている.本機能は連続かつ定義参照のないストア配列にの み有効である.具体的な例としては、図2のように、左辺 で定義される配列 DZV が右辺で参照されず、かつ連続ア クセスとなるループに対して指示することができる.本機 能を用いることにより、書き込み用のラインをキャッシュ 上に確保しストア命令時のリードアクセスがキャッシュ ヒットするため、左辺のメモリ要求が半分になり、要求 Byte/Flopを下げることが可能である.結果として、オリ ジナルコードでは第1、2軸差分15%、第3軸差分7.5%だっ た推定性能値が、第1、2差分22.5%、第3軸は9%である. 本機能は第1、2軸差分においても適用可能であり、これ らを使った結果を**表9**に示す.

XFILL を用いた場合,最内のストリーム数に関係なく, L2 キャッシュから L1 キャッシュに swpf が発行される仕様となっているため,各軸とも L1D ミス swpf 率が観察されている.第1軸および第3軸は推定性能付近まで高速化されたが,第2軸のメモリスループットが他と比べてかなり低いことが分かる.

「京」のメモリおよびキャッシュの構成は、メモリから L2 キャッシュへのバスと L2 キャッシュから L1 キャッ シュへのバスがハード的に影響を及ぼしあう仕様になって おり、ある程度の L2 スループットが要求された場合に、 メモリスループットが低下する傾向がある. この現象を L2 エンジンスループットネックと表現し、この上限値は 180 GB/s 程度であることが判明している. XFILL を用い た場合、L2 エンジンスループットは L2 スループット +メ モリスループット×1.5 と表され、第2軸では 141.65 GB/s となる. 上限値の約8割となっているが、第1、3軸はそれ ぞれ 108 GB/s、114 GB/s であることを考慮すると、かな り高い値であり、これがメモリスループットの低下要因で あると考える. したがって、第2軸の実測値に関しても、 ハードウェアの性能によって決定されるという意味では妥 当と考えられるが、L2 エンジンスループットネックと性能

|          | 表 10     | 通信部のコスト内訳                          |
|----------|----------|------------------------------------|
| Table 10 | The deta | il of cost of communication parts. |

|                | 速度袖通信(sec) | 応力袖通信(sec) |
|----------------|------------|------------|
| パック処理          | 0.623      | 0.620      |
| Mpi_isend,recv | 0.013      | 0.013      |
| Mpi_waitall    | 0.660      | 0.665      |
| アンパック処理        | 0.578      | 0.556      |

推定および評価に関しては,さらなる精査が必要と考える. 微分項部においては,1),2),3)で論じた手法を組み合 わせることにより,(a)応力微分項,(e)速度微分項はそ れぞれ10.4%から17.3%へ,10.1%から19.2%への性能向 上が確認された.

## 7. 通信部の評価

「京」は前述のとおり, Tofu と呼ばれる 6 次元メッシュ/ トーラスネットワークで結合されており, 2 次元分割モデ ルは隣接通信が1 ホップであることが保障されている.ま た,4つの Tofu ネットワークインタフェース(TNI)を搭 載しており,4方向送受信が同時に発行される.その場合, メッセージ長が1 TNI あたり 10<sup>6</sup> バイト程度以上だとピー クとして 13.2 GB/s の通信バンド幅となる [13].

Seism3D では水平方向に隣接する4領域に対し,2メッシュ分の袖領域の速度成分および応力成分を非同期に送受 信する.したがって,先に述べた13.2 GB/sと比較するこ とにより,「京」の通信ネットワークの性能を十分に活用で きているかを評価できる.

16 プロセスにおけるオリジナルコードの通信ルーチン部 における測定時間の詳細を表 10 に示す.なお、本測定で は、プロセス間の演算のインバランスの影響を回避するた め、通信の前に同期処理を挿入した.

ターゲットモデルの場合,速度,応力ともに1回あたり 両X方向に80×4000×2×3素,両Y方向に60×4000×2×3 素の送受信が同時に発生する.よって,MPI\_waitallの時 間を用いて通信バンド幅を求めると,どちらの通信ルーチ ンでも8.1GB/secとなる.

ピーク性能の約6割の性能となっているが、シリアライ ズされた場合の通信を考えると、本データ量の場合1.2秒 の通信時間となり、いくつかの通信は並列に実行されてい る測定結果である.4 TNIが完全に同期するのはタイミン グ依存であることを考慮すると、妥当な経過時間である といえる.また、完全に通信が重なった場合でも、アプリ ケーション全体のうちの1%未満の改善にすぎないため、 本ルーチンの改善は不要と考える.

## 8. チューニング後の測定結果

6章で検証したチューニング手法をオリジナルコードに 適用し,16プロセスで測定した演算部の結果を表11に,

| 表 11 | チューニング前後の性能一覧 |
|------|---------------|
|      |               |

| Table | 11 ' | The | performance | of | before | and | after | tuning |
|-------|------|-----|-------------|----|--------|-----|-------|--------|
|-------|------|-----|-------------|----|--------|-----|-------|--------|

|     | Original |           | Tuning |           |  |
|-----|----------|-----------|--------|-----------|--|
|     | Elapse   | Peak      | Elapse | Peak      |  |
|     | (sec)    | Ratio (%) | (sec)  | Ratio (%) |  |
| 全体  | 68.1     | 11.8      | 48.8   | 17.6      |  |
| (a) | 13.0     | 10.4      | 7.9    | 17.3      |  |
| (b) | 3.6      | 22.3      | 3.5    | 22.3      |  |
| (c) | 6.4      | 15.9      | 5.6    | 17.5      |  |
| (e) | 13.5     | 10.1      | 7.1    | 19.2      |  |
| (f) | 15.8     | 16.2      | 12.6   | 21.2      |  |
| (g) | 9.3      | 8.8       | 8.1    | 10.1      |  |



図 6 82,944 並列までの性能

Fig. 6 Measurement result between 16 and 82,944 processes.

チューニングコードを用いて 82,944 並列まで測定した結 果を図 6 に示す.本結果より,効果的な演算部のチューニ ングと,82,944 並列までの安定したスケーラビリティが確 認できる.

#### 3. おわりに

今回,「京」に備わるハードウェアの基礎性能から推定さ れる性能値を算出し,Seism3Dで実装されている主要ルー チンの実測値と比較することにより,チューニング手法を 検討,評価するというアプローチを採用した.その際,「京」 に提供されている詳細プロファイラ機能を用いて,キャッ シュミス率やスループット値を中心とした分析を実施する ことにより推定性能との差を埋めた.さらに変数に再利用 性のあるルーチンではキャッシュを有効活用することによ るメモリプレッシャの軽減を狙ったチューニングを施すこ とにより,さらなる性能向上を実施し,「京」の全ノードを 用いて 1.9 PFLOPS を達成した.一部,推定性能と乖離し ているカーネルがあるが,演算のバランスなどを含めた検 証は現在実施中である.しかし,本稿で用いた分析手法お よび高速化手法は,「京」においてアプリケーションを高性 能化する際に汎用的なものであり,今回評価した Seism3D に限らず,差分スキームのようなメモリバンド幅で律速す るアプリケーションには有用なアプローチだと考える.

謝辞 本報告に際し、システムソフトウェア開発者の立 場でご討論いただいた、富士通株式会社次世代 TC 開発本 部の青木正樹氏、杉山浩一氏、杉崎由典氏、ミドルウェア 事業本部アプリケーションマネジメント・ミドルウェア事 業部第四開発部の千葉修一氏、庄司智子氏、ならびに理化 学研究所計算科学研究機構運用技術部門の皆様に感謝し ます.本稿の結果は、理化学研究所計算科学研究機構が保 有するスーパーコンピュータ「京」の試験利用によるもの です.

## 参考文献

- [1] TOP500, available from  $\langle http://www.top500.org/ \rangle$ .
- [2] HPC challenge, available from (http://icl.cs.utk.edu/ hpcc/).
- [3] 南 一生,井上俊介,堤 重信,前田拓人,長谷川幸弘, 黒田明義,寺井優晃,横川三津夫:「京」コンピュータに おける疎行列とベクトル積の性能チューニングと性能評 価,ハイパフォーマンスコンピューティングと計算科学 シンポジウム論文集,Vol.2012, pp.23-31 (2012).
- [4] Furumura, T. and Chen, L.: Parallel simulation of strong ground motions during recent and historical damaging earthquakes in Tokyo, Japan, *Parallel Computing*, Vol.31, pp.149–165 (2005).
- [5] Maeda, T. and Furumura, T.: FDM simulation of seismic waves, ocean acoustic waves, and tsunamis based on tsunami-coupled equations of motion, *Pure Appl. Geophys.*, in press, DOI: 10.1007/s00024-011-0430-z (2013).
- [6] Maruyama, T.: 2009, SPARC64 VIIIFX: Fujitsu's New Generation Octo-core Processor for Peta Scale Computing, *Hot Chips 21* (2009).
- [7] Maruyama, T.: 2010. SPARC64 VIIIFX: A New-SPARC International, The SPARC Architecture Manual Version, Prentice-Hall (1994).
- [8] Sparc Joint ProgramminGB/specification (JPS1): Commonality, architecture manual, Sun Microsystems and Fujitsu Ltd. (2002).
- [9] SPARC64 VIIIFX Extensions, Fujitsu Ltd., architecture manual (2008).
- [10] Ajima, Y., Sumimoto, S. and Shimizu, T.: Tofu: A 6D Mesh/Torus Interconnect for Exascale Computers, *IEEE Computer*, pp.36–40 (2009).
- [11] STREAM Benchmark, available from  $\langle http://www.streambench.org/\rangle$ .
- [12] 村井 均,住元真司,滝康太郎,山中栄次:プログラミン グ環境―超大規模並列計算機の性能を活かすプログラミング環境,情報処理, Vol.53, No.8, pp.780-786 (2012).
- [13] Adachi, T., Shida, N., Miura, K., Sumimoto, S., Uno, A., Kurokawa, M., Shoji, F. and Yokokawa, M.: The design of ultra scalable MPI collective communication on the K computer, COMPUTER SCIENCE — RESEARCH AND DEVELOPMENT 2012, DOI: 10.1007/s00450-012-0211-7 (2012).



## 井上 俊介

1999 年横浜国立大学教育学部卒業. 同年株式会社富士通長野システムエ ンジニアリング(現,富士通システム ズ・イースト)入社.2010年理化学研 究所次世代スーパーコンピュータ開発 実施本部に出向.現在,スーパーコン

ピュータ「京」におけるアプリケーション高度化に従事.



## 堤 重信

1979年久留米工業高等専門学校電気 工学科卒業.1984年現,富士通九州シ ステムズ(株)入社.並列計算機向け プログラムの高速化に従事.2012年 より京コンピュータを利用したアプリ ケーションの高度化に従事.



## 前田 拓人

2001 年東北大学理学部宇宙地球物理 学科卒業.2003 年同大学院理学研究 科博士前期課程,2006 年同博士後期 課程修了.博士(理学).2006 年防災 科学技術研究所契約研究員,2009 年 東京大学大学院情報学環特任研究員,

2011年同特任助教, 2012年東京大学地震研究所助教.



## 南 一生

1981年日本大学理工学部物理学科卒 業.同年富士通株式会社入社.主に原 子力分野のシミュレーションコード のスパコンへの性能最適化の仕事に従 事.2000年財団法人高度情報科学技 術研究機構入社.地球シミュレータ用

ソフトウェア性能最適化研究に従事.2008 年理化学研究 所次世代スーパーコンピュータ開発実施本部開発グループ アプリケーション開発チームリーダー,2012 年理化学研究 所計算科学研究機構運用技術部門ソフトウェア技術チーム ヘッド.2011 年ゴードン・ベル賞受賞.