# RA-003

# キャッシュの効果を考慮したルーフラインモデルの拡張によ るプログラムの性能予測

Performance Estimation of Programs by an Extension of the RoofLine Model considering Cache Effects

| 南一生 <sup>†1</sup> | 井上俊介 <sup>†2</sup> | 千葉修一†3        | 横川三津夫 <sup>+4</sup> |  |
|-------------------|--------------------|---------------|---------------------|--|
| Kazuo Minami      | Shunsuke Inoue     | Syuichi Chiba | Mitsuo Yokokawa     |  |

# 1. まえがき

以前の研究者やプログラマは、高級言語とコンパイラに より、数理モデルの定式化・離散化に基づく式に忠実に、 かつ物理現象に沿った素直なプログラミングを行なうこと が一般的であった.しかし、現在では、計算機アーキテク チャの変化によりプログラミングに変化が生じている.こ こでいう計算機アーキテクチャの変化とは、ひとつは、単 体 CPU の性能向上の限界を突破しシステム全体の性能を向 上させるための超並列アーキテクチャの採用である.もう ひとつは、メモリーウォール問題に対処するためにキャッ シュ等を用いた、多層メモリ構造の採用である.ここに示 した超並列アーキテクチャや多層メモリ構造に対応するた めの「超並列性を引き出すプログラミング」と「プロセッ サの単体性能を引き出すプログラミング」は、現代のスー パーコンピュータ、特に8万個あまりに及ぶプロセッサを 備え、数々の数値計算のための新機能が導入されている

「京」のようなスーパーコンピュータにおいては,ユー ザ,研究者,プログラマが意識すべきプログラミング上の 重要な点である.

プロセッサ単体の実行性能を引き出すチューニングにおい ては、キャッシュを有効利用するためのプログラミング上 の様々なテクニックが提示されている[1][2].このような テクニックを駆使し、CPU本来の性能を引き出し、シミュ レーション時間を最小化することが、限られた計算資源の 有効活用、また研究期間の短縮に資するものである.しか し、プロセッサ単体性能のチューニングを進める場合、対 象とするプログラムの期待しうる実効性能値、つまり限界 性能が容易に予測できないことが問題となっている.

Williams らは、メモリバンド幅、CPU ピーク性能、 Operational Intensity(Flop/Byte)を用いた性能予測手法 である Roofline Model(ルーフラインモデル)を提案した [3]. 著者らも、「京」においてルーフラインモデルをベ ースに、プログラムのコーディングを精査することにより 性能予測を実施し、その予測を元に CPU 単体性能チューニ ングを実施している[4]. しかし、ルーフラインモデル は、メモリバンド幅が性能律速要因となっている場合には 予測性能と実測性能が良く一致するが、キャッシュアクセ スが増える場合には、予測性能と実測性能が乖離してくる ことが分かった.本論文では,「京」上のプロセッサ単体 性能の評価、及びチューニングを通して明らかになった事 例をベースに、キャッシュアクセスのあるプログラムの性 能限界値を予測するモデルを提案する.この予測モデルは, メモリバンド幅により性能律速となっている状態からキャ ッシュアクセスが増大した状態まで適用可能である.

# 2. 「京」の CPU 概要

プログラムの「京」での CPU 単体性能について議論する ために、「京」の CPU の概要について述べる[5]. 一つの 計算ノードは、一つの CPU (富士通製 SPARC64<sup>™</sup>VIIIfx), 16GBのメモリ、計算ノード間のデータ転送を行うインター コネクト用 LSI (ICC: Inter-Connect Controller) で構成 されている. CPU は, 8 つのプロセッサコア, コア共有の 2 次キャッシュメモリ(6MB/12 way/ Write back 方式), メ モリ制御ユニットを持っている. CPU の LSI の大きさは 22.7mm×22.6mm である. 各コアは, L1 データキャッシュ (32KB/2way/ Write back 方式), 4 つの積和演算器, 256 本の倍精度浮動小数点レジスタを持っており、一つの SIMD 命令により、2 つの積和演算器を同時に動作させることが できる.2つのSIMD命令を同時に実行することにより一つ のコアはクロックサイクル毎に8個の浮動小数点演算がで き、したがってコアの理論性能は 16GFLOPS、CPU (8 コ ア)は、単精度、倍精度とも 128GFLOPS となる. また、コ ア間の並列処理の同期を取るためのハードウェアバリア機 構,計算に必要なデータを事前にキャッシュに取り込むプ リフェッチ機構、プログラマブルなキャッシュ制御を可能 とするセクタキャッシュ機構など科学技術計算のための 様々な機構を備えている.メモリの理論バンド幅は 64GB/ 秒, B/F 値は 0.5, L2 キャッシュの理論バンド幅は 256GB/ 秒, B/F 値は 2.0, L1 キャッシュの理論バンド幅はコア毎 に 64 GB / 秒, B/F 値は 4.0 である. メモリ及び L2 キャ ッシュは 1 ライン(128byte)毎にアクセスされる. CPU の DGEMM 性能は 123.6GFLOPS (実行効率 96.6 %), コア間の ハードウェアバリア性能は 49 ナノ秒であった.また, STREAM ベンチマークコードの triad によるメモリアクセス 性能は、46.6GB/秒であった.

#### 3. 「京」でのルーフラインモデルの検証

#### 3.1 ルーフラインモデル

ルーフラインモデルは、Williamsの論文[3]中のステン シルの例[6]や疎行列・ベクトル積の例[7]でも議論されて いるようにキャッシュからのロードは考慮しないメモリア クセスに則った性能予測となっている. ハードウェアが持 つ実効的なメモリバンド幅を B, ハードウェアの持つピー ク性能を F, アプリケーションの演算強度を X=f/b (アプ リケーションの要求フロップス値:f, アプリケーション の要求バイト値:b)とすると, アプリケーションの性能 は min (F, B\*X) で表される[3]. ここで BX を,

B\*X=B\*(f/b)=B\*F\*f/(b\*F)=(B/F)/(b/f)\*F

\*1独立行政法人 理化学研究所 計算科学研究機構 運用技術部門 \*2株式会社)富士通システムズ・イースト 解析シミュレーション部 ↑3 富士通株式会社 次世代テクニカルコンピューティング開発本部 ↑4 国立大学法人神戸大学 大学院システム情報学研究科

13 第1分冊 と変形すると, B\*X は, ハードウェアの持つ B/F 値をアプ リケーションの要求 b/f 値で除した値にピーク性能を掛け た値とみることができる.また,両辺を F で除すればピー ク性能比を求めることができる.本論文では, B, F, b, f 用いてアプリケーションの性能を,

#### min(F, (B/F)/(b/f)\*F)

アプリケーションのピーク性能比を *min(1.0,(B/F)/(b/f))* 

で考える.

# 3.2 ルーフラインモデルの適用可能ケースと適用限 界

地震波伝播アプリケーション Seism3D[8][9]と汎用流体 解析コード FrontFlow/Blue[10] の「京」上のルーフライ ンモデルによる性能予測とチューニングの結果については, 文献 [4]に報告されている.これらの事例では、メモリバ ンド幅に性能が支配されるような場合には、従来のルーフ ラインモデルで性能限界を良く予測することができる.

ここで,図-1に示すメモリのアクセスに比してキャッ シュへのアクセスが増大するカーネルループを考える. 、 の例では、メモリまでアクセスする配列変数は、 ロードが vx, vy, vz の3個とストアが scl の1個で計4つである. scl については、ストアするために1度ロードもするため 配列アクセスは2と勘定すると計5個である.また cdiv の配列が L2 キャッシュに常時キープされるため、メモリ アクセス対L2キャッシュアクセスの比は5:21となり, メモリアクセスに比べL2キャッシュのアクセス比率が増 大している.このループにルーフラインモデルを適用する と, 演算数43, 倍精度浮動小数点数(8バイト)に対し, 要求 b/f 値は 40/43=0.93, ハードウェアの実効 B/F 値 0.36を用いると予測性能比は、0.36/0.93=0.39(39%)と なる.しかし、実測によるピーク性能比は14.7%となり、 ルーフラインモデルによる予測性能比との間に大きな乖離 がある.このことからメモリアクセスとキャッシュアクセ スの混合状態での限界性能の予測は、従来のメモリ性能だ けによるルーフラインモデルでは難しいことが分かった.

```
do k=1,96
```

```
do n=1,16769
   scl(n,k,1)=(
                                     &
                               ,k,l) &
        +cdiv(0,n,1,1)*vx(n
        +cdiv(1,n,l,1)*vx(n+1 ,k,l) &
        +cdiv(2,n,1,1)*vx(n+131,k,1) &
        +cdiv(3,n,l,1)*vx(n+130,k,l) &
        +cdiv(4,n,l,1)*vx(n-1 ,k,l) &
        +cdiv(5,n,1,1)*vx(n-131,k,1) &
        +cdiv(6,n,1,1)*vx(n-130,k,1) &
        +cdiv(0,n,1,2)*vy(n
                               ,k,l) &
        +cdiv(0,n,1,3)*vz( n
                               .k.1) &
                      :
        )*fact
```

# enddo

#### enddo

図-1 ルーフラインモデルが当てはまらないプログラムの例

#### 3.3 ルーフラインモデルの検証

ルーフラインモデルは、メモリ性能に基づく性能予測手 法であるが、メモリ性能律速の場合のみならず、全ての配 列がL2 キャッシュにキープされた状態についても, ルー フラインモデルが適用可能であることを示す.

まず,全ての配列がメモリに載った状態(onメモリ), L2キャッシュに載った状態(onL2)の2種類のテストプロ グラムを用意した,それぞれ配列サイズを変化させること により,両方の状態を実現できる.メモリ及びL2キャッ シュアクセス性能テストのプログラムを図-2(a)に示す.

#### 図-2 メモリ・L2 キャッシュ基礎性能テストプログラム

このプログラムを基本として、要求バイト数を変えない ように、図-2(a)の右辺に対し(右辺)\*c1(i,j)+zのよう に項を追加することにより演算数を増やし、要求b/f値を 変化させた.このような手法を採用したのは、加算、乗算 のSIMD 演算器の有効利用を図り、不要な性能低下要因を 導入しないためである.jのループに対してはブロック分 割による8スレッド並列化を実施している.またプログラ ムでは、変数が on メモリ、または onL2 となるように、ル ープの回転数 M, N の大きさを調整した.

メモリ性能テストの結果を表-1 に示す.メモリバンド幅 の値の平均値より、メモリの実効バンド幅を46.3GB/sec と測定した.この実行メモリバンド幅とルーフラインモデ ルを用いた性能予測値を表-1の予測性能の欄に、予測性能 と実測性能の比較グラフを図-3 に示す.この結果から、変 数がメモリ上にある場合にはルーフラインモデルによる予 測値が実測値と良く一致していることが確認された.実効 B/F値は、実効メモリバンド幅/理論メモリバンド幅×理論 メモリ B/F値で求められ、B/F値0.5の場合は、実効 B/F 値=46.3/64\*0.5 =0.36 となる.

| b/f值 | 予測性能<br>(peak比) | 実行時間<br>(sec) | 実測性能<br>(peak比) | メモリバンド<br>幅(GB/sec) |
|------|-----------------|---------------|-----------------|---------------------|
| 0.5  | 0.72            | 3.34          | 0.7186          | 45.92               |
| 1    | 0.36            | 3.29          | 0.3647          | 46.61               |
| 2    | 0.18            | 3.32          | 0.1807          | 46.22               |
| 3    | 0.12            | 3.28          | 0.1220          | 46.81               |
| 4    | 0.09            | 3.3           | 0.0909          | 46.55               |
| 6    | 0.06            | 3.34          | 0.0599          | 46.02               |
| 12   | 0.03            | 3.34          | 0.0299          | 45.98               |

#### 表-1 メモリ基礎性能テスト結果

次に, L2 キャッシュ性能テストの結果を表-2 に示す. 表-2 の L2 キャッシュのバンド幅の平均値より, L2 の実効 バンド幅は 159.2GB/sec とした.



図−3 メモリ基礎性能テスト結果

この値は、後述する理由により B/F 値 0.5 及び1の場合 に計測したバンド幅値を除いた平均値である. このL2実 効バンド幅とルーフラインモデルを用いた性能予測値を表 -2の予測性能の欄に、予測性能と実測性能のグラフを図-4 に示す.L2の実効B/F値もメモリと同様に,理論バンド 幅: 256GB/sec と L2 の B/F 値: 2.0 を使い、L2 の実効 B/F 値=159.2/256 \*2.0 =1.24 と計算される. したがって L2 に おいては, B/F 値=1.24 以上では予測値と合致している. また B/F 値=1.24 以下では性能が 100%以上に予測されるの で1が上限となる.ただし,通常,演算性能がピーク性能 の100%に達することはない. この B/F 値=1.24 以下の部分 は、もっと演算器が装備されていれば、L2のバンド幅を使 い切ることができるが、実際には演算器の限界のためにL2 のバンド幅が使い切れない部分である. そのため L2 バン ド幅の測定値が低下している.この理由により, L2 バン ド幅の平均値の計算から除外した.この結果から,L2キャ ッシュにおいてもピーク性能付近でなければルーフライン モデルが適用可能であることが明らかとなった.

| b/f值 | 予測性能<br>(peak比) | <b>実</b> 行時間<br>(sec) | 実測性能<br>(peak比) | L2バンド幅<br>(GB/sec) |
|------|-----------------|-----------------------|-----------------|--------------------|
| 0.5  | 1.00            | 10.97                 | 0.8806          | 56.36              |
| 1    | 1.00            | 5.91                  | 0.8173          | 104.61             |
| 2    | 0.63            | 3.91                  | 0.6176          | 158.12             |
| 3    | 0.42            | 3.87                  | 0.4160          | 159.75             |
| 4    | 0.31            | 3.82                  | 0.3161          | 161.84             |
| 6    | 0.21            | 4.04                  | 0.1993          | 153.03             |
| 12   | 0.10            | 3.78                  | 0.1065          | 163.56             |

| 表-2 | L2 | ++ | ッツ | シ | ュ基礎性能テス | ト結果 |
|-----|----|----|----|---|---------|-----|
|-----|----|----|----|---|---------|-----|





## メモリとキャッシュ混合状態での性能限界値予 測モデル

#### 4.1 限界性能予測モデル

ここではメモリアクセス律速状態からL2キャッシュア クセスを増大させ、メモリアクセスとL2キャッシュアク セスが混合している場合について、ルーフラインモデルを 拡張した限界性能の予測モデルを提案する.

実効性能はプログラムで実行される演算量を実行時間で 除した値であり、演算量はプログラムの中の演算の数を勘 定して求める.したがって、実行時間の予測ができれば性 能予測が可能となるが、メモリアクセス律速状態から、L2 キャッシュアクセス律速状態、さらに演算律速と変化する 場合の実行時間は、次の3つのケースとなると仮定した. L1 キャッシュに関する議論については後述する. ケース1:メモリバンド幅律速、かつ演算律速なしの場合 の実行時間はメモリ上のデータの移動時間である. ケース2:L2 バンド幅律速、かつ演算律速なしの場合の実 行時間は L2 上のデータの移動時間である. ケース3:メモリバンド幅律速、または L2 キャッシュバ ンド幅律速の状態から演算量が増えてくると演算律速の状態となる.その場合の実行時間は演算時間である.

演算律速の場合の演算時間は、「京」の場合、SIMD 演算 が適用できるか、積和演算が適用できるか(積と和のバラ ンス)、コンパイラのスケジューリングができているか等 によって予測値が異なるため、本論文では演算器が完全に 理想的に動いていると仮定し、ビーク性能が得られると仮 定した場合の実行時間を用いるものとした.演算律速の場 合の精度の高い性能予測は、本論文では考慮しない.

ここで、メモリ、L2 キャッシュ、演算に対して、メモリ データ転送量、実効メモリバンド幅、L2 データ転送量、実 効L2 バンド幅、プログラム演算量、演算ピーク性能を、 それぞれ Mdata、Mband\_peak、L2data、L2band\_peak、Ca、 Ppeak とする. このとき、メモリに載っているデータの移 動にかかる時間: Mtime、L2 に載っているデータの移動に かかる時間: L2time、演算時間: Ctime は以下のように計 算できる.

#### Mtime=Mdata/Mband\_peak L2time=L2data/L2band\_peak Ctime=Ca/Ppeak

ケース1,ケース2,ケース3のプログラムの実行時間 は、それぞれ、Mtime,L2time,Ctimeとなるため、プログ ラムの実行時間:Ex\_time,演算ピーク性能比Cpは、以下 で計算される.

#### *Ex\_time=max(Mtime,L2time,Ctime) Cp= Ca/(max(Mtime,L2time,Ctime)\*Ppeak)*

このモデルでは、メモリデータ転送律速の場合は、 Mtime>L2time であるが、L2の転送量が増えてくるとある 時点で Mtime<L2time になると考えられるので、実行時間 が Mtime から L2time へ変化する交差点が存在するはずで ある.この交差点は、Mtime=L2time なので、ループの回転 数を Nloop とすると交差点の条件は以下のように求められ る.この時、性能評価対象のプログラムのメモリアクセス、 L2 アクセス、演算数の比をm:n:kとする.

#### Nloop\*m/Mband\_peak=Nloop\*(m+n)/L2band\_peak n=((L2band\_peak/Mband\_peak)-1)\*m

₹

メモリアクセスするデータはL2にもアクセフするため L2dataの計算において(m+n)の項が入っている.また 3.1節に述べたように、アプリケーションの性能は、ハー ドウェアの持つB/F値をアプリケーションの要求b/f値で 除した値にピーク性能を掛けた値となるため、配列要素が 倍精度の場合に、Mtime>L2timeの領域と、Mtime<L2time の領域では、それぞれ以下のように求められる.

(1) Mtime>L2timeの領域:

Cp=(Mband\_peak/Ppeak)/(m\*8/k)

```
    Mtime<L2timeの領域:
Cp=(L2band_peak/Ppeak)/((m+n)*8/k)
```

3.1 節に示した従来のルーフラインモデルの式を本節で 使用している変数で記述すると以下のようになる.

Cp\*Ppeak=min(Ppeak, Mband\*(f/b))

この式を *f/b=Ca/Mdata* を使用して変形すると下式が導出 される.

## Cp= Ca/(max(Mtime,Ctime)\*Ppeak) Ex\_time=max(Mtime,Ctime)

したがって従来のルーフラインモデルは、本節の提案モデルにおいて L2time の効果を考慮していないモデルであると言える. L2time を考慮し Mtime と L2time の切り替えを考慮するところが提案するルーフラインモデルの拡張部分である.

#### 4.2 性能限界値予測モデルの検証

混合性能テストとして、配列がメモリとL2キャッシュ の両方に載った混合状態のテストプログラムを作成し、メ モリとキャッシュに載る配列の量を変化させ性能を測定す る.メモリ・L2 キャッシュアクセス混合性能テストのプロ グラムを図-5に示す. 図-5のプログラムはメモリのみ考 慮した時の要求バイト:B=3×8=24,要求演算数:F=2であ り要求 b/f 値: B/F=24/2=12 となる.本プログラムは,k のループに対しブロック分割による8スレッド並列化を実 施している.N1=4000,N2=60,N3=80を設定し全体を60回 実行して計測し、配列の2つ目の添え字:iの差分一つ分は 4000×8 バイト=32KB は離れているので配列:c への差分ア クセスはL2アクセスとなる.図-5のL2に対する要求バイ トは、2×8=16となる.また演算数は2である.このプロ グラムは3つのメモリアクセス、2つのL2アクセス、演 算が2であるので、3M-2L2-2Fと呼ぶこととする.このプ ログラムをベースとして, (右辺)\* c(i, j+2, k)+c(i, j-2,k)のように項を追加しL2のアクセスと演算数を増やし ている. 一般に, 性能評価対象のプログラムのメモリアク セス,L2アクセス、演算数の比をm:n:kとした場合の プログラムを mM-nL2-kF と呼ぶことにする.

do k = 1,N3 do j = 1,N2 do i = 1,N1 a(i,j,k) = c(i,j-1,k)+c(i,j,k)\*c(i,j+1,k) enddo enddo g=5 メモリ・L2 キャッシュアクセス混合性能テストプログラム

これらのプログラムを用いて測定した実行時間を表-3に

示す.メモリのアクセス量を固定し、L2のアクセス量を増加させている.同一のL2アクセス量について演算量を複数パターン変化させているケースも用意した.図-6は、横軸にメモリアクセス律速状態から、L2キャッシュアクセス律速状態,さらに演算律速と変化する順番にプログラムを並べ、縦軸に実行時間を示したものである.Mtime,L2time,Ctimeの計算のための各パラメタは、以下の通りである.

Mdata[Byte]=m\*ループの回転数 L2data[Byte]=(m+n)\*ループの回転数 Mband[Byte/sec]=Mdata/各ケースの実行時間 L2band[Byte/sec]=L2data/各ケース実行時間 Ca=k\*ループの回転数

| モ−3 メモリ | ・L2 混合性能テス | ト結果 |
|---------|------------|-----|
|---------|------------|-----|

| ケー  |             | 実行時間  | 実測性能    | Cp(peak |
|-----|-------------|-------|---------|---------|
| スNo |             | (sec) | (peak比) | 比)      |
| 1   | 3M-2L2-2F   | 0.63  | 0.029   | 0.030   |
| 2   | 3M-3L2-4F   | 0.63  | 0.057   | 0.060   |
| 3   | 3M-4L2-4F   | 0.60  | 0.060   | 0.060   |
| 4   | 3M-5L2-6F   | 0.64  | 0.084   | 0.090   |
| 5   | 3M-6L2-6F   | 0.66  | 0.082   | 0.090   |
| 6   | 3M-6L-12F   | 0.65  | 0.166   | 0.180   |
| 7   | 3M-6L2-24F  | 0.67  | 0.322   | 0.359   |
| 8   | 3M-6L2-48F  | 0.67  | 0.645   | 0.719   |
| 9   | 3M-8L2-8F   | 0.74  | 0.097   | 0.104   |
| 10  | 3M-8L2-16F  | 0.73  | 0.197   | 0.207   |
| 11  | 3M-8L2-32F  | 0.74  | 0.389   | 0.415   |
| 12  | 3M-8L2-64F  | 0.76  | 0.758   | 0.830   |
| 13  | 3M-8L2-128F | 1.34  | 0.860   | 1.000   |
| 14  | 3M-10L2-10F | 0.85  | 0.106   | 0.110   |
| 15  | 3M-10L2-20F | 0.85  | 0.212   | 0.219   |
| 16  | 3M-12L2-12F | 0.97  | 0.111   | 0.114   |
| 17  | 3M-12L2-24F | 0.95  | 0.227   | 0.228   |
| 18  | 3M-14L2-28F | 1.07  | 0.236   | 0.235   |

計測の結果, Mbandの最高値は 46GB/sec であり, この値 を Mband\_peak とする. また L2band の最高値は 146GB/sec であり, この値を L2band\_peak とする. L2band\_peak は, 3.4節のL2基礎テストの章で得られた 159GB/sec より低 めに出ているが,「京」では,メモリとL2 キャッシュに ついて同一のハードウェアでデータ転送を受け持つように なっており,互いのバンド幅が影響を受けるため,メモリ アクセスをしないL2基礎テストの値より少し小さな値と なっている.図-6では,それぞれ,

Mtime=Mdata/Mband\_peak, L2time=L2data/L2band\_peak, Ctime=Ca/Ppeak で計算した. 単位はそれぞれ sec である.



図-6 メモリ・L2 混合性能テスト結果

図-6を見るとMtime>L2timeの領域では、実測時間はほ ぼMtimeに一致していることがわかる.また、 Mtime<L2timeの領域では、実測時間は、ケース13を除き ほぼL2timeに一致していることがわかる.ケース13は Ctime>L2timeとなる領域であり、実測時間はCtimeに近い 値となっている.他のケースと比べると差異が大きいよう に見えるが、この理由はCtimeの予測のために、プログラ ムがピーク性能比100%の性能が出ることを仮定しているた めである.通常、ピーク性能に近い性能の達成は、DEGEMM 等の特別にチューニングされたプログラムに限られる.し たがってCtime>L2timeの領域で、高い性能が予測される 場合のCtimeの予測は誤差が大きくなる.

Mtime>L2time から Mtime<L2time に切り替わる交差点の 条件は、n=((L2band/Mband)-1)\*m であるので、L2bandを L2band\_peak、Mbandを Mband\_peakの値を使用すると、交 差点の条件は、n=2.17m である. この条件をテストプログ ラムの名称で表わすと、3M-6L2 と3M-8L2 の間となり. ケ ース番号8と9の間と予測されるが、図-6の実測値とも一 致している. 図-6を見ると4章の性能モデルが実測値と一 致していることがわかる.



図-7 メモリ・L2 混合性能テスト結果(従来と提案モデルの比較)



図-8 メモリ・L2 混合性能テスト結果(Mtime<L2timeの領域)

ここで従来のルーフラインモデルと提案した予測モデル の比較を行う.図-7(1)は、Mtime>L2timeの領域であり従 来のルーフラインモデルと提案した予測モデルが同じ予測 値を与える領域であるり、予測値と実測値がよく一致して いることを示している.Mtime<L2timeの領域は提案した予 測モデルを適用すべき領域であるが、この領域に従来のル ーフラインモデルを適用した結果を図-7(2)に示す.図-7(2)を見ると予測値と実測値の乖離があることがわかる. 図-7(1)(2)共に横軸のb/f値は、メモリアクセス量と演算 量の比から 8\*m/k で計算している. 図-8 は, Mtime<L2time の領域に提案した予測モデルを適用した結果を示す. 図-8 は、予測値と実測値がよく一致していることを示している. 図-8の横軸の b/f 値は、L2アクセス量と演算量の比から 8\*(m+n)/k で計算している. 図7、8 共に Ca は  $k*\mu$ -プの 回転数で計算し、Cp は、4.1 節に示した式で計算した. た だしピーク性能比 1.0を超える事はないので Cp が 1.0 以 上の値は 1.0を上限としている. 図7、8 共に、予測性能 値が 80%を超える領域については、演算律速になる領域で あるため、予測性能の精度は下がっている.

#### 5. プログラムの性能予測方法

# 5.1 L1 キャッシュの影響の評価

4節で提案したモデルを用いてプログラムの性能予測が 可能となると考えられるが, L1 キャッシュの影響に気を つけなければならない. L1 キャッシュは, データアクセス 機構の差異によりメモリやL2 キャッシュと, 以下の点で 違いがある.

- SIMD と noSIMD アクセスによりデータ転送速度が大 きく異なる.
- キャッシュミスのペナルティ、特にストア時のペナ ルティが大きい。
- L2からL1へのアクセスはキャッシュライン単位で あるがL1からレジスタへのアクセスはキャッシュラ イン単位ではない。

そこで,L2アクセスとの差異があるかどうかを確認する ために,以下の4種類のテストプログラムにより,データ アクセス性能の評価を実施した.

a) 図-2ベースの on L1 キャッシュで配列の数を一定に
 したプログラム(図-9)

b) a) のプログラムで on L1 キャッシュの配列の数を増や したプログラム(図-10)

c) 図-5 ベースの on L1 キャッシュで配列の数を増やした プログラム(図-11)

d) c)と同様であるが差分間隔が c)とは異なるプログラム (図-12)

a)のプログラムは、図-2と比較するとjの添字を取り除いているが、最内ループ長を確保しコンパイラの最適化の状態をL2キャッシュのテストと同じ状態にして評価を実施するためである.c)のプログラムはL1のアクセスを、c(i+1, j, k)、c(i+2, j, k)のように1つ単位で増減させており、差分間隔が short であると定義する.d)のプログラムはL1のアクセスを、c(i+12, j, k)、c(i+24, j, k)のように12単位で増減させており、差分間隔が long であると定義する.

```
do j = 1,N
do i = 1,M
c10(i) = z+c1(i)*x
enddo
enddo
図-9 L1キャッシュ性能テストプログラム a)
do j = 1,N
do i = 1,k
c10(i) = (((z+c1(i)*x)* &
c1(2*k+i)+z)*
c1(2*k+i)+z)*
enddo
enddo
```

図-10 L1 キャッシュ性能テストプログラム b)

&

&

```
do k = 1,N3

do j = 1,N2

do i = 1,N1

a(i,j,k) = c(i-1,j,k)+c(i,j,k)*c(i+1,j,k)

enddo

enddo

enddo

図-11 L1 キャッシュ性能テストプログラム c)

do k = 1,N3

do j = 1,N2

do i = 1,N1

a(i,j,k) = (c(i-1,j,k)+c(i,j,k)*c(i+1,j,k))* &

c(i-12,j,k)+c(i+12,j,k)

enddo

enddo
```

図-12 L1 キャッシュ性能テストプログラム d)

enddo

測定結果は, a)はL1キャッシュのバンド幅が 300GB/sec と測定された.またb)のプログラムは, 350GB/sec, d)の プログラムは, 430GB/sec と測定された.また c)のプログ ラムは, コンパイラの最適化のために正確なL1バンド幅 は測定できなかったが,メモリのアクセス量に対し10倍 程度までL1アクセスする配列を増やしても,メモリアク セス律速状態でのルーフラインモデルによる性能予測が適 用可能であった.

L2 キャッシュに関する 3.4 節と 5.2 節のバンド幅の結果 を見ると、3.4 節のバント幅が 5.2 節のバンド幅より大き い.L1 キャッシュのテストでは、3.4 節に対応するプログ ラムが a) であり 5.2 節に対応するプログラムが d) である が、a) より d) のバンド幅の方が大きくなっており、L2 キ ャッシュとは逆の傾向である.また本来であれば、a) と b) のバンド幅は、同じ値となるはずである.

以上の結果よりL1キャッシュは、その機構の複雑さか ら、メモリやL2キャッシュと同等のバンド幅によるルー フラインモデルの適用はできないものと考える.しかし、 ここでの議論により、L1キャッシュについて以下の条件が 提示できるものと考える.

- c)の short タイプの差分については、メモリのアク セス量に対し 10 倍程度 まで L1 アクセスする配列を 増やしてもメモリアクセス律速でのルーフラインモデ ルの適用が可能である.
- (2) a)b)d)タイプのL1アクセスにおいて SIMD アクセスでは、300GB/sec 程度のバンド幅は確保できることがわかった.L2のバンド幅が 145GB/sec ほどであるため、L2アクセスと同程度のL1アクセスがあっても、L2ベースのルーフラインモデルの適用が可能である。

#### 5.2 L1 アクセスを考慮した性能予測モデル

L1のアクセス量が限界まで達していない性能上限値の予 測方法は、以下のとおりである.まず、プログラムのメモ リ、L2キャッシュ、L1キャッシュアクセスバイトを計算 する.計算する項目は以下の通りとする.

- a) メモリまでアクセスする配列のバイト数(m)
- b) L2 までアクセスする配列のバイト数(nL2)
- c) L1 までアクセスするバイト数のうち short アクセス するバイト数(nL1\_S)

d) L1 までアクセスするバイト数のうち long アクセスするバイト数(nL1\_L)

次に L1 アクセスの影響について, SIMD ロードアクセス を前提として, L 1のアクセス量が限界まで達していない 事を確認する.限界を超えていない場合は、メモリアクセ ス性能を基礎とした予測,または L2 アクセス性能を基礎 とした予測ができるので, nL1\_S および nL1\_L の影響は考 慮しなくても良い.

さらに SIMD ロードアクセスで nL1\_S<10m かつ nL1\_L<nL2+m である事を確認する.成立する場合は L1 への アクセスは考慮しない.成立しない場合は今回の予測モデ ルの対象外である.これらが満たされた条件で以下のよう に性能予測を行う(以下倍精度データの例).

 (1) nL2≦((L2band/Mband)-1)\*mの場合
 ・メモリアクセス律速での予測とする *Cp=(Mband\_peak/Ppeak) /(m\*8/k)*

(2) nL2>((L2band/Mband)-1)\*mの場合

・L2アクセス律速での予測とする *Cp=(L2band\_peak/Ppeak) /((m+nL2)\*8/k)* 

# 5. 実アプリケーション性能予測と評価 6.1 性能予測とチューニング

本章では、性能予測とチューニングの具体例を示す.最 初の性能実測で予測性能まで性能が達していない場合は、 なんらかの性能問題が発生していると考えられる.このよ うな場合は、問題を取り除くためのチューニングの必要性 が明らかとなる.本章の例では、性能予測後の実測性能と 予測性能の差の評価、問題の究明、チューニングの実施例 について述べ、提案した性能モデルによる性能予測が実際 に有効であることを示す.実測性能と予測性能がどれくら い一致すれば良いかについては、差異 15%を目安とした.

#### 6.2 性能予測に基づいた性能改善

ここでは、3.2節図-1に示されたプログラム(A)及び別 途用意した3つのカーネルプログラム(B)(C)(D)の4個の プログラムに対し、性能予測モデルによる性能推定値と実 測性能との比較から、プログラムに対しチューニングを適 用し、予測値まで性能を上げた例について述べる.ここで 5.2節の予測式に4.2節で測定された値を使用することで 下式を使用して予測する.

- (1) nL2≦2.17m の場合
  - Cp = (46/128)/(m\*8/k) = 0.36/(m\*8/k)

# (2) nL2 >2.17m の場合 Cp=(146/128)/((m+nL2)\*8/k)=1.14/((m+nL2)\*8/k)

まずプログラム(A)の性能評価を行った.このプログラ ムは、m=5,nL2=21,nL1\_S=6,nL1\_L=12,k=43である. nL1\_S<10mおよびnL1\_L<nL2+mの条件を満たすので、また SIMDアクセスの条件を満たすのでL1のアクセスは考慮し ない.nL2>2.17mが成り立つのでL2アクセス律速状態で の予測となる.L2アクセス律速状態での予測値は、 1.14/((5+21)\*8/43)=1.14/4.83=0.236(23.6%)となる. 従来のルーフラインモデルでの予測性能は、38.7%となる. このプログラムの実測値は、14.7%であり予測値より大 分低い値となっていたため、性能劣化の調査を行ったところ、L1ミスdm率が13.36%であった.L1ミスは、データアクセス要求(dm)時に発生する、ハードウェアプリフェッチ時に発生する、ソフトウェアプリフッチ時に発生する、の3種類あるが、要求(dm)時に発生するL1ミスが少ない方が良い.L1ミスの割合である.この値が大きめの場合は、キャッシュスラッシング[11][12]の可能性が疑われたため、配列のマージ[11][12]を実施した.その結果、実測性能は19.7%まで向上し、予測性能まで近づくことができた.またL1ミスdm率は3.85%まで低下した.

プログラム(B)のパラメタは、m=13,nL2=2,nL1\_S=12, nL1\_L=8,k=60である.nL1\_S<10mおよびnL1\_L<nL2+mの 条件を満たすので、またSIMDアクセスの条件を満たすの でL1のアクセスは考慮しない.nL2>2.17mが成り立たな いのでメモリアクセス律速状態での予測となる.したがっ て従来のルーフラインモデルの予測値と同様となる.メモ リアクセス律速状態での予測値は、0.36/(13\*8/60)= 0.36/1.73=0.208 (20.8%)となる.最初の実測値は、 12.9%であり予測性能値に達していなかった.L1ミス dm 率を確認すると15.11%であった.ここでも配列マージのチ ューニングを実施することにより、実測性能が19.3%まで 向上し、L1ミス dm 率も8.81%まで低下し、予測性能近く まで性能向上できた.

プログラム(C)のパラメタは, m=11, nL2=2, nL1\_S=0, nL1\_L=2, k=11 である. nL1\_S<10m および nL1\_L<nL2+m の 条件を満たすので, L1 のアクセスは考慮しない. nL2>2. 17m が成り立たないのでメモリアクセス律速状態と なる. したがって従来のルーフラインモデルの予測値も同 様となる. メモリアクセス律速状態での予測値は, 0.36/(11\*8/11)=0.36/8=0.045 (4.5%) となる. 実測値は, 3.81%である. この例は, L1 ミス dm 率も 0.31%と低く, 予 測値と実測値の差が 15%程度になっているため, これ以上 の性能向上はできないと判断した.

プログラム(D)のパラメタは,m=3,nL2=8,nL1\_S=8, nL1\_L=0,k=25である.nL1\_S<10mおよびnL1\_L<nL2+mの 条件を満たすので,L1のアクセスは考慮しない. nL2>2.17mが成り立つのでL2アクセス律速状態となる.L2 アクセス律速状態での予測値は,1.14/((3+8)\*8/25)= 1.14/4.83=0.324(32.4%)となる.従来のルーフラインモ デルでの予測性能は,38.7%となる.実測値は29.0%であり, 予測値と実測値の差が15%以内になったため,これ以上の チューニングは行わないこととした.ここに述べた実例の サマリを表-4に記載する.

#### 表-4 4 つのプログラムの性能予測結果

|     | m  | nL2 | nL1_S | nL1_L | 演算<br>数 | 予測性能<br>従来法<br>(peak比) | 予測性能<br>提案法<br>(peak比) | 実測性能<br>(peak比) | tune後<br>実測性能<br>(peak比) |
|-----|----|-----|-------|-------|---------|------------------------|------------------------|-----------------|--------------------------|
| (A) | 5  | 21  | 12    | 6     | 43      | 0.387                  | 0.236                  | 0.147           | 0.197                    |
| (B) | 13 | 2   | 12    | 8     | 60      | 0.208                  | 0.208                  | 0.129           | 0.193                    |
| (C) | 11 | 2   | 0     | 2     | 11      | 0.045                  | 0.045                  | 0.038           |                          |
| (D) | 3  | 8   | 8     | 0     | 25      | 0.375                  | 0.324                  | 0.290           |                          |

#### 7. まとめ

プログラムの限界性能を予測するためにルーフラインモ デルが提唱されている.本報告では、「京」上で、ルーフ ラインモデルが, onL2 キャッシュの場合にも成り立つ事を 確認した.また, ルーフラインモデルを拡張したメモリと キャッシュアクセスが混在している状態での性能予測モデ ルを提案し,「京」上で提案した性能予測モデルが成り立 つことを確認した.最後に性能予測モデルを実際のプログ ラムに適用し,提案した性能予測モデルでプログラムの限 界性能値を予測し,チューニング実施の判断基準にするこ とができることを示した.

今後は、このような性能予測モデルを他のアーキテクチャに適用してことが必要と考えている.

#### 謝辞

本報告に際しご討論頂き貴重な助言を頂いた,富士通株 式会社の青木正樹氏,井上晃氏をはじめとした性能評価チ ームの皆様,理化学研究所 AICS 運用技術部門ソフトウェ ア技術チームの諸氏に感謝いたします.本報告の結果は、 理化学研究所のスーパーコンピュータ「京」を利用して得 られたものです.

[1] Matteo Frigo, Volker Strumpen : Cache Oblivious Stencil Computation, ICS '05 Proceedings of the 19th annual international conference on Supercomputing, Pages 361-366, ACM New York, NY, USA ,2005

[2] 近藤正章, 岩本貢, 中村宏: キャッシュラインを考慮した3次元 PDE solverの最適化手法,情報処理学会研究報告.計算機アーキテクチャ研究会報告 2001(22), 91-96, 2001-03-08

[3] S. Williams, A. Waterman, and D. Patterson: Roofline: an insightful visual performance model for multicore architectures. Commun. ACM, 52:65–76, 2009.

[4]南 一生,井上 俊介,堤 重信,前田 拓人,長谷川 幸 弘,黒田 明義,寺井 優晃,横川 三津夫.:"「京」コン ピュータにおける疎行列とベクトル積の性能チューニング と性能評価"ハイパフォーマンスコンピューティングと計

算科学シンポジウム論文集, pp.23-31 (2012)

[5] 雑誌 FUJITSU2012-5 月号 (VOL. 63, NO. 3)特集:スー パーコンピュータ「京」

[6] Datta, K., Murphy, M., Volkov, V., Williams, S., Carter, J., Oliker, L., Patterson, D., Shalf, J., and Yelick, K. Stencil computation optimization and autotuning on state-of-the-art multicore architectures. Conference (Austin, TX, Nov. 15–21). IEEE Press, Piscataway, NJ, 2008, 1-12.

[7] Williams, S., Carter, J., Oliker, L., Shalf, J., and Yelick, K. Lattice Boltzmann simulation optimization on leading multicore platforms. In Proceedings of the IEEE International Symposium on Parallel and Distributed Processing Symposium (Miami, FL, Apr. 14–18, 2008), 1–14.

[8] T. Furumura and L. Chen, "Parallel simulation of strong ground motions during recent and historical damaginge earthquakes in Tokyo, Japan", Parallel Computing, 31, pp149-165, 2005.

[9]古村孝志, "差分法による3次元不均質場での地震波 伝播の大規模計算", 地震2, 61巻, S83-S92, 2009. [10]「乱流音場解析ソフトウェア FrontFlow/Blue」:

http://www.ciss.iis.u-tokyo.ac.jp/riss/project/device/

[11]南一生:配信講義, CMSI 計算科学技術特論 B, アプリ ケーションの性能最適化 2 (CPU 単体性能最適化), http://www.cms-initiative.jp/ja/events/2014-haishin

[12]青木正樹, プログラムのチューニング方法, http://www2.itc.nagoya-u.ac.jp/riyou/tuning.pdf