# 疎行列のキャッシュへの適合性分類に関する予備評価<br />

富森苑子<sup>†1</sup> 田邊 昇<sup>†2</sup> 高田雅美<sup>†1</sup> 城 和貴<sup>†1</sup>

エクサスケールマシンは複雑なメモリシステムとなることが予想されている. 同マシンへの適用を視野に入れた疎行 列ライブラリの実現に向け,本報告では疎行列のキャッシュへの適合性分類に資する疎行列の特性に関する新しい指 標として「列インデックス列の空間的局所性」を提案する. さらに,入力疎行列および Fold 法前処理後の提案指標の 値をフロリダ大学の疎行列コレクションを用いて評価した. その結果,疎行列ベクトル積処理性能と L1 キャッシュ ヒット率と新指標の間には有意な相関関係があることが確認できた. よって,従来から指摘していた行列サイズと併 せ,本指標をアプリ固有の最適化を避けたメモリアクセス機構や前処理アルゴリズム自動選択の指標の一つとする.

# Preliminary Evaluation for Classifying Suitability for Cache Memory of Sparse Matrices

SONOKO TOMIMORI<sup>†1</sup> NOBORU TANABE<sup>†2</sup> MASAMI TAKATA<sup>†1</sup> KAZUKI JOE<sup>†1</sup>

In Japan, memory system of ExaFLOPS machines is expected more complex. In this paper, we propose a new characteristic of sparse matrices about spatial locality of row-index sequences in order to classify suitability for cache memory systems. Moreover, we evaluate proposal characteristic of input matrices and pre-processes (folding). Test matrices are chosen from University of Florida Sparse Matrix Collection. As a result, it is confirmed that there are significant correlations between performance of Sparse Matrix-Vector Product(SpMV) and the general purpose cache (L1) hit rate. Therefore, our characteristic is suitable for auto-tuning pre-processes and memory access mechanisms to avoid application specific optimization in conjunction with matrix size (the number of rows).

## 1. はじめに

近年,2018年頃のエクサスケールマシンの実現に向けた 検討[1]が日本でも行われるようになった.エクサスケール マシンではメモリバンド幅を十分に確保できなくなり,そ れをカバーするための複雑なメモリシステムの採用が予想 されている.大規模疎行列を係数とする連立一次方程式(疎 行列ベクトル積)に帰着される応用ではメモリバンド幅へ の要求が高い.国内の重点アプリケーションの多くがこの クラスに属するため,高速化へのニーズが高い.

また,近年ではグラフ処理に代表されるビッグデータ処 理が注目を集めている.これらにおいても,巨大で複雑な 非零要素配置を有する疎行列で表現される処理が必要にな る.Web サイトの重要性を与える PageRank などの大規模 非定型情報の検索[2]や嗜好分析・リコメンーションにおい て,疎行列処理の大規模化と高速化が求められている.

現時点での世界第二位のスーパーコンピュータである京 は2階層のキャッシュをベースにした比較的シンプルなメ モリシステムを有する.しかし,その上での最適化でさえ 容易ではない.ごく少数の選抜アプリケーションのみに最 適化のプロが配置され,そのアプリケーション固有の性質 を利用した極限に迫る最適化が行われている.一方,選抜 されなかったアプリケーションや,寿命が短いアプリケー ションでは、ユーザーの科学者たちは性能チューニングに 時間と人手を投資できない.疎行列処理に帰着される応用 だけを取ってみても、フロリダ大学の疎行列コレクション [3]をみれば明らかなように、その非零要素配置は多種多様 である.そこで重要になるのが最適化済みのライブラリや 自動最適化コンパイラである.複雑なメモリシステムを有 するエクサスケールマシンでは、自動化された最適化機構 の重要性が一段と高まる.

以上のような認識から筆者らは、アプリケーション固有 の最適化を避けた二種類の統一的調整機能や、アクセス機 構選択による疎行列向けの新しい自動チューニング手法を 提案し、それらに基づく大規模疎行列やメモリシステムの 特性を考慮した高速な汎用疎行列ライブラリの構築に着手 した.[4]

疎行列処理を主なターゲットとした計算時間の観点から の自動最適化機構を実現する端緒として、筆者らはやや複 雑なメモリシステムを有する GPU(NVIDIA C2050)と各種 疎行列の間での、疎行列ベクトル積性能を変動させる要因 の明確化を試みることとした.

本研究で取り上げる GPU は L1/L2 キャッシュを有し, コ アレスドアクセス条件を満たさない場合は実効メモリバン ド幅が大幅に低下するメモリシステムを有する. そのよう なキャッシュベースのメモリシステムとの組合せにおいて,

<sup>†1</sup> 奈良女子大学

Nara Women's University

<sup>†2 (</sup>株)東芝

Toshiba corporation

a) Intel, Xeon は、米国およびその他の国における Intel Corporation の商標 です.

処理性能を決める要因としてキャッシュサイズと行列の行数の関係が重要であることを筆者らは明らかにした. [5]

ところが、行数や非零要素数が大幅に少ないにもかかわ らず性能やヒット率に低いような逆転現象があるなど、行 数以外にも性能やヒット率に大きな影響を与える因子が存 在することを発見した.本研究はそのようなキャッシュへ の適合・不適合を左右する重要因子として、疎行列の特性 の新指標(列インデックス列の空間的局所性)を提案し、そ の有効性を評価する.

## 2. GPU のメモリシステムの特性

疎行列処理を主なターゲットとした計算時間の観点から の自動最適化機構を実現する端緒として,筆者らはやや複 雑なメモリシステムを有する Fermi 世代の GPU(NVIDIA C2050)[6][7]をとりあげる.

#### 2.1 Fermi 世代 GPU のアーキテクチャ

Fermi 世代 GPU のアーキテクチャの特徴は以下のとおり である.

- GPU あたり 16 個までの SM
- SM あたり 1~48Warp (Warp あたり 32 スレッド)
- SM ごとに 32 個の CUDA コアと 64KB の構成選択可 能な L1 キャッシュ兼共有メモリ
- メモリアクセスは Warp(32 スレッド)単位で実行
- 全てのグローバルメモリアクセスはL2キャッシュ(容量 768KB)を経由
- キャッシュラインサイズ 128 バイト
- 外部メモリは GDDR5 型 DRAM, 64bit 幅 6 ポート, 最小アクセス粒度(Non-caching 設定時)32 バイト, ピ ークバンド幅 177GB/s
- ECC 機能のサポート
- CUDA コアあたり 32 個の単精度浮動小数 FMA(Fused Multiply Add)ユニット, 16 個の倍精度浮動小数 FMA ユニット

#### 2.2 疎行列ベクトル積における挙動

Fermi 世代 GPUのメモリシステムの疎行列ベクトル積に おける挙動は以下のとおりである.アクセスの効率化のた めに多くの場合,文献[7][8]に示されるような0パディング (ミスアラインによる効率半減防止)を行なうことが有効で ある.キャッシュのヒット率は以下の二種類のメモリアク セスの効果が合成されたものとなる.

 不規則な非零要素配置に伴う列ベクトルアクセスが 間接参照となり、メモリバンド幅がボトルネックとなる。その効率は index 配列の内容によって変化する。 図1に示されるように Warp 内の32 スレッドのメモリ アクセスがNキャッシュラインに散らばる場合は、 128 バイト単位のメモリアクセスをN回繰り返して 32 個のデータをロードする。その結果、実効メモリ バンド幅が単精度浮動小数の場合 N/32 に低下する  index 配列と1次元化した疎行列配列については、ラ イン内の後続データは有効活用されるのでデバイス メモリへのアクセス頻度を抑制できる.ミスヒットレ イテンシを隠せるだけのスレッドを稼動させられる 場合、各スレッドのアクセスが単精度浮動小数の場合 32回のうち31回が直前のミスヒット時に取り込まれ たキャッシュラインにヒットするため、これらのアク セスにおけるキャッシュラインサイズの問題は無い.
 1回の疎行列ベクトル積処理の中で値の再利用性(時 間的局所性)は無いため、キャッシュに入れると上記 の列ベクトルを追い出してしまう可能性がある.京の セクタキャッシュのような制御が有効だが、Fermi 世 代の GPU にその機構は無いため、キャッシュ容量が 不足気味の状況ではこの問題が顕在化する恐れがあ る.



- 図 1 疎行列ベクトル積の列ベクトルへの間接参照におけ る GPU のバンド幅低下問題 (文献[6]より引用)
- Figure 1 The bandwidth degradation on indirect accesses of row vector for SpMV (Refered from [6]).

## 3. 疎行列の特性

### 3.1 疎行列コレクションにおける行列特性情報

フロリダ大学疎行列コレクションには多種多様な疎行列 が行列の特性指標とともに公開されている.そのうちキャ ッシュヒット率に関連を持つと考えられる指標は以下の通 りである.

- 行数(number of rows) : これは疎行列ベクトル積においてメモリバンド幅ボトルネックの原因となる列ベクトルのサイズを与える.これにデータ型のサイズを乗じたものとL1およびL2キャッシュとの大小関係が急激な性能変動をもたらす[5]ため極めて重要な指標
- 列数(number of columns): 行数と同じ(正方行列)で あることが多いが正方行列ではないこともある
- 全非零要素数(nonzeros): index 配列と1次元化した疎 行列配列の要素数を与える.前処理アルゴリズムや格 納法によってはキャッシュのヒット率に影響を与え る

- アプリ種別(kind):同じアプリ種別に由来するもの は同じような特性を持つことが多い
- 行列形状図(Matrix pictures : CSparse パッケージの Matlab 用関数 cspy による出力.ただし色は要素の絶 対値に対応するためキャッシュヒット率とは無関係)

#### 3.2 行列サイズと疎行列ベクトル積性能の関係

筆者らの先行研究では行列サイズとキャッシュ容量の関 係が疎行列ベクトル積性能に重要な影響があることが示さ れている[5].キャッシュ容量が足りている状況では行列サ イズ(行数)の増加とともに緩やかにヒット率が減少する 傾向を示すが,足りなくなると急激にヒット率が低下し, 急激な性能低下を引き起こし,列ベクトルサイズがキャッ シュ容量の10倍以上になってくるとキャッシュの効果は 殆ど見えなくなることが報告されている.その評価で用い たキャッシュ容量はFermi世代のGPUのものより小さく設 定して完全に溢れる状況を観測しているが,フロリダ大学 の疎行列コレクションより大きな行列を扱う場合には GPUにおいても同様な激しい性能低下が起きる状況にな るものと考えられる.

GPU(C2050)の実機上でキャッシュのヒット率を観測した場合,行数とL1ヒット率の関係は図2のようになる. 図2から判るように全体としては両者には負の相関(行数が大きくなるとL1ヒット率が減少する傾向)がある.ただし,表1のように行数が大きくても行数が小さい行列のL1ヒット率より高い逆転現象も観測されており,L1ヒット率は行数だけで決まっていないこともわかる.よって,行数以外のL1ヒット率への有意な相関を有する疎行列の特性に関する指標の探求が望まれる.



図 2 行数とL1 キャッシュヒット率の関係

Figure 2 The relation between the number of row and L1 cache hit rate .

Vol.2012-HPC-135 No.17

表 1 逆転現象を起こしている行列の例

 Table 1
 Example of matrices with reverse phenomenon.

|        | F1          | ldoor        |
|--------|-------------|--------------|
| 行数     | 343,791     | 952,203      |
| 非零要素数  | 13,590,452  | 23,737,339   |
| L1ヒット率 | 24%         | 39%          |
| GFLOPS | 9.41 GFLOPS | 13.27 GFLOPS |
| アプリ種別  | 構造解析        | 構造解析         |
| 行列形状図  |             |              |

#### 3.3 提案する行列特性指標

筆者らは疎行列のキャッシュへの適合性分類に資する疎 行列の特性に関する新しい指標として「列インデックス列 の空間的局所性」を提案する.図3にその概念図を示す. 行列の特性値を表す場合の定義を以下に示す.「非零要素の みを CRS 形式で格納し,列ベクトル読み出しに用いるイン デックス配列を先頭から順に読み出した際に,下位5bit以 外が継続して一致している回数をカウントする.不一致が 生じた時のカウント値を出力し,1からカウントしなおす. その出力されたカウント値の数列の平均を取ったものを, 列インデックス列の空間的局所性と定義する.」



図 3 提案指標(列インデックス列の空間的局所性) Figure 3 The proposed property (spatial locality of row-index sequences)

上記の値は、1 本のラインしかないキャッシュに対して 疎行列ベクトル積を CRS 形式の疎行列に対して行なう際 の列ベクトルをアクセスする際のキャッシュラインあたり にいくつの有効データが存在するのかという平均値を与え る.その逆数は上記のアクセスに対するメモリバンド幅が, どれ位薄まってしまうのかを意味する.ただし,実際のキ ャッシュは多数のラインを用意することで時間的局所性を 引き出すので,疎行列とキャッシュの相互作用の一面しか 見ていないことから,上記の平均値は実機特性を厳密に表 すものではなく,近似値である.

なお、上記の定義で下位 5bit としているのは 128 バイト (GPU 等の一般的なキャッシュラインサイズ)のラインの中 に存在する 32(2<sup>5</sup>)個の 4 バイトデータのいずれかへのアク セスは、キャッシュがヒットすることに対応している.

並べ替えを伴う前処理に対する特性値を表す場合の広義 の定義を以下に示す.「列ベクトル読み出しに用いるインデ ックス配列を先頭から順に読み出した際に,下位 5bit 以外 が一致している回数をカウントする.不一致が生じた時の カウント値を出力し,1 からカウントしなおす.その出力 されたカウント値の数列の平均を取ったものを,列インデ ックス列の空間的局所性とする.」

#### 4. 評価

#### 4.1 実験環境と評価行列

今回の実験に用いた計算機環境aを 表2に示す.また, 評価に用いた行列を表3に示す.行列はUniversity of Florida Sparse Matrix Collection から抜粋したものである.University of Florida Sparse Matrix Collection とは,実際のアプリケー ションでよく生じる疎行列を集めたものである.これらの 疎行列は,疎行列アルゴリズムの開発と性能評価のための 数値線形代数の研究者に多く使用されている.本研究では, 先行研究[8][9]で使用した疎行列に新たに追加を行った.追 加された行列は,行列形状図上で非零要素が不規則に散ら ばっているように見える(キャッシュ向けの最適化が効き にくいと考えられる)疎行列を選んだ.それらは構造解析, 電子回路解析,web 解析,道路網解析のアプリケーション に由来する疎行列である.nd24k については作者不明(アプ リ種:2D/3D 問題)な行列で,行列形状図上では他の行列と の質的な差が判らないものである.

| Table 2Experimental environment. |                                           |  |  |  |
|----------------------------------|-------------------------------------------|--|--|--|
| CPU                              | Intel®Xeon®CPU X5670 @ 2.93GHz            |  |  |  |
| GPU                              | Nvidia Tesla C2050 (コア数 448)              |  |  |  |
| デバイスメモリ                          | メモリバンド幅 144GB/s,3GB                       |  |  |  |
| ホスト I/F                          | PCI express x16 Gen.2                     |  |  |  |
|                                  | (最大バンド幅 8GB/s)                            |  |  |  |
| OS                               | RedHat Enterprise Linux Client release5.5 |  |  |  |
| CUDA                             | Cuda3.2                                   |  |  |  |

## 表 2 測定環境

### 表3 評価に用いた行列

| Table 3 | Experimented   | matrices. |
|---------|----------------|-----------|
| ruore 5 | L'Aportinenteu | matrices. |

| 行列名          | 非零要素数      | 行数        |
|--------------|------------|-----------|
| crankseg_2   | 7,106,348  | 63,838    |
| nd24k        | 14,393,817 | 72,000    |
| thermal2     | 3,489,300  | 147,900   |
| hood         | 5,494,489  | 220,542   |
| F1           | 13,590,452 | 343,791   |
| msdoor       | 10,328,399 | 415,863   |
| rajat29      | 4,866,270  | 643,994   |
| ASIC_680ks   | 12,329,176 | 682,712   |
| apache2      | 2,766,523  | 715,176   |
| ldoor        | 23,737,339 | 952,203   |
| webbase-1M   | 3,105,536  | 1,000,005 |
| delaunay_n20 | 2,097,124  | 1,048,576 |
| roadNET-TX   | 1,281,106  | 1,393,383 |
| Hamrle3      | 5,514,242  | 1,447,360 |
| G3_circuit   | 4,623,152  | 1,585,478 |
| roadNET-CA   | 1,844,404  | 1,971,281 |

#### 4.2 評価実験

3.3 節で述べた疎行列の特性指標の有効性を確認するため, CRS 形式と前処理後における提案指標と,前処理後の L1 ヒット率を測定した.本研究における前処理は, Fold 法[8][9]を用いた.この Fold 法という前処理では, CRS 形 式からインデックス配列内部のアクセス順序を GPU 向け に転置を用いて変更している.そのため,キャッシュのヒ ット率はその影響を受ける.つまり CRS 形式のアクセス順 序とはキャッシュへの相性が大幅に異なるため,前処理の 影響が顕著に観測できるものと期待できる.

CRS 形式で格納されたインデックス配列を先頭から読み 込むと、非零要素が行内では昇降順となったインデックス 値列が読み込まれる.提案指標値を計測するには、下位 5bit 以外が一致している回数をカウントする.不一致が生じる とその時のカウント値を出力し、1からカウントしなおす. その出力されたカウント値の数列の平均を取る.

図4は各評価行列に対して,前処理前(CRS形式)とFold 法による前処理後のキャッシュライン内部の有効データ率 (赤と青の棒)の変化を示したものである.青い折れ線とし て前処理後のL1キャッシュのヒット率も示している.行 列の並び順は左から右に行数が大きくなる順に示している. 青い棒(有効データ数/ライン)と青い折れ線(L1キャッシ ュのヒット率)の形状の類似性に不一致点が感じられる.

0 パディングの影響でヒット率が水増しされている現象 とその度合いを示すために 0 パディングの index を削除し た index 列に対する同指標の測定値(緑の棒)も併記した. 0 パディング削除すると大きく有効データ率が減少する(水 増しされていた)行列もあるが,変化が少ない行列もある. 表 1 に示した逆転現象がある二つの行列(F1, ldoor)の間 には有効データ率に大きな差が認められ,行数の観点から L1 キャッシュヒット率が想定的に小さくなると考えられ ていた ldoor は,高い空間的局所性によって F1 より高い L1 ヒット率を示したものと考えられる.



図 4 各種行列における L1 ヒット率と有効データ数/ライン(前処理前=CRS 形式,前処理=Fold 法)

Figure 4 The L1 cache hit rate and the number of valid data/line for various matrices. (Before pre-process = CRS, pre-process = Fold method)

次に、図5はFold 法前処理後のL1 キャッシュのヒット 率とライン内部の有効データ数の関係を示したものである. 図4の青線と青棒の関係がはっきりしなかったように、図 5 は一見すると全体的にばらけているように見える.しか し,点線で囲ったように3つの集団に分類できると考えた.



図 5 L1 ヒット率と有効データ数/ラインの関係(Fold 法 前処理後)



まず赤い点線で囲ったサンプル点 (apache2) は図 4 に示 されるように CRS 形式では空間的局所性が非常に少なく, Fold 法前処理後は空間的局所性が劇的に増加している.通 常の CPU で実行する場合は連続アクセスに匹敵するほどの 空間的局所性が高い状況で,L1 ミス1回に対して 31回の ヒットが続く状況に近い.プリフェッチも有効に効く可能 性が高いと考えられる.ところが,GPUの場合はWarp単位 で多数のスレッド (Fermi 世代では32スレッド)が同時に アクセスすることになり,同じラインに32個のスレッドが アクセスしたとしても,そのラインがL1になければ全部が ミスとなる.次にスケジュールされたスレッドでも同じこ とが続けばL1ミスが継続してしまう.apache2の場合はこ のような特殊な状況にあると考えられる.

次に青い点線で囲った4つのサンプル(thermal2, ASIC\_680ks, roadNET-TX, roadNET-CA)では空間的局所性は 低くなっている. L1ヒット率と有効データ数/ラインの関 係をこれらの4点について抜き出し,線形近似直線を引い たものを図6に示す. 図6では,相関がほぼ0であること がわかる.よって,空間的局所性とは無関係な別の要因で L1ヒット率が変動していることがわかる. 具体的にはキャ ッシュヒット率を大きく左右するであろうもう一つの要因 である時間的局所性の差によって L1 ヒット率が変動して いると考えられるが,その指標化と分析は今後の課題とす る.



図 6 有効データ数/ラインと関係が薄いサンプル(Fold 法 前処理後)

Figure 6 The relation between L1 cache hit rate and the number of valid data/line (Pre-processed by Fold-method)

上記の2グループを除いた緑の点線で囲まれたサンプル のみ抜き出して作成したL1ヒット率と有効データ数/ライ ンの関係を図7に示す.正の相関(キャッシュライン内部の 有効データ数が上昇するにつれてL1キャッシュのヒット 率も上がる)傾向になっている.なお,有効データ数/ライ ンが0になったとしてもL1キャッシュヒット率は0には 落ちず,20%強の値を示しそうな傾向が読み取れる.これ は、列ベクトル以外にもインデックスや行列値を格納する 配列に対するバーストアクセスに対する空間的局所性に起 因するヒットがあるためであり、異常な結果ではないと考 えられる.





Figure 7 The relation between L1 cache hit rate and the number of valid data/line (Pre-processed by Fold-method)

図4を以上のように3つのグループに分けて示したのが 図8である.図7に示したサンプルに対応する図8の左側 のグループでは青い棒(有効データ数/ライン)と青い折れ 線の形状には類似点が多いことがわかるようになった.青 い折れ線の形状は,文献[5]が指摘している行数に伴うヒッ ト率低下傾向に加え,各種行列の空間的局所性の差に伴う 上下変動が合成されたものと考えられる.









図 9 nd24k の行列形状図 Figure 9 The map of non-zero elements for nd24k

唯一作者不明(アプリ種:2D/3D問題)なnd24kについては, 図9のように行列形状図上で非零要素が不規則に散らばっ ているように見えるにもかかわらず,今回測定に用いた行 列の中では最もキャッシュライン内部の有効データ数が大 きく,CRS形式と良い相性をもつアクセスパターンである ことが判る.つまり,行列形状図の見た目では全く判定で きなかった重要な行列の特性を,提案指標によって明快に 顕在化できたことがわかる.

GPU向けの Fold 法は転置を用いているため CRS 形式と はキャッシュに対する相性が正反対の関係にある.その傾 向は nd24k において顕著に出ており,元から CRS と良い相 性のアクセス順であった nd24k が前処理によって大幅に空 間的局所性が崩れている.0 パディングを削除するとその ダメージが顕著であることがわかる.これは例えば Fold 法 の効果の評判の良さを聞きつけて,もし nd24k に適用して しまうと逆効果になってしまうが,提案指標を事前に測定 しておけば元の CRS 形式を用いる方が高速であろうこと は容易に判別できると考えられる.

逆に赤よりも青の棒が伸びている webbase-1M や Hamrle-3 をはじめとする多くの行列で Fold 法前処理が空 間的局所性由来のキャッシュヒット率改善に寄与し,結果 として高速化が得られる可能性を裏付ける一つの指標であ ると考えられる.

一方,図6で表されているような空間的局所性の低さを 補えるほど時間的局所性が高いものでない限り,F1のよう に空間的局所性で性能が左右され,CRSでもFold法でもど ちらも変わらず低い(1~5程度の)有効データ数に留ま るものは、ソフトだけによる高速化には限界がある.その ようなものは、Gather機構[5][8][9][10]のようなハードウェ アによる支援が無いとメモリバンド幅の有効活用が困難で あると予想される.

以上のように,提案指標は疎行列が与えられた時に,前 処理の選択や,アクセスハードウェアの自動選択に際して, 有効な方向性を与える指標であると考えられる.

#### 5. 関連研究

京の上では、疎行列計算を主体にした 2 つのアプリケー ション上で、アプリケーション固有の性質を利用した最適 化を人手で行っていることが報告されている。例えば1行 の最大非零要素数を 27 に固定する制約を課した最適化な どが行われている[11]. 汎用志向のアプローチでは複数の ソフト実装の中から実行時に自動で試して選択する自動チ ューニングの研究も行われている。例えば CPU 上での処理 アルゴリズムの選択[12], GPU 上での行列格納方式の選択 [13]基づく研究が報告されている。筆者らの先行研究では 行列サイズとキャッシュ容量の関係が疎行列ベクトル積性 能に重要な影響があることが示されている[5].

ただし、筆者らの知る限りでは「列インデックス列の空

間的局所性」を疎行列や疎行列向け前処理アルゴリズムの 特性として事前に測定し,疎行列処理の自動チューニング に用いている前例は無い.

## 6. おわりに

エクサスケールマシンは複雑なメモリシステムとなるこ とが予想されている.同マシンへの適用を視野に入れた疎 行列ライブラリの実現に向け,本報告では疎行列のキャッ シュへの適合性分類に資する疎行列の特性に関する新しい 指標として「列インデックス列の空間的局所性」を提案す る.さらに,入力疎行列および Fold 法前処理後の提案指標 の値をフロリダ大学の疎行列コレクションを用いて評価し た.その結果,疎行列ベクトル積処理性能とL1キャッシ ュヒット率と新指標の間には有意な相関関係があることが 確認できた.行列形状図では判別できなかった規則性やア ルゴリズムとキャッシュの相性が明快に判定できる場合が あることがわかった.よって,従来から指摘していた行列 サイズと併せ,本指標をアプリ固有の最適化を避けたメモ リアクセス機構や前処理アルゴリズム自動選択の指標の一 つとする.

ただし、今回の予備実験によれば、行列サイズと列イン デックス列の空間的局所性以外にも疎行列ベクトル積性能 を左右する別の要因が存在していることも明らかになって きた.今後の課題は、時間的局所性などのその他の疎行列 ベクトル積性能決定要因の指標化と分析などである.

**謝辞** 本研究の一部は総務省戦略的情報通信研究開発 推進制度(SCOPE)の一環として行われたものである.

#### 参考文献

1) 平木 :"[招待講演]将来の HPC アーキテクチャ", ハイパフォー マンスコンピューティングと計算科学シンポジウム 2012 (HPCS'12), pp.163-167, Jan.2012.

2) X. Yang, S. Parthasarathy, P. Sadayappan : "Fast sparse matrix-vector multiplication on GPUs: implications for graph mining", Proc. VLDB Endowment, Vol.4, No.4, pp.231-242, Jan. 2011.

3) Tim Davis : " The University of Florida Sparse Matrix Collection", http://www.cise.ufl.edu/research/sparse/matrices/.

4) 冨森,田邊,小郷,高田,城:"大規模疎行列やメモリシステムの特性を考慮した高速な汎用疎行列ライブラリ実現に向けて", 先進的計算基盤システムシンポジウム(SACSIS'12)ポスター, pp.65-66, May 2012

5) 田邊, Nuttapon, 中條, 小郷, 高田, 城 : "不規則型応用を加 速するメモリアクセラレータ – Exa FLOPS マシンの文脈から", 情報処理学会研究報告 2011-HPC-132, Nov. 2011.

6) NVIIDIA Corp. : "Whitepaper NVIDIA' s Next Generation CUDA Compute Architecture Fermi",

http://www.nvidia.com/content/PDF/fermi\_white\_papers/NVIDIA\_Fermi\_Compute\_Architecture\_Whitepaper.pdf

7) Timo Stich : "Fermi Hardware and Performance Tips",

http://theinf2.informatik.uni-jena.de/theinf2\_multimedia/Website\_downl oads/NVIDIA\_Fermi\_Perf\_Jena\_2011.pdf

8) N. Tanabe, Y. Ogawa, M. Takata, K. Joe : " Scaleable Sparse Matrix-Vector Multiplication with Functional Memory and GPUs",

Euromicro PDP2011, Feb.2011

9) 田邊,小郷,小川,高田,城: "Gather 機能を有するメモリアク セラレータの疎行列計算への応用",ハイパフォーマンスコンピュ ーティングと計算科学シンポジウム 2012 (HPCS'12), pp.32-41, Jan.2012.

10) 田邊, 堀, Nuttapon, 中條: "Gather 機能を有する Hybrid Memory Cube の FPGA を用いた予備評価", 情報処理学会 HPC 研 究会, Vol.2010-HPC-133, Mar. 2012.

11) 南,井上,堤,前田,長谷川,黒田,寺井,横川:"「京」コ ンピュータにおける疎行列とベクトル積の性能チューニングと性 能評価",ハイパフォーマンスコンピューティングと計算科学シン ポジウム 2012 (HPCS'12), pp.32-41, Jan.2012.

 12) 櫻井,直野,片桐,中島,黒田: "OpenATLib:数値計算ラ イブラリ向け自動チューニングインターフェース",情報処理学会 論文誌コンピューティングシステム, Vol.3, No.2, pp.39-47, 2010.
 13) 久保田,高橋: "GPUにおける格納形式自動選択による疎行 列ベクトル積の高速化",情報処理学会 HPC 研究会, Vol.2010-HPC-128, Dec. 2010.