# 有限要素法係数行列生成プロセスのマルチコア・メニィコア環境に おける最適化

中島研吾<sup>†1 †2</sup> 大島聡史<sup>†1 †2</sup> 塙 敏博<sup>†1</sup>

有限要素法は偏微分方程式の数値解法として様々な科学技術シミュレーションに使用されている. 有限要素法におい て係数行列生成部は疎行列計算と並んで計算時間を要するプロセスである. 本研究では, OpenMP によってマルチス レッド並列化された係数行列生成部に関する3種類の実装によるプログラムを様々なマルチコア,メニィコア環境で 評価した事例を紹介し,自動チューニングに向けた方策について検討する.

# Optimization of matrix assembling process in FEM applications on multicore/manycore architectures

KENGO NAKAJIMA $^{\dagger 1}$  $^{\dagger 2}$  SATOSHI OHSHIMA $^{\dagger 1}$   $^{\dagger 2}$  TOSHIHIRO HANAWA $^{\dagger 1}$ 

Finite-element method (FEM) is one of the most well-known numerical methods for solving partial differential equations (PDE), and applied to various kinds of scientific simulations. Matrix assembling and sparse matrix solver are the most expensive processes in finite-element procedures. In the present work, the matrix assembling process is parallelized using OpenMP, and three types of implementations are evaluated on various types of multicore/manycore architectures. Results and analyses of computations and strategies towards automatic tuning will be described in the presentation.

# 1. はじめに

有限要素法に代表される偏微分方程式の数値解法におい て、最も計算時間を要するプロセスは大規模な疎行列を係 数行列とする連立一次方程式の求解であり、その最適化に 向けて様々な試みがなされてきた(例えば[1]).有限要素 法では、各要素における積分方程式から密な要素行列を計 算し、これを重ね合わせることによって疎な全体係数行列 を導出する.このような係数行列生成部(Matrix Assembling)は連立一次方程式求解部と比較してアプリケ ーションに依存する部分も多く、計算プロセスの最適化に 関する研究は、これまであまり行われて来なかったのが現 状である[2].一般に、係数行列生成のコストは連立一次 方程式求解よりは少ないものの、例えば非線形計算の場合 には係数行列を反復のたびに計算し直す必要があり、でき るだけ効率を高める工夫が必要である.

著者等は科学技術振興機構戦略的創造研究推進事業 (CREST)「ポストペタスケール高性能計算に資するシス テムソフトウェア技術の創出」の1プロジェクトとして実 施されている「ppOpen-HPC:自動チューニング機構を有す るアプリケーション開発・実行環境」[3,4]において有限 要素法に代表される様々な科学技術計算手法の各計算プロ セスのマルチコア,メニィコアアーキテクチャ向け最適化, ライブラリ化と自動チューニング手法の適用に関する研究 開発を実施している.有限要素法の係数行列生成部もその

†1 東京大学情報基盤センター

対象の一つであり,最適化と自動チューニング手法の検討 が進められている.本研究は,ppOpen-HPC における有限 要素法アプリケーション開発用フレームワークである ppOpen-APPL/FEM のフィージビリティスタディとして実 施したものである.

本論文では、以下、係数行列生成部の処理の概要とその 最適化、計算環境の概要、計算結果とその分析について紹 介し、最後に自動チューニングに向けての方策についてま とめる.ppOpen-HPC はメッセージパッシング(MPI)とプ ロセス内スレッド並列(OpenMP)を組み合わせたハイブ リッド並列プログラミングモデルを基本としているが、本 研究では特に各計算ノード上でのスレッド並列化に着目し、 MPI プロセス数を1として計算を実施した.

#### 2. 係数行列生成部

#### 2.1 対象アプリケーション

本研究で対象としているのは、GeoFEM プロジェクト [5,6,7]で開発された並列有限要素法アプリケーションを 元に整備した性能評価のためのベンチマークプログラム 「GeoFEM/Cube」である.本ベンチマークは、三次元弾 性静解析問題(Cube 型モデル(図1))に関する並列前処 理付き反復法による疎行列ソルバーの実行時性能 (GFLOPS値)を様々な条件下で計測するものである.要 素タイプは三次元一次六面体要素(tri-linear)であり、各 要素 8 つの節点を有している.プログラムは全て OpenMP ディレクティヴを含む FORTRAN90 および MPI で記述され ている. GeoFEM で採用されている局所分散データ構造

Information Technology Center, The University of Tokyo

<sup>\*2</sup> 科学技術振興機構 CREST CREST, Japan Science and Technology Agency

[5] を使用しており、マルチカラー法等に基づくリオーダ リング手法によりマルチコアプロセッサにおいて高い性能 が発揮できるように最適化されている.また、MPI、OpenMP, Hybrid (OpenMP+MPI)の全ての環境で稼動する.

三次元弾性静解析問題では係数行列が対称正定な疎行 列となることから,前処理を施した共役勾配法(Conjugate Gradient, CG)法によって連立一次方程式を解いている.

本来の GeoFEM/Cube ベンチマークでは前処理手法と して Symmetric Gauss Seidel (SGS) を使用しているが,本 研究では Block Diagonal Scaling 法 [5,6] を使用しており, OpenMP 並列化した場合の前処理プロセスにおけるデータ 依存性を考慮する必要がないため,節点のリオーダリング は実施していない.また,三次元弾性問題では1節点あた り3つの自由度があるため,これらを1つのブロックとし て取り扱っている.係数行列はこのブロック型の特性を利 用したブロック CRS 形式 (Compressed Row Storage) によ って格納されている.



図 1 GeoFEM/Cube の解析対象(Cube モデル)

#### 2.2 係数行列生成部

有限要素法では,要素毎に得られる積分方程式から導か れる密な要素行列を重ね合わせて疎な全体行列を生成する. 図2に示すような二次元一次四角形要素(bi-linear,双一次) では各要素の節点数が4であるので各節点の自由度数が1 であれば,要素行列は4×4の密行列となる.



図 2 要素行列の重ね合わせによる全体行列の生成

図2の7番の節点は周囲の4要素(2,3,5,6番)から の寄与がある.したがって,係数行列生成のプロセスを OpenMP等でスレッド並列化した場合,ある節点に複数の 要素から同時にデータの書き込みが発生する場合がある. 要素行列の重ね合わせを実施する際にはマルチカラーオー ダリング等を使用してこのような同時書き込みの発生を回 避する方法が広く使用されている [2]. 図3は本研究にお ける行列生成部の処理の概要を示すものである. 三次元一 次六面体要素を使用しているため,要素あたりの節点数は 8であり,8×8の密な要素行列が生成される(実際は各節 点に3つの自由度があるため,要素行列は24×24となる).

ループの構成としては一番外側が各要素に関するループ (do icel= 1, ICELTOT, ICELTOT:全要素数) である. そ の内側の二重ループ(do ie=1, 8, do je= 1, 8) は要素行列を 生成するためのループであり,各要素の節点が8個あるこ とに対応している. 更にその内側にはガウスの積分公式に 対応する三重ループ(do ipn/jpn/kpn =1, 8) がある.



図 3 GeoFEM/Cube における係数行列生成の処理

#### 2.3 係数行列生成部の実装手法

図3に示す処理をまとめると以下の4つとなる:

- ① 各積分点におけるヤコビアン,形状関数導関数計算
- ② 要素行列成分の全体行列(疎行列)におけるアドレ ス探索
- ③ ガウス数値積分,要素行列成分計算
- ④ 要素行列成分の全体行列への加算

do color= 1, COLORtot <u>MP PARALLEL D0</u> do icel= col\_index(color-1)+1, col\_index(color) <①各積分点におけるヤコビアン,形状関数導関数計算> do ie= 1, 8; do je= 1, 8 <②要素行列成分の全体行列(疎行列)におけるアドレス探索> 1\$0 <③ガウス数値積分,要素行列成分計算><④要素行列成分の全体行列への加算> enddo: enddo enddo enddo

図 4 GeoFEM/Cube オリジナル実装(Original)の概要 (COLORtot:要素色数(=8), col\_index(color):各色に含 まれる要素数)

図4は、図3に示した処理内容を、上記①~④を考慮して 簡略化し、OpenMP によるスレッド並列化が適用されてい ると仮定したものである. COLORtot はマルチカラーオー ダリングの色数であり、本ケースのような規則正しい形状 の場合には8である.配列 col\_index(color)は各色に含まれ る要素数である.図4に示すようにオリジナル実装では、 これらの処理を要素毎に実施しており、特に②~④につい ては要素行列の各成分について個別に実施している.各ル ープの中で、探索、ガウス積分、全体行列への加算などの 複雑な処理が繰り返し実施されるため計算効率が低くなっ ている可能性がある.

有限要素法における疎な係数行列は要素毎に得られる積 分方程式から導出される要素行列に基づくものであり,ア プリケーションへの依存性が強い.ppOpen-HPC 開発の見 地からはアプリケーション開発者の負担をできるだけ軽減 することが重要であり,疎行列計算に関わる上記②,④の 処理に関わる機能はできるだけ ppOpen-HPC で提供するこ とが望ましい.①もライブラリとして提供が可能な機能で あるが,③は最もアプリケーションに最も依存する部分で あり,アプリケーション開発者自ら記述する必要がある.

③の部分を他と切り離す場合には、要素行列用配列(1 要素あたり4.61KByte (=24×24×8÷1,000))のため記憶容 量が必要である.また、②の部分を分離する場合には要素 行列各成分の疎行列におけるアドレスを記憶するための配 列に要素あたり256Byte が必要である.これらの配列はス レッド並列化を実施する場合には、各スレッドにおいて別 途必要となる.したがって、これらの配列を全要素につい て記憶することは非現実的であり、100 個以下の要素によ るブロックを形成し、ブロック毎に計算を実施するのが適 切である.

以上を考慮して,図5,図6に示すような実装(Type-A, Type-B)を試みる.ここでBLKSIZは各ブロックに含まれ る要素数,NBLKは要素ブロックの総数である.

#### <u>Type-A (図 5)</u>

- 図 3 に示した①~④の処理のうち、②、①+③、④を 分離して、3つのループとする。
- 疎行列アドレス記憶用配列,要素行列用配列のための 追加の記憶容量が必要である。

#### <u>Type-B (図 6)</u>

- 図3に示した①~④の処理のうち、②、①+③+④を 分離して、2つのループとする。
- 疎行列アドレス記憶用配列のための追加の記憶要領が 必要である.要素行列用配列の記憶は不要である.

上記のうち,アプリケーション開発者の負担の少ないのは Type-A である.図5に示す②と④の計算を実施しているル ープは分離してライブラリ化することが可能であり,第2 のループの計算のうち,①もライブラリ化が可能である.



図 5 Type-A 実装の概要(COLORtot:要素色数(=8), col\_index(color):各色に含まれる要素数,NBLK:要素ブロ ック総数,BLKSIZ:要素ブロックサイズ,icel:要素番号)



図 6 Type-B 実装の概要(COLORtot:要素色数(=8), col\_index(color):各色に含まれる要素数,NBLK:要素ブロ ック総数,BLKSIZ:要素ブロックサイズ,icel:要素番号)

#### 3. 計算機環境

本研究では以下の3種類の計算機環境を使用した:

- <u>FX10</u>: Fujitsu PRIMEHPC FX10 に基づく東京大学情報 基盤センターの Oakleaf-FX システム [8]
- <u>MIC</u> : Intel Xeon Phi (Knights Corner)
- <u>IvyB</u> : Intel Xeon E5 (IvyBridge-EP)

プログラムは Fortran90 で記述してあり, FX10 では富士通 製コンパイラ, MIC, IvyB では Intel Comliler (Ver.15) / Intel Parallel Studio XE 2015 を使用した.表1に計算機環境の概 要を示す.

本研究では、各環境において表1に示す1ソケットを用 いて計算を実施した.1.でも述べたように、MPI プロセス 数を1とし、ソケット内を OpenMP によりスレッド並列化 したプログラムを実行している.表1に示すように実際に 使用したスレッド数は、FX10:16、MIC:240, IvyB:10 である.IvyBの有効スレッド数は20であるが、今回は10 として実施している.

| 略称                       | FX10                           | MIC                                            | IvyB                                               |
|--------------------------|--------------------------------|------------------------------------------------|----------------------------------------------------|
| 名称                       | Fujitsu<br>SPARC64 IX fx       | Intel Xeon Phi<br>5110P<br>(Knights<br>Corner) | Intel Xeon<br>E5-2680 v2<br>(Ivy-Bridge-EP)        |
| 動作周波数<br>(GHz)           | 1.848                          | 1.053                                          | 2.80                                               |
| コア数 (有効<br>スレッド数)        | 16 (16)                        | 60 (240)                                       | 10 (20)                                            |
| 使用スレッ<br>ド数              | 16                             | 240                                            | 10                                                 |
| メモリ種別                    | DDR3                           | GDDR5                                          | DDR3                                               |
| 理論演算性<br>能(GFLOPS)       | 236.5                          | 1,010.9                                        | 224.0                                              |
| 主記憶容量<br>(GB)            | 32                             | 8                                              | 64                                                 |
| 理論メモリ<br>性能<br>(GB/sec.) | 85.1                           | 320                                            | 59.7                                               |
| キャッシュ<br>構成              | L1:32KB/core<br>L2:12MB/socket | L1:32KB/core<br>L2:512KB/core                  | L1:32KB/core<br>L2:256KB/core<br>L3:25MB/socket    |
| コンパイル<br>オプション           | -Kfast, openmp                 | -O3 -openmp<br>-mmic -align<br>array64byte     | -O3 -openmp<br>-ipo -xAVX<br>-align<br>array32byte |

| 表 1 | 各計管理音 | (1 | ソケッ | Ь. | )の概要 |
|-----|-------|----|-----|----|------|
| 4.2 |       | •  |     |    |      |

## 4. 計算結果

#### 4.1 計算条件

計算対象としては図 1 に示す Cube モデルで  $N_x=N_y=N_z=128$  とした場合について検討した.したがって, 要素数=2,048,383 (=127<sup>3</sup>),節点数=2,097,152 (=128<sup>3</sup>) である.実装としては,図4~図6に示すGeoFEM/Cube オリジナル,Type-A,Type-Bの3種類を考慮し,Type-A, Type-Bの要素ブロックサイズ(図5,図6のBLKSIZ)は 1~100の範囲で変化させた.表2に実施ケースを示す.

|       |              |                       | _     |
|-------|--------------|-----------------------|-------|
|       | 実装           | 要素ブロックサイズ<br>(BLKSIZ) | _     |
| Org.  | オリジナル(図 4)   | —                     | -     |
| A-001 |              | 1                     | -     |
| A-002 |              | 2                     | -     |
| A-005 |              | 5                     | nce   |
| A-010 | Type-A (図 5) | 10                    | orma  |
| A-020 |              | 20                    | Perfo |
| A-050 |              | 50                    | _     |
| A-100 |              | 100                   |       |
| B-001 |              | 1                     |       |
| B-002 |              | 2                     |       |
| B-005 |              | 5                     |       |
| B-010 | Type-B (図 6) | 10                    | -     |
| B-020 |              | 20                    | _     |
| B-050 |              | 50                    |       |
| B-100 |              | 100                   | _     |

表 2 実施ケース

#### 4.2 計算結果

図 7 に示す計算結果は各計算機環境における各ケース (実装方法,要素ブロックサイズ)の行列生成部の計算性 能を記載したものであり,横軸は Type-A, Type-B 実装に おける要素ブロックサイズである.オリジナル実装の場合 は要素ブロックサイズというパラメータが存在しないため, 各計算機環境における結果(●,▲,◆)は BLKSIZ=1の 軸に記載されている.記載されているデータは FX10/Org. (オリジナル実装)の場合の行列生成部計算時間を各ケー スにおける行列生成部計算時間で割った値であり,1より 大きい場合は,FX10/Org.よりも速いということになる.

各計算機環境において計算結果を比較すると,まずFX10 においては、B-010, B-020, B-050, B-100の値が1をわず かながら上回っているものの、Type-Bによる結果はほぼ1 に近くオリジナル実装と変わらない. Type-A の場合は、 Type-B と比較して 10%~15%程度性能が低い. Type-A で 最も性能が良い A-010, A-020 の場合はオリジナル実装、 Type-B と比較して性能は 92%程度である.

それに対して、MIC、IvyB では Type-A による性能は Type-B と比較して、MICにおいて 35%、IvyB では 60%程 度高くなっている。各ケースとも要素ブロックサイズによ る性能の変化は少ないが、Type-A ではブロックサイズが大 きくなると性能の低下傾向が見られ、特に MIC/Type-A (△)、IvyB/Type-A(◇)ではブロックサイズが 2 を超 えると性能が低下していく、Type-A は要素行列を記憶する ため、他の手法と比較して要素ブロックサイズの影響を受 けやすい、ブロックサイズ=10 の場合のスレッド当たりの 要素行列に要する記憶容量は 46.1KByte である. IvyB では Type-B の性能が他のケースと比較して非常に低い.

FX10 と IvyB は理論演算性能,理論メモリ性能は似通っ ているが,性能最大値を比較すると IvyB の性能が 60%程 度高い.また,MIC は FX10 の約2倍の性能である.



図8は図7の中から、各計算機環境において最大性能を

図 7 GeoFEM/Cube 計算結果,係数行列生成部計算性能 (FX10, Org.の計算時間で無次元化) (2,048,383 要素, 2,097,152 節点),計算機環境,実装方法,要素ブロックサ イズの効果,GeoFEM/Cubeの結果はBLKSIZ=1の軸に記載(●,▲,◆)



図 8 GeoFEM/Cube 計算結果,係数行列生成部計算性能 (FX10, Org.の計算時間で無次元化) (2,048,383 要素, 2,097,152 節点),計算機環境,実装方法,要素ブロックサ イズの効果

| 表 3 | 行列生成 | 部におけるメモリス | ループット | (GB/sec) |
|-----|------|-----------|-------|----------|
|     |      | FX10      | Iv    | yВ       |

|                         |       | -     |
|-------------------------|-------|-------|
| Org.                    | 18.93 | 23.49 |
| A-001                   | 15.24 | 31.28 |
| A-020                   | 16.76 | 30.57 |
| B-002                   | 17.76 | 21.34 |
| B-050                   | 18.26 | 22.64 |
| Org. (疎行列ソ<br>ルバー) (参考) | 55.86 | 53.29 |

表3は図8に示す各ケースの行列生成部におけるメモリ スループット(GB/sec)である.FX10はFujistu PRIMEHPC FX10専用詳細プロファイラ[8],IvyBはIntel VTune[9] によって計測を実施した.参考のために疎行列ソルバー(前 処理付き共役勾配法)における値を併記してある.図9, 図10はFujistu PRIMEHPC FX10専用詳細プロファイラに よって算出した,FX10/Org.の場合の行列生成部,疎行列 ソルバーの命令数(Instructions),計算時間の内訳である. 行列生成部は疎行列ソルバーと比較すると,演算命令数, 演算時間の比率が高く,逆に疎行列ソルバーはメモリ,キ ャッシュアクセスに関する命令や待ち時間の比率が高い. 図11はIntel VTuneを使用して求めたIvyB/Org.の場合の 計算時間の内訳である.









図 10 GeoFEM/Cube 計算結果, FX10/Org.における行 列生成部, 疎行列ソルバーの計算時間の比率 (2,048,383 要 素, 2,097,152 節点)



図 11 GeoFEM/Cube 計算結果, IvyB/Org.における行列 生成部, 疎行列ソルバーの計算時間の比率 (2,048,383 要素, 2,097,152 節点)



図 12 GeoFEM/Cube 計算結果,FX10 における行列生成 部の専用詳細プロファイラによる解析結果(2,048,383 要素, 2,097,152 節点) (a)命令数,(b)計算時間 疎行列ソルバーは memory-bound なプロセスとして知ら れているが,これらの結果より,行列生成部はそれと比較 すると compute-bound であるということができる.専用詳 細プロファイラの解析結果によると,FX10/Org.における 対ピーク性能比は行列生成部が 13.3%であるのに対して, 疎行列ソルバーは 4.83%である.表3 によると IvyB の方 が FX10 と比較してメモリバンド幅を効率的に使用できて いることがわかる.このことが図 8 に示す計算性能にも影 響していると考えられる.また,IvyB は Type-A が Org., Type-B と比較して 40%程度高いメモリスループットを達 成している.これは図 7,図 8 において,IvyB/Type-A, MIC/Type-A が高い性能を示していることと関連してい ると考えられる.

図 12 (a, b) は FX10 で実施した各ケースにおける行列生 成部の専用詳細プロファイラによる解析結果である. Type-A では命令数がオリジナル実装, Type-B と比較して 命令数が多く, 計算時間も長く, また表 3 に示したメモリ スループットの低さとも関連しているものと考えられる。 既に述べたように, Type-A の計算性能は比較的低いものの, 最適なケース (A-020) ではオリジナル実装と比較して 92% 程度の性能は達成していることは図 12 (b) からも明らか である. FX10/A-020 では命令数も他の Type-A のケース と比較してわずかながら低下している(図 12 (a)).



図 13 GeoFEM/Cube 計算結果, プロファイラ (Fujitsu PRIMEHPC FX10 専用詳細プロファイラ, Intel VTune) に より求めた係数行列生成部総命令数 (FX10, IvyB 共にオ リジナル実装の場合 (Org.)の命令数で無次元化) (2,048,383 要素, 2,097,152 節点),計算機環境,実装方法,要素ブロ ックサイズの効果

図 13 は FX10 と IvyB においてプロファイラ (Fujitsu PRIMEHPC FX10 専用詳細プロファイラ, Intel VTune)を使用して算出行列生成部の総命令数である. それぞれオリジナル実装 (Org.) における命令数で無次元化してある. IvyB/Type-A では命令数がオリジナル実装の 60%に減少していることがわかる. 一般に,命令数が少ない方が計算時間は短く,計算性能が高いと考えることができ,図 13の結果は図8に示す各ケースの計算性能,表3に示すメモ

リスループットに対応しているものと考えられる.FX10 では Type-A の計算性能が悪化するのに対して, IvyB, MIC では性能が大幅に向上していることとも関連していると考 えられる.

## 5. まとめ

本研究では、並列有限要素法による三次元弾性静解析ア プリケーションに基づく性能評価用ベンチマーク GeoFEM /Cube において、OpenMP によってマルチスレッド並列化 された係数行列生成部に関する3種類の実装によるプログ ラムを Fujitsu SPARC64 IXfx (FX10)、Intel Xeon Phi 5110P (MIC)、Intel Xeon E5-2680 v2 (IvyB)の3種類の環境を使 って評価し、プロファイラを使用して性能の解析を実施し た.

オリジナル実装は複雑な処理を1つのループで処理して いたが、これを3つに分割した Type-Aの実装は、要素行 列生成以外のループをライブラリ化することが可能であり、 アプリケーション開発者にとって最も負担が少ないアプロ ーチである.

Type-A は MIC, IvyB で高い性能を示し,オリジナル実 装と比較してそれぞれ 35%,60%程度の性能向上が得られ た.IvyB の実行結果を Intel VTune によって分析した結果, 総命令数がオリジナル実装の 60%程度に低下しているこ とと関連することがわかった.逆に FX10 では総命令数が 20%程度増加し,計算時間も10%~15%程度増加している. しかしながら要素ブロックサイズを 20 とした場合には計 算時間増加を 8%程度に抑制することができ,命令数もわ ずかながら減少している.

これら、Type-A におけるアーキテクチャによる総命令数、 性能の傾向の差異の原因については今後更に詳細に検討を していく必要がある。MIC, IvyB において Type-A による 性能の向上が顕著であった点については、複雑な処理を多 数含むループをやや単純な構造を持つ3つの小ループに分 割した効果もあると考えられる.

MIC, IvyB では A-001, A-002 等, ブロックサイズが少 ない場合に最適値を達成し, ブロックサイズの増加によっ て性能が低下する. FX10 の場合もブロックサイズが 50 を 超えた場合の性能低下は顕著であるが, 最適値が A-020 で 得られているように, MIC, IvyB とは挙動が異なっている.

Type-A は, 疎行列の処理に関して適切なライブラリ化が 実施されれば, アプリケーション開発者の負担が最も少な い実装である.本研究において,少なくとも MIC, IvyB に ついては Type-A が適していることが示された.FX10 につ いては,他と比較してやや性能が劣るものの,要素ブロッ クサイズが適切な値となるように制御すれば,性能向上が 期待できる.現状の結果に基づくと,今後の ppOpen-HPC におけるアプローチとしては,基本的に Type-A に基づい て実装し、状況に応じて自動チューニングによって要素ブ ロックサイズの最適値を決定するのが適切と考えられる.

今回は、問題サイズも一種類で、対象とするアーキテク チャも限定されていたため、今後はより広範囲の問題に対 して適用することにより、ppOpen-HPC への適用について 検討を継続する予定である.

## 参考文献

1) 中島研吾,前処理付きマルチスレッド並列疎行列ソルバー, 情報処理学会研究報告(HPC-139-6) (2013).

2) 大島聡史,林雅江,片桐孝洋,中島研吾,三次元有限要素法ア プリケーションにおける行列生成処理の CUDA 向け実装,情報処 理学会 研究報告(HPC-130-11)(2011).

 ppOpen-HPC:科学技術振興機構戦略的創造研究推進事業 (CREST)「ポストペタスケール高性能計算に資するシステムソフ トウェア技術の創出:自動チューニング機構を有するアプリケー ション開発・実行環境」, http://ppopenhpc.cc.u-tokyo.ac.jp/

4) 中島研吾, 佐藤正樹, 古村孝志, 奥田洋司, 岩下武史, 阪口 秀, 自動チューニング機構を有するアプリケーション開発・実行 環境 ppOpen-HPC, 情報処理学会研究報告(HPC-130-44)(2011).

5) GeoFEM: 並列有限要素法による固体地球シミュレーション プラットフォーム, http://geofem.tokyo.rist.or.jp

 6) Nakajima, K., Parallel Iterative Solvers of GeoFEM with Selective Blocking Preconditioning for Nonlinear Contact Problems on the Earth

Simulator, ACM/IEEE Proceedings of SC2003, (2003)

7) 中島研吾,片桐孝洋,マルチコアプロセッサにおけるリオー ダリング付き非構造格子向け前処理付反復法の性能,情報処理学 会研究報告(HPC-120-6)(2009).

8) 東京大学情報基盤センター(スーパーコンピューティング部 門), http://www.cc.u-tokyo.ac.jp/

9) Intel VTune,

https://software.intel.com/en-us/intel-vtune-amplifier-xe