弘 上  $\pm^{\dagger 1}$ 茂<sup>†3</sup> 竜太郎<sup>†2</sup> 井 安 薵 薄田 村 周 史 $^{\dagger 3}$ 柴 村 英 **扫**†2 Ξ 英 樹<sup>†3</sup> Ш 鰪 宏 田  $明^{\dagger 2}$ 稲 富 雄 \_\_\_\_†1 木 淳<sup>†2</sup> 眞 本 尾 智 也 $^{\dagger 2}$ 柳 平 書 **睦**<sup>†1</sup> 村 上 和 **彰**†1 附 茂<sup>†3</sup> 松 秀 実<sup>†3</sup> 安島 雄 — 郎<sup>†3</sup> 石 小 夫<sup>†3</sup> Ξ 俊 **幸**†3 吉 郁 洁 7K 黒 Ш 原 **佳**†4

本稿では、大規模スーパコンピュータ開発のための新しいシステム性能評価法を提 案する.また、それを実現するために開発した各種ソフトウェア・ツールの詳細を述 べる.さらに、実在するテラフロップス級スーパコンピュータを対象とした精度評価 実験,ならびに、仮想ペタスケール・スーパコンピュータを対象とした性能予測実験 を行うことにより、本環境の有効性を明らかにする.実在する計算機システムを利用 して、2~3桁高性能な計算機システムの性能を予測するためには、これらの間に存在 する大きな性能差を埋める必要がある.そこで我々は、1)プログラムコードの抽象 化技術の導入、2)抽象化をサポートするためのプロセッサならびに相互結合網のシ ミュレータ開発、3)抽象化したプログラムを実行するための仮想超並列実行環境の構 築、を行った.ギガフロップス級の PC クラスタを用いて、実在するテラフロップス 級スーパコンピュータの性能を予測した結果、性能予測誤差はわずか 10%~20%程度 であることが分かった.また、理論ピーク性能 2.1ペタフロップスの仮想スーパコン ピュータを対象とした実験を行い、4 時間~6 時間といった現実的な時間での性能予 測が可能であることを示した。

## Developing Performance Evaluation Environment for Large Scale Supercomputers

Koji Inoue,<sup>†1</sup> Hisa Ando ,<sup>†3</sup> Ryutaro Susukita,<sup>†2</sup> Shuji Yamamura,<sup>†3</sup> Hidetomo Shibamura,<sup>†2</sup> Hideki Miwa,<sup>†3</sup> Hiroaki Honda,<sup>†2</sup> Yuichi Inadomi,<sup>†1</sup> Jun Maki,<sup>†2</sup> Tomoya Hirao,<sup>†2</sup> Mutsumi Aoyagi,<sup>†1</sup> Kazuaki Murakami,<sup>†1</sup> Shigeru Ishizuki,<sup>†3</sup> Hidemi Komatsu,<sup>†3</sup> Yuichiro Ajima,<sup>†3</sup> Ikuo Miyoshi,<sup>†3</sup> Toshiyuki Shimizu<sup>†3</sup> and Motoyoshi Kurokawa<sup>†4</sup>

This paper proposes a novel approach to predict the performance of large scale supercomputers, and shows the details of several software tools developed in this project. It is not easy to accurately predict the performance of large-scale systems such as peta-scale supercomputers. This is because we need to exploit existing computer systems, the performance of which is two or three orders of magnitude lower than the target system. To bridge the performance gap, a technique to highly abstract the application program codes is introduced. This approach makes it possible to achieve high-speed, accurate performance predictions. In addition, three software tools are developed to evaluate the performance of processors, interconnects, and also whole systems. The experiments demonstrate that the error was only from 10% to 20% when the performance of a tera-scale supercomputer is predicted by a giga-scale PC cluster. Another case study is to predict the performance of an un-existing peta-scale supercomputer by using an existing tera-scale machine. The results show that the performance can be predicted by spending only from four to six hours.

Fujitsu Limited

†4 独立行政法人理化学研究所情報基盤センター

Advanced Center for Computing and Communication, RIKEN

<sup>†1</sup> 九州大学

Kyushu University

<sup>†2</sup> 財団法人九州先端科学技術研究所

Institute of Systems, Information Technologies and Nanotechnologies

<sup>†3</sup> 富士通株式会社

1. はじめに

スーパコンピュータは計算科学ならびに計算機科学の発展を支える重要かつ重宝な道具で ある.計算科学においては,スーパコンピュータを利用した大規模シミュレーションを行う ことで、人類がいまだ解明できていない様々な諸問題の解決を目指す、一方、計算機科学の 分野では、世界に類のない高性能な計算機システムを実現することにより、マイクロプロ セッサやメモリシステムといったハードウェアから OS や各種ライブラリのミドルウェアに 至るまで、計算機システムに必要不可欠な様々な構成要素に関する技術開発が加速される、 そして、このようなスーパコンピュータを「使う技術」と「造る技術」は両輪となり、今日 の情報化社会を支えている.たとえば,薬や自動車など我々の社会生活に深く浸透してい る製品の開発においてはスーパコンピュータを用いたシミュレーションが多く用いられる. また、クラウドコンピューティング時代においては情報社会インフラとしての基幹系計算機 サーバが必要不可欠であり,その実現にはスーパコンピュータ開発において確立された高性 能化技術,低消費電力化技術,高信頼化技術,実装技術など様々な知識と知見を直接的に活 用できる.さらに,これらは要素技術としての側面も持ち合わせるため,次世代情報家電や 携帯端末機器に代表される組み込みシステムへの貢献も期待される.このような背景の中, 世界各国においてもスーパコンピュータ開発が加速しており、特に近年では、日本や欧米だ けでなく、中国をはじめ韓国、インド、ブラジルといった国々の台頭が顕著になっている.

このように,スーパコンピュータの開発は学術的/社会的に様々な恩恵をもたらす一方, その開発には莫大な費用を要する.特に,テラフロップスからペタフロップス,さらには, エクサフロップス級の性能を目指すためにはシステムそのものが大規模化/複雑化せざるを えず,開発コストの増大はより深刻な問題となる.そのため,開発後の大幅なシステム変更 は事実上不可能であり,製造前の仕様決定段階において広大な設計空間を探索し可能な限り 最適なシステム構成を決定しなければならない.これを実現するためには,様々なシステム 構成を想定した性能予測が必要となる.特に,ハードウェア構成のみで決定される理論ピー ク性能ではなく,アプリケーション・プログラムを動作させた際の実効性能を正確に見積も らなければならない.しかしながら,現状では設計者の経験に頼るところが大きく,多く の場合は過去の開発実績に基づく机上での見積りにとどまっている.通常,アプリケーショ ン・プログラム実行の振舞いはソフトウェア特性だけでなくハードウェア構成にも依存す る.特にスーパコンピュータのような超並列計算処理を行う場合には,プロセス間通信能力 に応じて実行時の挙動が変化する.このような動的な振舞いとそれがシステム性能へ与える 影響を机上予測することは容易でなく、その結果として最悪の場合にはシステム製造後に所 望の性能を満足できない可能性もある.したがって、仕様設計の段階で様々なシステム構成 の性能を予測し、かつ、その詳細を解析するための環境構築が急務の課題となる.

そこで我々は,上述した課題を解決しスーパコンピュータ開発を加速させるべく,大規模 スーパコンピュータ向け性能評価環境の構築を行った.本研究の主たる貢献は次の2点にあ る.まず第1点目は,超高性能プロセッサならびに大規模インターコネクト用シミュレー ション・ツール群の開発である.これらのツールを用いることにより,スーパコンピュータ の中で最も重要な構成要素である計算ノードとそれらを相互に接続する結合網に関するアー キテクチャ探索が可能となる.第2点目は,プログラム実行コードの高度抽象化技術の導 入とそれに基づく仮想超並列実行環境の構築である.これにより,既存の小規模計算機シス テム(たとえばテラフロップス級マシン)を用いて,未知の大規模スーパコンピュータ(た とえばペタフロップス級マシン)の実効性能を予測することが可能となる.なお,本稿は, 平成17年度~平成21年度の5年間にわたりに実施した「スーパコンピュータ開発に向け た性能評価環境の構築」の研究成果をまとめたものである<sup>1),5),8),26)</sup>.開発したツールの一 部は平成22年夏を目処に一般公開する予定であり,本研究で確立した性能評価技術ならび にツール群は,将来にわたるスーパコンピュータの性能評価だけでなく,様々な大規模計算 機システムの開発に広く応用可能であると考える.

以降,本稿では,開発した大規模スーパコンピュータ向け性能評価環境の詳細を示す.2章 ではスーパコンピュータの性能予測に関する既存技術の問題点を整理し,解決すべき課題を 明確にする.次に,3章では本研究において実際に開発した各種ツール群とその評価結果を 紹介し,4章で仮想ペタスケール・スーパコンピュータを前提とした性能予測実験を行う. 5章では提案手法の適用可能性に関する考察と今後の課題を述べ,最後に6章で本稿をまと める.以降,本稿では,性能予測対象となる計算機システムを「ターゲットマシン」,性能 予測を実施する計算機システムを「ホストマシン」と呼ぶ(つまり,ホストマシンを用いて ターゲットマシンの性能を予測する).

## 2. 大規模スーパコンピュータ向け性能予測技術と解決すべき課題

計算機システムの実効性能を正しく予測するためには,システムを構成するハードウェア の特性だけでなく,実行対象となるアプリケーション・ソフトウェアの特性も同時に考慮し なければならない.これに加え,対象がスーパコンピュータの場合には数万から数十万の計 算ノードを有するため,いかにして現実的な時間内での性能予測を可能にするかが重要なポ

イントとなる.このような課題を解決すべく,これまでに様々な研究開発が行われてきた. これらは主に,「性能モデリング方式」と「シミュレーション方式」に大別できる.

性能モデリング方式では、ターゲットマシンでのアプリケーション実行時間をモデル化 し、ハードウェア特性やアプリケーション特性に基づきモデル中に出現するパラメータ値を 決定する.たとえば,プログラム実行時間を計算時間と通信時間に分離し,アプリケーショ ンごとに問題サイズやプロセス数などをパラメータ値とした性能モデルを作成する.これ により、少ないプロセス数の測定結果などから大規模構成の性能を予測することが可能とな る<sup>14),20)</sup>,また,トレース情報に基づきシングルプロセッサ性能と通信性能を取得しこれら を性能式へ代入する方法も提案されている<sup>15),18),25)</sup>.その他の関連研究としては,メモリ バンド幅をキャッシュ・ヒット率の補間可能な関数としてモデル化する手法27)やニューラ ルネットワークを用いた学習により性能モデルを自動生成する手法<sup>21)</sup>,類似性の高い複数 の既存マシンでの実行結果より性能予測対象マシンでの性能モデルを作成する手法<sup>22)</sup>など があげられる.これらに加え,各演算処理や通信に対応した代表遅延時間を用いて実行時間 を算出する MPIETE<sup>2),7)</sup>, 統計情報を用いる Parafrase<sup>9)</sup> なども提案されている. これら モデリングに基づく性能予測方式の共通点は,小規模もしくは類似の実在する計算機環境を 用いて性能に関する基本情報を採取し、実行対象となるアプリケーションの特性を考慮し てプログラム実行時間を数式(性能モデル)で表現する点にある、したがって、この性能モ デルを1度作成してしまえば,その後の性能予測に要する時間は無視できる程度に小さい. しかしながら、これら性能モデルには時間的概念が含まれないため、プログラム実行の挙動 が単純かつ静的に決定される場合にはきわめて有効であるが、プロセス間ロードインバラン スなどの動的変動要因が性能へ影響する場合には対応することが難しい.

一方,シミュレーション方式による性能予測では実際にアプリケーションを実行するため,動的な実行の振舞いの変化が生じた場合においても比較的精度良く性能を予測できる. たとえば,代表的な研究開発事例として,EXCIT+INSPIRE<sup>3)</sup>,INSIGHT<sup>4)</sup>,CSIM<sup>9)</sup>, MPI-SIM<sup>23)</sup>,BigSim<sup>29)</sup>などがあげられる.これらの共通点はシステムの振舞いを細部に わたり性能予測する方針がとられていることであり,その多くは図1(A)に示すように評 価対象となる並列プログラムをホストマシン上で実行し通信ログを採取する.そして,こ れを入力としたインターコネクト・シミュレーションを実施することでシステム性能(ア プリケーション・プログラムの実行時間)を予測する.しかしながら,世界最速スーパコン ピュータの性能予測を行う場合には,各種シミュレーションに利用可能な計算資源との性能 ギャップが存在し,特に以下の問題が生じる.





【問題点1】ホストマシンのリソース不足に起因するプログラム実行限界:ターゲット マシンの性能を正しく予測するためには,それに見合った大規模なアプリケーション・ プログラムと入力サイズを想定し,その実行によって発生する各種イベント情報(プロ セス間通信のパターンなど)を収集する必要がある.しかしながら,ホストマシン上で 当該プログラムをそのまま実行する場合,ハードウェアのリソース不足(特にメモリ容 量不足)が深刻化する.一般にターゲットマシンはホストマシンより多くの計算ノード を有する.したがって,計算ノードあたりの使用メモリ容量が同一と仮定した場合,計 算ノード数に比例してシステム全体での総使用メモリ容量が増加する.その結果,メモ リ不足によりホストマシン上でのターゲットマシン用プログラムの実行がきわめて困難 となる.

【問題点 2】通信ログ採取限界:数万から数十万の計算ノードを搭載するスーパコン ビュータでは多くの通信が発生する.そのため,通信ログ採取時間の長期化や通信ロ グ記憶のためのハードディスク容量不足といった問題が顕著化する.たとえば,我々の 試算では,4,096計算ノード(64GBメモリ/ノード)を有するシステムにおいて HPL (High Performance Linpack)を実行した場合には通信ログサイズが1TB程度になる. これは計算ノード数の増加にともない増大するため,大規模なターゲットマシンを対象 とする場合はより深刻となる.

【問題点3】ソフトウェア・シミュレーションの実行限界:小規模なシステムを対象と する場合,一般的には当該システムのソフトウェア・シミュレータを開発し,その上で アプリケーション・プログラムを実行することでシステム性能を見積もる.しかしなが ら,その速度は実機と比較して3~4桁以上遅いため,数万から数十万ノードの計算機 資源を有し,かつ,それに応じた規模のアプリケーション・プログラムを実行対象と する場合には非現実的である.たとえば,フリットレベルのインターコネクト・シミュ レータ<sup>5)</sup>を利用し,計算ノード数4,096(3次元トーラス)での全体全通信をシミュレー ションした結果,その完了に約9時間を要している.これは計算ノード数の増加にとも ない増大するため,前述した通信ログ生成問題と同様,数万から数十万規模のターゲッ トシステムを対象とする場合はより深刻になる.また,さらに大規模なアプリケーショ ン・プログラムにおいては複数回の通信が生じるため,現行のインターコネクト・シ ミュレータを用いたプログラム実行性能の予測は容易でない.この問題は,スーパコン ピュータの主要構成要素であるプロセッサのシミュレーションにおいても同様である.

今後,さらなる性能向上を目的として,スーパコンピュータの構成はより大規模化かつ複 雑になると予想される.このような状況においては,プロセス間ロードインバランスや通信 遅延の変動など非決定的なイベントが性能へ与える影響はより大きくなることが予想され るため,シミュレーション方式による性能予測の必要性は今後より高くなる.

#### 3. 大規模システム性能予測環境の開発

2章で述べた問題点を解決するためには,性能評価に関して従来手法とは異なる新しいア プローチが必要となる.本章では,「規模の壁(2章の問題点1と問題点2)」と「速度の壁 (2章の問題点3)」を打破する新しい性能評価法とそれを可能にする各種ツール群の詳細を 述べる.

3.1 基本コンセプトと特徴

2章で述べたシミュレーション方式における問題点を解決し,実在するホストマシンを利 用して開発対象の大規模ターゲットマシン性能を予測するためには,巨大な通信ログファイ ルを必要とせず,かつ,ターゲットマシン上でのプログラム実行の振舞いを高速に模擬でき る性能予測技術の確立が必要となる.これらの要求を満足するため,我々は大規模システ ム性能予測技術とそれを用いた各種ツール群の開発を行った.提案する性能予測フローを 図1(B)に示す.従来方式とは異なり,ターゲットマシンを想定したプロセッサでの演算時 間情報,ならびに,通信遅延情報を事前に採取しておく.そして,これらの値を利用し,ホ ストマシン上に構築した仮想超並列実行環境でターゲットマシン用のアプリケーション・プ ログラムを実行することでターゲットマシンの性能を予測する.図1(A)に示す従来方式で は,評価対象プログラムの実行において,プロセッサでの演算処理やノード間通信のインス タンスすべてをシミュレーション対象とする.たとえば,ループ内に集団通信が含まれてい る場合,集団通信イベントが発生するたびにその遅延時間をインターコネクト・シミュレー ションにより求める.そのため,より正確に性能を予測できる反面,大量のイベントが発生 する大規模スーパコンピュータを想定した場合には膨大な時間が必要となる.この問題を解 決するため,本研究では以下のアプローチをとる.

- 実行対象プログラムコードの高度な抽象化:性能予測の目的はあるプログラムを実行した際の実行時間(もしくは実効性能)を正しく推測することであり,システムの機能を検証するわけではない.したがって,当該プログラムの出力結果の正当性は保証しなくてよい.そこで,プログラム実行の出力結果は保証せず,その代わりにプログラム実行の振舞い(実行される制御フローや通信発生パターンなど)を可能な限り忠実に再現できる性能評価専用プログラムコードを導入する.これにより,対象アプリケーション・プログラムの実行に必要となる処理量,通信量,ならびに,メモリ使用量を大幅に削減することが可能となる(2章の問題点1を解決).
- 各演算処理や通信に対応した代表遅延時間の利用:多くのプログラムは基本的にループ構造をとる.そのため,同一のプログラムコード部分が繰り返し実行されるという性質を有する.そこで,繰り返し実行される演算処理や通信のそれぞれに関して,詳細シミュレーションにより所要時間の代表値を決定する.以降,プログラム実行において同一処理が出現した場合にはつねに事前決定した代表値を用いる.これによりインスタンスごとの詳細な実行時間見積り作業が不要となり性能予測時間を大幅に短縮できる(2章の問題点3を解決).
- ホストマシンでのネイティブ実行可能な仮想超並列実行環境の開発:高度に抽象化されたアプリケーション・プログラムを実在するホストマシンで直接実行する.具体的には,性能予測対象となるターゲットマシンでの実行と同数のプロセスをホストマシン上で起動し,各演算ならびに通信時間の代表値に基づきプログラムの実行を進める.これにより,ターゲットマシン上でのプログラム実行の振舞いを可能な限り忠実に再現し性能を予測する.また,事前に採取した代表遅延時間を用いて直接的にプログラム実行を進めるため,従来方式のような通信ログなどの取得は不要となる(2章で示した問題点2を解決).

本性能予測方式の新規性は,2章で説明した「性能モデリング方式」と「シミュレーショ ン予測方式」のハイブリッド方式を採用した性能評価環境を構築した点にある、繰り返し実 行される同一の演算や通信といったミクロな処理に関しては実行時間のばらつきが小さい と考え,該当するプログラムコード部分を性能モデルで置き換える(プログラムコードの 抽象化). 一方,プロセス間の同期や並列実行などのマクロな処理については,抽象化した コードを実際に実行することでその挙動を正しく反映させる.具体的には,ターゲットマシ ンでの実行と同じ数のプロセスを,ホストマシン上に構築した仮想超並列実行環境で実行す る、したがって、性能モデリング方式では対処できない動的な実行の振舞いを反映できる、 また,高負荷部分に関しては性能モデルで表現しているため,その実行においてはホストマ シンのハードウェア資源ならびに時間をほとんど必要とせず,前述したような従来型シミュ レーション方式において生じる3つの問題を回避可能である.さらに,従来のシミュレー ション方式では図1(A)に示すように「計算に要する時間」と「通信に要する時間」を逐次 的に求めるため,通信遅延の変動が計算時間に影響する場合には対応できない.これに対し 提案方式では,図1(B)で示すように計算ノードとインターコネクトの挙動を同時かつ時系 列に即して模擬するため,計算時間と通信時間が互いに影響し合う場合においても対応可能 となる.

本方式は,図1(B)で示すように,性能評価専用プログラムコード(図中ではスケルトン コードと表記)の作成において性能モデリングのための演算実行時間に関する情報が必要 となる.これは,ターゲットマシンの計算ノード性能を表すものであり,ターゲットマシン が実在する場合には実機により測定することができる.一方,ターゲットマシンの計算ノー ド(特にプロセッサ)が存在しない場合には,プロセッサ・シミュレータなどを用いた性能 推定が必要となる.3.3節で説明する PSIM は,将来のスーパコンピュータを想定したプロ セッサ・シミュレータであり,この演算実行時間情報を取得するために利用できる.また, 仮想超並列実行環境(BSIM)は通信性能情報を参照しながらアプリケーション実行の時刻 を進める.この際,通信遅延時間に関する情報が必要であり,計算ノードと同様,既存もし くは類似のインターコネクトが存在しない場合にはシミュレーションなどにより通信性能を 求める必要がある.3.4節で説明する NSIM は大規模インターコネクトをシミュレート可能 なツールであり,この通信遅延情報の取得に使用可能である.

3.2 アプリケーション・プログラムコードの抽象化

3.1 節で述べた基本コンセプトを実現するためには,実行対象となるプログラムコードを 個々の演算処理部分と通信部分へ分割し,かつ,それら個別の代表遅延時間との対応付けが 必要となる.これを可能にするため,本節ではスケルトンコードと呼ぶ高度に抽象化した性 能評価専用プログラムコードを導入する.

3.2.1 スケルトンコードの導入

ターゲットマシンの動的な振舞いを反映させ,その性能をより正確に予測するためには, 何らかの方法で対象アプリケーション・プログラムを実行する必要がある.しかしながら, 2章で説明したように,ターゲットマシンでの実行を想定したアプリケーション・プログラ ム(とその問題サイズ)をそのままホストマシンで実行することはきわめて難しい.この 問題を解決するため,アプリケーション・プログラムのオリジナルコードに抽象化を施し, プログラムの実行結果は保証しないが,その実行時間を推定可能な性能評価専用コードを作 成する.本稿ではこれを「スケルトンコード」と呼ぶ.スケルトンコードは主に以下の特徴 を有する.

- 演算部分の抽象化:オリジナルコードを演算部分(連続実行される計算コード部分)と 通信部分に分割する.そして,演算部分を実行時間というきわめて高い抽象度で表現す る.つまり,演算部分をコメント化し,それに対応するターゲットマシンでの推定実行 時間で置き換える.これにより,プログラム実行の振舞いを損なうことなく,短時間で のスケルトンコード実行が可能となる.
- 疑似通信ライブラリの利用:実行結果を保証する必要がないため,ホストマシン上で対象アプリケーション・プログラムを実行する場合には必ずしも実際に通信を行う必要はない.そのため BSIM がサポートする特別な通信ライブラリ(LMPI ライブラリ)を利用する.このライブラリはその遅延時間のみを性能予測に反映させており,これによりホストマシンでの通信量を大幅に削減し,高速なスケルトンコードの実行を可能にする.
- 使用メモリ容量の削減:実行結果を保証する必要がないため,オリジナルコードの実行と同じ容量のメモリを使用する必要はない.また,1つのノードに多数のランクを発生させることにより通常のプログラム実行では発生しないメモリ不足の状態が起こりうる.そこで,ホストマシンでの実行を可能にすべく,使用メモリ容量を削減する.

3.2.2 スケルトンコード作成方法

スケルトンコード作成方法を典型的なコード図 2 に示す.前項の説明のとおり,スケルトンコード作成のためには主に以下の3つの作業が必要である.

 演算部分の抽象化:図2(右)に示すようにプログラムブロックのコメント化ならびに BSIM\_Add\_time 関数の挿入によって行う.この BSIM\_Add\_time 関数の引数には当該



図 2 スケルトンコード化 Fig. 2 Skeleton Code generation.

コメント化された部分の実行時間を記述する.この際,ブロックにループ文などがあり 実行時に入力により動的に実行時間が大きく変化する場合では、引数としては絶対実行 時間だけでなくモデリングに基づく実行時間評価式を指定する.

- 2. 通信量の削減 (MPI 通信ライブラリ呼び出しの接頭語変換): スケルトンコードにお ける MPI 通信を LMPI 通信ライブラリへの呼び出しへと変更する. コード変更には MPI-で始まる通信関数に対し接頭文字を追加し LMPI-とするのみでよく,引数など の変更は必要ない.なお,LMPIは仮想超並列実行環境 BSIM が解釈可能なライブラ リである.実行時には,ホストマシン上で実際の通信を行うことなく通信遅延時間を性 能予測に反映させることができる,詳細は3.5.1項で説明する,
- 3. 使用メモリ容量の削減:基本的には演算部分の抽象化を行う際に不必要となる配列宣言 を削除する.また,コメント化箇所以外に配列を使用している場合では,配列宣言部と データアクセス部を単一のスカラデータに変更する方法や,小規模問題サイズ向けにメ モリ領域を確保して演算量や通信量をスケールする方法などがある.ただし,オリジナ ルコードが有する実行の振舞いを維持できるよう注意する必要がある。



enddo

(B) 二電子積分計算のオリジナルコード(左)とスケルトンコード(右)

図 3 PHASE と ERI のスケルトンコード例 Fig. 3 Examples of Skeleton Code (PHASE and ERI).

copy Temp to Fock

call LMPI Allreduce (Fock, Temp, nao\*nao,

MPI DOUOBLE, MPI SUM, comm, ierr )

集団通信を疑似通信関数 LMPIに変更

# 3.2.3 スケルトンコードとその実行例

call MPI Allreduce(Fock, Temp, nao\*nao,

MPI DOUOBLE, MPI SUM, comm, ierr )

enddo

copy Temp to Fock

具体例として, PHASE ならびに ERI(2電子積分計算)のスケルトンコードを図3に 示す. PHASE は第1原理(量子力学)による半導体などの固体の電子状態計算を通じて多 様な物性・機能をナノ構造から予測・解明するプログラムであり,計算科学上の重要なプロ グラムとなっている . 図 3 (A) のスケルトン化においては , 演算処理である zgemm 関数を BSIM\_Add\_time に,また,2カ所の集団通信(MPI\_BCASTとMPI\_ALLREDUCE)を LMPI に置換している.ここで, BSIM\_Add\_time 関数への引数となる zgemm 実行時間に 関しては,スケーリングパラメータ Nescale と Nfscale を導入した実行時間モデル(変数

を導入



time\_val への代入式)として与える.これにより,問題サイズを変更した場合でも同一のス ケルトンコードを用いた性能評価が可能となる.一方,2電子積分計算は分子軌道法をはじめ とした量子化学計算において最も計算負荷の高い処理の1つであり,そのカーネルコードは 基本的に縮約軌道(Contracted Shell,CS)の4重ループ構造をとる.通常は計算量の削減 を目的として事前にO(N<sup>2</sup>)の計算量を持つCSペアに対するカットオフテーブルを作成し, カットオフ処理後に残った積分のみを計算対象とする.図3(B)に示すオリジナルコードで は,外側のCSペアに対するループ(変数ijcsのループ)を静的に分割することで行っている. ここでは,4重ループの最内部に位置する原始2電子積分関数(calc\_prim\_ERI),ならびに, 2重ループ内に存在するフォック行列生成関数(Fock\_matrix)を抽象化しBSIM\_Add\_time で置き換えている.ここでもPHASEと同様,引数である抽象化部分の実行時間は入力変 数の値に基づき計算する.また,ループ実行完了後に必要となるAll\_Reduce 通信もLMPI 関数に置き換えることで実行の高速化を狙う.

2 電子積分計算を例とし,そのオリジナルコードならびにスケルトンコードを並列実行した際の様子を図4に示す.横軸は経過時間を表しており,縦軸はMPIのランク(プロセス番号)である.各プロセスにおいて,黒い部分は2電子積分計算を行っている時間,黄色い部分はMPI通信の同期待ち時間である.使用した計算機は理研スーパコンバインドクラス

タ(RSCC)のLinux クラスタ部分であり,入力データはグリシン15量体((Gly)15)で基 底関数は 6-31G\*とした(原子数 = 108,基底関数数 = 1,009).また,スケルトンコード の実行においては 3.5節で説明する仮想超並列実行環境を用いた.左図は 64 台の計算ノー ドを使用したオリジナルコードの実行であり,そのときの実行所要時間は約 103 秒であっ た.これに対し,右図は 4 台の計算ノードを用いた場合のスケルトンコード実行の様子であ り,その実行は約 6.7 秒で終了した.つまり,1/8の計算機資源であるにもかかわらず,約 15 倍の高速化を達成していることになる.また,スケルトンコードで再現された実行の挙 動は 64 台の計算ノードを用いたオリジナルコードときわめて類似しており,実行時間の予 測誤差はわずか 2%程度である.このように,プログラムコードの高度な抽象化を導入する ことで高速かつ正確な性能予測が可能となる.

3.3 超高性能プロセッサ・シミュレータ PSIM の開発

3.2 節で説明したスケルトンコードを作成するためには,演算部分の実行時間を正しく見 積もらなければならない.予測対象となるターゲットマシン向けプロセッサが実在する場合 には実機を用いた測定が可能である.しかしながら,新規プロセッサの開発を考える際には 何らかの見積り手段が必要となる.本節では,この要求を満足するために開発したプロセッ サ・シミュレータ PSIM について説明する.本シミュレータは SPARC 命令セットを対象 としており,本節で説明するマイクロアーキテクチャのシミュレーションが可能である.

3.3.1 超高性能 SIMD 拡張スカラプロセッサ・アーキテクチャ

近年,大規模シミュレーションをはじめとして,HPC分野における計算能力への要求は 高まる一方である.多数のプロセッサを相互に接続して大規模計算機システムを構成する場 合,そのネットワーク構成やシステム全体の電力,運用管理などの観点から,計算ノードプ ロセッサ単体は従来以上に高性能かつ電力(面積)あたりで高効率であることが望まれる. これを実現するために,既存スカラ型のコアプロセッサを基本として,浮動小数点演算ユ ニットを多数個搭載するSIMD 拡張スカラプロセッサ・アーキテクチャを考案した<sup>8)</sup>.高 い浮動小数点(以降,FPと略記)演算性能を高いエネルギー効率で実現するために,多数 のFP 演算器でのSIMD 計算による演算処理の効率化,ならびに,メモリアクセス処理の 効率化に関して注力した.まず,ピーク演算処理性能を高めるためにFP 演算器数を増加さ せる.従来のスカラコアを複数個単純に並べるアーキテクチャもありうるが,制御部のハー ドウェアコストを抑えるために,命令制御部は単一のままで多数のFP 演算器を接続する SIMD 処理方式を採用した.アプリケーション実行において,SIMD 処理により並列計算 部を高速化すると逐次計算部の処理時間がボトルネックとなる.そこで,逐次計算に対して



Fig. 5 Structure of SIMD extended processor.

も高い性能を持つ単一スカラコアを搭載することとした.このような構成により,スカラコ アを単純に並べるよりも高い電力効率とピーク性能が実現できる.次に,メモリアクセスの 効率化を図るために,SIMD 部に搭載したオンチップメモリ(ローカルメモリ)とスカラコ アのキャッシュを有効利用するというアプローチを採用した.SIMD 処理用の大量のデータ は,メモリからローカルメモリに直接高速転送する.また,行列の転置処理のようなアドレ スが不連続なデータはスカラコアでキャッシュに取り込み SIMD 処理部に転送する.ベク トル型プロセッサなどのストライドアクセスではメモリからのデータの一部しか使用するこ とができないが,キャッシュをバッファとして使うことによりメインメモリバンド幅を有効 に利用することができる.

図 5 に SIMD 拡張スカラプロセッサの構成を示す.プロセッサコアは,主として以下に 示すスカラコア部と SIMD 演算部からなる.スカラコア部は SPARC64 V<sup>30)</sup> をベースと



Fig. 6 Structure of SIMD execution pipeline.

しており, SPARC-V9 アーキテクチャで定義された命令を実行する部分である.また,こ れに加え,SIMD 処理部で実行する命令の制御(発行やコミット制御など)も行う.一方, SIMD 処理部は SPARC-V9 アーキテクチャで定義されている FSQRT 命令および FDIV 命令を除くすべての FP 演算命令と後述する新規 SIMD 命令を並列実行する.以下,主な 特徴をまとめる.

 最大 32 個の SIMD-PE (SIMD Processing Element)を搭載:各 SIMD-PE は 1 個の FP 演算器(SFPU), SIMD FP レジスタ(SFPR)および SIMD Buffer Memory (SBM)を有する.SFPUは、1 本の SIMD 演算パイプライン、2 本の SIMD ロード パイプライン、ならびに、1 本の SIMD ストアパイプラインで構成される.デコード ステージ以降のパイプライン構成を図 6 に示す.基本的に SPARC64 V の実行パイプ ラインと同様の動作を行うが、スカラコア部から SIMD-PE への命令送信やコミット 指令の送信が長距離配線となるため、「c ステージ(Communication)ステージ」なら びに「W1 ステージ(Write back 1)ステージ」を追加した.C ステージはスカラコア から SIMD-PE へのデータ転送に、また、W1 ステージはコミット処理のための指示を SIMD 処理部からスカラ処理部に転送するために必要となる.なお、SIMD-PE での命 令はアウトオブオーダで実行され、コミットの制御はスカラコア部で行う.



図 7 SIMD-PE ペアの演算 Fig. 7 Example of execution with SIMD-PE pair.

- 全 SIMD-PE への命令ブロードキャスト: SIMD-PE はスカラ部のデコーダと RS (Reservation Station)に直結されており、プロセッサコアの SIMD 状態ビットをデ コーダがチェックする.このビットがセットされた状態で FP 演算命令が現れた場合は、 SIMD 命令と解釈してすべての SIMD-PE に同一の命令を発行する.一方、SIMD 状 態ビットがリセットされた状態では、FP 演算命令はスカラ処理部の FP 演算器で処理 され、SIMD 処理部は動作しない.
- クロス演算のサポート:2つの SFPUを「Even SFPU」と「Odd SFPU」としてペアで用いる.これにより,それぞれの SFPR に格納されている値を相互に参照(クロス参照)して演算することが可能となる.図7に演算例(FXMADDD 命令)を示す.この命令では,奇数 SIMD-PE が他方の rs2(第2ソースオペランド)のレジスタ値を入力として演算を行い,自身の SFPR に演算結果を格納する.この機能は,特に,SIMD処理部において複素数演算を実行する場合に有効利用できる.
- SIMD Buffer Memory (SBM)の搭載:スカラ処理部のL1キャッシュに相当す る小容量のバッファメモリ領域.SIMD-PEはSBMに格納されているデータをSFPR に転送し、それをオペランドとして演算を行う.キャッシュメモリとは異なり、別アド レス空間のローカルメモリとしてプログラムによってアドレス指定してアクセスでき る.格納するデータをプログラムで完全制御できるため、効率的なSIMD演算を実現



Fig. 8 Inputs and outputs of PSIM.

するようにデータを配置することが可能となる.

なお,新規追加した SIMD 拡張命令を出力する FORTRAN コンパイラも合わせて開発した.

### 3.3.2 PSIM の特徴とその実装

3.3.1 頃で提案したマイクロプロセッサの実チップは存在しない.そこで,本アーキテク チャの性能や消費エネルギーを評価するため,サイクルアキュレートなプロセッサ・シミュ レータを開発した.プロセッサ内部の各種機能ユニットやその動作をクロックサイクル単位 でアーキテクチャシミュレーションする.これにより,各種性能評価情報や消費エネルギー 情報を取得することができる.また,マイクロプロセッサを構成する各種資源などの仕様を シミュレータへの入力パラメータとして柔軟に変更でき,コストや性能,電力などを考慮し たアーキテクチャ探索が可能となる.図8にシミュレータへの入力ならびに出力を示す.性 能に関しては,シミュレーション対象命令トレース部分の実行時間だけでなく,各パイプラ イン・ステージ状態の変化を可視化している.図8の右上の画面には命令列実行における各 パイプライン・ステージの様子を表示しており,これによりパイプライン・ストール発生箇 所の特定やその原因追跡が可能となる.一方,消費エネルギーに関しては SPARC64 V プ

|       | 表 | 1              | プロセ    | ッサ構成      |        |
|-------|---|----------------|--------|-----------|--------|
| Table | 1 | $\mathbf{Pro}$ | cessor | configura | ation. |

|         | パラメータ名                      | パラメータ値                        |  |  |
|---------|-----------------------------|-------------------------------|--|--|
| スカラコア部  | 命令発行幅                       | 4命令 / サイクル                    |  |  |
|         | 演算パイプライン数                   | INT : 2, FP : 2, LD/ST : 2    |  |  |
|         | INT/FPリザベーションステーション         | INT: 8エントリ×2, FP: 8エントリ×2     |  |  |
|         | リオーダバッファ                    | 64エントリ                        |  |  |
|         | L1キャッシュ                     | 命令128KB(連想度2), データ128KB(連想度2) |  |  |
| SIMD処理部 | SIMD-PE数                    | 16                            |  |  |
|         | SIMD Reservation Station    | 16エントリ                        |  |  |
|         | SBM                         | 64KB×16                       |  |  |
|         | SBMからメモリへのoutstandingリクエスト数 | 16エントリ                        |  |  |
| メモリ     | L2キャッシュ                     | 共有6MB(連想度12)                  |  |  |
|         | メモリアクセスレイテンシ                | 120クロックサイクル                   |  |  |

ロセッサの設計データを分析し,各パイプライン・ステージ動作時の消費エネルギー情報を 求めた.これに加え,プロセッサ・シミュレーションにより得たパイプライン動作情報を用 いることで時刻経過における消費エネルギーを算出することができる.

ここで,既存のマイクロプロセッサ・シミュレーション技術と比較する.代表的なツー ルとしては SimpleScalar<sup>13)</sup> やマルチコアのシミュレーションを前提とした M5<sup>16)</sup> があげ られる.また,消費電力に関しては Wattch<sup>17)</sup> や SimplePower<sup>28)</sup> などが開発されている. これらプロセッサ・シミュレータにおいては本稿で示した大規模な SIMD 拡張は行われて いない.これに対し, PSIM は今後の高性能プロセッサにおいて重要となる大規模な SIMD 実行をサポートしており,かつ,それに対応したコンパイラも開発している.また,消費電 力の見積りにおいては,パイプライン単位で動作するラッチ数を把握するという従来とは異 なるアプローチをとっている.

3.3.3 シミュレータを用いたプロセッサ性能と消費エネルギー評価

開発したシミュレータを用いて提案する SIMD 拡張型スカラプロセッサの性能ならびに消 費エネルギーを評価した.プロセッサの構成は表1のとおりである.対象アプリケーション としては,実数の行列積を計算する dgemm,複素数の行列積を計算する zgemm,ならびに, フーリエ変換を計算する fft を用いた.dgemm はスパコン性能測定に広く用いられる HPL (High Performance Linpack)の計算処理の大部分を占める関数である.一方,zgemm と fft は 3.2.2 項で説明した PHASE において主要な計算部分となる.なお,本性能評価にお

表 2 SIMD 拡張型プロセッサの性能と消費エネルギー Table 2 Performance and energy consumption of SIMD extended scalar processor.

|             |        | 実行時間    |      | 消費エネルギー |         |       |  |
|-------------|--------|---------|------|---------|---------|-------|--|
|             | スカラコア  | +16SIMD | 性能倍率 | スカラコア   | +16SIMD | 消費エネル |  |
|             | [ms]   | [ms]    |      | [mJ]    | [mJ]    | ギー倍率  |  |
| dgemm 1024元 | 368.9  | 53.12   | 6.9x | 27.9    | 13.1    | 0.47x |  |
| zgemm 1024元 | 1114.6 | 185.82  | 6.0x | 93.3    | 34.4    | 0.37x |  |
| fft 1024点x8 | 0.1764 | 0.0668  | 2.6x | 7.59    | 4.13    | 0.54x |  |

消費エネルギーに関しては理想クロックゲートを前提(リーク電力込み)

いては,スカラコアからのメモリアクセスはすべてプリフェッチにより必要なデータを事前にキャッシュに格納することが可能であると仮定する.評価結果を表2に示す.ここでは,90 nm バルク CMOS テクノロジ,プロセッサ動作周波数は2GHz,電源電圧は1.0Vを想定している.この結果より,dgemm に関しては7倍近い性能向上を達成しており,かつ,消費エネルギーも半分以下となっている.また,ハードウェアコストの見積りを行った結果,SIMD 拡張型プロセッサの面積はスカラコアの約1.5倍程度であることが分かった.

## 3.4 超大規模インターコネクト・シミュレータ NSIM の開発

3.2.2 項で説明したスケルトンコードの作成においては,演算部分の実行時間だけでなく, 通信遅延時間(特に長い時間を要する集団通信)の見積りも重要となる.多くの場合でイ ンターコネクトの規模や機能は世代ごとに異なるため,何らかの見積り手段が必要である. 本節では,大規模な相互結合網を対象とした通信遅延時間の見積りが可能な高速インターコ ネクト・シミュレータ NSIMの詳細を説明する.

3.4.1 NSIM の特徴

近年のスーパコンピュータの設計開発においては,プロセッサやメモリシステムに代表される計算ノードだけでなく,それらを相互に接続するインターコネクトの設計がきわめて重要となる.数万から数十万といった多数の計算ノードを接続するためのネットワーク・トポロジ,スイッチやルータにおける各種パラメータ(バッファ容量など),インジェクション・レートなど様々な最適化を行う必要がある.システム開発前の性能評価や事前最適化を可能にすべく,これまでにもいくつかのインターコネクト・シミュレータが開発されてきた<sup>4),6),10),19)</sup>. これらのシミュレータではシステムの挙動を細部にわたりモデル化する方針がとられており,より精度の高い性能予測が可能となる.しかしながら,その一方で,近年のスーパコンピュータは飛躍的な性能向上とともに実行するアプリケーションも含めて大規



Fig. 9 Inputs and outputs of NSIM.

模化かつ複雑化の一途をたどっており,従来手法による性能評価ではシミュレーションに費 やす時間は非常に大きくなるといった問題が生じる.

そこで我々は,大規模なインターコネクトを高速かつ実用時間内で評価するためにイン ターコネクト・シミュレータ NSIM を開発した.従来,パケット転送方式であるバーチャ ル・カットスルーをシミュレーションする際にフリットの挙動を詳細にモデル化していた. NSIM では,これを単一パケットの挙動として集約することで大幅な高速化を達成してい る.また,スイッチやルータの動作をサイクルレベルで模擬するのではなく、「1パケットの ルータ通過時間」のように粒度の粗い処理単位で遅延時間を積算する.このように,抽象度 を従来よりも高くしたハードウェアや通信遅延時間のモデル化により高速なシミュレーショ ンを実現している.さらに,NSIM は MPI で実装しており,デスクトップ PC からスーパ コンピュータまで,幅広い実行プラットフォーム上で用途に応じた利用形態をとれる. NSIM の入出力を図9に示す.NSIM は以下の2つのファイルを入力とする.

 インターコネクト設定ファイル:シミュレーション対象となるインターコネクトの構成 や仕様を指定する.サポートするトポロジは,一般的な1次元/2次元/3次元メッシュ 網,1次元/2次元/3次元トーラス網,Fat-Tree網,ならびに,文献11)のような6次 元メッシュである.また,各ルータやスイッチの遅延時間といったハードウェア情報,



さらには, MPI 通信ライブラリ実行にともなうオーバヘッド時間など, インターコネクトに関する各種パラメータ値を設定することができる.

 MGEN プログラム:通信性能の評価を目的とした並列化プログラムであり,専用の APIを用いて集団通信アルゴリズムを記述する.図10に示すように,NSIMではMPI 互換の API (MGEN API と呼ぶ)を提供しており,ユーザは MPI プログラムを記述 するのと同等の感覚で MGEN プログラムを作成できる.実際,MPI と MGEN API との違いは宣言のプレフィクスのみである.したがって,MPI プログラムにおいて文 字列「MPI\_」を「MGEN\_」に置換し,かつ,main() 関数名を MGEN\_Main() 関数に 置き換えるだけでよい.

一方,出力に関しては以下のような情報がある.

- 性能レポート: MGEN プログラム実行時間(つまり, MGEN プログラムに記述した
   全通信の完了までに要する時間)や平均リンクスループットなどの各種統計情報を出力
   する.これに加え,すべてのノードで受信したパケット数,リンクの帯域効率,リンク
   のビジー率などもシミュレーション結果として出力される.

情報処理学会論文誌 コンピューティングシステム Vol. 4 No. 1 1-23 (Feb. 2011)



いるパケットの情報,などを出力可能である.これらの情報を可視化することにより, 通信混雑や輻輳の原因解析などを支援する.ランダムリング通信を対象とした3次元 トーラス網のシミュレーション結果例を図11に示す.図11(A)は,単位時間あたりの 仮想チャネルバッファの利用率を10階級で分け,その割合の時系列変化を示したもの である.すなわち,プログラム実行にともなうバッファの利用状況の推移を把握するこ とができ,ランダムリング通信では,ほとんどのバッファが10%以下の利用率である ことが分かる.同様に,図11(B)は,リンク帯域効率の時系列変化を座標方向(±X, ±Y,±Z)ごと,ならびに,それらの平均を示している.

従来開発されてきたインターコネクト・シミュレータのほとんどは,あらかじめ取得し た通信ログを入力としてシミュレーションを行う.そのため,将来の通信パターンが送信/ 受信タイミングに依存する場合には対応できないという問題があった.これに対し,NSIM では MGEN プログラムを入力とし,動的にメッセージならびにパケットを生成する.すな わち,自己メッセージ/パケット生成機能を搭載しており,インターコネクト・シミュレー ションとメッセージ/パケット生成をインタラクティブに実施する.これにより,通信遅延 時間に依存して将来の通信パターンが異なる場合にも対応できる.また,このような特徴を 利用することで,通信中に発生する OS ジッタやパケットペーシングを反映した性能評価も 可能となる.さらに,従来研究では,プログラム実行を通して平均した帯域効率を示すこと が多いが,NSIM は高い観測性を持つため様々な観点からインターコネクトの挙動を俯瞰す ることができる.



図 12 8 個のプロセッサコアを用いた NSIM の並列実行の様子 Fig. 12 Parallel execution of NSIM with 8 cores.

ここで,既存のインターコネクト性能予測技術と比較する.代表的な研究開発として, INSIGHT<sup>4)</sup>やINSPIRE<sup>6)</sup>,IBM BlueGene/L用シミュレータ<sup>10)</sup>,BigNetSim<sup>19)</sup>などが あげられる.これらは通信ログを入力とするため2章で述べた問題が生じる.これに対し, 3.4節で説明したNSIMは,MPI相当のプログラム実行による通信イベント生成とインター コネクト・シミュレーションをインタラクティブに行うため通信ログを必要としない.一方, ある程度の精度低下を許容し高速化を実現する方法としてFSIN<sup>24)</sup>があるが,このシミュ レータは並列化されていないため現在のマルチコア環境やPC クラスタの計算能力を十分 に活用することはできない.

3.4.2 内部構成と動作フロー

NSIM は,パケットレベルでの並列離散事象シミュレーションを行う.ここで,離散事 象シミュレーションとは,対象システムの状態を変化させる事象(イベント)を離散的な 時刻に発生させるシミュレーション方式である.図12に示すように,NSIM は複数プロ セッサ上で並列に離散事象シミュレーションを行う.ここで,「ターゲットプロセス」とは



Fig. 13 Organization and simulation flow of NSIM.

MGEN プログラムに記述されたシミュレーション対象となるプロセスを表し、「ホストプ ロセス」は並列化された NSIM 実行のためのプロセスである.この図の例では、32 並列で 実行可能なターゲットマシンを 8 個のプロセッサコアでシミュレーションする場合を示し ており、ターゲットプロセス数が 32、ホストプロセス数が 8 となる.なお、NSIM は複数 ターゲットプロセスを単一ホストプロセスに割り当てるため、異なるホストプロセスに割 リ当てられたターゲットプロセス間で通信が発生する場合には、インターコネクト・シミュ レーション中にホストプロセス間での通信が必要となる.NSIM の内部構成と実行フローを 図 13 に示す.NSIM は、主に、① パラメータ設定、② メッセージイベント生成、③ パ ケットイベント生成、④ インターコネクト・シミュレーションの 4 つの主要処理部で構成 される.それぞれの処理内容は以下のとおりである.

- 各種パラメータの設定:インターコネクト設定ファイルより各種パラメータ値を読み出しシミュレーションの対象となるインターコネクト情報として設定する.
- メッセージの生成:MGEN プログラムにおいて,MGEN API で記述されたメッセージ送信もしくは受信に対応したメッセージレベルのイベント(以降,メッセージイベントと呼ぶ)を生成する.また,当該イベントをメッセージ・キューに投入する.このメッセージ生成は,キューが一杯になる,もしくは,受信用のメッセージイベントが

キューイングされるまで継続される.

3. パケットの生成:メッセージ・キューからメッセージイベントを取り出してパケットレ ベルのイベント(以降,パケットイベントと呼ぶ)へ分解し,パケット・キューに投入 する、メッセージ・キュー内のすべてのイベントの変換処理が終了した場合(すなわち、 メッセージ・キューにメッセージイベントがなくなった場合)には処理フロー2.へ戻る. 4. インターコネクト・シミュレーション:パケット・キューからパケットイベントを取り出 す.そして,シミュレーション時刻(タイムスタンプ)を付加して離散事象シミュレー ションの操作対象となるイベント(以降,シミュレーション用パケットイベントと呼ぶ) を生成する.また,当該イベントを離散事象シミュレーション・パケットキューへ投入 する.キュー内のイベントはタイムスタンプの値でソートされており,キューの先頭と なる時刻の最も古いイベントから順に処理される.先頭イベントがパケット送信を表す 場合には,1ホップごとの転送に対応する新たなシミュレーション用パケットイベント を生成してキューに再投入する.一方,受信に相当するイベントの場合には受信すべ きパケットの到着を待つ、このような操作は図 13 のイベント処理部で行われ、その際 にインターコネクト・トポロジや通信衝突などの影響がタイムスタンプに反映される. 1個のメッセージを構成する全パケットのイベント処理が完了すると,当該メッセージ イベントを消滅させる、このような処理を繰り返すことでシミュレーション時刻を進め ていく.もし,シミュレーションの進行によりメッセージ・キュー内にメッセージイベ ントがなくなった場合には処理フロー 2. へ戻る.

3.4.3 NSIM の精度ならびに性能評価

NSIM のインターコネクト・シミュレーション能力を評価するため,3次元トーラス網を 前提とした評価実験を行った.ここでは,様々な状況での使用を想定し,2種類の通信パター ン,ならびに,4種類の実験環境を用いてインターコネクト・シミュレーションを実施した. 通信パターンである評価アプリケーションに関しては,HPC Challenge の Communication bandwidth and latency ベンチマークで用いられているランダムリング通信(メッセージ サイズは1MB,ベンチマーク内のループ回数は5),ならびに,多くの通信が発生する全対 全通信(メッセージサイズは4B,Pairwise Exchange アルゴリズム)を選択した.実験結 果を表3に示す.クアッドコアプロセッサを2基搭載したメモリ共有型ワークステーショ ンを使用した場合には8K~16Kプロセスを対象としたシミュレーションを行うことがで き,このときの所要時間はいずれも3時間以内であった.一方,PCクラスタを用いた実験 では128Kプロセスのランダムリング通信に関するシミュレーションを完了しており,所

表 3 次元トーラス網を対象とした NSIM シミュレーション所要時間

Table 3 NSIM execution time for 3D-torus simulations.

| 通信パタン                        | 評価用ホストマシン                        |     | 1K~8Kターゲットプロセスを対象とした場合のシミュレーション所要時間[分] |      |      |       |       |       |       |         |
|------------------------------|----------------------------------|-----|----------------------------------------|------|------|-------|-------|-------|-------|---------|
|                              | 機種                               | コア数 | 1K                                     | 2К   | 4K   | 8K    | 16K   | 32K   | 64K   | 128K    |
|                              | PCクラスタ<br>(Intel Xeon 3.0 GHz)   | 128 | 27.1                                   | 40.6 | 53.0 | 105.6 | 163.2 | 239.6 | 544.2 | 1,025.0 |
| ランダムリング通信                    |                                  | 64  | 21.3                                   | 33.2 | 45.4 | 96.1  | 162.2 | 273.0 | 665.0 | 3,357.8 |
|                              | デスクトップPC<br>(Intel Xeon 3.2 GHz) | 4   | 9.9                                    | 23.4 | 50.6 | 166.5 | _     |       | _     | _       |
| 全対全通信<br>(Pairwise Exchange) | デスクトップPC<br>(Intel Xeon 2.8 GHz) | 8   | 0.2                                    | 0.7  | 3.3  | 17.5  | 119.1 |       | _     |         |



要時間は 128 コア使用の場合で約 17 時間である.これは,現実的な時間内でのシミュレーションであると考える.

また,ターゲットマシンとして IBM 社の BlueGene/L を利用した精度評価を行った.こ こで,使用したノード数は 128 であり, Bruck アルゴリズムの全対全通信を対象としてお り,各種インターコネクト・パラメータに関しては文献 12)を参考に決定している.また, 1 ホップあたりの通信遅延は 90 ns,スイッチあたり 154 MB/s とした.実験結果を図 14 に 示す.縦軸は全対全通信実行時間,横軸はメッセージサイズである.青実線が BlueGene/L の実機で測定した値,赤実線が NSIM による予測値である.メッセージサイズが大きくな ると若干誤差が大きくなっているものの,精度良く通信時間を予測できていることが分かる.実際,メッセージサイズが2Kバイトより大きい場合,誤差は5%未満であった.なお, メッセージサイズが64 KB,128 KB,256 KB のときのシミュレーション時間は,それぞれ,44 秒,145 秒,923 秒であった.

#### 3.5 仮想超並列実行環境 BSIM の開発

3.1 節で示した本性能評価法の基本コンセプトを具現化するためには,3.2 節で導入した スケルトンコードを実行し,かつ,性能予測対象であるターゲットマシン上での実行時間を 予測する環境が必要となる.そこで,既存の実機マシン上で直接実行可能な仮想超並列実行 環境 BSIM を開発した.本節ではその詳細を説明する.

## 3.5.1 BSIM の機能

BSIM (Base SIMulator)は, Multi-Processing Environment (MPE)を拡張して構築 されたスケルトンコードの仮想超並列実行環境である<sup>26)</sup>.たとえば,3.2.2項で示した ERI スケルトンコードの実行においては,4台の計算ノードを有するホストマシンを用いて,64台 の計算ノードからなるターゲットマシンの性能を予測している.この場合,BSIM は実際に 64 個のプロセスを起動し,4台の計算ノードで実行する.各プロセスには個別の仮想タイ マが割り当てられ,これらを適切に更新することで64台の計算ノードを用いた並列実行時 の時間経過を模擬する.このような機能を実装すべく,BSIM は以下に示す2種類のAPI をサポートしている.

- BSIM\_Add\_time: 各プロセスの時刻を進めるための API であり, 引数として渡される値を当該プロセスの仮想タイマに積算する.これにより, スケルトンコードにおいて抽象化された計算コード部分の実行を行うことなくプログラム実行時刻を進めることができる.
- LMPI:通信レイテンシを考慮したプログラム実行時間予測を可能にするための API であり,各 MPI 関数に対応する LMPI 関数を用意している.スケルトンコード中で本 関数が呼び出された際には,実際に計算ノード間での通信は行わず(もしくはきわめ て短いメッセージの通信のみを行う),当該通信に関するレイテンシを仮想タイマに積 算する.ここで,通信レイテンシは入力ファイルである通信性能情報でモデル化して おり,送信/受信プロセス番号や通信データサイズ,インターコネクト・トポロジなど に応じて適切な値を取得する.たとえば,受信通信レイテンシに関しては,メッセージ サイズ,送信元ランク,ならびに,受信先ランクをパラメータとする関数で表現してい

表 4 テラフロップス・ターゲット性能予測環境

Table 4 Target and host machines for tera-scale performance prediction.

| <u>ې</u> نو  | システム名                |    | プロセッサ数<br>(ノード当たり) | プロセッサ<br>仕様                       | メモリ容量<br>(ノード当たり) | インター<br>コネクト        | 理論ピーク<br>性能 |
|--------------|----------------------|----|--------------------|-----------------------------------|-------------------|---------------------|-------------|
| ターゲット<br>マシン | PRIMEQUEST<br>580    | 16 | 32                 | Dual-Core<br>1.6 GHz<br>Itanium 2 | 128 GB            | InfiniBand          | 6.6 TFlop/s |
| ホスト          | PRIMERGY<br>RX200 S2 | 16 | 2                  | 3 GHz<br>Xeon                     | 7 GB              | Gigabit<br>Ethernet | 192 GFlop/s |
| マシン          | DesktopPC            | 2  | 2                  | 1.6 GHz<br>Xeon                   | 10 GB             | Gigabit<br>Ethernet | 51 GFlop/s  |

る.本 APIの利用により,たとえば集団通信のように長い時間を要する処理を省略し スケルトンコードの実行時間を短縮できる.

なお,通信に依存関係(たとえば送信とそれに対応する受信)がある場合には,スケルト ンコード実行中に送信プロセスと受信プロセスの仮想タイマを参照してこれらを適切に更 新する.したがって,通信依存に起因する待ち時間の発生も正しく反映される.このほかに も,BSIM は通信ログ出力機能を有しており,広く用いられているJumpshot といった可 視化ツールを使用してプログラム実行の詳細を解析することができる.また,通信イベント だけでなく,特定のイベント発生時刻を通信ログに出力する機能もサポートしており,プロ グラム・チューニングにも利用可能である.

3.5.2 テラフロップス級スーパコンピュータを対象とした性能予測実験

実在するテラフロップス・ターゲットマシンを対象とし,BSIM による性能予測実験を 実施した.これにより,BSIM の性能予測精度ならびに予測所要時間を評価する.実験環 境を表4にまとめる.性能予測の対象となるターゲットマシンとしては,九州大学情報基 盤研究開発センターに設置されたスーパコンピュータ PRIMEQUEST580(以降 PQ580と 略す)を利用した.1,024 個のプロセッサコアによる並列計算が可能であり,ピーク性能は 6.6 テラフロップスである.一方,性能予測を実施するホストマシンは2種類のギガフロッ プス級 PC クラスタを用いており,それぞれの性能は192 ギガフロップスならびに51 ギガ フロップスである.性能予測対象となるベンチマーク・プログラムとしては,HPL(密行 列連立一次方程式),PHASE(第1原理擬ポテンシャルバンド計算ソフトウエア),ならび に,FMO-ERI(2電子積分計算)を用いた.以下,PHASEを対象とした実験手順の詳細 を示す.なお, HPL や FMO-ERI に関しても基本的な内容は同じである.

- 超並列化オリジナルコード開発:1,024 個のプロセッサコアを用いることを前提としオ リジナルコードの超並列化を行う.ここでは,波数方向とバンド方向の2方向への並列 化を同時に行う2次元分割とすることにより,数万ノードに拡張できる超並列化を行っ た.また,高負荷部として抽出した3つの処理部(擬ポテンシャル積部,Gram-Schmidt 直交化部,3次元 FFT部)を結合しカーネルコードとした.これら3つの超並列処理 部では,それぞれが使用するデータの並びが異なるため,カーネルコード間でデータ並 べ替えのためのプロセス間データ通信が大量に発生する.
- スケルトンコード作成:上記1.で並列化したオリジナルコードに対応するスケルトン コードを人手で作成する.具体的には,3.2.2項の図3(A)で示したようなスケルトン コード化を上記1.で作成したカーネルコードに適用する.なお,3.2.2項の図3(A)で 示した実行時間式の各係数に関しては,PQ580の計算ノード1台(正確には1コア) を用いた簡易逐次実行に基づきフィッティング関数を作成することで求めている.
- 3. 通信性能情報の作成:LMPI 関数実行時に仮想タイマへ加算すべき通信遅延時間算出のためのデータベースを作成する.BSIM では,送信,受信,集団通信ごとに通信遅延時間見積りを行う.通信遅延時間に関して,送信の場合は遅延ゼロ,受信の場合は「l+s/w」のモデル式で近似した.ここで,lは最小通信遅延時間,sはメッセージサイズ,wはバンド幅を表す.lならびにwの値に関しては,PQ580を用いた簡易実行による実測に基づき,それぞれ40マイクロ秒ならびに100 MB/sとした.一方,集団通信に関しては図15に示すような基礎データを実機上で事前に採取する.図15において,縦軸は集団通信遅延時間,横軸は通信対象となるデータサイズ,各線はコミュニケータ・サイズ(プロセス数)である.そして,このような実測データに基づき集団通信遅延時間の評価関数をテーブル形式で作成した.本関数は,コミュニケータ・サイズとデータサイズを入力とし,それに対応する通信遅延時間を返す.なお,テーブル内に対応するエントリが存在しない場合は内挿により近似値を求め出力する.
- ターゲットマシン性能の予測:表4 で示した PRIMERGY をホストマシンとし,上記
   で作成開発したスケルトンコードを BSIM 環境下において実行する.これにより, 表4 に示す 6.6 テラフロップス・ターゲットマシンでのプログラム実行時間を予測する.

性能予測結果を表5,表6,ならびに,表7に示す.それぞれの表において,「実測」は

情報処理学会論文誌 コンピューティングシステム Vol. 4 No. 1 1-23 (Feb. 2011)





| 쿡       | ₹5  | PQ580   | を対象とした       | 性能予測約   | 結果  | (PHAS | SЕ)     |
|---------|-----|---------|--------------|---------|-----|-------|---------|
| Table 5 | Per | formanc | e prediction | results | for | PQ580 | (PHASE) |

| バンド数   | プロセス数 | 全実行      | 時間(演算 | +通信) | 演算    | のみの実行 | 時間  |
|--------|-------|----------|-------|------|-------|-------|-----|
|        | (要確認) | 予測 実測 誤差 |       |      | 予測    | 実測    | 誤差  |
|        |       | [sec]    | [sec] |      | [sec] | [sec] |     |
| 4,096  | 1,024 | 23.5     | 28.8  | -19% | 11.6  | 12.3  | -5% |
| 8,192  | 1,024 | 84.0     | 97.8  | -14% | 39.8  | 39.2  | 2%  |
| 16,384 | 1,024 | 301      | 336   | -10% | 146   | 148   | -1% |

PQ580 によるオリジナルコード(並列化済み)の実行時間を表す.これに対し、「予測」はホ ストマシンを用いてスケルトンコードを実行することにより得た予測実行時間である.まず, 性能予測精度に関して議論する.HPL に関しては,通信を含む全実行時間に関して±10%程 度,通信を無視した演算時間のみに着目した場合は±5%未満の誤差でターゲットマシンの 性能を予測している.これは,スケルトンコードによるプログラム抽象化を行った場合にお いてもなお,オリジナルコードを用いたターゲットマシンでの実行挙動を正しく再現できて いることを意味する.一方,PHASE に関しては,HPL と同様に演算時間の予測は高い精

#### 表 6 PQ580 を対象とした性能予測結果(HPL) Table 6 Performance prediction results for PQ580 (HPL).

| 問題サイズ   | プロセス数 | ブロック | 全実行   | 時間(演算 | + <b>通信</b> ) | 演算のみの実行時間 |       |     |  |
|---------|-------|------|-------|-------|---------------|-----------|-------|-----|--|
|         |       | サイズ  | 予測    | 実測    | 誤差            | 予測        | 実測    | 誤差  |  |
|         |       |      | [sec] | [sec] |               | [sec]     | [sec] |     |  |
| 160,000 | 1,024 | 120  | 707   | 770   | -8%           | 468       | 481   | -3% |  |
| 240,000 | 1,024 | 120  | 2,047 | 2,155 | -5%           | 1,548     | 1,580 | -2% |  |
| 320,000 | 1,024 | 120  | 4,484 | 4,348 | 3%            | 3,630     | 3,624 | <1% |  |
| 160,000 | 256   | 120  | 2,168 | 2,043 | 6%            | 1,814     | 1,780 | 2%  |  |
| 160,000 | 512   | 120  | 1,156 | 1,119 | 3%            | 915       | 905   | 1%  |  |
| 320,000 | 1,024 | 180  | 4,543 | 4,562 | <1%           | 3,684     | 3,764 | -1% |  |

表 7 PQ580 を対象とした性能予測結果 (FMO-ERI) Table 7 Performance prediction results for PQ580 (FMO-ERI).

| 対象分子     | 基底関数              | 全実行時間(演算+通信) |       |    | 演算のみの実行時間 |       |    |
|----------|-------------------|--------------|-------|----|-----------|-------|----|
|          |                   | 予測 実測 誤差     |       | 予測 | 実測        | 誤差    |    |
|          |                   | [sec]        | [sec] |    | [sec]     | [sec] |    |
|          | STO-3G            |              |       |    |           |       |    |
| Lysozyme | 1961原子<br>60005関数 | 889.6        | 926.6 | 4% | 880.6     | 889.7 | 1% |

度で実現できており,全実行時間に関しても 10%~20%の誤差である.大規模スーパコン ピュータの性能予測において 10%~20%程度の誤差は十分許容できる範囲であると考える. いずれのプログラムにおいても,演算時間と比較して通信遅延時間の見積り誤差が大きく, 特に多くの集団通信を必要とする PHASE ではこの影響が顕著に現れている.FMO-ERI に関しても同様の傾向にあるが,本プログラムでは全実行時間のうち 95%以上が演算処理 となるため,通信時間の予測誤差の影響は小さい.一般に計算ノードをまたぐ通信時間は 様々な外乱による影響を受けるため,実機での実行においてもばらつきが生じる.したがっ て,より精度を高めるためにはこのような外乱を考慮した通信性能モデリングが必要とな り,これは今後の課題である.次に,ホストマシンによるスケルトンコード実行時間(つま り,性能予測に要する時間)について考察する.HPLならびに PHASE それぞれの実行に 関しては最大でも1時間以内,FMO-ERIの場合は8分程度でスケルトンコード実行を完 了した.これは,スケルトン化により演算実行時間や通信時間を大幅に短縮したためである.また,場合によってはターゲットマシンでの実行時間より短い時間でホストマシンでの スケルトンコード実行を完了しており,大規模化への対応が可能であることを示している.

なお,本評価においては,仮想超並列実行環境での性能予測精度検証を主な目的としたた め,演算時間モデリングならびに通信時間モデリングにおいてはターゲットマシンである PQ580の一部を使用した.開発対象システムが既存システムの拡張を前提とする場合には, 本評価とほぼ同様の手順で性能評価を実施することができる.一方,既存システムとは大き く異なるアーキテクチャ(インターコネクト・トポロジやプロセッサなど)を前提として新 規システムを開発する場合には,本評価手順の「2:スケルトンコードの開発」と「3:通信 性能情報の作成」においては,3.3節や3.4節で紹介した各種シミュレータを用いることで 対応できる.

4. 仮想ペタスケール・スーパコンピュータを対象とした大規模性能予測

本研究で開発した性能評価環境を用いた大規模性能予測を実施した.本章ではその詳細を 報告する.

#### 4.1 実験環境

2010年現在,世界最高を誇るスーパコンピュータの性能は1ペタフロップスを超えている.そこで,本研究で開発した性能評価環境の有効性を評価するため,仮想ペタスケール・スーパコンピュータを想定した性能予測実験を行った.具体的には,表8に示す理論ピーク性能2.1ペタフロップスのターゲットマシン構成を前提とした超並列プログラムの実行時間を予測する.ここで,性能予測を実施するホストマシンに関しては,理論ピーク性能1.6テラフロップス(理化学研究所 Riken Super Combined Cluster)ならびに192ギガフロップス(九州大学 PRIMERGY)の2種類の実在マシンを使用した.ホストマシンに対するターゲットマシンの性能差は,それぞれ,1,312倍ならびに10,937倍となる.性能予測対象であるターゲットマシンに関しては,3.3節で示したSIMD拡張型プロセッサコアを8個搭載する場合を想定した.コアあたり16個のSIMD演算ユニット(浮動小数点加算と浮動小数点乗算)を搭載する.これを8コア搭載することで理論ピーク性能が512ギガフロップスのプロセッサチップとなる.これを1つの計算ノードとし,4,096の計算ノードを3次元トーラス・インターコネクトで相互結合する.なお,本インターコネクトにおいては,リンクあたりのパンド幅は20GB/s(片方向あたり10GB/s)を想定しており,インターコネクト/演算ノード性能比は0.24B/Flop(20GB/s×6方向リンク/512GFlop/s)となる.実

Table 8 Target and host machines for peta-scale performance prediction.

| システム名                 | ノード数     | プロセッサ数   | プロセッサ                      | メモリ容量    | インターコネクト             | 理論ピーク       |
|-----------------------|----------|----------|----------------------------|----------|----------------------|-------------|
|                       | (ジョブ当たり) | (ノード当たり) | 仕様                         | (ノード当たり) |                      | 性能          |
| 仮想ペタスケール              |          |          | 「2GHz4命令発行スーパスカラ           |          | 3次元ト <del>ー</del> ラス |             |
| ・スパコン                 | 4.096    | 1        | +16個のSIMDFMAユニット」          | 64 GB    | (16×16×16)           | 2.1 PFlop/s |
| (ターゲット)               | .,       |          | ×8コア<br>(理論ピーク:512GFlop/s) |          | (BiSec BW:10.24TB/s) |             |
| RSCC Linux<br>Cluster | 128      | 2        | 3.06 GHz Xeon              | 4 GB     | GigabitEthernet      | 1.6 TFlop/s |
| (ホスト: HPL)            |          |          |                            |          |                      |             |
| PRIMERGY<br>RX200 S2  | 16       | 2        | 3 GHz Xeon                 | 7 GB     | GigabitEthernet      | 192 GFlop/s |
| (ホスト:PHASE)           |          |          |                            |          |                      |             |

行対象となるベンチマーク・プログラムは HPL (行列サイズ 131 万元) ならびに PHASE (バンド数 65,536) である.

本評価が対象とするペタスケール・ターゲットマシンは実在しない.そこで,スケルト ンコードの作成において必要となる演算コード部分の実行時間推定に関しては,3.3節で紹 介したサイクルアキュレート・プロセッサ・シミュレータ PSIM を使用した.具体的には, 各ベンチマーク・プログラムにおいて小規模問題サイズでの実行を行い(たとえば,HPL のDGEMM では数百元程度),その結果に基づき性能モデル(演算実行に要する時間の式) を導出している.PSIM は1秒あたり約25,000命令をシミュレート可能であり,小規模問 題サイズを対象とした PSIM シミュレーションは約1分以下で完了した.一方,通信遅延 時間に関しては想定したインターコネクト仕様に基づき見積もる.具体的には,3.4節で説 明した NSIM は使用せず,仮定したスイッチ・レイテンシとバンド幅に基づき計算ノード 間での平均通信遅延時間を計算し(スイッチ通過遅延時間は100 ns,筐体内/間のケーブル 遅延時間は5 ns/25 nsを想定),通信対象となる計算ノード番号とメッセージサイズに基づ き通信遅延情報を決定した.

#### 4.2 性能予測結果

性能予測結果を表9に示す.ここで,3列目の「性能予測に要する時間」とは,ホストマシン上でのスケルトンコード実行に要する時間である.実験の結果,想定したペタスケール・システムの性能は,HPLに関して通信遅延がない場合で1.07ペタフロップス,3D-Torusネットワークでの通信遅延を考慮した場合で1.02ペタフロップスであることが分かった. また,これらの性能予測に要する時間は約6時間であった.PHASEカーネルの場合にお

表 9 ペタスケール・ターゲットマシンの性能予測結果

Table 9  $\,$  Performance prediction results for peta-scale target machine.

| ベンチ   | ホスト         | マシン     | ターゲットマシン性能(予測) |              |        |              |  |
|-------|-------------|---------|----------------|--------------|--------|--------------|--|
| マーク   | 理論ピーク       | 性能予測    | 通信             | 遅延無し         | 通信遅延有り |              |  |
|       | 性能          | 性能 所要時間 |                | 実効性能         | 実行時間   | 実効性能         |  |
| HPL   | 1.6 TFlop/s | 約6時間    | 1,397秒         | 1.07 PFlop/s | 1,477秒 | 1.02 Pflop/s |  |
| PHASE | 192 GFlop/s | 約4時間    | 165秒           | 0.65 PFlop/s |        |              |  |

いても,実効性能は0.65 ペタフロップスであり,その性能予測を約4時間で実現している. このように,本研究で開発した性能評価環境を用いることにより,理論ピーク性能値では 1,300倍(2.1 PFlops/1.6 TFlops)~10,000倍(2.1 PFlops/210 GFlops),計算ノード数で は32倍~256倍ほど大規模なターゲットマシンの性能を現実時間内で予測することができ た.なお,本実験で用いた通信性能の見積り方式では集団通信時間をモデル化することが難 しい.そのため,通信遅延を考慮した評価結果に関しては集団通信を使用しない HPL のみ とした.この問題は3.4節で示した NSIM を用いれば解決可能であり,今後追加実験を行 う予定である.

#### 5. 提案方式の適用可能範囲に関する考察と今後の課題

今後のペタスケールからエクサスケールへとより高性能なスーパコンピュータを対象とす るためには,様々なシステム・アーキテクチャを想定した性能予測の実現が必要となる.そ こで本章では,現状における提案方式の適用可能範囲を明確にするとともに,より汎用的か つ実用的な利用に向け解決すべき課題を整理する.

まず,提案する性能予測方式の適用可能性をハードウェア・アーキテクチャの観点から 考察する.図2(B)に示す BSIM において精度の高い性能予測を実現するためには,アプ リケーション・コード中のスケルトン化部分に関して適切な演算性能モデリングを行う必 要がある.もし,ターゲットマシンに搭載されるマイクロプロセッサが使用可能であれば, 3.5.2項で示した性能評価事例と同様に実測に基づくモデリングを行える.ターゲットマシ ン用のマイクロプロセッサが使用不可能(開発予定であり存在しない場合など)であれば, プロセッサ・シミュレータを用いる必要がある.3.3節で説明した PSIM は SPARC アーキ テクチャのみをサポートしているため,その他の命令セットや大幅に異なるマイクロアーキ テクチャを想定した評価は実施できない.一方,BSIM が性能予測に用いる通信性能情報に 関しては,開発対象となるターゲットマシンと同規模のインターコネクトは実在しないの が一般的であるため,より精度の高い性能予測を実現するには 3.4 節で示した NSIM を用 いる必要がある.NSIM では現在のスーパコンピュータで採用されている 3 次元トーラス や Fat-Tree といった標準的なトポロジをサポートしており,また,各種ルータやスイッチ の性能を設定ファイルで変更できるため,比較的幅広いインターコネクト・アーキテクチャ に対応できる.ただし,現状ではコミュニケータ分割は未サポートのため,複数コミュニ ケータでの同時通信が存在する場合は対応できない.これに加え,BlueGene/Lのように集 団通信専用ネットワークが用意されているような特殊アーキテクチャを有する場合も対象外 となる.

次に,様々なシステム構成に対する提案方式の適用可能性を議論する.近年,より高い性 能を実現する有望な手段として,GPUなどのアクセラレータの活用が注目されている.実 際, すでに TOP500 の上位にはアクセラレータ搭載型スーパコンピュータがランクインし ており、この傾向はより顕著になりつつある.また、汎用プロセッサにおいても、コア数の 増加やメモリ階層の拡張, MRAM や PCRAM といった新メモリデバイスの活用などが期 待を集めている.BSIM を用いた性能予測のフレームワークにおいて,このようなハード ウェア構成に関して特に制限はない.3.2節で説明したスケルトンコードを作成可能であれ ば,基本的にどのようなアーキテクチャでも評価対象とすることができる.たとえば,アク セラレータ搭載型計算ノードを前提とした場合には、スケルトン化対象コード部分をアク セラレータ性能モデルで置き換えればよい.したがって、「様々な特性を有する新プロセッ サ・アーキテクチャやハードウェアの性能をいかにして精度良くモデル化するか?」がポイ ントとなる.この対策としては,各種プロセッサ・シミュレータの新規開発や,文献22)で 提案されている既存プロセッサをベースとした性能モデリングの応用など,新たな性能モデ リング技術の導入が必要となる、一方、インターコネクトの基本的なトポロジはトーラス網 やメッシュ網, Fat-Tree 網といった形態に収束しつつあり, 基本的な機能としては NSIM で十分対応可能と考える.しかしながら,さらなる計算ノード数の増加を見据えた場合,コ ミュニケータ分割のサポートや,より高機能な専用ネットワークを用いた集団通信の実現な どが必須になると予想され,これにともない NSIM を改良する必要がある.

最後に,本稿で提案する性能予測環境をより実用的に活用するために今後解決すべき課題 を述べる.まず,システム規模の観点から議論する.3.5.2 項で説明した性能予測精度評価で は,ターゲットシステムは6.6 TFlop/s,ホストシステムは192 GFlop/s または52 GFlop/s の実験環境であった.これらの性能差は34~126 倍であり,小規模なシステムを用いた性 能評価の実現可能性を示すことができた.しかしながら,2010年時点で世界トップクラス

のスーパコンピュータの性能は1ペタフロップスを超えており,3.5.2項で対象としたター ゲットシステムとの性能差は大きい.したがって,今後,数百テラフロップス~ペタフロッ プスといったより大規模な実在ターゲットマシンを対象とした精度評価実験を実施する必要 がある.次に,性能予測精度について考察する.3.5.2項で述べたように,通信性能の予測 誤差が比較的大きく,特に集団通信に関する遅延時間モデルの精度改善が必要不可欠であ る.今後,プロセス配置や通信ミドルウェアの実行オーバヘッドなどを考慮した通信性能の モデル化が必要になると考える.これに加え,様々なベンチマーク・プログラムを用いたさ らなる精度検証を実施し各種改善を行うとともに,本環境での精度保証範囲をより明確にし なければならない.

## 6. まとめと将来展望

本稿では,平成17年度から5年間にわたって実施したスーパコンピュータの性能評価技 術に関する研究成果を示した.スーパコンピュータの実効性能を正しく予測するためには, 開発対象となるターゲットマシンを想定したうえで、アプリケーション・プログラム実行の 振舞いを考慮しなければならない.そのためには,性能評価に使用できる既存のホストマ シン上でターゲットマシンの動作を模擬する必要があるが,これらのマシン間には2~3桁 以上の性能ギャップが存在する、本研究の最大の挑戦は「いかにしてこの性能ギャップを解 消し,現実的な時間内でターゲットマシン性能予測を可能にするか?」にある.これを実現 すべく,我々は処理内容を高度に抽象化したプログラムであるスケルトンコードを導入し, かつ,それを用いた性能評価を行うための各種ツールを開発した.その結果,ホストマシン とターゲットマシンの間に 1.300 倍~10.000 倍の性能ギャップがある場合でも性能予測が 可能であることを示した.また,既存のテラフロップス級マシンを用いた実証実験を行い, 高い精度で実行時間を予測できることを明らかにした.本研究で開発した PSIM に関して は SPARC 命令セットを前提としたシミュレーション, また, NSIM に関しては一般的な 1 次元/2 次元/3 次元メッシュ網, 1 次元/2 次元/3 次元トーラス網, Fat-Tree 網, ならび に, 文献 11) のような6次元メッシュといったトポロジのみを対象とする. 一方, 3.5節で 示した性能予測手法そのものに関しては,スケルトンコードで計算時間を見積り可能であれ ば様々なアーキテクチャを対象とすることが可能である。

わが国における計算科学ならびに計算機科学分野の継続的かつさらなる発展を実現する ためには,世界 No.1 の道具を「使う技術」と「造る技術」を両輪として研究開発を進める 必要がある.本稿では,特に「造る技術」に焦点を当て,そのための性能評価手法を示し た.スーパコンピュータの性能向上はとどまることを知らず,その姿は年々変化している. たとえば,計算ノードに関してはベクトル型からスカラ型,近年ではGPU などのアクセラ レータ活用へと向かっている.また,搭載される構成要素数(プロセッサやメモリなど)は 増加の一途をたどっており,今後もさらなる大規模化ならびに複雑化が進むと予想される. このような状況においては,新規スーパコンピュータ開発の初期段階において,性能や消費 電力,設置面積,各種コストなど様々な制約を満足する適切な構成法を検討することがより 重要となる.そのためには,各種評価技術のさらなる発展と継続的な研究開発の実施が必要 不可欠である.

今後,本研究で開発したツール群を可能な限り一般公開し,スーパコンピュータ開発とその利用をサポートする大きな流れを形成することにより,科学技術分野の発展と新しい知の 発見への貢献を目指す.また,近年の地球温暖化問題を契機に,スーパコンピュータの低消 費電力化ならびに低消費エネルギー化が求められている.そこで,今後は,消費電力なら びに消費エネルギーの評価も可能とすべく各種ツールを改良する予定である.さらに,本 研究で開発した各種ツールをプログラム・チューニングに利用することを検討する.実際, 本研究においては,仮想超並列実行環境 BSIM を用いた並列実行解析を行い,その結果を プログラム最適化へとフィードバックした.そこで,より高機能なプログラム実行解析機能 を実装することにより「スーパコンピュータを使う技術」への貢献も狙う.

謝辞 本研究を遂行するにあたり多くのご協力をいただいた米国富士通研究所の木村康則 氏,富士通株式会社の安里彰氏,松本孝之氏,折居茂夫氏,坂本真理子氏をはじめ,PSI プ ロジェクト・メンバの諸氏に感謝いたします.本研究は,一部,文部科学省「次世代 IT 基 盤構築のための研究開発」,研究開発領域「将来のスーパコンピューティングのための要素 技術の研究開発」における研究開発課題「ペタスケール・システムインターコネクト技術の 開発」,ならびに,科学研究費補助金若手A(課題番号:21680005)による.なお,本研究 の実験結果の一部は,九州大学情報基盤研究開発センターの研究用計算機システムを用いて 取得したことを付記する.

#### 参考文献

 井上弘士,薄田竜太郎,安藤壽茂,石附 茂,小松秀実,稲富雄一,本田宏明,山村 周史,柴村英智,于 雲青,青柳 睦,木村康則,村上和彰:大規模システム評価環境 PSI-SIM:数千個のマルチコア・プロセッサを搭載したペタスケールコンピュータの性 能予測,情報処理学会研究報告,計算機アーキテクチャ研究会報告,Vol.2008, No.39, pp.51–56 (2008).

- 2) 岩渕寿寛,杉田 秀,山名早人: MPIETE2: MPI プログラム実行時間予測ツール MPIETE の通信予測誤差に関する改良,情報処理学会研究報告,2005-HPC-101, pp.175-180 (2005).
- 3) 久保田和人,板倉憲一,佐藤三久,朴 泰祐:大規模データ並列プログラムの性能予測 手法とNPB2.3の性能評価,情報処理学会論文誌,Vol.40, No.5, pp.2293-2304 (1999).
- 4) 柴村英智, 久我守弘, 末吉敏則: 超並列計算機のための相互結合網シミュレータ, 情報処理学会論文誌, Vol.35, No.4, pp.589-599 (1994).
- 5) 柴村英智,薄田竜太郎,本田宏明,稲富雄一,于 雲青,井上弘士,青柳 睦:PSI-SIM:大規模並列システムの性能解析に向けた並列相互結合網シミュレータ,電子情報 通信学会技術研究報告(CPSY), CPSY2007-32, Vol.107, No.276, pp.45–50 (2007).
- 6) 原田智紀,曽根 猛,朴 泰祐,中村 宏,中澤喜三郎:並列処理用ネットワークのた めの性能評価用シミュレータ生成系 INSPIRE,情報処理学会研究報告,ARC-95-113-9, pp.65-72 (1995).
- 7) 堀井 洋,岩渕寿寛,山名早人: MPI プログラム実行時間予測ツール MPIETE の評価,情報処理学会研究報告,2003-HPC-097, Vol.2004, No.20, pp.55-60 (2004).
- 8) 山村周史,青木 孝,安藤壽茂:大規模科学技術計算向け SIMD 拡張スカラプロセッ サの提案とその評価,情報処理学会研究報告,2007-ARC-174, pp.61-66 (2007).
- 9) Abu-Sufah, W. and Kwok, A.Y.: Performance Prediction Tools for CEDAR: A Multiprocessor Supercomputer, Proc. 12th International Symposium on Computer Architecture, pp.406–413 (1985).
- 10) Adiga, N.R., Blumrich, M.A., Chen, D., Coteus, P., Gara, A., Giampapa, M.E., Heidelberger, P., Singh, S., Steinmacher-Burow, B.D., Takken, T., Tsao, M. and Vranas, P.: Blue Gene/L torus interconnection network, *IBM Journal of Research & Development*, Vol.49, No.2/3, pp.265–276 (2005).
- Ajima, Y., Sumimoto, S. and Shimizu, T.: Tofu: A 6D Mesh/Torus Interconnect for Exascale Computers, *IEEE Computer*, Vol.42, No.11, pp.36–40 (2009).
- 12) Almasi, G., Archer, C., Castaños, J.G., Gunnels, J.A., Erway, C.C., Heidelberger, P., Martorell, X., Moreira, J.E., Pinnow, K., Ratterman, J., Steinmacher-Burow, B.D., Gropp, W. and Toonen, B.: Design and implementation of message-passing services for the Blue Gene/L supercomputer, *IBM Journal of Research & Development*, Vol.49, No.2/3, pp.393–406 (2005).
- Austin, T., Larson, E. and Ernst, D.: Simplescalar: An Infrastructure for Computer System Modeling, *IEEE Computer*, Vol.35, No.2, pp.59–67 (2002).
- 14) Barker, K.J., Davis, K., Hoisie, A., Kerbyson, D.J., Lang, M., Pakin, S. and Sancho, J.C.: Using Performance Modeling to Design Large-Scale Systems, *IEEE Computer*, Vol.42, No.11 (2009).
- Bailey, D.H. and Snavely, A.: Performance Modeling: Understanding the Past and Predicting the Future, LNCS 3648, pp.185–195 (2005).

- 16) Binkert, N.L., Dreslinski, R.G., Hsu, L.R., Lim, K.T., Saidi, A.G. and Reinhardt, S.K.: The M5 Simulator: Modeling Networked Systems, *IEEE Micro*, Vol.26, No.4, pp.52–60 (2006).
- 17) Brooks, D., Tiwari, V. and Martonosi, M.: Wattch: A Framework for Architectural-Level Power Analysis and Optimizations, Proc. 27th International Symposium on Computer Architecture, pp.83–94 (2000).
- 18) Carrington, L., Snavely, A., Gao, X. and Wolter, N.: A Performance Prediction Framework for Scientific Applications, *ICCS Workshop on Performance Modeling* and Analysis (2003).
- 19) Choudhury, N., Mehta, T., Wilmarth, T.L., Bohm, E.J. and Kale, L.V.: Scaling an optimistic parallel simulation of large-scale interconnection networks, *Proc. Winter Simulation Conference*, pp.4–7 (Dec. 2005).
- 20) Davis, D., Barker, K.J. and Kerbyson, D.J.: Performance Prediction via Modeling: A Case Study of The ORNL CRAY XT4 Upgrade, World scientific, Parallel Processing Letters, Vol.19, No.4, pp.619–639 (2009).
- 21) Ipek, E., Supinski, B.R., Schulz, M. and McKee, S.A.: An Approach to Performance Prediction for Parallel Applications, LNCS, Volume 3648/2005, pp.196–205 (2005).
- 22) Pfeiffer, W. and Wright, N.J.: Modeling and Predicting Application Performance on Parallel Computers Using HPC Challenge Benchmarks, Proc. 22nd IEEE International Parallel and Distributed Processing Symposium (April 2008).
- 23) Prakash, S. and Bagrodia, R.L.: MPISIM: using parallel simulation to evaluate MPI programs, Proc. 30th conference on Winter simulation, pp.467–474 (1998).
- 24) Ridruejo, F.J. and Miguel-Alonso, J.: INSEE: an Interconnection Network Simulation and Evaluation Environment, LNCS, Vol.3648, pp.1014–1023 (Aug. 2005).
- 25) Snavely, A., Carrington, L., Wolter, N., Badia, R. and Purkayastha, A.: A Framework for Performance Modeling and Prediction, *Proc. 2002 ACM/IEEE conference* on Supercomputing, pp.1–17 (2002).
- 26) Susukita, R., Ando, H., Aoyagi, M., Honda, H., Inadomi, Y., Inoue, K., Ishizuki, S., Kimura, Y., Komatsu, H., Kurokawa, M., Murakami, K., Shibamura, H., Yamamura, S. and Yu, Y.: Performance Prediction of Large-scale Parallel System and Application using Macro-level Simulation, *International Conference for High Performance Computing, Networking, Storage and Analysis (SC08)* (Nov. 2008).
- 27) Tikir, M.M., Carrington, L., Strohmaier, E. and Snavely, A.: A Genetic Algorithms Approach to Modeling the Performance of Memory-bound Computations, *Proc. In*ternational Conference for High Performance Computing, Networking, Storage and Analysis (Nov. 2007).
- 28) Vijaykrishnan, N., Kandemir, M., Irwin, M.J., Kim, H.S. and Ye, W.: Energy-

© 2011 Information Processing Society of Japan

Driven Integrated Hardware-Software Optimizations Using SimplePower, International Symposium on Computer Architecture, pp.95–106 (2000).

- 29) Zheng, G., Kakulapati, G. and Kal'e, L.V.: BigSim: A Parallel Simulator for Performance Prediction of Extremely Large Parallel Machines, 18th International Parallel and Distributed Processing Symposium, p.78b (2004).
- 30) UNIX サーバ用プロセッサ: SPARC64 V (Aug. 2004). http://primeserver.fujitsu.com/primepower/catalog/data/pdf/sparc64\_v\_j.pdf

(平成 22 年 8 月 4 日受付)(平成 22 年 12 月 7 日採録)



井上 弘士(正会員)

昭和46年生.平成8年九州工業大学大学院情報工学研究科修士課程修了. 同年横河電機(株)入社.平成9年より(財)九州システム情報技術研究 所研究助手.平成11年の1年間 Halo LSI Design & Device Technology, Inc. で訪問研究員としてフラッシュ・メモリの開発に従事.平成13年九

▶ 州大学で工学博士を取得.同年福岡大学工学部電子情報工学科助手.平成

16年より九州大学大学院システム情報科学研究院助教授.平成19年4月より,同大学准 教授,現在に至る.高性能/低消費電力プロセッサ/メモリ・アーキテクチャ,ディペンダブ ル・アーキテクチャ,3次元積層アーキテクチャ,性能評価,等に関する研究に従事.電子 情報通信学会,ACM,IEEE 各会員.



#### 安藤 壽茂

昭和45年東京工業大学大学院理工学研究科電子工学専攻修士課程修了. 同年富士通株式会社に入社.以降,八イエンドコンピュータの開発に従事. 平成4年から平成9年にかけて米国HALコンピュータシステム社に出向 しSPARCプロセサの開発に従事.その後,富士通に戻り,コンピュータ システム事業本部技師長等を務める,平成21年に富士通を退社し,現在

は,電気通信大学非常勤講師およびテクニカルライターとして執筆活動を行っている.電子 情報通信学会,ACM,IEEE 各会員.



#### 薄田竜太郎

平成9年京都大学より理学博士を取得.その後,理化学研究所において 分子動力学専用計算機の開発に参加.また専用計算機を用いた大規模物理 シミュレーション,天文シミュレーション技術の研究を行う.現在,九州 先端科学技術研究所において大規模並列システム/アプリケーションの性 能予測,ネットワークシミュレータの開発に従事している.日本物理学会,

日本天文学会各会員.

## 山村周史(正会員)



平成 10 年京都工芸繊維大学大学院電子情報工学科修士課程修了.平成 13 年同大学院情報・生産科学専攻博士課程修了.博士(工学).同年富士 通(株)入社(株)富士通研究所でプロセッサアーキテクチャ,システム 性能評価・チューニングの研究に従事.平成 19 年より富士通(株)でプ ロセッサの開発に参加し,SPARC64VII,SPARC64 VIIIfx の二次キャ

ッシュ部の開発を行い現在に至る.プロセッサアーキテクチャに関する研究に興味を持つ. 電子情報通信学会,IEEE 各会員.

## 柴村 英智(正会員)

平成2年詫間電波高等工業専門学校情報工学科卒業.平成4年九州工 業大学情報工学部知能情報工学卒業.平成6年同大学大学院情報工学研究 科修士課程修了.同年同大学マイクロ化総合技術センター助手.平成10 年熊本大学工学部助手.平成18年より(財)九州先端科学技術研究所研 究員.博士(工学).現在,HPC,リコンフィギャラプルシステム,計算

機アーキテクチャ等の研究に従事. IEEE,電子情報通信学会各会員.



## 三輪 英樹(正会員)

昭和 55 年生.平成 20 年九州大学大学院システム情報科学府情報理学専 攻博士課程単位取得退学.同年より九州先端科学技術研究所特任研究員. インターコネクトシミュレータの開発に従事.平成 22 年富士通株式会社 入社.現在に至る.



本田 宏明(正会員)

昭和45年生.平成12年北海道大学理学研究科化学第二学科より理学博 士を取得.同年(現)みずほ情報総研研究員,平成17年九州大学研究戦 略企画室助手,平成18年九州大学情報基盤研究開発センター特任准教授, 平成20年九州先端科学技術研究所特任研究員,平成22年より九州大学 システム情報科学研究院特任准教授,現在に至る,量子化学物性理論,量

子化学における効率的分子積分計算,アクセラレータを利用した量子化学計算,単一磁束量 子回路によるアクセラレータに関する研究に従事.日本化学会,分子科学会,ACM 各会員.



稻富 雄一(正会員)

昭和44年生.平成10年筑波大学大学院博士課程化学研究科修了.同 年筑波大学化学系技官.平成12年より(株)富士総合研究所特別研究員. 平成14年より産業技術総合研究所研究員.平成16年より科学技術振興 機構研究員.平成18年より九州大学情報基盤センター学術研究員.平成 20年より九州先端科学技術研究所特任研究員.平成21年より九州大学情

報基盤研究開発センター学術研究員.現在に至る.大規模分子軌道計算プログラムの開発, アプリケーションプログラム最適化に従事.日本化学会,分子科学会各会員.



眞木 淳

昭和 42 年生.平成 11 年北海道大学大学院理学研究科化学第二専攻博 士後期課程修了.同年北海道大学で理学博士を取得.同年科学技術振興事 業団計算科学技術研究員.平成 13 年分子科学研究所非常勤研究員.平成 15 年同研究所産学官連携研究員.平成 17 年九州大学情報基盤センター産 学官連携研究員.平成 20 年より九州先端科学技術研究所特任研究員.現

在に至る.アプリケーションの開発,最適化の研究に従事.



## 平尾 智也

昭和 52 年生.平成 13 年奈良先端科学技術大学院大学情報科学研究科 修士課程修了.特定分野向け高性能計算機の開発のほか,各種組み込みシ ステムの開発に従事.平成 21 年より財団法人九州先端科学技術研究所特 任研究員.



## 青柳 睦(正会員)

昭和 34 年生.昭和 59 年慶応義塾大学大学院理工学研究科修士課程修 了.昭和 61 年名古屋大学大学院理学研究科博士課程単位取得退学.理学 博士(昭和 62 年名古屋大学).米国アルゴンヌ国立研究所博士研究員,工 業技術院化学技術研究所(現:産業技術総合研究所)主任研究員,岡崎国 立共同研究機構分子科学研究所助教授を経て,九州大学教授.分子科学計

算,計算科学,連成計算,分散計算,性能評価に関する研究に従事.



## 村上和彰(正会員)

昭和 35 年生.昭和 59 年京都大学大学院工学研究科情報工学専攻修士 課程修了.同年富士通(株)入社.汎用大型計算機の研究開発に従事.昭 和 62 年九州大学助手.平成 6 年九州大学助教授.現在九州大学大学院シ ステム情報科学研究院情報理学部門教授,情報基盤研究開発センター長, 情報統括本部長.計算機アーキテクチャ,並列処理,システム LSI 設計技

術,等に関する研究に従事.工学博士.平成3年情報処理学会研究賞,平成4年情報処理 学会論文賞,平成9年坂井記念特別賞,平成12年日経BP社IPアワード,平成12年情報 処理学会創立40周年記念論文賞,平成14年電子情報通信学会業績賞をそれぞれ受賞.



#### 石附 茂

昭和 43 年生.平成 4 年弘前大学理学部物理学科卒業.同年富士通株式会 社入社.スーパコンピュータ向けプログラム高速化業務に従事.平成 17~ 19 年文部科学省による「ペタスケールシステムインターコネクト(PSI)」 プロジェクト研究員.



## 小松 秀実

昭和 32 年生.昭和 63 年東京大学大学院理学系研究科天文学専攻博士 課程修了.理学博士.同年富士通株式会社入社.スーパコンピュータ向け プログラム高速化業務に従事.平成 17~19 年文部科学省による「ペタス ケールシステムインターコネクト(PSI)」プロジェクト研究員.



## 安島雄一郎(正会員)

平成9年東京大学工学部電気工学科卒業.平成14年同大学大学院工学 系研究科博士課程修了.博士(工学).同年(株)富士通研究所入社.現 在,富士通(株)次世代テクニカルコンピューティング開発本部に勤務. インターコネクトアーキテクチャの開発に従事.



#### 三吉 郁夫(正会員)

昭和45年生.平成7年京都大学大学院工学研究科情報工学専攻修士課 程修了.同年富士通株式会社入社.現在,次世代スパコンの性能評価業務 に従事.



## 清水 俊幸(正会員)

昭和 61 年東京工業大学工学部電子物理学科卒業,昭和 63 年同大学大 学院理工学研究科修士課程修了.同年(株)富士通研究所入社.並列計算 機アーキテクチャの研究に従事.平成8年4月より1年間,米ウィスコ ンシン大学マディソン校客員研究員.平成22年4月より九州大学情報基 盤研究開発センター客員教授を兼務.現在,富士通(株)次世代テクニカ

ルコンピューティング開発本部に勤務. HPC システム, インターコネクトアーキテクチャの開発に従事.電子情報通信学会会員.



## 黒川 原佳(正会員)

平成 14 年北陸先端科学技術大学院大学博士後期課程修了.同年から理 化学研究所に勤務.博士(情報科学).主に並列 CFD,並列分散処理,シ ステム評価,運用技術・設計のシステム化に興味を持つ.スーパコンピュー タ・システムの設計,運用管理,利用者支援に従事.IEEE CS,日本機 械学会各会員.