# 実アプリケーションを用いた チップマルチベクトルプロセッサの消費エネルギ評価

 $\mathbf{\hat{k}}^{\dagger 1}$  $lpha^{\dagger 2}$ \_\_\_\_†1 義 昭 永 畄 侟 藤 撫 侟 **滝** 沢 寛 之<sup>†1,†4</sup> 小 林 江 川 **輔**<sup>†3,†4</sup> 広 **日月**<sup>†3,†4</sup> 降

ベクトル型スーパーコンピュータは高精度・大規模なシミュレーションを可能とする 一方で,高実行効率を支える高いメモリバンド幅や大容量のメモリに要する消費電力 が問題となっている.したがって,今後のベクトル型スーパーコンピュータの設計で は,高性能化だけではなく,低消費電力化の実現も求められている.高性能かつ低消費 電力なベクトル処理を実現するアーキテクチャとしてチップマルチベクトルプロセッ サ(CMVP)が提案されている.しかし,これまで消費エネルギの観点から CMVP の評価はなされていない.そこで本稿では,CMVPの電力モデルを検討し,CMVP におけるベクトルキャッシュの有効性を実アプリケーションにより評価する.

# Energy Consumption of a Chip Multi-Vector Processor Using Real Applications

# Ryuichi Nagaoka,<sup>†1</sup> Yoshiei Sato,<sup>†1</sup> Akihiro Musa,<sup>†2</sup> Ryusuke Egawa,<sup>†3,†4</sup> Hiroyuki Takizawa<sup>†1,†4</sup> and Hiroaki Kobayashi<sup>†3,†4</sup>

High performance computing using vector supercomputers has been shown to be effective for scientific simulations. However, a memory system of vector supercomputers requires the high-energy consumption to keep a high-memory bandwidth. To achieve high sustained performance and low energy consumption, a chip multi-vector processor (CMVP) has been proposed. However, a CMVP has not been evaluated from the point of view of energy consumption. Therefore, we evaluate the energy consumption of a CMVP. First, we establish an energy consumption model of a CMVP to analyze the energy consumption. Then, we evaluate the energy consumption to compare the several designs of varying hardware parameters.

# 1. はじめに

ベクトル型スーパーコンピュータは、その高い実効性能から、科学技術計算分野で広く利用されており、今後さらなる高性能化が期待されている.ベクトル型スーパーコンピュータ は、極めて高いメモリバンド幅を有しているが、大規模、かつ高速なメモリシステムは大き な消費電力を必要とする.また実装面積の制約によりベクトルプロセッサとオフチップ間の 配線長は長く、データ転送により高い電力を消費する.したがって、ベクトル型スーパーコ ンピュータにおいて、高性能かつ低消費電力を実現するためには高い実効メモリバンド幅を 維持したままで、メモリシステムの消費電力を抑制する必要がある.

高い実効性能を実現するためには,高い演算性能と,演算性能に対する十分なデータ転送 性能が必要である.ベクトル型スーパーコンピュータの高い演算性能を実現するアーキテ クチャとして,チップマルチベクトルプロセッサ (CMVP)<sup>1)</sup> が提案されている.CMVP で は,複数のコアにより複数のスレッドを並列に処理することで,高い実効演算性能を実現す る.また,CMVP では高いデータ転送性能を実現するために,ベクトルキャッシュと呼ば れるオンチップメモリ<sup>2)</sup>を搭載している.ベクトルキャッシュを利用することにより,デー タ転送性能を向上させると同時に,消費電力の大きいオフチップメインメモリへのアクセス を削減することができる.このことから,メモリシステムを含むシステム全体の消費電力の 削減が期待できる.そこで本報告では,CMVP におけるベクトルキャッシュの有効性を消 費電力と性能の観点から明らかにする.

本報告ではまず, CMVP のメモリシステムの消費エネルギをモデル化する.次に,実アプリケーションに対する CMVP の消費エネルギをモデルに基づいて定量的に評価し, CMVP におけるベクトルキャッシュの有効性を消費エネルギの観点から明らかにする.

2. チップマルチベクトルプロセッサおよびメモリシステム

本章では,まず本研究で想定する CMVP およびそのメモリシステムのモデルについて述

†3 東北大学サイバーサイエンスセンター Cyberscience Center, Tohoku University

<sup>†1</sup> 東北大学情報科学研究科

Graduates School of Information Sciences, Tohoku University

<sup>†2</sup> 日本電気株式会社

NEC Corporation

<sup>†4</sup> JST CREST

IPSJ SIG Technical Report



ベ,その消費エネルギモデルを定義する.ベクトルキャッシュを有する CMVP とメモリシ ステムの構成を図1に示す.モデルを構成する要素は大きくベクトルコア,ベクトルキャッ シュ,ミスステイタスハンドリングレジスタ (MSHR)<sup>3)</sup>,そしてメインメモリシステムに 分類される.以下に各構成要素について述べる.

2.1 ベクトルコア

CMVP では,多数のコアがオフチップメインメモリ(以下メインメモリと表記),およ びベクトルキャッシュを共有する.コアはベクトルユニットとスカラユニットから構成され る.スカラユニットでは命令のフェッチやデコード,ベクトルユニットへのベクトル命令の 供給,ベクトル化できない演算命令や分岐命令等の処理を行う.ベクトルユニットはベク トルレジスタとパイプラインセットからなる.ベクトルレジスタはベクトルデータの格納, およびベクトルパイプラインへのベクトルデータ供給を行う.複数のベクトルパイプライ ンセットは同時動作を可能としており,個々のベクトルパイプラインセットは論理演算・乗 算・加算/シフト演算・除算を並列処理する.

ベクトル型スーパーコンピュータが対象とする科学技術計算のアプリケーションは,一般 的に多重ループを数多く含んでいる.CMVPでは,最外ループを分割してマルチスレッド 化し,複数のベクトルコアで並列処理を行うことで,高い実効演算性能を実現する.

2.2 ベクトルキャッシュ

ベクトルキャッシュは,ベクトルプロセッサ上に搭載する高速動作が可能なメモリであり,

ソフトウェア制御により任意のデータを格納することができる.また,ベクトルキャッシュ は独立動作が可能な複数のサブキャッシュから成り,各サブキャッシュからベクトルレジス タヘ並列にデータを供給することで高いメモリバンド幅を有している.メモリアクセス時 には,通常メインメモリからベクトルレジスタにデータが転送される.しかし,ベクトル キャッシュに必要なデータが格納されている場合には,直接ベクトルキャッシュからベクト ルレジスタヘデータ転送を行う.

メモリアクセスの対象となるデータがすでにベクトルキャッシュに格納されている場合に は、ベクトルキャッシュからベクトルレジスタに高いメモリバンド幅でデータを供給するこ とができ、実効メモリバンド幅が向上する.またベクトルキャッシュは、実効メモリバンド 幅の向上だけではなく、メインメモリアクセスをベクトルキャッシュアクセスに置き換える ことで、メモリのアクセスによる消費電力の削減が期待できる.さらに、実行時間を短縮す ることにより、システム全体の消費電力の削減が期待できる.

## 2.3 MSHR

MSHR は,メモリアクセス情報を保持するためのレジスタ機構であり,冗長なメモリアク セスを削減し,実効メモリバンド幅を向上させる.メモリアドレス,命令アドレス,フォー マット情報,有効判定ビットを MSHR に保持する.ロード命令が発行され,そのデータが ベクトルレジスタに到着する前に,再びロード命令が発行された場合,後続のロード命令に 対して,MSHR では先行するロード命令のメモリアドレスの有効判定ビット,およびメモ リアドレスを参照し,後続のロード命令と同じデータが転送中か否かを確認する.後続の ロード命令と同じデータが転送中ではない場合,後続のロード命令の情報を MSHR に書き 込み,メインメモリにアクセスする.後続のロード命令と同じデータが転送中の場合,メモ リアクセスを行わず,代わりに,後続のロード命令の命令アドレスを MSHR に保持する. データの到着時に MSHR 内の命令アドレスを参照し,データをベクトルレジスタに転送す る.これにより,転送中のデータと重複する冗長なデータ転送を削減し,実効メモリバンド 幅を向上させることができる.また MSHR は,実効メモリバンド幅の向上だけではなく, 冗長なメモリアクセスを削減することで,メインメモリのアクセスに要する消費電力の削減 も期待できる.さらに,冗長なメモリアクセスの削減によって実行時間が短縮されるため, システム全体の消費電力の削減も期待できる.

2.4 メインメモリシステム

本報告で想定するメインメモリシステムは,ベクトルプロセッサの外部にあるメインメモリと,メモリネットワーク,およびメモリコントローラから構成される.メインメモリは実

**IPSJ SIG Technical Report** 

装の制約により,プロセッサの近くに配置することができず,プロセッサとメモリ間の距離 は非常に長くなる.そのため,データ転送に大きなエネルギを消費する.また,大容量のメ インメモリは,データの読み出しや書き込みに大きなエネルギを消費する.さらに,近年の 半導体加工技術の進歩に伴い,単位面積あたりに実装されるトランジスタ数が増加し,メモ リシステムの静的エネルギも大きなものとなっている<sup>4)</sup>.

前述のとおり,ベクトルキャッシュと MSHR によりメモリシステムの消費エネルギを削減できる可能性がある.しかしながら,ベクトルキャッシュや MSHR 自体もその動作や静的 電力によってエネルギを消費するため,それらを考慮した消費エネルギ評価が必要である.

これまで,これらベクトルキャッシュと MSHR は性能の観点からの議論は行われている<sup>2)</sup>が,消費エネルギの観点からは評価は行われていない.そこで本報告では,システム全体の 消費エネルギをモデル化し,定量的に評価する.

3. CMVP とメモリシステムの消費エネルギモデル

本章では,前章で述べた CMVP とメモリシステムの動作に基づき,CMVP とメモリシ ステムの消費エネルギモデルを構築する.本消費エネルギモデルでは,メモリシステムと CMVP の構成ごとに消費エネルギを定式化する.各構成要素の消費エネルギを合算するこ とによってシステム全体の消費エネルギを得ることができる.

はじめに,コアの消費エネルギのモデルについて述べる.本モデルにおいて,コアはプロ グラムの実行中に常に動作すると仮定し,動的電力と静的電力を合わせてコアの消費電力 *P<sub>core</sub>*とする.コアの消費エネルギ *E<sub>core</sub>*は,*P<sub>core</sub>*,コア数*N<sub>core</sub>*,および実行時間 Tよ り,次式で表す.

 $E_{core} = N_{core} \times P_{core} \times T \tag{1}$ 

コア数が増加することで *N<sub>core</sub>* が増加する一方で, ピーク演算性能が向上することで T が 削減される.したがって,高い演算性能を必要とするアプリケーションでは,コア数が増加 しても実行時間が短縮されるため,*E<sub>core</sub>*の増加は抑えられる.

次に,メモリシステムの消費エネルギのモデルについて述べる.想定するメモリシステムの消費エネルギは,メインメモリへのアクセスによる動的エネルギと,読み書き動作と無関係に生じるメインメモリの静的エネルギの二つに分類される.本モデルでは,メモリシステムの消費エネルギ $E_{mem}$ を,一回のメモリアクセスにおける動的エネルギ(読み出し $E_r$ ,書き込み $E_w$ )と,静的エネルギ(静的電力 $P_{leak}$ とTの積)の合計により算出する.メインメモリの読み出し回数 $N_r$ と書き込み回数 $N_w$ より, $E_{mem}$ を次式で表す.

Vol.2010-ARC-192 No.3 Vol.2010-HPC-128 No.3 2010/12/16

 $E_{mem} = N_r \times E_r + N_w \times E_w + P_{leak} \times T \tag{2}$ 

次に,ベクトルキャッシュと MSHR の消費エネルギのモデルについて述べる.ベクトル キャッシュの消費エネルギ  $E_{onchip}$ は,ベクトルキャッシュ自身の動的エネルギ(読み出し  $E'_r$ ,書き込み $E'_w$ )と静的エネルギ $P'_{leak} \times T$ から成る.ベクトルキャッシュの読み出し回数  $N'_r$ と書き込み回数 $N'_w$ より, $E_{onchip}$ を次式で表す.なお,ベクトルプロセッサ・ベクト ルキャッシュ間のデータ転送により消費するエネルギ,およびベクトルキャッシュへのデー タ参照に必要なエネルギは,メモリシステムやコアの消費エネルギと比較して微小であるこ とから,本モデルでは省略する.

 $E_{onchip} = N'_r \times E'_r + N'_w \times E'_w + P'_{leak} \times T$  (3) また,MSHRの消費エネルギ  $E_{mshr}$ は,MSHR 自身の動的エネルギ (データ情報の保持  $E_{mshr-hold}$ ,アドレスの保持  $E_{mshr-hit}$ )と静的エネルギ  $P_{mshr-leak} \times T$ から成る.MSHR のデータの保持回数  $N_{mshr-hold}$ とMSHRのアドレス保持回数  $N_{mshr-hit}$ より, $E_{mshr}$ は次式で表す.なお,MSHRへのデータ照合の消費エネルギはメモリシステム・コアの消費 エネルギと比較して微小であることから,本モデルでは省略する.

 $E_{mshr} = N_{mshr-hold} \times E_{mshr-hold}$ 

$$+N_{mshr-hit} \times E_{mshr-hit} + P_{mshr-leak} \times T \tag{4}$$

式 (2) より, ベクトルキャッシュと MSHR の利用によって  $N_r$  が  $N'_r$  に置き換わることで,  $E_{mem}$  が削減されることが分かる.ベクトルキャッシュの容量が増加し,より多くの  $N_r$  が  $N'_r$  に置き換わることで,より  $E_{mem}$  が削減される.一方で,式 (3) より,ベクトルキャッ シュの利用により  $N_r$  が  $N'_r$  に置き換わり, $E_{onchip}$  が増加する.また,式 (4) より,MSHR の利用により  $N_{mshr-hold}$  と  $N_{mshr-hit}$  が増加し, $E_{mshr}$  が増加する.加えて,式(1)~ (4) より,ベクトルキャッシュの利用によりデータ転送性能が向上しT が短くなることで,  $E_{core}$ ,  $E_{mem}$ ,  $E_{onchip}$ ,  $E_{mshr}$  が削減されることが分かる.

CMVP の消費エネルギ Etotal は以下の式で表すことができる.

$$E_{total} = E_{mem} + E_{onchip} + E_{mshr} + E_{core}$$

$$= N_{mshr-hold} \times E_{mshr-hold} + N_{mshr-hit} \times E_{mshr-hit}$$

$$+ N_r \times E_r + N'_r \times E'_r + N_w \times E_w + N'_w \times E'_w$$

$$+ (P'_{leak} + P_{leak} + P_{mshr-leak} + N_{core} \times P_{core}) \times T$$
(5)

ベクトルキャッシュの容量を変更することにより,  $N_r$ ,  $N'_r$ ,  $N'_w$ , T が変化する.また, コア数を変更することで,  $N_{core}$ , T が変化する.

**IPSJ SIG Technical Report** 

| 表 1 シミュレータのパラメータ    |                         |  |  |  |
|---------------------|-------------------------|--|--|--|
| パラメータ名              | 設定値                     |  |  |  |
| コア数                 | 1-16                    |  |  |  |
| ベクトルキャッシュ           | SRAM                    |  |  |  |
| ベクトルキャッシュの容量        | 512KB-32MB              |  |  |  |
| ラインサイズ              | 8B                      |  |  |  |
| 置換ポリシ               | LRU                     |  |  |  |
| ウェイ数                | 2                       |  |  |  |
| メモリバンド幅             |                         |  |  |  |
| (ベクトルキャッシュ・コア間)     | $64 \mathrm{GB/s/core}$ |  |  |  |
| メモリバンド幅             |                         |  |  |  |
| (メインメモリ・ベクトルキャッシュ間) | $64 \mathrm{GB/s}$      |  |  |  |
| プロセス                | 90nm                    |  |  |  |
| MSHR エントリ数          | 8192                    |  |  |  |

# 4.評価

### 4.1 評価環境

3章で述べた消費エネルギのモデルを用いて、ベクトルキャッシュの容量、コア数が CMVP の消費エネルギにどのような影響を与えるかを評価する.本報告で想定する CMVP は、ベ クトル型スーパーコンピュータである NEC の SX-8<sup>5)</sup>を基に、チップ内に複数のコア、ベク トルキャッシュ、MSHR を搭載したものとする<sup>2)</sup>ベクトルキャッシュおよび MSHR の一回 のアクセスにおける動的エネルギ( $E'_r$ ,  $E'_w$ ,  $E_{mshr-hold}$ ,  $E_{mshr-hit}$ )と静的電力 ( $P'_{leak}$ ,  $P_{mshr-leak}$ )は、CACTI6.5<sup>6)</sup>により算出する.

メインメモリ,ベクトルキャッシュと MSHR それぞれへのアクセス回数 ( $N_r$ ,  $N'_r$ ,  $N_w$ ,  $N'_w$ ,  $N_{mshr-hold}$ ,  $N_{mshr-hit}$ ) と実行時間は,NEC のベクトルプロセッサ用トレース駆動 型シミュレータを用い,表1に示すパラメータに基づいて算出される.また,アプリケーション中の多重ループにおいて,最外ループをマルチスレッド化し複数のコアにより並列処 理を行う.

本評価では,東北大学サイバーサイエンスセンターで利用されている各研究分野の代表的 な実アプリケーションを用いる.表2に評価アプリケーションを示す.

4.2 消費エネルギ評価

本節では,ベクトルキャッシュの容量とコア数を変更し,実アプリケーションの実行に要 する消費エネルギを評価する. 図2に,ベクトルキャッシュの容量変更時の各アプリケーションの消費エネルギの評価結 果を示す.縦軸に消費エネルギ,横軸に各アプリケーションのベクトルキャッシュの容量, およびコア数を示す.消費エネルギは,シングルコアでベクトルキャッシュを利用しない場 合の値で正規化する.評価結果より,ベクトルキャッシュの容量が小さい場合には,容量の 増加に伴って消費エネルギが減少することが分かる.しかし,ベクトルキャッシュの容量が 一定以上大きい場合には,容量の増加に伴って消費エネルギが増加することが分かる.

ベクトルキャッシュの容量が増加するにつれ,ベクトルキャッシュに格納可能なデータが 増え,ベクトルキャッシュから転送可能なデータ量が増加する.その結果,メインメモリか らベクトルキャッシュへのアクセスの置き換え回数が増加し,データ転送にかかる消費エネ ルギが抑えられる.しかし,ベクトルキャッシュの容量が再利用可能なデータを格納するた めに必要な容量に達すると,ベクトルキャッシュのとット率が上限に達し,メモリシステム の消費エネルギが削減されない.その結果,ベクトルキャッシュの容量の増加分だけ消費エ ネルギが増加し,消費エネルギが削減から増加に転じる.図3に,図2の16コアの場合 のベクトルキャッシュのヒット率を示す.縦軸にベクトルキャッシュのヒット率,横軸に各 アプリケーションを示す.図3より,8MBと32MBのヒット率の差は0%~約2.1%であ り,ヒット率が上限に達していることが確認できる.また,コア数の増加に伴ってベクトル キャッシュに接続されるポート数も多くなるため,回路や配線長が増加することによってベ クトルキャッシュの消費エネルギが増加する.

次に,コア数と消費エネルギの関係について考察する.図2より,コア数が少ない場合に は,コア数の増加に伴って消費エネルギが減少することが分かる.これは,コア数を増やし て実行時間を短縮したことによる消費エネルギ削減が,コア数増加による消費エネルギの増 加を上回ったためである.一方,コア数がある程度多くなると,コア数の増加に伴って消費 エネルギも増加する.これは,コア数が十分に多くなったために,それ以上コア数を増やし ても性能が向上せず,コア数の増加の分だけ消費エネルギが増えるためである.

最後に,各アプリケーションの消費エネルギを比較する.図2では,ベクトルキャッシュの容量増加による消費エネルギの削減量が,SFHTで最大約13%,PRFで最大約53%, APFAで最大約54%,GPRで最大約54%,PBMで最大約40%であり,SFHTの消費エネルギ削減効果が低いことが分かる.そこで次節では,消費エネルギ削減傾向が低いアプリケーションとしてSFHT,および消費エネルギ削減傾向が高いアプリケーションの代表としてAPFAの傾向について分析する.

IPSJ SIG Technical Report

| 表 2 評価アプリケーション |                |                   |              |                           |       |        |  |
|----------------|----------------|-------------------|--------------|---------------------------|-------|--------|--|
| 研究分野           | 名前             | シミュレーションの詳細       | 手法           | 問題サイズ                     | ベクトル長 | ベクトル化率 |  |
| 熱・流体力学解析       | $PRF^{7)}$     | 水素と空気の予混合火炎       | DNS          | $513 \times 513$          | 179.0 | 99.3%  |  |
|                | $SFHT^{8)9}$   | 飛行機表面の熱伝導と乱流剥離    | SMAC         | $711\times91\times221$    | 192.9 | 99.4%  |  |
| 電磁解析           | $GPR^{10}(11)$ | 地雷探査用アレイアンテナの探査性能 | FDTD         | $50 \times 750 \times 50$ | 245.1 | 99.7%  |  |
|                | $APFA^{12}$    | フェルミアンテナの指向性の評価   | FDTD         | $612\times105\times505$   | 255.5 | 99.9%  |  |
| 地球科学           | $PBM^{13}$     | 地震によるプレート境界のすべり   | Friction Law | $32400 \times 32400$      | 255.5 | 99.5%  |  |







4.2.1 SFHT の消費エネルギ削減傾向の分析

図4に,SFHTの主要カーネルのプログラムを示す.本評価では,3重ループの最外ループが並列化されている.参照の局所性のあるデータは三次元配列のPhiである.このデータをベクトルキャッシュに格納することによって,ベクトルキャッシュのヒット率は約15%となる.

図5に,図2におけるSFHTの消費エネルギの内訳を示す.この時,ベクトルキャッシュ の容量は8MBである.図5より,ベクトルキャッシュを利用しない場合の各コアのメモリ システムの静的エネルギが,シングルコアのメモリシステムの静的エネルギと比較して約 12%~約16%削減されており,コア数の増加に伴う静的エネルギの削減量の増加が少ない ことが分かる.

SFHT の主要カーネルにおけるベクトル演算命令数とベクトルロード命令数の比は約 1.0 であり,ベクトルロード命令数の割合が多いため,実行時間のうちデータ転送処理時間を占 める割合が高い.よって,コア数の増加によりピーク演算性能が向上しても,その演算性能 に見合ったデータ転送性能を持っていないために,実行時間が短縮されない.

また,ベクトルキャッシュがない場合と比較して,ベクトルキャッシュ利用時の読み出し の動的エネルギの削減量は約15%である.さらに,ベクトルキャッシュを利用しない場合と ベクトルキャッシュ利用時の各コアのメモリシステムの静的エネルギを比較すると,SFHT では削減量が最大の16コアで約16%,削減量が最小の2コアで約14%とほぼ一定である. SFHT は実行時間のうちデータ転送処理時間の占める割合が高いため,ベクトルキャッシュ により実効メモリバンド幅が向上することで実行時間が短縮する.その結果,静的エネル ギが減少する.しかし,ベクトルキャッシュにより実効メモリバンド幅を向上しても,演算 性能に対するメモリバンド幅が十分ではないため,コア数増加により実行時間が短縮する. その結果,静的エネルギが減少する.

4.2.2 APFA の消費エネルギ削減傾向の分析

図 6 に, APFA の主要カーネルのプログラムを示す.本評価では, APFA の主要カーネ ルは最外ループで並列化されている.すべての配列において参照の局所性があり, これらの データをベクトルキャッシュに格納することによって, ベクトルキャッシュのヒット率は約 96%となる.

図7に,図2における APFA の消費エネルギの内訳を示す.なお,ベクトルキャッシュの 容量は 8MB である.図7より,ベクトルキャッシュ利用しない場合,コア数の増加に伴っ

**IPSJ SIG Technical Report** 

do k=KST(1), NK, 2do j=JST(1),NJ,2 do i=IST(1).NI.2 res=(Phi(i+1,j,k)\*AE(i,j,k)+AN(i,j,k)& \*Phi(i,j+1,k)+AS(i,j,k)\*Phi(i,j-1,k)

- & +AT(i,j,k)\*Phi(i,j,k+1)+AB(i,j,k)\*Phi(i,j,k-1)
- & +AP(i,j,k)\*Phi(i,j,k)+AW(i,j,k)
- & \*Phi(i-1,j,k)-DIV(i,j,k))/AP(i,j,k) res=res\*RGNc(i,i,k) Phi(i,j,k)=Phi(i,j,k)-res



図 4 SFHT の主要カーネルプログラム

て,メモリシステムの静的エネルギが減少することが分かる.シングルコアのメモリシス テムの静的エネルギと比較して,2コアで48%,4コアで66%,8コアで72%,16コアで 75%静的エネルギが削減されており,コア数の増加に伴いメモリシステムの静的エネルギが 少ないことが分かる。

APFA の主要カーネルにおけるベクトル演算命令数とベクトルロード命令数の比は約 4.7 であり、ベクトル演算命令数の割合が多いため、実行時間のうち演算処理時間の占める割合 が高い.このため,コア数の増加によって,ピーク演算性能の向上に伴って実行時間が短縮 する.その結果,コア数の増加に伴って,実行時間がより短縮されメモリシステムの静的エ ネルギが減少する.

また,図7より,ベクトルキャッシュ利用時のメモリの読み出しに要する静的エネルギは, ベクトルキャッシュを利用しない場合と比較して約 95%削減されていることが分かる、さら

Vol.2010-HPC-128 No.3 2010/12/16 do ki=kio,min(kio+jcbsm,ki2) CC1=CDEXP(A\*m1(ki,ithixyz))\*(X1(ki,ithixyz)+B\*X2(ki,ithixyz)+C\*X3(ki,ithixyz)) CC2=CDEXP(D\*m2(ki,ithixyz))\*(Y1(ki,ithixyz)+E\*Y2(ki,ithixyz)+F\*Y3(ki,ithixyz)) CUX(if,ithixvz)=CUX(if,ithixvz)+DXZC\*PIC\*(EZ1(ki)\*CC1(ki)-EZ2(ki)\*CC2(ki))

Vol.2010-ARC-192 No.3

図 6 APFA の主要カーネルプログラム ■ On-chip memory ■ Write(mem) ■ Read(mem) ■ Static ■ Vector core **Euergy** 1.4 1.2 1 1 0.8 **Relative R** 0.6 0.7 0.2 w/o on-chip memory w/o on-chip memory w/o on-chip memory 8MB w/o on-chip 8MB 8MB 3MB memory 2 cores 4 cores 8 cores 16 cores 図 7 APFA の消費エネルギの内訳

CUZ(if,ithixyz)=CUZ(if,ithixyz)-DXZC\*PIC\*(EX1(ki)\*CC1(ki)-EX2(ki)\*CC2(ki))

CWX(if,ithixyz)=CWX(if,ithixyz)-DXZC\*PIC\*(HZ1(ki)\*CC1(ki)-HZ2(ki)\*CC2(ki)) CWZ(if,ithixyz)=CWZ(if,ithixyz)+DXZC\*PIC\*(HX1(ki)\*CC1(ki)-HX2(ki)\*CC2(ki))

に,16 コアの時に静的エネルギが約60%削減され,コア数の増加に伴ってメモリシステム の静的エネルギの削減量が大きくなることが分かる.

ピーク演算性能が高い場合、ベクトル演算命令数とベクトルロード命令数の比が高い APFA においてもメモリバンド幅が不足する.このため,コア数が多い場合には,ベクトルキャッ シュを利用することによって実効メモリバンド幅が大幅に向上する、その結果、コア数が多 い場合に実行時間がより短縮され、メモリシステムの静的エネルギが大きく削減される、

## **4.2.3** 消費エネルギ削減傾向の比較

do ithixyz=1,nag\*3

do if=1.nf

do kio=ki1.ki2.icbs

ベクトルキャッシュのヒット率は, APFA が約 95%, SFHT が約 15%であり, APFA の 方がより多くメインメモリをベクトルキャッシュアクセスに置き換えている.しかし,2コ アにおけるメモリシステムの静的エネルギ削減量は, APFA 約 5%, SFHT 約 15% であり, APFA が SFHT よりも静的エネルギの削減量が少ない.しかし,2 コアでは APFA の方が

IPSJ SIG Technical Report

より多くメインメモリをベクトルキャッシュアクセスに置き換えているにもかかわらず,実 行時間の短縮は SFHT の方が高い.

APFA の主要カーネルでは演算が支配的であるため,ベクトルキャッシュの効果は小さ い. 一方,SFHT における主要カーネルではメモリアクセスが支配的であるため,ベクト ルキャッシュの効果が大きい.そのため2コアでは,ベクトルキャッシュのヒット率の高い APFA は,ベクトルキャッシュのヒット率の低いSFHT より,メモリシステムの静的エネ ルギの削減量が低いものとなる.

4.2.1 節~4.2.3 節より,ベクトルキャッシュの容量を増加しヒット率を増加させることで, メモリシステムの動的エネルギやシステム全体の静的エネルギ,コアの消費エネルギが削 減されることが明らかになった.一方で,ベクトルキャッシュの容量やコア数の増加に伴っ て,ベクトルキャッシュの消費エネルギ増加が顕著になる.さらに,高い演算性能を必要と するアプリケーションでは,コア数が多いほど,ベクトルキャッシュの消費エネルギ削減効 果が高いことが明らかになった.また,高いメモリバンド幅を必要とするアプリケーション では,コア数によらず,ベクトルキャッシュの消費エネルギ削減効果が高いことが示された.

# 5. ま と め

本報告では, CMVP とメモリシステムの電力モデルを構築した.このモデルを用いて, コア数,ベクトルキャッシュの容量を変更する場合の CMVP とメモリシステムの消費エネ ルギを実アプリケーションにより定量的に評価した.また,コア数,ベクトルキャッシュの 容量を変化させた場合の,実アプリケーション実行時の性能の評価を行った.評価の結果, ベクトルキャッシュの容量を増加しヒット率を増加させることで,メモリシステムの動的エ ネルギやシステム全体の静的エネルギ,コアの消費エネルギが削減されることが明らかに なった.また,アプリケーション毎に,コア数やベクトルキャッシュの容量の最適値が異な ることが明らかになった.したがって,CMVP の性能と電力効率のさらなる向上を実現す るためには,アプリケーションに応じた動的構成型のアーキテクチャが有効であると考えら れる.

本報告では実総面積を考慮せずに CMVP の構成の検討を行っている.チップ上に搭載可 能なハードウェアリソースは限られているため,今後は,実装面積を考慮した詳細な評価を 行う予定である.さらに,アプリケーションに応じて,動的に適切な CMVP を構成する機 構の研究に取り組む予定でいる.

# 6. 謝辞

本報告では評価に際し,東北大学サイバーサイエンスセンターのスーパーコンピュータ システムを利用した.本報告の一部は,科学研究費補助金基盤研究(B)(22700044),およ び科学研究費補助金若手研究(B)(22300013)の助成を受けたものである.また本報告の一 部は,科学技術振興事業団 JST の戦略的基礎研究推進事業 CREST の助成を受けたもので ある.

# 参考文献

- Akihiro Musa, Yoshiei Sato, Takashi Soga, Koki Okabe, Ryusuke Egawa, Hiroyuki Takizawa, and Hiroaki Kobayashi, "A Shared Cache for a Chip Multi Vector Processor," Proceedings of the 9th MEDEA Workshop, pp. 24-29, 2008.
- 2) Akihiro Musa, Yoshiei Sato, Takashi Soga, Ryusuke Egawa, Hiroyuki Takizawa, Koki Okabe, Hiroaki Kobayashi, "Effects of MSHR and Prefetch Mechanisms on an On-Chip Cache of the Vector Architecture," International Symposium on Parallel and Distributed Processing with Applications. pp.335-342 2008.
- 3) David Kroft, "Lockup-Free Instruction Fetch/Prefetch Cache Organization,". In The 8th International Symposium on Computer Architecture, pp. 81-87, 1981.
- 4) J. Abam Butts and Gurindar S. Sohi, "A Static Power Model for Architects," Proceedings of The 33rd Annual IEEE/ACM International Symposium on Microarchitecture, pp. 191-201, 2000.
- 5) 篠原真史, 古澤一昭, 西垣泰洋, 多賀谷聡, 鈴木栄司, "SX-8 のハードウェア技術 (1)," NEC 技報, Vol. 58, No. 4, pp. 11-14, 2005.
- 6) Naveen Muralimanohar, Rajeev Balasubramonian, and Norman P. Jouppi. CACTI6.5. HP Laboratories HPL-2009-85, 2009.
- 7) Kazuya Tsuboi and Gorou Masuya, "Direct Numerical Simulations For Instabilities Of Remixed Planar Flames," In The Fourth Asia-Pacific Conference On Combustion, pp. 136-139, 2003.
- 8) Madoka Nakajima, Hideki Yanaoka, Hiroyuki Yoshikawa and Terukazu Ota, "Numerical Simulation of Three-Dimensional Separated Flow and Heat Transfer around Staggerd Surface-Mounted Rectangular Blocks in a Channel" Numerical Heat Transfer (PartA), No. 47, pp. 691-708, 2005.
- 9) Hideki Yanaoka, Hiroyuki Yoshikawa, and Terukazu Ota, "Direct Numerical Simulation of Turbulent Separated Flow and Heat Transfer over a Blunt Flat Plate" Journalof Heat Transfer, No. 125, pp. 779-787, 2003.
- 10) Takeo Kobayashi, Xuan Feng, and Motoyuki Sato, "FDTD simulation on array

IPSJ SIG Technical Report

antenna SAR-GPR for land mine detection" In Proceedings of SSR2003: 1st International Symposium on Systems and Human Science, pp. 279-283, 2003.

- 11) Motoyuki Sato, Takeo Kobayashi, Zhaofa zeng, Guangyou Fang, and Xuan Feng, "High Resolution GPR System for Landmine Detection" In International Conference Requirements and Technologies for the Detection, Removal and Neutralization of Landmines and UXO, pp. 548-553, 2003.
- 12) Yukiko Takagi, Hiroyasu Sato, Yoshihiko Wagatsuma, Koji Mizuno, and Kunio Sawaya, "Study of High Gain and Broadband Antipodal Fermi Antenna with Corrugation" In 2004 International Symposium on Antennas and Propagation, Vol. 1, pp. 69-72, 2004.
- 13) Keisuke Ariyoshi, Toru Matsuzawa, and Akira Hasegawa, "The Key Frictional Parameters Controlling Spatial Variation in the Speed of Postseismic Slip Propagation on a Subduction Plate Boundary" Earth and Planetary Science Letters, No. 256, pp. 136-146, 2007.