# メモリアクセスの特徴を活用した高速かつ正確な メモリアーキテクチャ・シミュレーション法

## 小野貴継†井上弘士††村上和彰††

本稿では,高速かつ正確なメモリアーキテクチャ・シミュレーション法を提案する.一般に,メモ リアーキテクチャの評価には,メモリ参照のアドレス・トレースに基づいたシミュレーションを行う. しかしながら,評価対象の増加により,評価時間が長くなる傾向にある.トレースに基づくシミュレー ションにおいて,1回あたりのシミュレーション時間はアドレス・トレースの削減によって短縮できる が,精度が低下するという問題がある.そこで,本手法はメモリアクセスの特徴を活用して高い精度 維持しつつトレース・サイズを削減し,シミュレーション時間の短縮を実現する.キャッシュ性能測 定に基づく評価実験の結果,本手法はトレース・サイズを平均98.8%削減し,そのときのキャッシュ・ ミス率の予測誤差は平均0.067 パーセンテージ・ポイントであった.

## Fast, Accurate Memory Architecture Simulation Technique Using Memory Access Characteristics

TAKATSUGU ONO,<sup>†</sup> KOJI INOUE<sup>††</sup> and KAZUAKI MURAKAMI<sup>††</sup>

This paper proposes a fast and accurate memory architecture simulation technique. To design memory architecture, the first steps commonly involve using trace-driven simulation. However, expanding the design space makes the evaluation time increase. A fast simulation is achieved by a trace size reduction, but it reduces the simulation accuracy. Our approach can reduce the simulation time while maintaining the accuracy of the simulation results. In order to evaluate validity of proposed technique, we measured the cache miss ratio. In our evaluation, the proposed technique reduces the trace size 98.8% and cache miss ratio differs from 0.067 percentage point on an average.

1. はじめに

メモリシステムが計算機性能に与える影響はきわめ て大きい.したがって,高性能な計算機システムを構 築するためには設計制約を満足する適切なメモリアー キテクチャを決定する必要がある.多くの場合,設計 空間の探索を目的としてソフトウェア・シミュレーショ ンによる性能評価が行われる.しかしながら,実機で の実行に比べてシミュレーション速度は数桁遅いため, 広大な設計空間を短期間で効率的に探索するのは難し いのが現状である.

メモリアーキテクチャ・シミュレーションの代表的 な手法として,プログラム実行において発生したメモ

†† 九州大学大学院システム情報科学研究院 Faculty of Information Science and Electrical Engineering, Kyushu University リアクセス情報を事前に採取し,それを入力とするトレース・ドリブン・シミュレーション法がある.より 詳細なシミュレーションを目的とした実行ドリブン方 式と比較して,高い抽象度での実行が可能なため高速 に動作することができる.実際,現在でも CMP を評 価対象としてトレース・ドリブン方式が広く利用され ている<sup>4),16)</sup>.しかしながら,今後,メニーコアに代表 されるより複雑かつ大規模なシステムを対象とした場 合,トレース・ドリブン方式におけるさらなる高速シ ミュレーションが必要となる.

一般に,トレース・ドリブン方式シミュレーション の速度と精度は入力となるトレース・サイズに大きく 依存しており,これらの間にはトレードオフ関係が存 在する.たとえば,プログラム実行のある区間のみを トレース採取の対象とした場合,トレース・サイズの 削減によりシミュレーション時間を短縮できる.しか しながら,プログラム実行に関するすべての振舞いを 反映できないため,シミュレーション結果の精度が低 下するといった問題が生じる.

<sup>†</sup> 九州大学大学院システム情報科学府 Graduate School of Information Science and Electrical Engineering, Kyushu University

そこで本稿では、メモリシステムの中でも設計選択 肢が多く計算機性能に大きな影響を与えるキャッシュ を対象とし, 高速かつ正確なシミュレーションを可能 とするメモリアーキテクチャ・シミュレーション法を 提案する.また,アプリケーションとして MPEG2 お よび SPEC2000 ベンチマークを用いた定量的評価を 行い有効性を明らかにする.本手法はまず,プログラ ムの実行開始から終了までを対象とした全アドレス・ トレースを取得する.そして,それを小規模なアドレ ス・トレースに分割し,メモリアクセスの特徴を抽出 する.得られた特徴の類似性に基づき,代表となるト レースを選択する.この代表サブ・トレースをもとに 小規模なトレースを生成しシミュレーションすること で,精度を維持しつつ時間の短縮を実現する.さらに, この小規模なトレースは一度生成すると,異なるメモ リアーキテクチャのシミュレーションにも使用するこ とができる.したがって,評価時間を大幅に削減する ことが可能である.なお,このようにして生成した小 規模なトレースによるシミュレーションはキャッシュ に限らず,メモリアーキテクチャの評価に幅広く活用 できる.

以下,2章でこれまでに行われてきた関連研究につ いて述べる.3章では提案手法について述べ,4章で その有効性を調査する.5章でまとめと今後の課題に ついて述べる.

#### 2. 関連研究

シミュレーション時間は,シミュレータの実行速度 とその入力に依存する.シミュレータの高速化技術と して,シミュレーション過程を時間軸方向に分割して 並列化し,その精度を低下させることなく高速に実行 する手法が提案されている<sup>15)</sup>.シミュレータの入力, つまりシミュレーションの対象区間を削減し高速化す る手法も多く提案されている<sup>18)</sup>.シミュレーション区 間を削減することで比較的高速に実行できる一方精度 が低下するため,いかに精度を維持するかが重要な課 題となる.本稿では,より高速なシミュレーションを 実現するため,後者の技術に着目する.精度を維持し つつシミュレーション時間を削減する手法は以下の3 つに大別できる.

- (1) プログラムの入力データを削減
- (2) プログラムの特徴を維持しつつ小規模なプログ ラムを生成
- (3) シミュレーションの対象区間をサンプリング
   手法(1)に属するものとして文献 5) があげられる.
- 入力データの削減により実行時間は短縮するが,メモ

リアーキテクチャのシミュレーション精度が低いとい う問題がある.

(2)のアプローチをとっているものとして文献 8), 9)がある.これらの先行研究では,評価対象システム において1度プログラムを実行し,あるメモリ構成を 前提とした小規模なベンチマーク・プログラムを生成 している.そのため,異なるメモリ構成での評価を行 う場合は,新たに小規模ベンチマークを作り直す必要 がある.一方,本稿で提案する手法はメモリアーキテ クチャに依存しないため,1度小規模なトレースを生 成することで異なるメモリ構成においてもシミュレー ション可能である.

(3) に分類される代表的な手法として SMARTS<sup>17)</sup> および SimPoint<sup>10),11)</sup> があげられる.本稿で提案す る手法も本分類に属する.SMARTSは,ある固定イン ターバルによって命令ストリームをサンプリングする. プログラムの振舞いに関係なく一定周期でサンプリン グするため,フェーズの変化と周期が一致しない場合 は精度が低下するといった問題が生じる.SimPoint はプログラム全体の特徴を解析してサンプリングする ため、このような問題が生じることはない.SimPoint はプログラムの実行開始から終了までを一定命令数の インターバルで区切り, 各インターバルにおける基本 ブロックの実行回数によって,インターバルの特徴付 けをしている.この特徴の類似性に基づいてインター バルをクラスタリングし,各クラスタから1つのイン ターバルをシミュレーションの対象として選出する. 選出されたインターバルのみをシミュレーションし, 結果に重み付けしている.SimPointを用いてアドレ ス・トレースを採取する方法も提案されている<sup>6)</sup>.

本稿における提案手法は, 各インターバルの特徴を 解析して代表を選出するため SMARTS のような問題 が生じることはない.また, 各インターバルをメモリ アクセスによって特徴付けしており, この点が Sim-Point と異なる.したがって,提案手法におけるメモ リアーキテクチャ・シミュレーションの方がより高い 精度を達成できる.実際 4.2.5 項での定量的評価にお いて,提案手法の方が SimPoint よりも高速かつ高精 度であることを示している.

- 3. メモリアーキテクチャ・シミュレーション法
- **3.1** 用語の定義

本稿で使用する用語について定義する.

フル・トレース:アプリケーション・プログラムの実行開始から終了までのメモリアクセスの時刻とアドレスの集合.



Fig. 1 Overview of proposed methodology.

- サブ・トレース:フル・トレースの部分集合であり,互いに素である.
- **3.2** 提案手法の概要

本手法の概要を図1に示す.まず,アプリケーショ ン・プログラムを実行してフル・トレースを得る.これ を一定クロック・サイクル間隔でサブ・トレースに分 割する.次に,すべてのサブ・トレースを 3.3 節で説 明する特徴の類似性に基づきクラスタリングし,各ク ラスタからシミュレーションの対象となる代表サブ・ トレースを1つ選出する.なぜなら,サブ・トレース の特徴が同じであれば,それらのシミュレーション結 果は非常に近い結果になると考えられるからである. 選出されたサブ・トレースのシミュレーション結果に, 各クラスタに属するサブ・トレース数に基づいて重み 付けする.このように,サブ・トレースの特徴に基づ いてシミュレーション対象とするサブ・トレースを決 定することで,高速かつ正確なシミュレーションを実 現する.

3.3 メモリアクセスの特徴抽出

メモリアクセスには時間局所性および空間局所性が あることが知られている.これらの特徴はメモリシス テムのシミュレーションにおいて重要である.また, 単位時間あたりのメモリアクセス数や局所性は,プロ グラム実行におけるフェーズとともに変化すると予想 される.したがって,フル・トレースを一定の間隔で サブ・トレースに分割し,その区間において特徴を抽 出すると効果的であると考えられる.サブ・トレース の分割方法の選択肢として,命令単位とプログラム開 始時刻からの経過クロック・サイクル数(時間)単位 があげられる.命令単位で分割した場合,各命令間の 時間はすべて一定と見なされることから,メモリアク セスがある時間に集中的に発生している場合や,逆に 発生していない場合などの時間的特徴は抽出できない. 一方,時間単位で分割すると時間的特徴は抽出可能で



Fig. 2 Feature vector for memory accesses.

ある、メモリシステムのシミュレーションにおいて, この時間的な特徴は重要である.たとえば, CMPや SoC といった他コアや IP とバスを共有しているアー キテクチャにおいて、バスの性能をシミュレーション する状況を考える.ある時間にバスへのアクセスが集 中すると競合が発生する可能性が高くなる.命令単位 で分割した場合はメモリアクセスの時間的な特徴を考 慮しないため,バスのシミュレーション精度は低下す ると考えられる.時間単位で分割すると時間的な特徴 を抽出できることから,精度の低下は前者ほど生じな い.本稿では評価対象をキャッシュとしているが,バ スの性能評価などへの適用を考え時間単位で分割する. さらに,空間局所性を抽出するために,サブ・トレース におけるアドレス空間を図2のように一定の間隔で分 割する.以後この間隔のことをアドレス・インターバ ルと呼ぶ.図2のSTEP1で,各アドレス・インター バルにおけるメモリアクセスの数をカウントする.た とえば,最上位のアドレス・インターバルにおいてメ モリアクセス数は点線の円で囲んだ2つであることか ら,表の最上位の要素に2を格納する.STEP2では, STEP1 で作成したベクトルに特徴抽出精度の向上を 目的として以下の3つの要素を追加する.

(1) アクセス時間の平均値:各サブ・トレースの開始時刻を0として,各メモリアクセスの時間か



Fig. 3 Address distance.

ら平均値を算出する.サブ・トレースにおける メモリアクセス数をN,各メモリアクセスの 時間を $x_i$ とすると,平均値xは式(1)によっ て求められる.

$$\bar{x} = \frac{\sum x_i}{N} \tag{1}$$

(2) アクセス時間の標準偏差値:各サブ・トレースの開始時刻を0として,各メモリ・アクセスの時間から標準偏差値 σ を算出する.これは式(2)によって求められる.

$$\sigma = \sqrt{\frac{\sum (x_i - \bar{x})^2}{N}} \tag{2}$$

(3) アドレス間距離:時間的に連続したメモリアク セスにおけるアドレスの絶対差分の総和によっ て定義される.

アクセス時間の平均値および標準偏差値を導入する ことで,サブ・トレースにおけるメモリアクセスの時 間的な偏りが分かる.アドレス間距離の必要性につい て,図3の例を用いて説明する.図3の縦軸はアド レス,横軸は時間であり,各点はメモリアクセスの時 刻とそのアドレスをもとにプロットしている.図3(a) はあるアドレス付近に時間的に連続してアクセスが生 じており,図3(b)は離散的にアクセスが生じている. この違いがあるにもかかわらず,図3(a),(b)ともに メモリアクセスの数,平均値ならびに標準偏差値は同 じ値になる.そこで,これらの違いを表す指標として アドレス間距離が必要となる.時間的に連続したメモ リアクセスが生じた場合,アドレス間距離は小さい. 一方,アクセスが分散した場合は大きな値を示す.つ まり,図3(a)におけるアドレス間距離は図3(b)の それよりも小さい.

このようにして得られたベクトルを以後特徴ベクト ルと呼ぶ.すべてのサブ・トレースに対して特徴ベク トルを求める.

3.4 クラスタリングとサブ・トレースの選出

サブ・トレースの特徴が同じであれば,そのシミュ レーション結果は近いと考えられる.そこで,3.3 節 で述べた手法によって抽出された特徴ベクトルの類似 性に基づいて,サブ・トレースをクラスタリグする. クラスタリング方法は既存の手法が適用できる.本手 法において,ベクトルの数およびベクトルの次元が高 いことから,たとえばK-平均法<sup>1)</sup>といった比較的短 時間で実行可能なアルゴリズムが適している.各クラ スタには同じ特徴のサブ・トレースが属しているため, これらの中からどれをシミュレーションの対象として も結果は同じになることが予想される.したがって, 各クラスタから1つのサブ・トレースをランダムに選 出し,シミュレーションの対象として選出する.

3.5 代表サブ・トレースによるシミュレーション

代表サブ・トレースのみを用いたキャッシュ・シミュ レーションでは,それ以前のトレースを実行していな いためコールド・スタートの影響を受けるという問題 が生じる.この問題を解決するために,各代表サブ・ トレースの直前のトレースをウォームアップ・トレー スとして用いる.以後,各クラスタの代表サブ・トレー スと,それに対応するウォームアップ・トレースの集 合を小規模ベンチマーク・トレースと呼ぶ.

各クラスタに属するサブ・トレースの数が多いほど, フル・トレースによるシミュレーション結果に大きな 影響を与えていると考えられる.したがって,各代表 サブ・トレースのシミュレーション結果に,クラスタに 属するサブ・トレースの数を重みとして掛ける.重み 付けした結果を合計することで,フル・トレースのシ ミュレーション結果を予測する.小規模ベンチマーク・ トレースを用いた場合のキャッシュ・ミス率 *miss\_rate* は式 (3) で求めることができる.

$$miss\_rate = \frac{\sum_{i=1}^{k} (miss_i \times weight_i)}{access} \times 100$$
(3)

ここで, クラスタ i における代表サブ・トレースの総 メモリアクセス数を access, ミス数を  $miss_i$ , クラス タに属するサブ・トレース数を  $weight_i$  とする. k は クラスタ数である.

#### 4.評価

#### 4.1 評価環境

3 章で生成した小規模ベンチマーク・トレースの有 効性を評価する.ここではL1キャッシュを対象とし, 命令およびデータキャッシュのミス率を測定する.フ ル・トレースと小規模ベンチマーク・トレースのシミュ レーション結果を比較し,トレース・サイズ削減率お よびキャッシュ・ミス率の予測精度を求める.予測精 度を表す指標は,それぞれのキャッシュ・ミス率の差 (パーセンテージ・ポイント)とする.また,先行研 究の SimPoint との定量的比較を行い,本手法の有効 性を明らかにする.

マイクロプロセッサ・シミュレータである Simple-Scalar3.0<sup>12)</sup> で MPEG2 のデコードプログラム<sup>7)</sup> と SPEC2000 ベンチマーク<sup>14)</sup> を実行し,フル・トレー スを採取した.このときの命令キャッシュの構成は, キャッシュ・サイズ 16 KB, ブロック・サイズ 32 B, ウエイ数1とした.また,データキャッシュの構成は, キャッシュ・サイズ 16 KB, ブロック・サイズ 32 B, ウエイ数4とした.MPEG2デコードプログラムでは akiyo, carphone ならびに foreman の 3 つの動画像 を入力データとして使用した.それぞれの画像サイズ は QCIF で, フレーム数は 150 である. SPEC2000 ベンチマークは 164.gzip, 175.vpr, 176.gcc ならびに 197.parser の 4 つの整数プログラムと, 177.mesa お よび 183.equake の 2 つの浮動小数点プログラムを使 用した.また, SPEC2000の入力はいずれも test を 用いた.

小規模ベンチマーク・トレースの生成において,各 種パラメータを表1のように設定した.サブ・トレー ス・サイズは,小さい程特徴抽出精度の向上が見込ま れる.しかしながら,代表サブ・トレース数が増加す ることから,クラスタリングに長時間を要することに なる.これらのトレードオフを考慮して,サブ・トレー ス・サイズを決定した.アドレス・インターバルの値 をキャッシュのブロック・サイズに合わせることが考え られる.しかしながら,小規模ベンチマーク・トレー スは異なるメモリアーキテクチャでも使用するため, それに依存する値に設定することはできない.アドレ ス・インターバルの値を変更してすべてのプログラム で実験を行った結果,精度に影響を与えることは明ら

表 1 パラメータなど Table 1 Parameters.

| サブ・トレース・サイズ(クロック・サイクル) |          | 10,000 |
|------------------------|----------|--------|
| アドレス・インターバル            | 命令キャッシュ  | 1,024  |
|                        | データキャッシュ | 8,192  |
| クラスタリング・アルゴリズム         |          | K-平均法  |
| クラスタ数                  |          | 500    |

かになったが、その差は小さいことが分かった、アド レス・インターバルの値を小さくすると,特徴ベクト ルの次元が高くなりクラスタリング時間が長くなる. したがって,大幅な精度の向上は得られないにもかか わらず、クラスタリングに長時間を要することになる ことから,アドレス・インターバルを小さな値に設定 しても利点が少ないと判断した.シミュレーション精 度と,現実的な時間で実験を行うという点を考慮して, 本評価においては表1の値を用いて議論する.アド レス・インターバルがシミュレーション精度に与える 影響については,4.2.4 項で述べる.クラスタリング・ アルゴリズムは, クラスタリング精度も高く比較的短 時間で実行できる K-平均法<sup>1)</sup>を用いた . K-平均法を サポートしているソフトウエア Cluster3.0<sup>2)</sup>を使用 して実験を行った.クラスタ数が少ない場合,特徴の 異なるサブ・トレースが同じクラスタに属する可能性 が高くなる.逆にクラスタ数を多くするとシミュレー ション対象となるトレース・サイズが増加し,削減率 が低下する、小規模ベンチマーク・トレースのメモリ アクセス数は以下の式で見積もることができる.

$$S = \sum_{i=1}^{k} (N_i + W)$$
 (4)

ここでkはクラスタ数, $N_i$ はクラスタiにおける代 表サブ・トレースのメモリアクセス数, W はウォー ムアップ・トレースのメモリアクセス数である. $N_i$ はプログラムを実行した時点で決定するため,変更で きるパラメータは k ならびに W である .k および W が大きいほどシミュレーション精度が高くなると 予想される.しかしながら,小規模ベンチマーク・ト レースのメモリアクセス数が増加するというトレード オフの関係にある、最適なクラスタ数はプログラムに よって異なることから一意に決定できない.本稿にお ける評価では,様々なクラスタ数を用いてすべてのプ ログラムに対して実験を行った結果,すべてのプログ ラムにおいて 97%以上の削減率の達成できるクラスタ 数 500 を用いて議論を進める.クラスタ数と同様に, ウォームアップ・トレース・サイズもトレードオフの 関係にある.目標のトレース・サイズ削減率を達成す

表 2 キャッシュ構成 (キャッシュサイズ KB/ウエイ数 W) Table 2 Simulated cache configurations.

| Instruction                 |                             | Data                        |                             |
|-----------------------------|-----------------------------|-----------------------------|-----------------------------|
| $32\mathrm{KB}/1\mathrm{W}$ | $32\mathrm{KB}/1\mathrm{W}$ | $32\mathrm{KB}/2\mathrm{W}$ | $32\mathrm{KB}/4\mathrm{W}$ |
| $16\mathrm{KB}/1\mathrm{W}$ | $16\mathrm{KB}/1\mathrm{W}$ | $16\mathrm{KB}/2\mathrm{W}$ | $16\mathrm{KB}/4\mathrm{W}$ |
| $8\mathrm{KB}/1\mathrm{W}$  | $8\mathrm{KB}/1\mathrm{W}$  | $8\mathrm{KB}/2\mathrm{W}$  | $8\mathrm{KB}/4\mathrm{W}$  |
| $4\mathrm{KB}/1\mathrm{W}$  | $4\mathrm{KB}/1\mathrm{W}$  | $4\mathrm{KB}/2\mathrm{W}$  | $4\mathrm{KB}/4\mathrm{W}$  |



るためにウォームアップ・トレース・サイズは 16,000 とした.代表サブ・トレースをランダムに選出するた め,シミュレーション結果がばらつくことが予想され る.したがって,1つのベンチマークに対し,各クラ スタから代表サブ・トレースをランダムに選出する試 行を10回行い,10個の異なる小規模ベンチマーク・ トレースを生成した.4.2節で示す結果はすべて10回 のシミュレーションした結果の平均値である.また, 提案手法がトレース採取時と異なるキャッシュ構成に おいて有効であることを調査するため,表2に示す キャッシュ構成について評価した.なお,これらのブ ロック・サイズはすべて 64Bである.

4.2 評価結果

4.2.1 トレース・サイズ削減率

命令,データキャッシュを対象としたサブ・トレー スの削減率の平均をそれぞれ図4および図5に示す. 縦軸がフル・トレースに対する小規模ベンチマーク・







トレースの削減率であり,横軸はベンチマークである. 命令キャッシュの削減率は平均 99.38%, データキャッ シュは平均 98.22%であった.また,クラスタリング に要した時間はクラスタ数や特徴ベクトルの次元数で 異なるが, クラスタ数500, データキャッシュのアドレ ス・インターバル8,192の場合において,フル・トレー スによるシミュレーション時間の約6倍程度であった. 1章でも述べたように,小規模ベンチマーク・トレー スの目的は,アーキテクチャに依存しないトレースを 1度生成するだけで,異なるアーキテクチャでも再利 用することである.したがって,クラスタリングに比 較的長い時間が必要であっても,様々なキャッシュ構 成でシミュレーションする場合さほど問題にならない. また,ランダム・プロジェクション11)といった特徴 ベクトルの次元を縮小する手法などの適用によりクラ スタリング時間を大幅に短縮することは可能である。 4.2.2 キャッシュ・ミス率の予測誤差

MPEG2 における命令キャッシュのミス率の平均予 測誤差を図 6 に, SPEC2000 の場合を図 7 に示す. 図 6 および 図 7 ともに,縦軸がフル・トレースによっ て得られたミス率と本手法によって得られたそれとの ポイント差で,横軸はベンチマークである.図 6 にお ける予測誤差の平均は 0.0069 パーセンテージ・ポイン







図 9 データキャッシュにおける SPEC2000 のキャッシュ・ミス率予測誤差 Fig. 9 Simulation accuracy for D-cache (SPEC2000).

トときわめて小さい.MPEG2 は同じ処理を一定周期 で繰り返すことから,クラスタにおけるサブ・トレー スの特徴の類似度が高いことが原因と考えられる.つ まり,クラスタ内に特徴が異なるサブ・トレースが少 ないため,予測精度が高い.図7の平均予測誤差は 約0.031 パーセンテージ・ポイントであった.多くの ベンチマークにおいて 0.1 パーセンテージ・ポイント 以下と MPEG2 より劣るものの,小さな値を示して いる.

次にデータキャッシュにおける,MPEG2のミス率 の予測誤差を図8に,SPEC2000の場合を図9に示 す.図8および図9ともに,縦軸がフル・トレースに よって得られたミス率と本手法によって得られたそれ とのポイント差で,横軸はベンチマークである.図8 では,予測誤差の平均は約0.061パーセンテージ・ポ イントと小さい値を示した.このことから,同一アプ リケーションにおいて入力データが異なっても予測精 度が高いことが分かる.図9において,予測誤差の平 均は約0.171パーセンテージ・ポイントであった.

4.2.3 クラスタ数が削減率と精度に与える影響 4.1 節で述べたとおり, クラスタ数が多いほどシミュ



図 10 クラスタ数とトレース・サイズ削減率の関係. Fig. 10 Impact of K on trace size.

レーション精度が高くなるが,削減率が低下するという問題が生じる.クラスタ数を100,500 および1,000 として精度と削減率に与える影響を調査した.MPEG2 デコードプログラムの入力データ foreman を用い,ア ドレス・インターバルおよびウォームアップ・トレー ス・サイズは表1 と同様である.

トレース・サイズ削減率を図 10 に示す.棒グラフ は 4.1 節と同様に 10 回小規模ベンチマーク・トレース を生成しシミュレーションした結果の平均である.ク ラスタ数の増加とともにトレース・サイズ削減率が低 下していることが確認できる.データキャッシュにお







Fig. 12 Impact of K on accuracy (D-cache).

ける削減率の低下が大きいが,これはフル・トレース・ サイズが比較的小さいためである.キャッシュミス率 の予測誤差を命令キャッシュの場合を図11に,デー タキャッシュの場合を図12に示す.範囲グラフは10 回シミュレーションした結果の標準偏差を表す.デー タキャッシュの一部でクラスタ数が小さい方が高い精 度を示す場合があるものの,クラスタ数が大きい方が 高精度という傾向にあることが分かる.標準偏差もク ラスタ数の増加とともに小さくなる傾向にあり,クラ スタ内に属するサブ・トレースの類似度が高くなって いることが確認できる.しかしながら,クラスタ数を 増加させただけでは大幅な精度の向上は期待できない といえる.

4.2.4 アドレスインターバルが精度に与える影響 アドレス・インターバルを大きくすると,メモリア クセスの特徴抽出精度が低くなり,キャッシュ・ミス 率の予測精度が低下すると考えられる.

SPEC2000 の 176.gcc において,命令キャッシュの アドレス・インターバルを 1,024 および 8,192 とした ときの,キャッシュ・ミス率予測誤差を図 13 に示す.



図 13 命令キャッシュにおけるアドレス・インターバルと 精度の関係

Fig. 13 Impact of address-interval size on accuracy (I-cache).



図 14 データキャッシュにおけるアドレス・インターバルと 精度の関係

Fig. 14 Impact of address-interval size on accuracy (D-cache).

データキャッシュのアドレス・インターバルを 8,192 および 65,536 とした場合のキャッシュ・ミス率の予測 誤差を図 14 に示す.命令,データキャッシュともに クラスタ数は 500 であり,ウォームアップ・トレース・ サイズは 16,000 である.図 13 および図 14 から,ア ドレス・インターバルが大きな値の場合において,予 測精度が低く標準偏差も大きな値を示していることが 分かる.アドレス・インターバルを大きくすることで 予測精度が低下することを確認したが,これらのアド レス・インターバルにおいては大幅な精度の低下はみ られなかった.

4.2.5 関連研究との比較

本項では,2章で述べた SimPoint<sup>10),11)</sup> との定量 的比較を行い,本手法の有効性を明らかにする.Sim-Point3.1<sup>3),13)</sup>を用いて採取したアドレス・トレース と,本手法によるシミュレーション結果およびトレー ス・サイズ削減率の比較を行った.本手法の各種パラ メータは4.1節で述べたものと同じである.キャッ シュ構成は,命令キャッシュが,キャッシュ・サイズ

| ベンチマーク     | 対象キャッシュ | ウォームアップ・<br>トレース・サイズ | クラスタ数 |
|------------|---------|----------------------|-------|
| foreman    | 命令      | 64,000               | 1,200 |
|            | データ     | 64,000               | 2,500 |
| 176.gcc    | 命令      | 64,000               | 2,350 |
|            | データ     | 64,000               | 850   |
| 183.equake | 命令      | 64,000               | 3,600 |
|            | データ     | 64,000               | 1,360 |

表 3 ウォームアップ・トレース・サイズとクラスタ数

Table 3 Warm-up trace size and the number of clusters.





4KB, ブロック・サイズ 64B, ウエイ数1とした.ま た,データキャッシュの構成は,キャッシュ・サイズ 4KB,ブロック・サイズ 64B,ウエイ数4とした.対 象とするベンチマークとして,MPEG2のforeman, SPEC2000の176.gccならびに183.equakeを選択し た.SimPoint3.1において,インターバルの値は高速 かつ高精度な結果を示す10M命令とした<sup>3)</sup>.さらに, 本手法によるトレース・サイズ削減率をSimPointと 同一にした際の予測誤差についても比較した.このと きの本手法のウォームアップ・トレース・サイズおよ びクラスタ数を表3に示す.すべてにおいてウォーム アップ・トレース・サイズを 64,000とし,クラスタ 数を調整することでSimPointのトレース・サイズと 同一にした.

図 15 に,フル・トレースのトレース・サイズを1 として正規化した場合の,トレース・サイズを示す. 左の棒グラフから順に,クラスタ数500の提案手法, SimPointと同ートレース・サイズの提案手法,Sim-Pointの結果である.本手法によるトレース・サイズ はSimPointの約10%から60%であった.この結果か ら,SimPointよりも高速に実行できることが分かる. 図 16 にキャッシュ・ミス率の予測誤差の比較結果を 示す.縦軸はフル・トレースによって得られたキャッ



図 16 SimPoint とのキャッシュ・ミス率予測誤差の比較 Fig. 16 Comparison with SimPoint (accuracy).

シュ・ミス率と本手法によって得られたそれとのポイ ント差であり,横軸はベンチマークである.foreman の命令キャッシュにおいては SimPoint よりも精度が 低いが,その差は 0.004 パーセンテージ・ポイントと きわめて小さい.それ以外では命令,データキャッシュ ともに SimPoint よりもシミュレーション精度が高い ことが分かる.SimPoint と同トレース・サイズの場 合,foreman や 176.gcc のデータキャッシュなどで精 度の向上がみられる.クラスタ数 500 の提案手法と比 較して 183.equake のデータキャッシュのように精度 が低下する場合があることも分かった.

これらすべてのベンチマークにおいて,提案手法は SimPoint よりもトレース・サイズが小さく,多くの 場合において精度が高いことが分かる.SimPoint よ り精度が低い場合でも,その差はきわめて小さいこと から,本手法はSimPointよりも高速かつ高精度とい える.

### 5. おわりに

本稿では,高速かつ高精度なメモリアーキテクチャ のシミュレーション手法を提案し,MPEG2 および SPEC2000 ベンチマークを用いた評価実験によって有 効性を明らかにした.プログラムの実行時に得られる フル・トレースから,メモリアクセスの特徴に基づい て,より小規模なベンチマーク・トレースを生成した. その結果,トレース・サイズの削減率は平均98.8%, キャッシュ・ミス率の予測誤差は平均0.067パーセン テージ・ポイントであった.したがって,本手法は短 時間で高精度のメモリアーキテクチャ・シミュレーショ ンが可能であるといえる.さらに,小規模ベンチマー ク・トレースは生成時と異なるメモリアーキテクチャ においてもシミュレーション精度が高く,有効である ことを示した.また,関連研究との定量的比較を行い, 本手法が高精度かつ高速であることを確認した.

今後は小規模ベンチマーク・トレースをバスの性能

評価などへ適用して , その有効性を評価する予定で ある .

謝辞 本稿をまとめるにあたり,ともにご討論いた だいた九州大学の安浦・村上・松永・井上研究室の皆様 に感謝いたします.なお,本研究は一部,科学研究費 補助金(学術創成研究費:課題番号14GS0218,若手 研究A:課題番号17680005),21世紀COEプログ ラム「システム情報科学での情報基盤システム形成」 ならびに松下電器産業株式会社との共同研究による.

## 参考文献

- 1) 麻生英樹ほか:パターン認識と学習の統計学,岩 波書店 (2006).
- Cluster3.0. http://bonsai.ims.u-tokyo.ac.jp/~mdehoon/ software/cluster/software.htm#source
- Hamerly, G., et al.: SimPoint 3.0: Faster and More Flexible Program Analysis, Workshop on Modeling, Benchmarking and Simulation, Wisconsin, Madison (2005).
- 4) Hsu, L., et al.: Exploring the Cache Design Space for Large Scale CMPs, SIGARCH Comput. Archit. News, Vol.33, No.4, pp.24–33 (2005).
- KleinOsowski, A.J. and Lilja, D.J.: MinneSPEC: A New SPEC Benchmark Workload for Simulation-Based Computer Architecture Research., *Computer Architecture Letters*, Vol.1 (2002).
- Laurenzano, M., et al.: Low Cost Tracedriven Memory Simulation Using SimPoint, *SIGARCH Comput. Archit. News*, Vol.33, No.5, pp.81–86 (2005).
- MPEG Software Simulation Group. http://www.mpeg.org/MPEG/MSSG/
- 8) Bell, J.R.H. and John, L.K.: The Case for Automatic Synthesis of Miniature Benchmarks, Workshop on Modeling, Benchmarking and Simulation, Wisconsin, Madison, pp.88–97 (2005).
- 9) Bell, J.R.H. and John, L.K.: Improved Automatic Testcase Synthesis for Performance Model Validation, *Proc. 19th annual international conference on Supercomputing*, pp.111– 120, ACM Press (2005).
- 10) Sherwood, T., et al.: Basic Block Distribution Analysis to Find Periodic Behavior and Simulation Points in Applications, Proc. 2001 International Conference on Parallel Architectures and Compilation Techniques, pp.3–14, IEEE Computer Society (2001).
- 11) Sherwood, T., et al.: Automatically Charac-

terizing Large Scale Program Behavior, Proc. 10th international conference on Architectural support for programming languages and operating systems, pp.45–57, ACM Press (2002).

- 12) SimpleScalar Simulation Tools for Microprocessor and System Evaluation. http://www.simplescalar.org/
- 13) SimPoint3.1. http://www.cse.ucsd.edu/~calder/simpoint/
- 14) SPEC. http://www.specbench.org/
- 15) 高崎 透ほか:時間軸分割並列化による高速マ イクロプロセッサシミュレーション,情報処理学 会論文誌:コンピューティングシステム,Vol.46, No.12, pp.84–97 (2005).
- 16) Vera, J., et al.: A Novel Evaluation Methodology to Obtain Fair Measurements in Multithreaded Architectures, Workshop on Modeling, Benchmarking and Simulation, Boston, Massachusetts (2006).
- 17) Wunderlich, R.E., et al.: SMARTS: Accelerating Microarchitecture Simulation via Rigorous Statistical Sampling, Proc. 30th International Symposium on Computer Architecture, pp.84– 95, IEEE Computer Society (2003).
- 18) Yi, J.J. and Lilja, D.J.: Simulation of Computer Architectures: Simulators, Benchmarks, Methodologies, and Recommendations., *IEEE Trans. Comput.*, Vol.55, No.3, pp.268–280 (2006).

(平成 19 年 1 月 22 日受付)(平成 19 年 4 月 26 日採録)



小野 貴継(学生会員) 昭和 57 年生.平成 18 年福岡大学 大学院工学研究科電子情報工学専攻 修士課程修了.現在,九州大学大学 院システム情報科学府情報理学専攻 博士後期課程在学中.メモリアーキ

テクチャの評価に関する研究に従事.



井上 弘士(正会員) 昭和46年生.平成8年九州工業 大学大学院情報工学研究科修士課程 修了.同年横河電機(株)入社.平 成9年より(財)九州システム情報 技術研究所研究助手.平成11年の

1 年間 Halo LSI Design & Device Technology, Inc. にて訪問研究員としてフラッシュ・メモリの開発に従 事.平成 13 年九州大学にて工学博士を取得.同年福 岡大学工学部電子情報工学科助手.平成 16 年より九 州大学大学院システム情報科学研究院助教授.平成 19 年4月より,同大学准教授.現在に至る.高性能/低 消費電力キャッシュメモリ・アーキテクチャ,セキュ アプロセッサ・アーキテクチャ,性能評価に関する研 究に従事.電子情報通信学会,ACM, IEEE 各会員.



村上 和彰(正会員) 昭和 35 年生.昭和 59 年京都大学 大学院工学研究科情報工学専攻修士 課程修了.同年富士通(株)入社.汎 用大型計算機の研究開発に従事.昭 和 62 年九州大学助手,平成6年九

州大学助教授.現在九州大学大学院システム情報科学研究院情報理学部門教授,情報基盤研究開発センター 長,情報統括本部長.計算機アーキテクチャ,並列処 理,システムLSI設計技術等に関する研究に従事.工 学博士.平成3年情報処理学会研究賞,平成4年情報 処理学会論文賞,平成9年坂井記念特別賞,平成12 年日経 BP社IPアワード,平成12年情報処理学会創 立40周年記念論文賞,平成14年電子情報通信学会業 績賞をそれぞれ受賞.