# 発行キューのタグRAMのバンク化と 正確なクリティカルパスの遅延時間評価

山 口 恭 平<sup> $\dagger$ 1</sup> 甲 良 祐 也<sup> $\dagger$ 1,\*1</sup> 安 藤 秀 樹<sup> $\dagger$ 1</sup>

本論文では、以下の2つの点に注目し、発行キューの遅延を回路シミュレータ SPICE を用いて評価した.1つ目は、発行キューの遅延を短縮するために、発行キューを構成 する部品の1つであるタグ RAM のバンク化を行った.タグ RAM は、通常の RAM と異なりアドレス・デコーダを持っていない構成であるため、バンク化には特別な設 計を要する.2つ目は、発行キューの正しいクリティカル・パスを見つけることであ る.従来の研究では、発行キューを構成する各部品のクリティカル・パスの遅延を求 め、それらを単純に足し合せることで発行キュー全体の遅延としいたが、それでは発 行キューの正しい遅延時間を得られない.なぜなら、発行キューを構成する各部品の クリティカル・パスは論理的にはつながっていないからである.32nmのLSI 技術を 仮定し、8 から 128 エントリの発行キューの遅延を測定した結果、タグ RAM のバン ク化と正しいクリティカル・パスを求めることによって、これらを行わない場合に比 べて、最大 20%短い遅延時間を得た.

## Banking Tag RAM of Issue Queue and Evaluation of Correct Critical Path Delay

KYOHEI YAMAGUCHI,<sup>†1</sup> YUYA KORA<sup>†1,\*1</sup> and HIDEKI ANDO<sup>†1</sup>

This paper evaluated the issue queue delay, using the circuit simulator, SPICE, focusing on following two features. First, we introduce banking the tag RAM, which is one of the components comprising the issue queue, to reduce the delay. Unlike normal RAM, banking the tag RAM requires a special design, because it does not have an address decoder. Second, we explore and identify a correct critical path in the issue queue. Previous studies summed the critical path of each component in the issue queue to obtain the delay of the issue queue, but this does not provide the correct delay of the issue queue, because the critical path of each component are not connected logically. We evaluated the delay of an issue queue with eight to 128 entries, assuming 32nm LSI technology, and found that banking the tag RAM and identifying the

correct critical path reduce the delay by up to 20%, compared without these optimizations.

## 1. はじめに

命令の動的なスケジューリングを行う発行キューは、より多くの命令レベル並列を利用す るために、プロセッサの世代交代とともに拡大されている<sup>2),3)</sup>.一方で、発行キューはプロ セッサのクリティカル・パスの1つであり、その遅延時間はクロック・サイクル時間を制限 する.よって、発行キュー拡大は、IPCの向上とクロック・サイクル時間の増加というト レードオフの下に検討されなければならない.本論文は、このトレードオフ検討に有用な 様々なサイズの発行キューの遅延を回路シミュレーションにより求める.

本論文では,発行キューの遅延を求めるにあたり,以下の点を特に検討した.

- 発行キューの構成要素の1つであるタグ RAM の遅延を短縮するため、このバンク化を 検討した。タグ RAM はアドレス・デコーダがなく、ワード線には、同じく発行キュー の1構成要素であるセレクト論理からの発行許可信号が直接つながれている。通常の RAM のバンク化においては、アドレスによりバンク選択が行われるが、タグ RAM は そのような方法をとれないため、バンク化にはタグ RAM に特化した方法が必要である.
- 発行キューの遅延を求めたこれまでの研究<sup>1),12)</sup>では、発行キューを構成している部品 それぞれのクリティカル・パスの遅延を合計することにより、発行キューの遅延として いた.しかしこの方法は正しくない.なぜなら、それぞれの部品のクリティカル・パス は論理的にはつながっていないからである.本論文では、発行キューの正しいクリティ カルz・パスを網羅的なシミュレーションを通して特定し、その遅延を示す.

本論文の残りの部分は、次のような構成となっている.2節では関連研究について述べる.3節では発行キューの回路の構成を説明し、4節ではクリティカル・パスについて考察する.5節で評価結果を示し、6節で本論文をまとめる.

†1 名古屋大学大学院工学研究科

Graduate School of Engineering, Nagoya University

<sup>\*1</sup> 現在, ローム (株) Presently with Rohm Co., Ltd.

## 2. 関連研究

Palacharla らは 800~180nm の LSI 技術において、プロセッサ内の種々の重要な資源の 遅延を評価し<sup>7),8)</sup>、その結果、発行キューがクロック・サイクル時間に影響を与える資源の 1 つであることを指摘した.この研究では、ウェイクアップ論理の構成として CAM を仮定 し、その下で、ディープ・サブミクロンにおける LSI 技術では、配線遅延がスケールしな いため、タグ・ドライブの遅延が最も深刻となることを指摘した.

彼らはまた,調停回路を使ったセレクト論理の遅延も評価した.一般に,多くの要求を 同時に調停するには非常に長い時間を要する.そこで彼らは,この遅延を短縮するために, 4 つの要求のうち最も優先度の高い要求に許可を出す小さな調停器を直列に接続する実装 を示した.しかし,この方法だけでは単一の許可を出すようにしかできず,複数の許可を 出すには,1つの許可を出す回路を直列に接続しなければならない.これにより,許可する 数に比例して遅延が増加することになり,近年の複数の機能ユニット間で共有される発行 キュ-2<sup>),3</sup>)には適していない.

Palacharla らはウェイクアップ論理とセレクト論理の遅延を評価したが、タグ RAM の 遅延は評価していない. そのため発行キュー全体の遅延は得られていない.

五島らはウェイクアップ論理に CAM ではなく RAM を使った構成を提案した<sup>1)</sup>. RAM 構成では, CAM 機構と異なり比較器が必要ない. 加えて, RAM は CAM より小さいため, 論理を横断する配線の長さを短くできる. これらによって遅延を削減することができる. し かし一方で,発行キューのコンパクションが難しいという欠点を持っている. これは, RAM 構成では,発行キューの中のエントリの位置によって依存関係が表されるからである.

また彼らは, RAM 構成と CAM 構成の場合の遅延を比較したが, CAM 構成における遅 延は, 各部品のクリティカル・パスの遅延を単純に合計して求められている. 4 節で述べる が, 各部品のクリティカル・パスは論理的にはつながっておらず, この計算方法では発行 キューの正しい遅延は得られない.

タグ RAM に関しては、五島らはモノリシックな RAM を仮定しており、パンク化につ いては考えていない (ただし、彼らは最大 32 エントリまでの発行キューしか評価されてお らず、この小さなサイズでは、後に示すようにバンク化は有効でない.また、各部品のクリ ティカル・パスの遅延を単純に合計して得られる遅延と、正しいクリティカル・パスの遅延 の差も、5.4 節で示すように、大差ない.したがって、彼らの仮定と実験の範囲においては、 彼らの評価結果は正しいといえる).



セレクト論理に関して,五島はプレフィクス・サム論理を使った回路を提案した<sup>11)</sup>.こ の論理では,自分の要求より優先度の高い要求の数を数える.その数が発行幅より小さけれ ば,要求は許可される.この論理回路は Palacharla らが提示した調停回路と異なり,許可 される要求の数に依存して遅延が大きく増加することはない.この回路の欠点は,加算器の 遅延が大きいことであるが,五島は入出力のエンコードを工夫し,これを改善した.

甲良らは、大きなサイズの発行キューの遅延を測定した<sup>12)</sup>.彼らは、遅延時間を大きく 支配する配線遅延を短縮するために、最適にリピータを挿入した.その結果、発行キューの 遅延は大きなサイズではエントリ数の2乗で増加すると考えられていたが、ほぼ1乗で増 加するにすぎないことを示した.

## 3. 発行キューの構成と回路

発行キューはリネームされた命令を保持し,発行する命令を決定する部品である.その構成は,図1に示すように、ウェイクアップ論理、セレクト論理、タグRAM、ペイロードRAMからなる.一般に、ウェイクアップ論理は1次元の配列であり、各エントリは2つのソース・オペランドのタグと、対応する命令のデータ依存の状態(依存が解決されているかどうか)を示すレディ・フラグを持つ.もし2つのソース・オペランドのデータ依存が解決されているなら、発行要求をセレクト論理に送る.セレクト論理は、資源制約を考慮していくつかの要求に対して発行許可の信号を出力する.許可信号はペイロードRAMに送られ、発行する命令に関する情報が出力される.許可信号は、タグRAMにも送られ、デスティネーション・タグが読み出される.それらのタグはウェイクアップ論理に放送され、レ

#### 情報処理学会研究報告 IPSJ SIG Technical Report





## ディ・フラグを更新する.

発行キューのクリティカル・パスはウェイクアップ論理→セレクト論理→タグ RAM と行き,ウェイクアップ論理に戻ってくるパスである.本論文はこのクリティカル・パスの遅延を評価する.

2節で述べたように、ウェイクアップ論理とセレクト論理には様々な回路が提案されてい る.本研究ではウェイクアップ論理として、CAMを用いた回路を仮定する.RAM構成を 仮定しなかった理由は、我々の知る限り、RAM構成では、発行キューのコンパクションが 難しいという欠点がある点である(この欠点を避けるための簡単な方法は、循環バッファに より発行キューを実装することであるが、発行要求の誤った優先度をセレクト論理に与えて しまう.より精巧な方法として、セレクト論理でエイジ・マトリクス<sup>9)</sup>を使うことがあげら れるが、この回路は、複数の許可を出せるように拡張することが難しい).セレクト論理と しては、プレフィクス・サムで構成された回路を仮定する.これは、調停回路に比べて発行 許可の数の増加による遅延の増加が少ないからである.

## 3.1 ウェイクアップ論理

図2に, CAM で構成されたウェイクアップ論理を示す. タグ RAM から読み出された *IW* 個のデスティネーション・タグが,ウェイクアップ論理の*IQS* 個の全てのエントリに 放送される.ここで,*IW* と*IQS* は,それぞれ,発行幅と発行キュー・サイズを示す.そ



Fig. 3 CAM cell circuit for tag comparison.

れぞれのエントリは2つのソース・オペランド・タグを持っており,それらは放送されたデ スティネーション・タグと比較される.もしタグが一致したら,レディ・フラグがセットさ れる.レディ・フラグが両方セットされたら,発行要求が出力される.

図3に、タグの比較を行う CAM セルの回路を示す. ウェイクアップ論理の1つのエン トリは、タグ・ビット分の CAM セルからなる. 図の左にある SRAM のセルはソース・オ ペランド・タグの1ビットを保持している. 上部の水平の線はマッチ線と呼ばれ、タグが一 致したことを示す. 縦に2つ並べられたトランジスタは、タグ比較の結果にしたがってマッ チ線をディスチャージするものである.

回路は次のように動作する.最初に、マッチ線がプリチャージされ、そしてデスティネー ション・タグが放送される.もしソース・オペランド・タグとデスティネーション・タグが一 致しなかったら、対応するマッチ線は縦に2つ並べられたトランジスタによりディスチャー ジされる.逆に、全てのビットが一致していたら、マッチ線はHを維持する.

#### 3.2 セレクト論理

本研究では、セレクト論理は、3節の最初で説明したようなプレフィクス・サム論理で実装することを仮定する.一般に、プレフィクス・サム論理は、入力、出力ともに N 個あり、 *i* 番目の出力 ( $0 \le i \le N - 1$ )は、0 番目から*i* 番目までの入力の値の合計である. 図4に、 例として N = 16 の時のプレフィクス・サム論理の回路図を示す<sup>11)</sup>. クリティカル・パス 上の加算器の数は、log<sub>2</sub> N 個になる.

この論理をセレクト論理として使う時,それぞれの入力は発行要求のブール値とし,プレ フィクス・サム論理は入力の値を算術的に加える.もし (*i* – 1) 番目の出力値が発行幅より

Vol.2011-ARC-196 No.17 2011/7/28

#### 情報処理学会研究報告 IPSJ SIG Technical Report



小さく,そして*i*番目の発行要求が真の場合,要求は許可される.図5に,発行許可信号を 出力する回路を示す.図に示されている加算器の入出力のエンコーディングには,後に述べ るワンホット・エンコーディングを使用している.図のgrant*i*<sub>u</sub>信号は,タグRAMの*i*番 目のエントリの*u*番目のワード線につながっている.

遅延を短くするための新しい加算器の回路が,五島によって提案されている<sup>11</sup>). 例えば, *IW* = 4 のセレクト論理において,加算器の入出力の値は,次の5つの値で十分である: "0","1","2","3","≥4". そこで五島は,入出力を表1に示すように4ビットでワン

| <b>支1</b> / | W   | = 4 の場台 | の加算器の    | 人出  | 力のた   | めのワ   | ンホッ   | ト・エ    | ショー  | アイン | 15 |
|-------------|-----|---------|----------|-----|-------|-------|-------|--------|------|-----|----|
| Tabl        | е 1 | One-hot | encoding | for | adder | input | and a | output | (IW) | = 4 |    |

|          | 0    |      | -    |      | * ``     |  |
|----------|------|------|------|------|----------|--|
| value    | 0    | 1    | 2    | 3    | $\geq 4$ |  |
| encoding | 1000 | 0100 | 0010 | 0001 | 0000     |  |



Fig. 6 Adder for selection logic (IW = 4).

ホット・エンコーディングし,図6に示す加算器を提案した.加算器は、4ビットの入力*a*と入力*b*を加え、和*c*を出力する.直感的に分かるように、この加算器は従来の加算器より 高速である.本研究でもこの加算器を用いた.

#### 3.3 タグ RAM

タグ RAM はアドレス・デコーダのない SRAM からなる. *IW* 個のポートを持ち, 1 エ ントリにつき, セレクト論理からの *IW* 本の許可信号が, *IW* 本のワード線に直接接続さ れる. モノリシック構成では, アサートされたワード線に接続されたセルが保持する最大 *IW* 個のデスティネーション・タグがビット線に出力され, センスアンプで増幅され, 出力 される.

タグ RAM は、通常の RAM と同様、バンク化によってアクセス時間を減少させることが 可能である。しかし、タグ RAM の場合、アクセスはアドレスによってなされないため、バ ンク化は単純ではない (通常の RAM では、バンクの選択はアドレス・ビットの一部を使っ て行われる). 図 7((a) は概要、(b) は詳細) に、j エントリのバンクで IW = 4の場合のタ グ RAM の構成を示す。バンクの出力  $tx_0$ - $tx_3$  を有効にするゲーティング論理を追加して











図 7 バンク化されたタグ RAM の構成 Fig. 7 Organization of banked tag RAM.

いる.ゲーティング論理の中のイネーブル論理は,発行キューの最初のエントリから対応す るバンクの最後のエントリまでの発行要求の数と,1つ前のバンクの最後のエントリまでの

表 2 イネーブル論理の真理値表 Table 2 Truth table of enabling logic.

| prev sum        | sum             | enable          |  |  |
|-----------------|-----------------|-----------------|--|--|
| c0-c3           | c0–c3           | en0–en3         |  |  |
| 1000            | $1 \ 0 \ 0 \ 0$ | 0000            |  |  |
| $1 \ 0 \ 0 \ 0$ | 0100            | $1 \ 0 \ 0 \ 0$ |  |  |
| $1 \ 0 \ 0 \ 0$ | 0010            | $1 \ 1 \ 0 \ 0$ |  |  |
| $1 \ 0 \ 0 \ 0$ | 0001            | $1\ 1\ 1\ 0$    |  |  |
| $1 \ 0 \ 0 \ 0$ | 0000            | 1111            |  |  |
| 0 1 0 0         | 0100            | 0000            |  |  |
| $0\ 1\ 0\ 0$    | 0010            | $0\ 1\ 0\ 0$    |  |  |
| $0\ 1\ 0\ 0$    | 0001            | 0110            |  |  |
| $0\ 1\ 0\ 0$    | 0000            | $0\ 1\ 1\ 1$    |  |  |
| 0010            | 0010            | 0000            |  |  |
| $0 \ 0 \ 1 \ 0$ | 0001            | $0\ 0\ 1\ 0$    |  |  |
| $0 \ 0 \ 1 \ 0$ | 0000            | $0\ 0\ 1\ 1$    |  |  |
| 0 0 0 1         | $0 \ 0 \ 0 \ 1$ | 0000            |  |  |
| $0 \ 0 \ 0 \ 1$ | 0000            | $0 \ 0 \ 0 \ 1$ |  |  |
| 0000            | 0000            | 0000            |  |  |
|                 |                 |                 |  |  |

発行要求の数を観測することにより、バンクのどのポートを有効とすべきかを特定する。例 えば、j = 8で、 $\sum_{i=0}^{7}$  requesti = 1、 $\sum_{i=0}^{15}$  requesti = 3のとき、 $tx_1$ と $tx_2$ の出力を許 可する。表 2 に、イネーブル論理の真理値表を示す。ここで、c0-c3はプレフィクス・サ ムの最後の加算器の出力である。前述の例は、真理値表の 2 番目のセクションの 3 行目の 場合である。通常の RAM のバンク化と違い、この方法によるタグ RAM のアクセスには、 潜在的に 2 つのクリティカル・パスが考えられることに注意されたい。1 つは、発行許可信 号がバンク化された RAM を通ってタグを出力するまでのパスであり、もう 1 つは、発行 要求の和信号がゲーティング論理を通ってタグを出力するまでのパスである。

3.4 レイアウト

図 8 に、仮定したウェイクアップ論理、セレクト論理、タグ RAM の配置を示す. 各部 品内のレイアウトは、MOSIS のデザイン・ルール<sup>5)</sup> を仮定し、マニュアルで作成した. そ の結果、各部品の1エントリの高さはほぼ等しくなったので(*IW* = 4 の場合、セレクト論 理、タグ RAM のウェイクアップ論理に対する高さの割合はそれぞれ 0.98 と 1.00)、本研 究では、それらのうち最も大きな値を発行キューのエントリの高さとした. このため、発行 要求と許可信号の線は曲がることなく、水平に配置される. 情報処理学会研究報告 IPSJ SIG Technical Report



図 8 ウェイクアップ論理, セレクト論理, タグ RAM のレイアウト Fig. 8 Layout of wakeup logic, selection logic, and tag RAM.



図 **9** 各部品のクリティカル・パスを単純につなげたパス Fig. 9 Path simply connectiong the critical path of each component

## 4. 正しいクリティカルパス

それぞれの部品のクリティカル・パスを単純につないだパスは, 論理的にはつながってい ない. 例えば, 図9に示すように, タグRAMの出力とウェイクアップ論理のタグ・ドラ イバが最後のエントリで接続される配置を考える. 図のマーク (1)から発し, (2)~(5)と通 り, (1)に帰る信号を考える. この場合, 信号はタグRAMのクリティカル・パスの一部で ある (6)~(5)を通らない.

正しいクリティカル・パスは、図10に示すように2つ考えられる.1つは、タグRAM とウェイクアップ論理のタグ・ドライブの出力が最後のエントリでつながっている場合であ り、これを構成Aと呼ぶこととする.もう1つは反対に、最初のエントリでつながってい る場合であり、これを構成Bと呼ぶこととする.構成Aでは、パスはセレクト論理のn番 目のエントリで折り返している.一方、構成Bでは、ウェイクアップ論理のm番目のエン



Fig. 10 Possibly correct critical paths.

トリで折り返している.本研究では,最初に構成Aと構成Bそれぞれの最も遅延の長いパスを見つける.そして2つのパスの遅延時間を比較し,遅延時間の短い方のパスを持つ構成 をより良い構成とし,そのパスをクリティカル・パスと決定する.

## 5.評価

32nmのLSI技術を仮定した.また,SPICEのトランジスタ・モデルとして,アリゾナ州 立大学のNanoscale Integration and Modeling group による予測モデルである predictive transistor model (PTM)を用いた<sup>4),10)</sup>.単位長さあたりの配線抵抗と配線容量は,ITRS によって予測されたものを使用した<sup>6)</sup>.また,遅延を減少させるため,長い配線にはリピー タを挿入した.リピータの挿入間隔は,実験により最適化した.

## 5.1 ウェイクアップ論理の遅延

図 11 に、様々な発行キュー・サイズでのウェイクアップ論理の遅延の測定結果を示す. 各棒グラフは、タグ・ドライブ、タグ・マッチ(タグの比較)、OR(比較結果の OR)、レ ディ(レディ・フラグを保持する SR ラッチへの書き込み)、AND(2 つの OR の AND) の遅延で分けられている。図に示すように、小さなキューではタグ・マッチとレディが遅延 の多くを占めている。しかし、発行キュー・サイズが大きくなると、タグ・ドライブの遅延

6

bitline

64

128

## 情報処理学会研究報告 **IPSJ SIG Technical Report**





Fig. 13 Tag RAM delay for various bank sizes.

図 14 最適にバンク化されたタグ RAM の遅延 Fig. 14 Delay of tag RAM with best bank configuration.

が大幅に増えている.

## 5.2 セレクト論理の遅延

図12に、様々な発行キュー・サイズでのセレクト論理の遅延の測定結果を示す。各棒グ ラフは、加算器の遅延の和、配線遅延の和、発行要求信号とプレフィクス・サムの出力の AND の遅延に分けられている.図に示すように、加算器のゲート遅延が支配的である.遅 延は、3.2節で述べたように、クリティカル・パス上の加算器の数が log。IQS で増えるの で, 遅延も O(log<sub>2</sub> IQS) で増加している.

## **5.3** タグ **RAM** の遅延

図 13 に、様々な発行キュー・サイズとバンク・サイズでのタグ RAM の遅延の評価結果 を示す.ここで,バンク・サイズが発行キュー・サイズ (IQS) が等しい点では,バンク化 は行われていないことを注意しておく.図からわかるように、小さなキュー (IQS ≤ 16) で は、ビット線が短く、また、ビット線につながっている RAM のセルの数が少ないので、バ ンク化は効果的ではない. これに対して, 大きなキューでは, 逆の理由でバンク化は効果的 である.3.3 節で述べたように、バンク化されたタグ RAM には2つのクリティカル・パス が考えられる.実験の結果、32 エントリの場合ではゲーティング論理を通ったパスの方が 長く, 64 エントリと 128 エントリの場合ではバンク化された RAM を通る方のパスが長い ことが分かった.

図 14 に、最適にバンク化された場合の様々な発行キュー・サイズにおけるタグ RAM の 遅延を示す.バンク化されていないタグ RAM の棒グラフは、ビット線とセンスアンプの遅 延の和と、ワード線の遅延に分けられている、バンク化されているタグ RAM の棒グラフ

は、バンクの遅延と、グローバルなビット線の遅延に分けられている. IQS < 16 の時はタ グ RAM はバンク化はされておらず, IQS > 32 の時はバンク化が行われていることに注意 されたい. 図からわかるように、小さなキューではビット線の遅延が支配的である (ワード 線の遅延は図では見えないくらい小さい).対して大きなキューでは、サイズが大きくなる ほどバンクの遅延が支配的であるが、グローバル・ビット線の遅延も大きい.

#### 5.4 クリティカルパス

クリティカル・パスを見つけるために、4節で述べたように、2つのパスについて n と m を変化させて遅延を測定した.図15に、例として、128 エントリの発行キューにおいて n と m を変化させた時の部品の遅延の測定結果を示す.構成 A のグラフでは、セレクト論理 とタグ RAM の遅延, 及びそれらの合計を示している. ここで, ウェイクアップ論理の遅延 はnに関わらず一定なので示していない.構成Bのグラフでは、ウェイクアップ論理とセ レクト論理の遅延,及びそれらの合計を示している.タグRAMの遅延は m に関わらず一 定なので示していない.

構成 A では、セレクト論理の遅延が O(log, n) で増加している. これは、信号が通るパ ス上の加算器の数がこの割合で増加しているからである.他方で,タグ RAM の遅延は比 較的一定である (タグ RAM の遅延における不連続な降下は,信号がどのバンクを通過する) かによって生じていている.小さなエントリ番号に対応するバンクを通る信号は、グローバ ル・ビット線を完全に通過しなければならないが、大きなエントリに対応するバンクを通る 信号の方は、一部を通過するのみである). この構成で最も遅いパスは、n = 43 で折り返す

## 情報処理学会研究報告 IPSJ SIG Technical Report





パスであった.

構成 B では、ウェイクアップ論理の遅延は m の増加によってゆるやかに増加する (遅延 の不連続な上昇は、タグ線に挿入されているリピータによって引き起こされているものであ る.評価したパスは、 $n \leq 63$  では、リピータを通らない). これに対して、セレクト論理の 遅延はほとんど一定である. これは、最後のエントリからの出力への加算器の数は m を変 化させても一定であるからである (図 4 参照). グラフの小さな傾きは、配線遅延によるも のである. この構成で最も遅いパスは、m = 127 で折り返すパスであった.

構成 A と B の最も遅いパスを比較すると,遅延が小さいのは構成 A のパスである.よって,構成 A がより良い構成であり,求められたパスがクリティカル・パスである.

表3に、構成AとBにおいて最も遅いパスの遅延を,nとmの値とともに示す.構成AとBにおける最も遅いパスの遅延は,(特に小さなキューで)ほぼ等しいが、構成Aの方がわずかに短い.

図 16 に、様々なサイズの発行キューに対して異なる 3 つの最適化レベルにおける発行 キューの遅延をまとめる.最適化レベルのうち、simple レベルでは、タグ RAM のバンク 化を行わず、発行キュー全体の遅延を、各部品のクリティカル・パスの遅延を加えて得る. not-banked レベルでは、タグ RAM を必要に応じてバンク化するが、正しいクリティカル・ パスを測定する.optimized レベルは、タグ RAM を必要に応じてバンク化し、正しいクリ ティカル・パスを測定する.各棒グラフは、ウェイクアップ論理、セレクト論理、タグ RAM、

|         | 表 3  | 構成 A     | とB    | において    | 最も遅い     | パスの遅延     | E |       |
|---------|------|----------|-------|---------|----------|-----------|---|-------|
| Table 3 | Dela | y of slo | owest | paths i | n comfig | gurations | Α | and B |

| 発行キュー |    | 構成 A       | 構成 B |            |  |
|-------|----|------------|------|------------|--|
| サイズ   | n  | delay [ps] | m    | delay [ps] |  |
| 8     | 7  | 247        | 7    | 247        |  |
| 16    | 15 | 276        | 15   | 277        |  |
| 32    | 31 | 309        | 28   | 319        |  |
| 64    | 63 | 349        | 61   | 369        |  |
| 128   | 43 | 430        | 127  | 464        |  |



図 16 設計の最適化レベルに対する発行キューの全体の遅延 Fig. 16 Total delay of issue queue with design optimizations.

connection の遅延に分けられている. connection はウェイクアップ論理とセレクト論理と タグ RAM をつなぐ配線遅延の合計である. 図に示すように,最適化レベルを optimized に することにより,発行キュー・サイズが大きくなるほど,発行キューの遅延をより多く減少 させることができることがわかる. not-banked レベル, simple レベルと比較すると, 128 エントリのキューの場合,それぞれ, 13%と 20%と大きく減少させることができた.

#### 6. ま と め

本論文では発行キューのタグ RAM をバンク化し,正しいクリティカル・パスを求めたう えで,様々なサイズの発行キューについての遅延時間を示した.これらの最適化を行ったこ とにより,我々の調査したサイズにおいては,最適化を行わない場合に比べて,最大 20%遅 延を削減することができた.

#### 謝辞

本研究の一部は、日本学術振興会 科学研究費補助金基盤研究 (C)(課題番号 22500045) による補助のもとで行われた.また、本研究は東京大学大規模集積システム設計教育研究セ ンターを通し、シノプシス株式会社の協力で行われたものである.

## 参考文献

- Goshima, M., Nishino, K., Nakashima, Y., Mori, S., Kitamura, T. and Tomita, S.: A high-speed dynamic instruction scheduling scheme for superscalar processors, *Proceedings of the 34th Annual International Symposium on Microarchitecture*, pp. 225–236 (2001).
- 2) Gwennap, L.: AMD Bulldozer plows new ground, Microprocessor Report (2010).
- 3) Gwennap, L.: Sandy Bridge spans generations, *Microprocessor Report* (2010).
- 4) http://www.eas.asu.edu/~ptm/: .
- 5) http://www.mosis.com/: .
- 6) International Technology Roadmap for Semiconductors: (2010 update (http://www.itrs.net/)).
- Palacharla, S., Jouppi, N.P. and Smith, J.E.: Quantifying the complexity of superscalar processors, Technical report, CS-TR-1996-1328, University Wisconsin (1996).
- Palacharla, S., Jouppi, N.P. and Smith, J.E.: Complexity-effective superscalar processors, *Proceedings of the 24th Annual International Symposium on Computer Architecture*, pp.206–218 (1997).
- 9) Sassone, P.G., J.Rupley, I., Brekelbaum, E., Loh, G.H. and Black, B.: Matrix scheduler reloaded, *Proceedings of the 34th Annual International Symposium on Computer Architecture*, pp.335–346 (2007).
- 10) Zhao, W. and Cao, Y.: New generation of predictive technology model for sub-45nm design exploration, *Proceedings of the 7th International Symposium on Quality Electronic Design*, pp.585–590 (2006).
- 五島正裕: Out-of-Order ILP プロセッサにおける命令スケジューリングの高速化の研究,京都大学,博士論文 (2004).
- 12) 甲良祐也, 安藤秀樹: 命令発行キューの遅延時間評価, 2010 年先進的計算基盤システ

ムシンポジウム SACSIS 2010, pp.45-52 (2010).