# 命令発行キューの遅延時間評価

## 甲 良 祐 $\mathbf{U}^{\dagger 1}$ 安 藤 秀 樹<sup> $\dagger 1$ </sup>

アウト・オブ・オーダ実行により、メモリ・ウォール問題を解決するためには、in-flight 命令を大幅に増加させる必要がある.そのためには種々の資源サイズを増大させる必 要があり、その一つに発行キューがある.しかし、発行キューのサイズを増加させる とクロック周波数を低下させてしまう.これに対して我々は, IPC の低下を抑制しつ つ,発行キューのパイプライン化によるクリティカル・パスの分割を行いクロック周 波数の低下を防ぐ方式を検討している.この手法を定量的に評価するためには,種々 のエントリ数を持つ発行キューの遅延時間を知り,与えられたクロック周波数で,何 段にパイプライン化しなければならないかを知らなければならない、そこで、本論文 では,発行キューの遅延時間を回路シミュレータ HSPICE を用いて評価した.評価 においては,これまで行われた遅延評価と異なり,遅延に大きく影響を与える長いグ ローバル配線に,適切にリピータを挿入し,配線遅延の削減を行っている.評価の結 果,大きなサイズの発行キューでは,配線遅延が支配的であるが,例えば,発行幅8 の発行キューのタグ・ドライブ遅延の増加率は、リピータがない場合、ウィンドウ・ サイズ WS(> 64) に対し, O(WS<sup>1.8</sup>) のところ, 挿入すれば, O(WS<sup>1.2</sup>) に抑えら れることがわかった.また,発行キューのクリティカル・パスをなすウェイクアップ 論理, セレクト論理, タグ RAM の遅延はほぼ等しく, 全遅延は, ウィンドウ・サイ ズに対し, O(WS<sup>0.9</sup>), つまり, ほぼ比例して増加することがわかった.

# **Evaluation of Issue Queue Delay**

# Yuya Kora<sup> $\dagger 1$ </sup> and Hideki Ando<sup> $\dagger 1$ </sup>

The number of in-flight instructions is required to be increased significantly to solve the memory-wall problem by using out-of-order execution. To implement this, it is necessary for the size of various resources to be increased. One of such resources is the issue queue. However, if increasing the issue queue size degrades the clock rate. To solve this problem, we are studying a scheme that divides the critical path of the issue queue by pipelining, while suppressing the deterioration of IPC. To evaluate this scheme quantitatively, we must know the delay of the issue queue with the various number of entries, and determine that we should find what number of the stages we must pipeline the issue queue into for a given clock rate. This paper evaluates the delay of the issue queue using the circuit simulator, HSPICE. Unlike previous studies, to reduce the delay of the long global wires, which affects the delay significantly, we appropriately insert repeaters into them. Our evaluation results show that the wire delay is dominant in a large issue queue. However, for an example, the rate of the increase of the tag drive delay in the 4-issue queue is suppressed with  $O(WS^{1.2})$ by inserting the repeaters, while  $O(WS^{1.8})$  without the repeaters, where the window size, WS, is more than or equal to 64. We also found that the delays of the wakeup logic, selection logic, and tag RAM, which compose the critical path of the issue queue, are approximately identical, and the total delay grows with  $O(WS^{0.9})$ , which means that the delay grows approximately lineally.

## 1. はじめに

プロセッサとメモリの間の速度差は非常に大きく,一般に,メモリ・ウォールと呼ばれて いる.メモリ・ウォールは,メモリ・インテンシブなプログラムの性能を著しく制限してい る.積極的なアウト・オブ・オーダ実行は,この問題を解決する1手法である<sup>1)</sup>.これは, メモリ・レベル並列性 (MLP: memory-level parallelism) を利用し,1メモリ・アクセス当 たりの実効的なペナルティを減少させようとするものである.

アウト・オブ・オーダ実行でメモリ・ウォール問題を解決するには,プロセッサがサポートする in-flight 命令を,現在の商用プロセッサで実現されているその数より大幅に増加させる必要がある.このために重要なハードウェアとしては、リオーダ・バッファ,発行キュー,レジスタ・ファイルがある.しかし、これらのサイズを増加させると,一般には,クロック・サイクル時間を悪化させるという問題がある.本研究では,発行キューに焦点を当てる.

動作時間が長くクロック速度に悪影響を与える論理において,その悪影響を除く一般的手法としてパイプライン化がある.発行キューをパイプライン化することは回路的には可能であるが,一方で,最適な命令スケジューリングが行えず,IPCが低下し,必ずしも得策ではない.IPCが低下する理由は,発行された命令の結果タグは直後のサイクルに発行キューに放送され,依存する命令を発行させなければ,互いに依存のある命令を連続したサイクルで発行できないためである.

これに対して,我々はこれまで,命令の発行タイミングを予測することにより,パイプラン化された発行動作を早期に開始させる手法を提案した<sup>10)</sup>.この手法を定量的に評価する

<sup>†1</sup> 名古屋大学大学院工学研究科

Graduate School of Engineering, Nagoya University

IPSJ SIG Technical Report

には,種々のエントリ数を持つ発行キューの遅延時間を知り,何段にパイプライン化しなければならないかを知らなければならない.そこで,本論文では,発行キューの遅延時間を回路シミュレータ HSPICE を用いて評価することを目的とする.

本論文では,まず,2節では関連研究について述べる.3節では発行キューの回路構成に ついて説明する.4節では長い配線の遅延縮小方法について述べる。5節で評価結果を示し, 6節でまとめる.

## 2. 関連研究

発行キューの構造に関する研究は多く存在するが(例えば,文献 5)),それが回路にまで 及ぶ研究はそれほど多くない.以下,回路に着目した研究について述べる.

2.1 ウェイクアップ論理

Palacharla らは,プロセッサを構成する種々の部品の遅延測定を行った<sup>6)</sup>.その結果,将 来に向けて拡大が望まれる発行キューの遅延が,プロセッサの部品の中で最もクリティカル なものとなることを示した.彼らは,ウェイクアップ論理を構成する回路として,最も基 本的な CAM で構成した場合について測定を行い,大きなサイズの発行キューにおいては, タグをドライブする遅延が最も問題となることを示した.タグ・ドライブ遅延は配線遅延に よって支配されるから,それはウィンドウ・サイズの2乗で増加するとした.しかし,彼ら は配線遅延を短縮するために通常行われるリピータの挿入を行っておらず,配線遅延は過大 評価されている.

五島らは、CAM ではなく RAM によりウェイクアップ論理を構成する手法を提案した<sup>3)</sup>. 彼らは、この RAM のことを依存行列と呼んでいる.依存行列の各行,各列は,発行キュー 内の命令に対応し,各セルは,行に対応する命令が列に対応する命令に依存している場合, 1 がセットされる.命令が発行されると、対応する列のワード線がアサートされ,その結果、 接続されているセルの内容が行ビット線に読み出さる.セルに1が格納されていた行では、 レディ・ビットがセットされる.ウェイクアップ論理を RAM で構成することにより、従来 の CAM の場合と異なり,比較器が不要になる.また、1 エントリ当たりのサイズが小さく なり,信号を放送するグローバル配線長を短くすることができる.このため,配線遅延が大 きな問題となる大きな発行キューにおいて,遅延を大幅に短縮できる.

Sassone らは, 五島らの提案した依存行列のサイズを縮小する方法を提案した<sup>7)</sup>.この手法では, 一般に依存行列が疎であることに着目し, 列を命令に動的に割り当て, 列数を減少させた.

### 2.2 セレクト論理

Palacharla らは調停回路を用いて,発行要求を出力している命令の中から,最も優先度 の高い命令を選択する回路を構成し,遅延評価を行った<sup>6)</sup>.一般に,多くの要求を一度に調 停するのは大きな遅延を要するため,Palacharla らは,4命令の中から最も優先度の高い 命令を選択する小さな調停器を直列に接続することにより,多くの要求を調停する回路を示 した.この調停回路は,全要求の中から1つだけを許可するものであるが,優先度を考慮し 複数の許可を出すよう拡張するには,当該調停回路を直列接続する必要があり,非常に遅延 が大きくなるという欠点がある.

五島は,プレフィクス・サムによるセレクト論理を提案した<sup>11)</sup>.この手法は,各命令よ り優先度の高い命令で発行要求を行っているものの数を加算器で数えるものである.その数 が命令発行幅より少なければ,当該命令の発行要求は許可される.この方式は,上述した調 停回路による方式と異なり,複数の要求に許可を出す場合においても,遅延増加が少ない. 欠点は加算器の遅延が大きいことにあるが,五島は,加算器の入出力のエンコードを工夫す ることによりこの問題を緩和した.

Sassone らは, RAM によるセレクト論理を提案した<sup>7)</sup>. 各行, 各列は, 発行キュー内の 命令に対応し, 各セルは, 行に対応する命令より列に対応する命令の方が優先度が高い場 合, 1 がセットされる. 発行要求が出されると, 対応する列のワード線をアサートされる. 接続されているセルが1を保持しているなら, その行の発行要求が(出されているなら)ネ ゲートされる. 彼らは, さらに命令をグルーピングし, セルを共有することにより RAM を 小さくすることも提案した. この方式は, 基本的に, ウィンドウ・サイズの2乗で RAM が 大きくなるという欠点があるものの, RAM で構成されるため, 遅延は小さく抑えられる. また, 要求許可の数によって遅延が増加することもない.

3. 発行キューの構成

発行キューはフェッチした命令を保持し、その中から発行する命令を選択する論理である. 発行キューは図1に示すようにウェイクアップ論理、セレクト論理、タグRAM、ペイロー ドRAMからなる.ウェイクアップ論理の各エントリは、対応する命令の2つのソース・オ ペランドのタグとデータ依存の状態(解決か未解決か)を示すレディ・フラグを保持する.両 方のデータ依存が解決した場合、セレクト論理に発行要求を出す.セレクト論理では、資源 競合を考慮し、発行許可を出す.発行許可を受け、ペイロードRAMから対応する命令の情 報が出力され、発行が完了する.発行許可信号は同時に、タグRAMにも出力され、発行さ

IPSJ SIG Technical Report





図 2 発行キューの配置

れる命令のデスティネーション・タグを得る.これをウェイクアップ論理の全エントリに放送し,レディ・フラグを更新する.

発行キューのクリティカル・ループは,ウェイクアップ論理 セレクト論理 タグ RAM を経てウェイクアップ論理に戻るパスである.本論文では,このクリティカル・ループの遅 延を測定する.

本論文で仮定した,ウェイクアップ論理,セレクト論理,タグ RAM の全体配置を図2に 示す.

2節で述べたように,発行キューを構成するウェイクアップ論理とセレクト論理を実現す る回路には種々のものがある.1節で述べたように,本研究は,発行キューのパイプライン 化の研究のために発行キューの遅延を測定するものである.この目的の下では,発行キュー を実現する回路は基本的なものが適当である.そこで,ウェイクアップ論理には CAM を用 いた回路を採用する.セレクト論理には,基本的な回路であることに加え,調停する機能ユ ニットの数によって遅延が大きく延びることがないプレフィクス・サム回路を採用する.

3.1 ウェイクアップ論理

図3に, CAMによるウェイクアップ論理の回路構成を示す. タグRAMから読み出され



た *IW* 個のデスティネーション・タグは,タグ・ドライバにより,ウェイクアップ論理の *WS* 個の全エントリに放送される.ここで,*IW* は命令発行幅,*WS* はウィンドウ・サイズ である.各エントリは,2つのソース・オペランド・タグ(図のソース・タグ L とソース・ タグ R)を保持しており,放送された各デスティネーション・タグとの比較が行われる.-致するものがあれば,対応するレディ・フラグ(レディL またはレディR)がセットされる. 2つのレディ・フラグがともにセットされれば,発行要求が出される.

タグ比較を行う CAM の 1 セル (1 ビットの比較を行う)の回路を,図4 に示す.ウェイ クアップ論理1エントリの CAM は,同図の回路をタグ・ビット幅ほど横に接続したもの である.図4の中央上部の SRAM に,レディ・フラグを保持する.横に貫かれた赤い線は, 一致の論理値を出力するマッチ線であり,左右にある直列接続のトランジスタは,レディ・ ビットとタグの比較結果に応じてマッチ線をディスチャージするプルダウン・トランジスタ である.

次のように動作する.まず,マッチ線をプリチャージした後,タグをドライブする.タグ とレディ・ビットが1ビットでも不一致なら,直列接続されたプルダウン・トランジスタ によって,マッチ線がディスチャージされ,L(つまり不一致)を出力する.もし全てのビッ トが一致するなら,マッチ線はチャージ・アップされたままであり,H(つまり一致)を出力 する.

CAM1 セルのレイアウトを図 5 に示す.トランジスタの配置は,図4 に示した回路図と 同じである.タグ線は,トランジスタ領域の外側に配置する.RAM への書き込みビット線

**IPSJ SIG Technical Report** 



も外側に配置する (図では省略している).これらは,中間層メタルを仮定した.幾何的パラメータを表1に示す. $w_{ram}$ , $h_{ram}$ の値は,文献9)から得た. $w_{mpitch}$ の値は,LSIプロセスにおける典型的な値であり,文献8)に記載されている. $h_{comp}$ の値は,実際にレイアウトして求めた.なお, $\lambda$ は,LSIプロセスにおける最小加工寸法の1/2の値である.

**3.1.1** タグ・ドライブ回路

図6に,シミュレーションしたタグ・ドライブの等価回路を示す.ウェイクアップ論理の

| 表 1 CAM1 セルの幾何的パラメータ |              |             |  |  |  |
|----------------------|--------------|-------------|--|--|--|
| RAM セルの横幅            | $w_{ram}$    | $20\lambda$ |  |  |  |
| タグ線 , 書き込みビット線のピッチ   | $w_{mpitch}$ | $7\lambda$  |  |  |  |
| RAM セルの高さ            | $h_{ram}$    | $40\lambda$ |  |  |  |
| プルダウン・トランジスタの高さ      | $h_{comp}$   | $16\lambda$ |  |  |  |



上端にドライバ (1 つのインバータ) を配置し,縦断するタグ線をドライブする.タグ線の 等価回路は,ウェイクアップ論理1エントリにつき,配線抵抗 $R_{td}$ ,配線容量 $C_{td}$ ,CAM のプルダウン・トランジスタのゲート容量 $C_{gcam}$ で構成されるものであり,それを直列に 接続した回路とした.

発行キュー1エントリ当たりの配線長は,図5に示す CAM セルの高さである.すなわち,

 $h_{ram} + h_{comp} \times IW$ 

である.

3.1.2 タグ・マッチ回路

図 7 に,シミュレーションしたタグ・マッチの等価回路を示す.マッチ線の等価回路は, CAM1 セルにつき,配線抵抗  $R_{tm}$ ,配線容量  $C_{tm}$ ,CAM の 2 つのプルダウン・トラン ジスタのドレイン容量  $C_{dcam}$ , $C_{dcamb}$ で構成されるものであり,それをタグのビット数  $PREG_{width}$ だけ直列に接続した回路とした.

CAM1 セル当たりの配線長は,図5に示す CAM セルの幅である.すなわち,

 $w_{ram} + 4 \times w_{mpitch} \times IW$ 

**IPSJ SIG Technical Report** 





## である.

3.1.3 マッチ OR 回路

図 8 に IW = 4.8の場合のシミュレーションしたマッチ OR 回路を示す、高速化のた めにファン・インは 4 つまでに制限し,  $IW \leq 4$  では同図 (a) に示すように, 1 つの NOR ゲートとインバータで構成し, $5 \le IW \le 8$ では(b)に示すように,NOR ゲートを2段に 接続して構成した.

3.1.4 レディAND 回路

2 つのレディ・フラグの AND をとるレディ AND 回路は,2 入力 NAND の出力にイン バータを接続した回路とした。

## 3.2 セレクト論理

3節の最初で述べたように,セレクト論理はプレフィクス・サム回路で構成した.一般に, プレフィクス・サムとは,長さ N の配列があり,1 番目の要素の値から i (1 < i < N)番 目の要素の値の和をi番目の出力とするものである.これをセレクト論理に用いる場合,配 列の各要素の値を発行要求のブール値とし,プレフィクス・サムの値が発行幅以下である位 置に対応する発行要求を許可とすればよい.

図9に,配列の要素数が16の場合のプレフィクス・サムの回路を示す<sup>11)</sup>.長方形は加算 器,三角はドライバである.この回路では,プレフィクス・サムの論理を直接的に実現する。



| ŧ | 2 疑似ワ | <u>疑似ワンホット・エンコーディン</u> グ |    |    |    |  |  |  |
|---|-------|--------------------------|----|----|----|--|--|--|
|   |       | a0                       | a1 | a2 | a3 |  |  |  |
|   | 0     | 1                        | 0  | 0  | 0  |  |  |  |
|   | 1     | 0                        | 1  | 0  | 0  |  |  |  |
|   | 2     | 0                        | 0  | 1  | 0  |  |  |  |
|   | 3     | 0                        | 0  | 0  | 1  |  |  |  |
|   | 4 以上  | 0                        | 0  | 0  | 0  |  |  |  |

回路を基に,各加算器のファンアウトが2以下になるように,加算器が追加配置されている. この回路をセレクト回路に用いる場合,使用する加算器の入出力値は,たとえば,IW = 4の場合「0」、「1」、「2」、「3」、「4以上」の5値で扱えれば良い.五島は,この加算器を 通常の加算器ではなく,入出力値を4ビットの疑似ワンホット・エンコーディングし(表2) 参照),回路をドミノ論理で構成した加算器を提案した<sup>11)</sup>.図 10 に回路図を示す.4ビッ トのaとbを加え, 4ビットの和cを出力する回路である.

同図から容易にわかるように,この回路は通常の加算器に比べ,高速である.本測定にお いても,この回路を用いる.

図 11 に , WS = 8 の場合のセレクト論理のレイアウトを示す. 入力から出力の経路を途 中で2つに折り曲げてレイアウトしている.ウェイクアップ論理と高さを合わせて配置する

**IPSJ SIG Technical Report** 



図 10 プレフィクス・サムで用いる加算器



図 11 セレクト論理のレイアウト

ものとする.クリティカル・パスは,図中赤で示した経路であり,最も若い命令の発行要求 から最も古い命令の発行許可を出力するまでである.配線は,横方向には短く,配線容量/ 抵抗を無視するとしたが,縦方向には長く,これらを考慮した.HSPICEのネットリスト としては,ウェイクアップ論理1エントリ分を縦断する毎に配線容量/抵抗を付加した.



3.3 タグ RAM

タグ RAM はアドレス・デコーダのない SRAM で構成される.セレクト論理からの発行 許可信号がワード線に結合され,セルに格納されたタグがビット線に出力され,センスアン プで増幅され読み出される.

タグ RAM の回路を図 12 に示す (セルは 1 ビットのみ示している).書き込みに関する 回路は,図が繁雑になるため省略している.

同図に示したセルと図 4 示した CAM セルを比較すればわかるように,タグ線をビット 線に置き換えれば,これらの回路は等価である.よって,タグ RAM のセルの幾何的サイズ は CAM セルと同一とした.

3.3.1 ワード線

図 13 に,シミュレーションしたワード線とそのドライバの等価回路を示す.タグ RAM の右端にドライバを配置し,横断するワード線をドライブする.ワード線の等価回路は,タ グ RAM1 セルにつき,配線抵抗 R<sub>wd</sub>,配線容量 C<sub>wd</sub>,読み出しのアクセス・トランジスタ のゲート容量 C<sub>aacc</sub> および C<sub>aaccb</sub> で構成されるものであり,それを直列に接続した回路と



IPSJ SIG Technical Report











した.

3.3.2 ビット 線

図 14 に,シミュレーションしたビット線とセルのプルダウン・トランジスタからなる等 価回路を示す.ビット線の等価回路は,タグ RAM1 セルにつき,配線抵抗  $R_{bt}$ ,配線容量  $C_{bt}$ ,読み出しのアクセス・トランジスタのドレイン容量  $C_{dpd}$  で構成されるものであり,そ れを直列に接続した回路とした.

3.3.3 センスアンプ

センスアンプの回路図を図15に示す.作動アンプを直列につないだ構成とした.

4. 長い配線の遅延縮小

配線は,配線抵抗と配線容量の積からなる時定数で遅延の下限が与えられる.配線抵抗と 配線容量は,配線長に比例するので,時定数は配線の長さの2乗に比例して長くなる.この

7

ため, 配線が長くなると, 遅延は非常に長くなる.この遅延を短くするには, 配線の途中に 適宜リピータを挿入することが有効である.

配線には,静的回路によって駆動される静的配線と,プリチャージとプルダウンによって 値が定まる動的配線がある.リピータ回路は,それぞれにおいて適切な回路が必要である. 本測定においては,リピータとして,静的配線には静的なインバータを,動的配線には図16 に示す動的なバッファを使用した.

リピータの挿入位置は,次のようにして求めた.配線をn(=1,2,4,...)等分し,リピータを挿入し,部品全体の遅延時間を測定する.配線遅延は,nに対してだた1つの極小値を持つので(A.1節参照),nを1より順に大きくして測定し,極小となるnを求めた.

IPSJ SIG Technical Report





## 5.評価

種々のウィンドウ・サイズに対し, IW = 4,8の場合の発行キューの遅延を, HSPICEを用いたシミュレーションにより評価した.タグのビット幅は,8に固定した.通常,タグはレジスタ・ファイルのアドレスで与えられるので,256エントリのレジスタ・ファイルを仮定していることになる.

LSIテクノロジは 32nm を仮定した.HSPICEのトランジスタ・モデルとしては,Arizona State University の Nanoscale Integration and Modeling (NIMO) グループによる予測モデル (PTM: predictive transistor model)<sup>4)</sup> を用いた.長い配線には,中間層メタルが使わ れると仮定した.その単位長さ当たりの配線抵抗と配線容量の値は,ITRS により予測され たものを用い,それぞれ,11.2 $\Omega/\mu$ m,0.165fF/ $\mu$ m である<sup>2)</sup>.

## 5.1 ウェイクアップ論理の遅延時間

ウェイクアップ論理の遅延時間の測定結果を図 17 に示す.ウィンドウ・サイズが大きくなっても,タグ・マッチ,マッチ OR,レディAND はほとんど変化がないが,タグ・ドライブ遅延は大幅に増加している.これは,リピータを挿入し遅延を短縮しているものの,長さに対し 1.2 乗程度にしか短縮できなかったためである.

5.2 セレクト論理の遅延時間

セレクト論理の遅延時間の測定結果を図18に示す.ウィンドウ・サイズが小さい間はゲート遅延が支配的であるため,遅延時間は *log<sub>2</sub>WS* に比例して延びている.しかし,ウィンドウ・サイズが非常に大きいところでは,配線遅延が大きな割合を占めている.

## 5.3 タグ RAM の遅延時間

タグ RAM の遅延時間の測定結果を図 19 に示す.ビット線とセンス・アンプの遅延時間 はそれらの合計で示している.一般にある回路の遅延時間は,入力が V<sub>DD</sub>/2 を横切った時 刻から出力が V<sub>DD</sub>/2 を横切った時刻の差とするが,本測定でもそのように定義している. しかし,センス・アンプはビット線のわずかな変動で出力が得られるため,V<sub>DD</sub>/2 を閾値 とする遅延測定方法は適当でない.このため,センス・アンプ単独の遅延は示さず,ビット 線遅延とセンス・アンプ遅延の和を示す.

図 19 よりわかるように, ワード線遅延は非常に小さい (グラフ上では見えない).これは, 短い配線遅延だけだからである.これに対して,ビット線遅延はウィンドウ・サイズの増加 に伴って,大きく増加している.これは,配線遅延によるものである.

5.4 リピータの効果

長い配線に挿入したリピータの効果を,タグ・ドライブ遅延を例に示す.図 20 に,リピータを挿入しなかった場合と挿入した場合のタグ・ドライブ遅延を示す.同図からわかるように,ウィンドウ・サイズが大きい時,リピータ挿入により遅延は大きく減少している.配線遅延が大きい $WS \ge 64$ の場合において,IW = 4,8でタグ・ドライブ遅延は,リピータを挿入しなければ,それぞれ, $O(WS^{1.85})$ , $O(WS^{1.83})$ で増加するが,リピータを挿入すれば,その増加はそれぞれ, $O(WS^{1.52})$ , $O(WS^{1.21})$ に抑えられる.

なお, IW = 4, WS = 128 のとき, リピータ挿入時の方が遅延が長くなっているが, これは次の理由による.4節で述べたように, リピータ挿入の最適化においては, 部品 (この

IPSJ SIG Technical Report





場合,ウェイクアップ論理)の遅延で最適化を行っており,配線遅延(この場合タグ・ドラ イブ遅延)で最適化を行っているわけではない.リピータを挿入するとタグ・ドライブの遅 延自体は若干長くなるが,タグ線の立上り時間は短くなり,その結果,それを受けた CAM の遅延が短くなり,ウェイクアップ論理の遅延は短くなっている.

## 5.5 発行キューの総遅延時間

5.1~5.3 節で示した,各部品の遅延時間を合計した発行キュー全体の遅延時間を図 21 に 示す.なお, Connect は 3 つの部品をつなぐ配線の遅延の和を表している.



測定の範囲内では、どの構成でも、タグRAM、ウェイクアップ論理、セレクト論理の遅延 は近い値であることがわかる.WSの増加に応じて遅延は増加するが、その速度は、IW = 4のとき、 $O(WS^{0.84})$ 、IW = 8のとき、 $O(WS^{0.86})$ ということがわかった.つまり、WSにほぼ比例して増加することがわかった.

## 6. ま と め

本論文では発行キューの遅延時間評価を行った.今回の測定により,最新のテクノロジに 対応した,発行キューの遅延時間を得ることができた.発行キューのクリティカル・パスを なすウェイクアップ論理,セレクト論理,タグ RAM の遅延はほぼ等しく,全遅延は,ウィ ンドウ・サイズに対してほぼ比例して増加することがわかった.

謝辞 本研究は東京大学大規模集積システム設計教育研究センターを通しシノプシス株式 会社の協力で行われたものである.

本研究の一部は,日本学術振興会 科学研究費補助金基盤研究(C)(課題番号 19500041) による補助のもとで行われたものである.

## 参考文献

 A. Cristal, O. J. Santana, F. Cazorla, M. Galluzzi, T. Ramirez, M. Pericas, and M.Valero, Kilo-instruction processors: Overcoming the memory wall, *IEEE Micro*, Vol.25, No.3, pp. 48–57, May/June 2005.

IPSJ SIG Technical Report

- 2) International TechnologyRoadmap for Semiconductors, 2007 http://www.itrs.net/.
- 3) M. Goshima, K. Nishino, T. Kitamura, Y. Nakashima, S. Tomita, and S. Mori, A high-speed dynamic instruction scheduling scheme for superscalar processors, In *Proceedings of the 34th Annual International Symposium on Microarchitecture*, pp. 225–236, December 2001.
- 4) http://www.eas.asu.edu/~ptm/.
- 5) P.Michaud and A.Seznec, Data-flow prescheduling for large instruction windows in out-of-order processors, In *Proceedings of the Seventh International Symposium* on *High-Performance Computer Architecture*, pp. 27–36, January 2001.
- S.Palacharla, N.P. Jouppi, and J.E. Smith, Quantifying the complexity of superscalar processors, Technical Report CS-TR-1996-1328, University Wisconsin, November 1996.
- 7) P.G. Sassone, IIJ.Rupley, E.Brekelbaum, G.H. Loh, and B.Black, Matrix scheduler reloaded, In *Proceedings of the 34th Annual International Symposium on Computer Architecture*, pp. 335–346, June 2007.
- 8) N.H.E. Weste and K.Eshraghian, Principles of CMOS VLSI Design: A Systems Perspective, second edition, Addition-Wesley, 1993.
- S.J.E. Willton and N.P. Jouppi, Cacti:an enhanced access and cycle time model for on-chip caches, WRL research report 93/5, Digital WRL Research Laboratory, July 1994.
- 10) 加藤伸幸, 安藤秀樹, 命令発行キューの深いパイプライン化のための投機発行, 先進的 計算基盤システムシンポジウム (SACSIS 2009), pp. 319-326, 2009 年 5 月.
- 11) 五島正裕, Out-of-order ilp プロセッサにおける命令スケジューリングの高速化の研究, 京都大学,博士論文, 2004 年 3 月.

# 付 録

A.1 リピータ挿入による配線遅延の変化

長い配線を n(=1,2,...) 等分し, リピータを n-1 個挿入することを考える. このとき, 配線遅延  $\tau_l$  は, n の変化に対して, ただ 1 つの極小値を持つことを示す.

単位長さ当たりの配線抵抗と配線容量を,それぞれ,r,cとしたとき,長さlの配線の みの遅延は,

## $\tau_l = 0.5 crl^2$

で与えられる $^{6)}$ .ここで,係数0.5は,RC分布定数回路の遅延の1次近似における係数である.

今, 配線の始点にドライバを配置し, そのドライバとリピータの回路およびそのトランジ

スタ・サイズを同一とする.そして,それら自体の遅延を単純に定数  $\tau_r$  と仮定する.配線 にリピータを等間隔に n-1 個挿入し,ドライバとリピータの遅延を含めた配線遅延は,  $\tau_l = 0.5 cr \left( \frac{l}{r} \right)^2 \cdot n + \tau$  m

$$egin{aligned} & t = 0.5 cr\left(rac{\cdot}{n}
ight) & \cdot n + au_r n \ & = rac{0.5 crl^2}{n} + au_r n \end{aligned}$$

となる.よって,配線遅延 $\eta$ は,nの変化に対して,ただ1つの極小値を持つ.