# 単一磁束量子回路プロセッサの性能評価と マイクロアーキテクチャの再検討

津秦 伴紀<sup>1,a)</sup> 田中 雅光<sup>2</sup> 井上 弘士<sup>3</sup>

#### 概要:

本稿では、単一磁束量子(SFQ: Single-Flux-Quantum)回路を用いた超高性能マイクロプロセッサの実現 に向けたアーキテクチャ検討を行う.これまでに、25 GHz を越える回路動作速度を実現した SFQ マイク ロプロセッサの設計事例が報告されている.しかしながら、従来の設計では1ビットづつ演算を行うビッ トシリアル処理を前提とした7段命令パイプライン構成を採用しており、高い回路動作周波数を達成して いはいるものの、マイクロプロセッサ全体としての性能向上効果は明かになっていなかった.また、現在 の CMOS を基本とするマイクロプロセッサ全体としての性能向上効果は明かになっていなかった.また、現在 の CMOS を基本とするマイクロプロセッサに対する優位性、さらには、SFQ マイクロプロセッサ・アー キテクチャとしてのあるべき姿に関する議論は殆ど行われていない.そこで本研究では、性能限界を見極 める第一次近似として、性能モデリングに基づく SFQ マイクロプロセッサの性能評価を実施した.その結 果、1) 従来のビットシリアル処理方式7段命令パイプライン構成では現在の CMOS マイクロプロセッサ を凌駕する性能とはならない可能性がある、2) 0.3µm プロセスを用いたビットパラレル方式7段命令パイ プライン構成で9 GHz 程度の動作周波数を見込める、3) SFQ 回路の特性を考慮したビットパラレル方式 細粒度パイプライン構成を採ることで動作周波数は 87GHz となり、99%以上のパイプラインストールを隠 蔽できれば、CMOS マイクロプロセッサに対して 30 倍以上の性能向上を実現できる可能性があることが 分かった.なお、本評価ではメモリアクセス・レイテンシの影響や、安定動作を保証する十分な設計マー ジンの確保は想定しておらず、より精度の高い評価は今後の課題である.

# 1. はじめに

近年の CMOS マイクロプロセッサでは動作周波数が頭 打ちとなっている.その理由は、動作周波数の向上による 消費電力の増加が問題となるためである.今後この消費電 力の壁を打ち破り、超高速動作が可能なプロセッサを実現 することは必要不可欠となってくる.そこで我々は単一 磁束量子 (SFQ: Single-Flux-Quantum)回路に着目してい る.SFQ 回路は、超伝導ループ中の磁束消失時に発生す る微弱電圧パルスを情報担体として扱う集積回路である. SFQ 回路は動作原理上、電荷の充放電を必要としないた め、論理ゲート当たりの消費電力は CMOS 回路と比較し て約 1/1,000 以下という超低消費電力性を持つ.また、超 伝導状態により抵抗成分が限りなくゼロに近くなるため、 高速なパルス伝搬が可能という特性も有する.

このような特徴に着目し、これまでに SFQ マイクロプ ロセッサの試作・研究が行われてきた.実際に試作された マイクロプロセッサである CORE-1β では、25GHz での動 作実証に成功している [5][6]. これらの設計事例では、回 路面積の縮小やタイミング設計の容易化、そして回路動作 の高速化を優先し、ビットシリアル方式を採用している. ビットシリアル方式とは、データ語長(マイクロプロセッ サが扱うことができるデータのビット幅)を1ビット単位 で処理(例えば、32 ビット語長の場合には1ビット処理を 32 回繰り返す)する方法である.

しかしながら,ビットシリアル方式では,データ語長に 比例して処理回数が増加し,計算結果を得るまでのレイテ ンシが増加する.通常,マイクロプロセッサの性能は,動 作周波数のみならず命令実行レイテンシにも大きく依存 する.したがって,性能の観点では回路の動作周波数の向 上に重きを置いたビットシリアル方式は必ずしも適切で あるとは限らない.実際,ビットシリアル方式を採用した CORE-1βの命令パイプラインでは,SFQ 論理回路の動作 に必要な駆動パルス信号とパイプライン・ステージ間の同 期を制御するクロック信号の2つの信号が存在する.先に 述べた 25 GHz での動作は駆動パルス信号,すなわち,組 合せ回路の動作速度のことである.しかしながら,命令パ

<sup>1</sup> 九州大学大学院システム情報科学府

<sup>2</sup> 名古屋大学大学院工学研究科

<sup>3</sup> 九州大学大学院システム情報科学研究院

<sup>&</sup>lt;sup>a)</sup> tsuhata@soc.ait.kyushu-u.ac.jp



イプラインを動作させるクロック信号の周波数は高々 1.5 GHz と低い.

以上の事を踏まえ,我々はビットシリアル方式に加え, 現在の CMOS マイクロプロセッサが採用しているビット パラレル方式の有効性を調査するため,CORE-1βの命令 パイプライン構造に基づき最大動作周波数のモデル化と評 価を行った [7].その結果,データ語長が 64 ビットの時, ビットパラレル方式を用いた場合に最も高いクロック信号 動作周波数である 9.27 GHz を達成することが分かった. しかしながら,最新の CMOS マイクロプロセッサは 5GHz 程度の動作周波数を実現しており,これに比べると約 1.85 倍ほどでしかない.文献 [7] で作成したモデルは SFQ マイ クロプロセッサのみを対象としているため,CMOS マイク ロプロセッサとの比較ができていない.

そこで本稿では、以下の2つを研究目的とし、SFQマイ クロプロセッサの性能評価を行う.

- より高速な動作周波数を達成するマイクロアーキテク チャの探索
- CMOS マイクロプロセッサとの性能比較

本評価では,文献 [1] の性能モデルを用いる. SFQ マイク ロプロセッサと CMOS マイクロプロセッサの性能評価を 行う. このモデルは,マイクロアーキテクチャに依存す るため, SFQ マイクロプロセッサと CMOS マイクロプロ セッサの比較が可能となる. また,評価結果を用い,今後 SFQ マイクロプロセッサが採るべきアーキテクチャについ て議論する.

本稿の構成は以下の通りである.第2節では SFQ 回路 の動作原理と特徴について述べる.第3節では SFQ マイ クロプロセッサのアーキテクチャ設計空間について整理す る.第4節では性能モデルに基づく性能評価と評価結果に ついて述べる.第5節で今後 SFQ マイクロプロセッサが 採るべきアーキテクチャについて議論し,最後に第6節で まとめる.

## 2. SFQ 回路の動作原理

本節では,SFQ 回路の動作原理について述べる.第2.1 節で SFQ 回路の基本素子となるジョセフソン接合を紹介 し,第2.2 節にてスイッチング動作の原理を説明する.第 2.3 節ではデジタル情報の表現に用いられるパルス理論に ついて述べ,第2.4 節で2入力1出力の SFQ AND ゲート の動作例を示す.

#### 2.1 ジョセフソン接合

特定の金属や化合物をある一定の温度以下まで冷やす と、電気抵抗が0になりマイスナー効果が現れる.この現 象を超伝導という.また、超伝導状態になりうる物質を超 伝導物質、超伝導状態にある超伝導物質を超伝導体と呼ぶ. SFQ 回路は、超電導物質であるニオブ (Nb) とアルミ酸化 物 (*AlO<sub>x</sub>*)を用たジョセフソン接合というデバイスによっ て構成される.

ジョセフソン接合とは、2つの超伝導体の間に薄い障壁 膜を挟み、弱結合させたデバイスである.図1(a)にジョセ フソン接合の構造を示す.回路図中では図1(b)に示すシ ンボルで表され、図1(c)に示すような電気的特性を持つ.  $I_c$ は、臨界電流値と呼ばれ、ジョセフソン接合を流れる電 流が $I_c$ を下回っていると、ジョセフソン接合間には電圧が 発生せず、超電導体間を直流電流が流れる.いわゆるトン ネル現象である. $I_c$ を上回ると、ジョセフソン接合間に電 圧が発生し、常伝導状態(超電導を示さない状態)となっ て交流電流が流れる.この電圧が発生する状態になること を、スイッチする、あるいは、接合が切れる、という.

#### 2.2 スイッチング動作の原理

SFQ 回路は,図 2 に示すようなジョセフソン接合を含む 超伝導体ループによって構成される.超伝導体で作られた ループ内を貫く磁束は, $\Phi_0 = h/2e = 2.07 \times 10^{-15} Wb$ の整 数倍に量子化される (h はプランク定数, e は電子の電荷). SFQ 回路では,この磁束量子  $\Phi_0$  を情報担体として用いて



図2 ジョセフソン接合を含む超伝導体ループ

いる.具体的には、超伝導体ループに磁束がある場合と、 磁束がない場合をそれぞれ '1', '0' のビット情報を保持し ているとみなす。例として、図2のループ内に量子磁束が 1つ入った場合を考える.ループ内に磁束が通ると、周回 電流が流れる.この周回電流 IL は、ループ一周のインダ クタンスをLとすると、 $I_L = \Phi \approx 0/L$ で表される.周回 電流値が I<sub>c</sub> を下回る場合は, リングに挿入されているジョ セフソン接合には電圧が発生せず、周回電流は手前から見 て時計回りにリングを流れ続け、量子磁束はループ内に留 まる. つまり, '1' というビット情報を保持しているとみな すことができる。一方、L を上回った場合、ジョセフソン 接合には電圧が発生し、常伝導状態となる. これにより、 ループは磁束量子を保持できなくなるため、ループ内の磁 東量子はループ外へ出る.この時,ループ内には量子磁束 が無くなるので、'0' というビット情報を保持していると みなすことができる. このように、ジョセフソン接合をス イッチさせるか、させないかで量子磁束の保持、伝搬が可 能になる。また、ジョセフソン接合がスイッチすると、接 合間を磁束量子が通過できるようになる.磁束量子がルー プ外へ飛び出す時、ファラデーの電磁誘導の法則から接合 の両端にインパルス状の電圧 (SFQ パルスと呼ぶ) が発生 する [9]. SFQ パルスは,高さが数百 μV,幅が数ピコ秒と なる. このパルスは,後に述べるパルス理論において, '0', '1'のビット情報を判別するために用いられている.

#### 2.3 パルス理論

SFQ 回路では、パルスの有無で'0','1'を表すパルス理 論を用いて情報を表現する.CMOS 回路で用いられてい るレベル理論との決定的な違いは、パルス自体では状態を 表現できない点である.このため、SFQ 回路では'0'とい う情報を扱うための工夫が必要となる."1"という情報を パルスの到着で表すとすると、'0'とパルスが到着してい ない状態との区別が出来ない.その為、データパルス信号 線とは別に駆動パルス信号線を用意し、一定間隔で到着す る駆動パルス信号の一周期内にデータパルス信号線上のパ ルスが到着すれば'1',到着しなければ'0'とする.図3に SFQ 論理ゲートにおける情報の判別方法について示す.駆 動パルス信号は一定間隔で各 SFQ 論理ゲートに到着し、動 作させる.この時、データパルス信号が到着していれば情 報'1',到着していなければ情報'0'として扱う.また、こ



図3 データパルス信号線と駆動パルス信号線

の図からも分かるように、この回路の動作周波数は駆動パルス信号の到着間隔、すなわち、駆動パルス信号の周期によって決まる.

#### 2.4 組み合わせ回路の動作例

SFQ 回路を用いた組み合わせ回路の例として AND ゲートを取り上げる.動作を図4に従って説明する.

- まず、2入力のデータパルスが入力線 a, b にそれぞれ到達する.
- (2) 到着したデータパルスによって  $J_9 L_{s1} J_1$  のルー プと  $J_{10} - L_{s2} - J_2$  のループに電流が流れ,それぞれ 磁束が保持される.
- (3) そこへ, 駆動パルス信号が分岐して同時に各ループに 入ることで J<sub>1</sub>, J<sub>2</sub> がスイッチし, それぞれの磁束は 放出され, SFQ パルスとなって J<sub>7</sub> に伝搬する.
- (4) J<sub>7</sub> は、SFQ パルス2つ分の電流が加わる時、すなわち2つとも磁束が入っている状態の時のみスイッチするよう臨界電流値が設計されている。よって、(3)の場合の様に2つのパルスが加わると J<sub>7</sub> がスイッチし、出力 '1'を得ることできる。

これにより, 2入力とも論理値 '1' の時のみ '1' を出力する AND ゲート動作が実現する.

ここで示したように、SFQ 回路における組み合わせ回路 はパルスの相互作用によって演算を行うため、入力を一旦 保持して、SFQ パルス同士の合流や分岐といったタイミン グを揃えて演算を行う必要がある。そのため、SFQ 回路の 組み合わせ回路は基本的に、駆動パルス信号の入力によっ て動作する記憶素子付きの論理ゲートとなる。

# SFQ マイクロプロセッサのアーキテクチャ 設計空間

#### 3.1 命令パイプライン駆動方式

命令パイプラインは実行時に複数の命令をオーバーラッ プさせる技術である. 複数の命令は異なるステージに存在 し,同時に各命令を処理することができる. SFQ マイク ロプロセッサでは,命令パイプライン実現のために2つの SFQ パルス信号を用いている.

- クロック信号:全ての命令パイプラインの動作を同期 させるために用いられる信号である.マイクロプロ セッサの最大動作周波数はこのクロック信号の周期の 逆数と定義され、マイクロプロセッサ内の最もレイテ ンシが長いパイプラインステージによって決定される.
- 駆動パルス信号:パイプラインステージ内の SFQ 組み



図4 AND ゲートの等価回路と動作

合わせ回路を動作させるために必要な信号である.この信号は CMOS マイクロプロセッサには存在しない.

3.2 マイクロアーキテクチャ・パラメータ

本節では、命令パイプライン構造を採る場合に考えられる2つのマイクロアーキテクチャ・パラメータについて述べる.

#### 3.2.1 パイプライン深度

パイプライン深度はパイプラインステージの数を表す. CMOS/SFQ のいづれの回路を前提とした場合でも,マイ クロプロセッサの性能を決める重要な要因となる.基準と して,図 5(a) に示す様な 5 段の命令パイプラインを考え る.これをより深くしたパイプライン(図 5(b))を持つ ものはスーパーパイプラインと呼ばれ,1パイプラインス テージの遅延が小さくなるために動作周波数を向上させる ことができる.また,究極には論理ゲートレベルまでパイ プラインを深くしたゲートレベルパイプライン(図 5(c)) も考えられる.

# 3.2.2 データパスビット幅

データパスビット幅もまたマイクロアーキテクチャデザ インパラメータの1つであり,ALUやレジスタファイル 等の各ユニットが一度の処理で扱うビット幅を表す.デー タ語長は、マイクロプロセッサが扱うことができるデータ のビット幅である.スライスとは、データ語長を分割した データを指す.例えば、64ビットを8分割して得られた 8ビットの各データをスライスと呼ぶ.また、この場合ス ライス数は8となる.以上を踏まえ、パイプライン深度と 同様に設計空間の定義を行う.データ語長が 32 ビットの マイクロプロセッサを例に説明する. ビットパラレル方式 はデータパスビット幅とマイクロプロセッサのデータ語長 が等しい場合を指す. 現行の多くの CMOS マイクロプロ セッサはこのデザインを採用している. 対して, SFQ マイ クロプロセッサは, データパスビット幅が1ビットである ビットシリアル方式, もしくは, データパスビット幅が4 ビットのようなデータ語長よりも小さいビットスライス方 式を採用している. 例えば, データパスビット幅が8ビッ トである場合, ALU やレジスタファイルといった演算ユ ニットでは4回処理を行うことで8ビットのデータを処 理する.

ビットシリアル/スライス方式では、一定の駆動パルス 信号間隔ごとにスライスを投入し, SFQ 論理ゲートがその ラッチ機能を用いてデータを保持することでユニット内で のパイプライン化が可能となる.図6にビットシリアル/ スライス方式でのデータ処理について示す.ここでは、論 理ゲート8段,1つのデータを4つのスライスに分割した 場合を想定しており、Time は時間経過を表す。この図か らもわかるように、同一ユニット内に複数スライスが存在 可能になり、スライスレベルでのオーバーラップによる効 果が得られる.ただし,設計者はユニット内での桁上げ信 号のためのフィードバックループの存在に注意を払う必要 がある. 図7にフィードバックループが存在する回路例を 示す. 初期状態(図7(a))から1駆動パルス信号周期進ん だ時(図7(b)),丸で囲んだ最後の論理ゲートではデータの 待ち合わせのためのタイミング調整が必要となる。このよ うに、フィードバックループのようにデータの流れと反対 方向にデータが流れる箇所が存在すると、データの待ち合



図5 パイプライン深度



図 6 ビットシリアル/スライス方式におけるスライスのオーバー ラップ実行

わせのために駆動パルス信号周波数の調整が必要となる. 一方,ビットパラレル方式ではユニット内にフィードバッ クループは存在しない.この時,スキューという回路遅延 要素を用いることで,駆動パルス信号周波数を演算ユニッ トに供給可能な最大値に設定することができる.図8に示 すように論理ゲートi-1段目からi段目までのデータパ ルス信号線 D<sub>line</sub>の遅延時間が駆動パルス信号周期Tより 長い場合,対応する駆動パルス信号線にスキューという回 路遅延要素を挿入することでデータの到着と駆動信号パル スの到着の整合性を取ることができる.

# 4. 性能評価

本節では、1命令当たりの実行に必要な時間を表す Time Per Instruction(TPI) に基づき、パイプライン深度とデー タパスビット幅が SFQ マイクロプロセッサの性能に与え る影響を解析する.また、SFQ マイクロプロセッサの有効 性を明かにするため、CMOS マイクロプロセッサとの性能 比較を行う.

#### 4.1 性能モデル式

プログラム実行における TPI は次の式で表すことがで



(b) 1 駆動パルス信号周期後の状態

図7 フィードバックループが存在する回路



(a) 初期状態





きる [1].

$$TPI = \frac{T}{N_I} = \left(\frac{t_o}{\alpha} + \gamma \frac{N_H}{N_I} t_p\right) + \frac{t_p}{\alpha p} + \gamma \frac{N_H t_o}{N_I} p.$$
(1)

• N<sub>I</sub>:全実行命令数.

- *N<sub>H</sub>*:発生するパイプラインハザードの総数.
- t<sub>o</sub>:パイプラインレジスタでのデータ保持に要する
  時間. ラッチのセットアップ/ホールド時間により決まる.
- *t<sub>p</sub>*:単一命令実行において通過する全論理ゲート遅延の総和.
- *p*:パイプライン段数.
- α:スーパスカラ度.
- γ:パイプラインでの命令実行に要する時間 t<sub>o</sub>p + t<sub>p</sub> に対する、パイプラインハザード当たりの平均パイプ ラインストール時間の割合.最大値は 1.0 であり、こ れは最初のパイプラインステージに存在する命令がコ ミットされるまで後続命令の実行が開始できない状況 に相当する.一方、最小値は 0 であり、これはパイプ ラインストールが発生しない状況を表す.実際には、 各種ハザードに起因するパイプラインストールはマイ クロアーキテクチャとハザード発生状況によって様々 であるが、本モデルでは平均値として表している.

第1項はパイプライン段数に依存しない,ストールとt<sub>o</sub>によって生じる実行時間の増加である。第2項は1命令の処理に必要な時間がパイプライン段数とスーパスカラ度によってどの程度減少するのかを表している。第3項はストールが発生することで生じるt<sub>o</sub>の増加分を示す。

ここで、上記の TPI は次のように考えることができる. ストールが全く起きない場合、すなわち  $\gamma = 0$  の時、TPI は CPI=1 の場合のクロックサイクル時間と考えることが できる.ここでは理想クロックサイクル時間(逆数は理想 動作周波数) と呼ぶ.

### **4.2** 遅延パラメータ *t<sub>o</sub>*, *t<sub>p</sub>* の設定

本評価ではスカラ・マイクロプロセッサ ( $\alpha = 1$ )を想 定する.そして、ビットシリアル、ビットスライス、ビッ トパラレル方式を採用した SFQ マイクロプロセッサ (そ れぞれ、SFQ-BSE、SFQ-BSL、SFQ-BP と略す)、ならび に、CMOS での設計を前提とした従来のビットパラレル 型マイクロプロセッサ (CMOS-BP と略す) に着目した性 能比較を行う.マイクロプロセッサとマイクロアーキテク チャに基づく遅延パラメータ  $t_o, t_p$ を表1に示す.

# 4.2.1 SFQ マイクロプロセッサにおける遅延パラメータ

SFQ マイクロプロセッサの遅延パラメータには,現在 多くの SFQ 回路で用いられている  $1.0\mu m$  プロセスの場合 と,SFQ 回路に成り立つスケーリング則が限界に達する  $0.3\mu m$  プロセス [4] の 2 通りを用いる.  $t_o$  は SFQ マイク ロプロセッサに用いられている代表的な論理ゲート群の セットアップ/ホールドタイムの算術平均と,製造ばらつ きやジッタ対策のための動作マージンを足し合わせて求 めている.また, $t_p$  は CORE-1 $\beta$  のクリティカルパスで ある EX ステージを構成している SFQ 加算器の回路遅延 に CORE-1β のパイプライン段数である 7 を掛けて算出した. この SFQ 加算器の回路遅延は駆動パルス信号周期に, SFQ 加算器で処理に要したサイクル数を掛けあわせて求 めることができる. 図 9 に加算器のレイアウトと回路遅延 パラメータを示す. 回路遅延パラメータには 1.0μm Nb プ ロセスの SFQ セルライブラリの値を利用している. 駆動 パルス信号周期は SFQ 論理ゲートの回路遅延パラメータ と SFQ 加算器のレイアウトに基づいて求められる. 以下 で SFQ-BP と SFQ-BSE/BSL それぞれの場合の求め方に ついて説明する.

- SFQ-BP では SFQ 加算器内にフィードバックループ が存在しないため、駆動パルス信号周波数は供給可能 な最大値である t<sub>o</sub> となる.また、実際の設計ではワー ストケースを想定し、1.0μmの時 20ps としている.
- SFQ-BSE/BSL では SFQ 加算器内にフィードバック ループが存在し、このループにおける入力データの待 ち合わせが必要となる。よって、フィードバックルー プで計算されるデータ到着までの遅延がクリティカル パスとなり、駆動パルス信号周期を決定する。図9に 示すように, ビットシリアル/スライス SFQ 加算器で は、フィードバックループで計算されるデータが通る パスが2つある.これらをそれぞれパス (A),パス (B) とし、このどちらかがクリティカルパスとなる. この加算器では、パス(A)がパス(B)より長く、パス (A) に含まれる論理ゲート要素は, AND ゲート, コン フルエンスバッファ (ConfluenceBuffer:CB), 超 電導受動線路(PassiveTransmissionLine: PTL), そしてスプリッター (Splitter: SPL) である. PTL は更に次の2つの要素に分けられる.データの変換, 受信に必要な遅延を PTL<sub>t</sub>rans, PTL セルユニットあ たりの伝搬遅延を PTL<sub>p</sub>rop と呼ぶ.以上より,パス (A) の遅延 T<sub>D</sub> は下記の式で表される.

$$T_D = AND + CB + PTL_{trans} + (dpw - 1) \\ \times PTL_{prop} \times N_{PTLcell} + SPL.$$
(2)

ここで, dpw はデータパスビット幅を指す.また,  $N_PTLcell$  は図 9 に示すような 2 つのビット線の間に 存在する PTL セルの数である.

ジョセフソン接合が 1/a にスケールすると,スイッチング 速度と PTL の遅延も 1/a となる.求めた SFQ 加算器の 回路遅延は全て 64 ビットのデータ語長の場合を想定して いる.SFQ-BSL に関しては,64 ビットのデータ語長の場 合に最も性能の良いスライス幅であった8 ビットスライス の時の回路遅延を採用している.ビットパラレル方式に対 し,ビットシリアル/スライス方式の tp がそれぞれ単純に 64 倍,8 倍の遅延時間となっていないのは,第3.2.2 節で 述べたスライスデータのオーバーラップ実行が遅延時間の 短縮に効いているためである.

| 表1 遅延パラメータ          |           |             |
|---------------------|-----------|-------------|
|                     | $t_o$     | $t_p$       |
| $1.0 \mu m$ SFQ-BP  |           | 2517.76(ps) |
| $1.0 \mu m$ SFQ-BSE | 13.32(ps) | 13232.8(ps) |
| $1.0 \mu m$ SFQ-BSL |           | 4565.4(ps)  |
| $0.3 \mu m$ SFQ-BP  |           | 755.328(ps) |
| $0.3 \mu m$ SFQ-BSE | 3.995(ps) | 3969.84(ps) |
| $0.3 \mu m$ SFQ-BSL |           | 1369.62(ps) |
| CMOS-BP             | 86.76(ps) | 4048.58(ps) |



図9 SFQ ビットスライス加算器の回路図とレイアウト図

# **4.2.2** CMOS マイクロプロセッサにおける遅延パラ メータ

CMOS マイクロプロセッサにおいては、14 段パイプ ライン、動作周波数 2.66 GHz のもの [2] をモデルとし た.  $t_o$  はパイプラインのラッチオーバーヘッドとパイ プラインステージ遅延の比を最も良い比率とされている 1.8 対 6 と仮定し [3]、動作周波数から逆算して求めた (1/2.66[GHz] × 1.8/(1.8+6)).また、 $t_p$  は CMOS マイ クロプロセッサのクロック周期にパイプライン段数を掛け たものから、 $t_o$  にパイプライン段数を掛けたものを引いた 値 (1/2.66[GHz] ×  $p - t_o × p$ ) である。以上のパラメータ についてまとめたものを表 1 に示す.

#### 4.3 評価結果

図 10 に 1.0µm プロセス, 0.3µm プロセスの SFQ-BP, SFQ-BSE, SFQ-BSL と CMOS-BP の理想動作周波数をそ れぞれ示す. 横軸は各マイクロアーキテクチャ,縦軸は理 想動作周波数である. パイプライン段数はそれぞれ固定 で, SFQ マイクロプロセッサにおいては CORE-1βのパイ プライン段数である 7 段, CMOS マイクロプロセッサに おいてはモデルとして用いたマイクロプロセッサの 14 段 (CMOS-BP14 と呼ぶ)としている.また、ストールが発生しない理想動作周波数であるため、 $\gamma$ の値は0であり、結果は $N_H/N_I$ の値に依存しない.

まず, SFQ-BP, SFQ-BSE, SFQ-BSL の3つを比較す る. 1.0µm プロセス時のそれぞれの理想動作周波数は 2.78 GHz, 0.52 GHz, 1.53 GHz となっている. これは、ビット シリアル/スライス化による tp の増加が原因である. この ことから、データパスビット幅は SFQ-BP が最も良いこと が分かる.次に,CMOS-BP14 との比較を行う. 1.0µm プ ロセス SFQ マイクロプロセッサにおいて, SFQ-BP, SFQ-BSE, SFQ-BSL の理想動作周波数は CMOS-BP14 と同程 度,もしくはそれ以下の性能であることがわかる.一方, 0.3µm プロセス時においては, SFQ-BSE は 1.76 GHz と CMOS-BP14 よりも低い性能となっているが、SFQ-BSL は 5.11 GHz, SFQ-BP においては 9.27 GHz と CMOS-BP14 より高い。しかしながら、その性能差は約3.5倍程度に留 まっている。以上より、7段の浅いパイプライン構造にお いては、SFQ 回路が有する本来の高速性を十分に活かしき れていないことがわかる.

表1から分かるように、SFQ 回路は CMOS 回路と比較し てtoが非常に小さいといった利点を有する.また、CMOS マイクロプロセッサではスーパーパイプライン化による動 作周波数の向上は消費電力問題により極めて難しい、これ に対し、SFQ 回路ではその超低消費電力性から消費電力問 題は生じない、そこで、パイプライン段数をより深くした 場合を考える. 図 11 に 0.3µm 時の SFQ-BP, SFQ-BSE, SFQ-BSL と CMOS-BP の理想動作周波数を示す. 横軸は パイプライン段数,縦軸は理想動作周波数である.破線 は、SFQ-BP, SFQ-BSE, SFQ-BSL の実設計データに基 づく駆動パルス信号周波数であり、それぞれ 166.67 GHz, 119.90 GHz, 76.66 GHz である. SFQ-BP のパイプライ ン段数を増加させた場合,377段の時にSFQ-BPの理想動 作周波数は 166.67 GHz に達成し、同パイプライン段数の SFQ-BSE, SFQ-BSL と比較しても高い性能である。一方, パイプライン段数を増加させた CMOS-BP は 11GHz 程度 である.以上のことから, SFQ マイクロプロセッサで超高 速な動作周波数を得るためには、SFQ-BP かつ深いパイプ ライン構成を取る必要があることがわかる.

ただし,式(1)からわかるように,パイプライン段数 を増加させると同時にストールによる影響が大きくなり, TPIが増加する.そこで,ストールが発生した場合の性能 について考える.図12に0.3 $\mu$ mプロセス, $N_h/N_i = 0.5$ である SFQ-BP の $\gamma$ の値を0から1まで変化させた場合 のTPIを,CMOS-BP14の理想クロックサイクル時間で正 規化したグラフを示す.横軸はパイプライン段数,縦軸は 正規化されたTPIであり, $\gamma = 0$ ,すなわちストールが発 生しない場合,SFQ-BP は現行 CMOM マイクロプロセッ サに比べ 62.66 倍の性能となる.しかしながら,ストール



図 10 パイプライン段数を固定した時の理想動作周波数



図 11 パイプライン段数が変化した時の理想動作周波数

の影響を反映した  $\gamma = 0.1$  の場合でもパイプライン段数 60 段の時に最高 5.67 倍の性能しか達成できていない.すな わち,ストールによる性能低下を回避しなければ高い動作 周波数を達成できたとしても,性能は低いものとなる.

そこで、ストールの隠蔽できる場合を考える。新しくス トール隠蔽率 $\theta$  (0 ~ 1、 $\theta = 1$ の時ストールが全て隠蔽さ れていることを表す)を導入し、ストール時間を表す $\gamma$ と 掛け合わせる。 $\theta$ を導入した TPIのモデル式は以下のよう に表される。

$$TPI = \left(\frac{t_o}{\alpha} + (\gamma \times (1-\theta))\frac{N_H}{N_I}t_p\right) + \frac{t_p}{\alpha p} + (\gamma \times (1-\theta))\frac{N_H t_o}{N_I}p_{(3)}$$

式 (3) に基づいて算出した  $N_h/N_i = 0.5, \gamma = 0.5$  の場合の SFQ-BP の TPI を CMOS-BP14 の理想クロックサイクル 時間で正規化したグラフを図 13 に示す. 横軸がパイプラ イン段数, 縦軸は正規化された TPI, グラフは $\theta$ の値を 0.9 から 1 まで 0.01 ずつ, すなわちストール隠蔽率を 99%か ら 100%まで 1%ずつ増加させたものである. ストールを 99%隠蔽できた場合, CMOS マイクロプロセッサに対す る性能はパイプライン段数 300 段の時の 32.98 倍が最高と なっている. このことから, ストール隠蔽率は極限まで高 める必要があることがわかる. 次節では, SFQ マイクロプ ロセッサにおけるストール隠蔽手法について議論する.



図12 SFQ-BP と CMOS-BP の性能比較



図 13  $\theta$  を考慮した SFQ-BP と CMOS-BP の性能比較

# SFQ マイクロプロセッサ・アーキテクチャ の設計方針

SFQ マイクロプロセッサによる飛躍的な性能向上を実現 するためには、デバイス/回路特性と各種設計制約を勘案 したマイクロアーキテクチャを導入しなければならない. そこで我々は、第4節で示した性能評価結果,ならびに、 SFQ 回路と設計技術に関する現状を考慮し、マイクロアー キテクチャ決定に向け方針を採ることとした.

- ビットパラレル方式の採用:時間方向に処理を展開するビットシリアル/スライス方式と比較して、ビットパラレル方式は次に示す3つの利点を有する.1)第3節で示したように、組合せ回路内部でのフィードバックループの発生を回避し、スキューの挿入により駆動パルス信号周波数を高めることができる.処理完了までのレイテンシは増大するが、これは後述する細粒度パイプライン処理でのオーバラップ実行により隠蔽可能である.2)ビットレベル並列性を最大限に活用できるため、組合せ回路のレイテンシを低減することができる.3)時間方向の繰り返し処理が不要なため、回路設計ならびにレイアウト設計においてタイミング調整が比較的容易になる可能性がある.
- ゲートレベル・パイプライン構成の採用:第4節で示したように、マイクロプロセッサレベル(すなわち、 駆動パルス信号ではなくパイプライン全体の動作速度

を決定するクロック信号レベル)での高速動作を可能 にするためには、300段程度と極めて深いパイプライ ン構成を採る必要がある.そこで、各パイプライン・ ステージが一段の論理ゲートで構成されるゲートレ ベル・パイプライン構成を採る.これにより、従来の SFQマイクロプロセッサで必要であった駆動パルス信 号とクロック信号を一本化(つまり、駆動パルス信号 でパイプライン全体の動作を制御する)でき、設計容 易化の観点からも利点がある.

- 大規模細粒度マルチスレッディング実行方式の採用: 第4節で示したように、300段程度のパイプライン構 成において CMOS マイクロプロセッサを大幅に超え る性能を実現するためには、ハザードに起因するパイ プラインストール時間を 99%以上隠蔽する必要があ る.現代の高性能マイクロプロセッサではストール隠 蔽技術としてアウトオブオーダ実行方式を採用してい る.しかしながら、パルス論理に基づく SFQ 回路で はタイミング調整がクリティカルな設計となり、複雑 な論理を要する命令ウィンド、リネーミング機構、高 度な分岐予測機構、リオーダバッファ、パイプライン ステージ間を跨いだフィードバックループを形成する フォワーディング機構などを実装することが難しいと 予想される。そこで、徹底したハードウェアの簡素化 を実現しつつ、極めて深いパイプラインでのストール 隠蔽を可能にすべく、パイプライン段数と同程度のス レッドを起動しクロック・サイクル毎に切り替えて実 行を進める大規模細粒度マルチスレッディング方式を 導入する.
- FIFOメモリを基本とするメモリ階層の採用:大規模 細粒度マルチスレッディングを実現するためには、巨 大なレジスタファイルを構成し、クロックサイクル毎 に適切なレジスタセットを後段パイプラインステージ へと出力しなければならない。SFQ 回路を用いたメモ リの実装に関しては、これまでに幾つかの提案が行わ れてきたが、最も実用的なのはシフトレジスタを基本 とする FIFO メモリである。これは、SFQ は回路内部 にフィードバックループを持たない単方向データ流の 処理を得意とすることに起因する。例えば、2.0µmプ ロセスにおいて 20ps で動作可能なシフトレジスタの設 計事例があり [8], SFQ マイクロプロセッサ CORE-1β のレジスタファイルや、CORE-1γ[6]のキャッシュメ モリとして実装されている. そこで, FIFO メモリを 用いた大規模細粒度マルチスレッディング向けレジス タファイルや、ストリーム式キャッシュメモリの搭載 などを導入する.

図 14 に、今後検討を進める SFQ マイクロプロセッサ・ アーキテクチャのイメージ図を示す. データパスはゲート レベルのパイプライン構造を採っており、レジスタファイ



図 14 SFQ マイクロプロセッサ・アーキテクチャの概念図

ルは FIFO メモリによって実現する.1スレッド分のレジ スタセットを全て同時読み出しできる構成であり,循環 バッファとして動作させることでクロックサイクル毎のス レッド切り替えを可能にする.また,キャッシュミスなど のメモリアクセスにおいてストールが発生した場合には, パイプライン全体を停止する.これにより,パイプライン 全体のタイミング制御を単純化し設計容易化を図る.

なお,現段階では SFP マイクロプロセッサのアーキテ クチャ設計方針を示したに過ぎない.今後は,本稿では言 及していないメモリ・サブシステム構成法も踏まえ,さら なる詳細な検討が必要である.

# 6. おわりに

本稿では超高速なマイクロプロセッサの実現に向け, SFQ 回路を利用したマイクロプロセッサのアーキテクチャ 設計空間と性能モデルを用い,性能評価を行った.その結 果,SFQ マイクロプロセッサにおいて最も高い性能を発揮 するためには SFQ-BP かつ 300 段以上の非常に深いパイ プライン構成が必要であることを示した.また,ストール が発生しない場合,0.3µm プロセスにおける SFQ-BP は 166.67 GHz を達成することがわかり,現行 CMOS マイク ロプロセッサの 62.66 倍の性能を発揮する.

しかしながら、ストールが発生すると、CMOS-BP に対 して SFQ-BP の性能は  $\gamma = 0.1$  の時 5.67 倍の性能しか発 揮できない.そこで、ストール隠蔽率を導入し、ストール を隠蔽することによる影響を調査した.その結果、ストー ルを 99%隠蔽することで 32.98 倍の性能を発揮できること がわかった.深いパイプライン構成を持つ SFQ マイクロ プロセッサにおいては、ストール隠蔽率を極限まで高める 必要がある.

さらに我々は、以上の結果を踏まえ、今後 SFQ マイク ロアーキテクチャが採るべきアーキテクチャとして、ゲー トレベルパイプラインと細粒度マルチスレッディングを採 用したマイクロアーキテクチャの検討を行った。細粒度マ ルチスレッディングにより、データ依存関係・制御依存関 係によって引き起こされるハザードを回避することができ る.また、高速動作が可能な SFQ シフトレジスタをレジ スタファイルに利用することで、SFQ マイクロプロセッサ の高速動作をサポートできる.

今後は、SFQ マイクロプロセッサの設計を行うことで、 実際のパイプライン段数はどの程度になるのかを調査し、 シフトレジスタの深さと面積と性能の関係を明らかにする 予定である.

謝辞 本研究を進めるにあたり,活発な議論とご協力を 頂いた九州大学井上研究室の皆様に心より感謝の意を表す と共に厚く御礼申し上げます.なお,本研究は,一部文部 科学省科学研究費補助金 26540022 の助成による.

# 参考文献

- HARTSTEIN, A., AND PUZAK, T. R. The optimum pipeline depth for a microprocessor. In ACM SIGARCH Computer Architecture News (2002), vol. 30, IEEE Computer Society, pp. 7– 13.
- [2] HENNESSY, J. L., AND PATTERSON, D. A. Computer architecture: a quantitative approach. Elsevier, 2012.
- [3] HRISHIKESH, M., BURGER, D., JOUPPI, N. P., KECKLER, S. W., FARKAS, K. I., AND SHIVAKUMAR, P. The optimal logic depth per pipeline stage is 6 to 8 fo4 inverter delays. In ACM SIGARCH Computer Architecture News (2002), vol. 30, IEEE Computer Society, pp. 14–24.
- [4] KADIN, A. M., MANCINI, C. A., FELDMAN, M. J., AND BROCK, D. K. Can rsfq logic circuits be scaled to deep submicron junctions? *Applied Superconductivity, IEEE Transactions* on 11, 1 (2001), 1050–1055.
- [5] TANAKA, M., KAWAMOTO, T., YAMANASHI, Y., KAMIYA, Y., AKI-MOTO, A., FUJIWARA, K., FUJIMAKI, A., YOSHIKAWA, N., TERAI, H., AND YOROZU, S. Design of a pipelined 8-bit-serial singleflux-quantum microprocessor with multiple alus. *Superconductor Science and Technology* 19, 5 (2006), S344.
- [6] TANAKA, M., YAMANASHI, Y., IRIE, N., PARK, H., IWASAKI, S., TAKAGI, K., TAKETOMI, K., FUJIMAKI, A., YOSHIKAWA, N., TERAI, H., ET AL. Design and implementation of a pipelined 8 bit-serial single-flux-quantum microprocessor with cache memories. *Superconductor Science and Technology 20*, 11 (2007), S305.
- [7] TSUHATA, T., YOKOTA, J., INOUE, K., AND TANAKA, M. Architectural design space exploration of single-flux-quantum microprocessors.
- [8] 吉川信行. 超伝導回路用メモリ技術の現状と展望. まぐね= Magnetics Japan 5, 1 (2010), 12–18.
- [9] 田中雅光.単一磁束量子回路に基づく超高速マイクロプロセッサに関する研究. PhD thesis, 名古屋大学, 2006.