# 単一磁束量子プロセッサ向けキャッシュメモリ構成法の検討 と定量的評価

# 鴨志田 圭吾<sup>1,a)</sup> 石川 伊織<sup>1</sup> 羽野 祐太<sup>1</sup> 川上 哲志<sup>1</sup> 谷本 輝夫<sup>1</sup> 小野 貴継<sup>1</sup> 田中 雅光<sup>2</sup> 藤巻 朗<sup>2</sup> 井上 弘士<sup>1</sup>

概要:本稿では、単一磁束量子(Single Flux Quantum:SFQ)回路を用いたマイクロプロセッサの実現を 念頭に、4 kelvin 環境下での動作を前提とした極低温キャッシュメモリ構成法を検討する.メモリアレイ に関しては SFQ シフトレジスタまたは SRAM での実装、キャッシュ内グローバル配線に関しては SFQ または CMOS 回路での実装を想定する.これらの設計選択肢に基づき、SFQ キャッシュ(SFQ シフトレ ジスタ型 FIFO メモリと SFQ 回路で実装)、CMOS キャッシュ(SRAM と CMOS 回路で実装)、ならび に、ハイブリッドキャッシュ(SRAM と SFQ 回路で実装)といった 3 つのアーキテクチャモデルを導入 し、モデリングに基づくアクセス時間の評価を行う(ただし、本稿ではデータメモリアレイにのみ着目す る). その結果、現行の 1.0 μm プロセスを前提とした場合には、SFQ キャッシュよりもハイブリッドまた は CMOS キャッシュが優れていることが分かった.

## 1. はじめに

CMOS 回路で実装される現在のプロセッサは、トラン ジスタの微細化を拠り所としてその高速化と低消費電力化 を達成してきた.しかしながら、デナード則 [1]の破綻や、 近い将来に訪れると予想されているムーア則(半導体の微 細化)の終焉により、その継続的な発展が難しくなりつつ ある.この問題を解決するアプローチとして新奇デバイス の活用が注目されており、その1つに超伝導単一磁束量子 (Single Flux Quantum: SFQ)回路がある [2].論理ゲー トのスイッチ時に消費するエネルギーは CMOS 回路の約 1/1000 という低消費電力性を有し、かつ、数十 GHz での 超高速動作を実現することができる [3], [4].

特に最近では、ALU や乗算器といった演算回路の実装に 加え、プロセッサや AI アクセラレータを対象とした SFQ 向けアーキテクチャ研究が盛んに行われている.例えば、 32 GHz, 6.5 mW で動作する 4bit プロセッサは、ゲート レベルパイプラインでのストールの頻発を回避するための SIMT (Single Instruction Multiple Thread) 実行モデルを 採用し、循環型レジスタファイルを導入するなどの工夫が なされている [5]. しかしながら、依然としてオンチップ バッファやスクラッチパッドメモリの利用を前提とした 場合が殆どであり,プロセッサ性能に大きな影響を及ぼす キャッシュメモリ構成法に関する議論は極めて少ない.著 者らが知る限り,先行研究としては SFQ シフトレジスタ型 FIFO メモリを用いたアーキテクチャの提案のみであり, そのアクセス時間は容量 2 KB で 736.6 ps と大きく,有効 性は明らかでない [6].また,SFQ シフトレジスタ以外の メモリデバイスの利用も可能となりつつあり,様々な実装 手段を踏まえた SFQ 向けキャッシュメモリ・アーキテク チャの検討が求められている.

そこで本研究では、SFQ プロセッサ向け極低温キャッ シュメモリの実現を念頭に、その設計選択肢を議論する. 現状,SFQ 回路でメモリを実装する場合,シフトレジス タによる FIFO メモリを用いる以外に方法は無い.その一 方,近年では4 kelvin 環境下でのスクラッチパッドメモリ の実装(SRAM を利用)が提案されており、キャッシュ の基本構成要素であるメモリアレイへの応用が考えられ る [7]. また、近年の大容量キャッシュでは入出力ポートと 各メモリアレイを接続するグローバル配線が性能や消費電 力に大きな影響を与えている. その実装においては, SFQ 高速伝送路または電荷の充放電に基づく CMOS 回路の利 用が考えられる. これらの設計選択肢に基づき、本研究で は3つのキャッシュアーキテクチャモデル(完全 SFQ 回 路型,完全 CMOS 回路型,ハイブリッド型)を導入する. そして、データメモリアレイにのみ着目したアクセス時間 モデリングに基づき性能を評価し、SFQ プロセッサ向け

<sup>&</sup>lt;sup>1</sup> 九州大学

<sup>2</sup> 名古屋大学

<sup>&</sup>lt;sup>a)</sup> keigo.kamoshida@cpc.ait.kyushu-u.ac.jp

Vol.2022-ARC-249 No.7 2022/7/28

## 情報処理学会研究報告 IPSJ SIG Technical Report



図 1 ジョセフソン接合を含むループと SFQ パルス

キャッシュメモリの実現に向けた課題を明らかにする.

本稿の構成は以下の通りである.第2節では SFQ 回路 の動作原理と特性について述べる.第3節で SFQ プロセッ サ向けキャッシュアーキテクチャを定義し,第4節でアク セス時間モデルを導入する.第5節でモデルに基づくアク セス時間評価を行い,最後に第6節でまとめる.

## 2. 単一磁束量子回路

## 2.1 動作原理

単一磁束量子 (Single Flux Quantum: SFQ) 回路はジョ セフソン接合を含んだ超伝導体のループ (図 1) によって構 成されている. 超伝導ループ内を貫く磁束は磁束量子  $\Phi_0$ の整数倍に量子化される. ループ内に磁束量子が入ってい るとき, ループ部分には周回電流が流れる. 接合に流れる 電流が臨界電流値  $I_c$  より小さいならば磁束量子はループ 内に保持される. 逆に  $I_c$  より大きくなると接合がスイッ チし, 磁束量子はループの外に出る. SFQ 回路はループ 内に磁束量子が存在する場合にビット '1' を,存在しない 場合にビット '0' を保持していると見なす. 接合がスイッ チするとき, SFQ パルスと呼ばれる高さが数百  $\mu$ V, 幅が 数 ps のインパルス状の電圧が発生する. SFQ 回路はこの SFQ パルスを情報伝搬に用いる. 磁束量子の保持や SFQ パルスの伝搬を制御することで SFQ 回路は論理演算を実 現させる.

## 2.2 パルス論理

CMOS 回路は電圧レベルの高低を '1', '0' に対応させる 「レベル論理」である. これに対して SFQ 回路は SFQ パ ルスの有無を '1', '0' に対応させる「パルス論理」である. このため, SFQ 回路は CMOS 回路とは異なる独自の論理 回路構成が採用されている. 具体的には, SFQ 回路におい て '1' をパルスの到着で表す際,「'0' 状態」と「'1' だがパ ルスがゲートに到着していない状態」の判別ができない. そのため, 論理ゲートの入力に駆動パルスを追加し, 2つ の駆動パルスの間にデータパルスが到着すれば '1', 到着 しなければ '0' と判別する方式が用いられている (図 2). 駆動パルスの入力により動作するため, SFQ 論理ゲートは ラッチ機能を持つ.



図 3 PTL の模式図

## 2.3 ゲートレベルパイプライン

ゲートレベルパイプラインとは論理ゲート1段がパイプ ライン1段に対応した最も粒度が細かいパイプライン構造 である.SFQ 論理ゲートは原理的にラッチを持っており 追加のパイプラインレジスタを挿入する必要がないため, ゲートレベルパイプラインを容易に実現することができ る.この構造を採用した乗算器 [3] と ALU[4] はそれぞれ 48 GHz, 52 GHz での動作が実証されている.

## 2.4 PTL

PTL (Passive Transmission Line) (図 3) は SFQ 回路 の配線の1種であり、マイクロストリップラインまたはス トリップライン構造の伝送線路を用い、インパルス状の電 圧信号を電磁波として伝搬させる.PTLの両端には専用の インタフェース回路を用意し、送信側をドライバ、受信側 をレシーバと呼ぶ. 伝搬速度は真空中の光速のおよそ 1/3、 すなわち約 10<sup>8</sup> m/s である.

## 3. キャッシュメモリの構成法

本研究では, CACTI [8] におけるキャッシュメモリのレ イアウトに基づき, SFQ 回路向けのキャッシュメモリの構 成法を議論する.

#### 3.1 キャッシュメモリのレイアウト

図4は本研究で想定するキャッシュメモリのレイアウト である.キャッシュメモリはデータアレイとタグアレイに よって構成される.それぞれのアレイには MAT (1つの プレデコーダを共有した4つのサブアレイ)がタイル状に 配置されている.サブアレイにはデコーダ,マルチプレク サといった周辺回路とメモリアレイが含まれる.アドレス やデータは H 木状の GW (グローバルワイヤ)を介して



図4 キャッシュメモリのレイアウト



図 5 SFQ 回路の場合のサブアレイ



図6 SFQ 回路の場合のノード

MAT へ入出力される. GW の分岐点をノードと呼ぶ.本 研究では, GW と MAT それぞれに焦点を当てる.

## 3.2 設計選択肢

SFQ プロセッサ向けのキャッシュメモリは4 kelvin の環 境下にあると考えられる.このとき,SFQ 回路と CMOS 回路の両方を用いることが可能である.また,SFQ パルス とレベル電圧を変換するインタフェース回路を導入するこ とで,SFQ 回路と CMOS 回路を組合わせた構成を採るこ ともできる.動作周波数や配線遅延,消費電力の観点から は SFQ 回路が CMOS 回路よりも優れている.一方,集積 度の観点からは,微細化が進んでいる CMOS 回路の方が 優位となる.そのため,集積度の高さが重視されるメモリ に関しては CMOS 回路(SRAM アレイ)を用いる構成法 が選択肢に挙がる.GW と MAT の実装の違いに着目し, 図 7 に示す 3 種のキャッシュアーキテクチャモデルを定義 する.

# 3.3 キャッシュアーキテクチャモデル

## 3.3.1 SFQ キャッシュ

GWをSFQのPTL,ノードをSFQ回路,MATをSFQ 回路で実装する(図7(a)).SFQ回路によるMATの実装 では、図5に示すサブアレイ構成を想定する.メモリアレ イはSFQシフトレジスタで構成され、巡回バッファ構造 を有する.対象データが入出力ポート位置に到達するまで 巡回シフト操作を行うことで、データの読み書きを行う. 巡回シフト回数は、現アクセスにおけるアドレス値と前回 アクセス時のアドレス値の差で求まる.そのため、デコー ダ部分は前回アクセスにおけるアドレス値を記憶するラッ チと減算器,ならびに、巡回シフト操作のためのパルス生 成回路によって構成される.

また、PTL で GW を、SFQ 回路でノードを実装する場 合、図 6 のように PTL からレシーバで信号を受け取り、ス プリッタで SFQ パルスを分岐させ、ドライバで PTL に信 号を出力する必要がある. SFQ キャッシュでは PTL によ る高速な情報伝搬が可能であり、インタフェース回路が必 要ないといった長所がある.また、CMOS 回路を用いる場 合よりも低消費電力であると考えられる.一方、SFQ 回 路の微細化は CMOS 回路と比べて大幅に遅れているため、 現行のプロセスでは面積が大きくなる傾向にある.その結











**図 9** LDDS の回路図

果, GW が長くなり, ひいては, アクセス時間にも悪影響 を及ぼす.また,メモリアレイがシフトレジスタであるた め,対象データの入出力ポートからの距離によって巡回シ フト回数が変化する.最良の場合(アクセス対象データが 入出力ポート位置に存在する場合)はゼロ回,最悪の場合 はエントリー数回の巡回シフトが必要となり,アクセス時 間に不均一性が生じる.

## 3.3.2 CMOS キャッシュ

GW を RC 配線(電荷の充放電により情報を伝播する従 来の配線)、ノードを CMOS 回路、MAT を SRAM(周辺 回路は CMOS)で実装する(図 7(b))。既存の半導体プロ セッサに用いられるキャッシュメモリの構成と同様である。 ただし、GW と SFQ プロセッサの間にはインタフェース 回路が必要となる。本研究では SFQ パルスをレベル電圧 に変換する回路を SFQ/DC インタフェース回路, レベル電 圧を SFQ パルスに変換する回路を DC/SFQ インタフェー ス回路と呼ぶ.

SFQ/DCインタフェース回路は図8に示す nTron [9] の 利用を想定する.nTronはチャネルの超伝導状態(抵抗無) と常伝導状態(抵抗有)をゲートからの電流によって制御 することで出力電圧を変える.チャネル幅はゲート付近で 最も小さくなるように設計される.また,ゲート幅もチャ ネルに近づくにつれて小さくなり,先端部分をチョークと 呼ぶ.このような構造によって SFQ パルスの微弱な電流 でもチャネルの超伝導状態から常伝導状態への遷移が可能 となる.

DC/SFQ インタフェース回路は LDDS [10] の利用を想 定する. 図 9 は LDDS の回路図である.入力から電流が 流れているときにクロックから SFQ パルスが到着すると 接合 J<sub>1</sub>, J<sub>2</sub> がスイッチし,SFQ パルスが出力される.

## 3.3.3 ハイブリッドキャッシュ

GWをSFQのPTL, ノードをSFQ回路, MATをSRAM (周辺回路はCMOS)で実装する(図7(c)). PTLによる 高速な情報伝搬と, SRAMによる高密度実装(ならびに ランダムアクセス)の両立が可能となる.ただし,GWと MATの間にはインタフェース回路が必要である. 消費電 力,面積はSFQキャッシュとCMOS キャッシュの中間で あると予想される.

# 4. アクセス時間モデル

本研究では簡単のためデータアレイのアクセス時間モデ ルから3種の構成法を評価する.なお、タグを考慮した キャッシュ全体の評価に関しては今度の課題である.デー タアレイのアクセス時間 T<sub>data\_access</sub> は式 (1) で表される.

$$T_{\text{data\_access}} = \begin{cases} T_{\text{GW}} + T_{\text{MAT}}, \\ (\text{SFQ}) \\ T_{\text{GW}} + T_{\text{MAT}} + T_{\text{interface}}, \\ (\text{CMOS}, \curlyvee \overrightarrow{\neg} \, \varUpsilon \, \curlyvee \, \dddot{} \, \curlyvee \, \dddot{} \, \curlyvee \, \dddot{} \, \curlyvee \, \ddddot{} \,$$

SFQ キャッシュの場合, GW の遅延  $T_{GW}$  と MAT の遅延  $T_{MAT}$  の和であるが, CMOS, ハイブリッドキャッシュの 場合インタフェース回路の遅延  $T_{interface}$  が加算される.

GW の遅延 *T*<sub>GW</sub> を式 (2) で表す.入力と出力で 2 回情 報伝搬が行われるため式全体に 2 を掛けている.

$$T_{\rm GW} = \begin{cases} 2\{l_{\rm GW}/v_{\rm PTL} + T_{\rm node} \log_2 N_{\rm MAT}\},\\ ({\rm SFQ}, \checkmark \mathcal{I} \mathcal{I} \mathcal{Y} \mathcal{Y} \mathcal{Y}) \end{cases} \\ 2\{l_{\rm GW}/v_{\rm RC}\},\\ ({\rm CMOS}) \end{cases}$$
(2)

GW の配線長  $l_{GW}$  を伝搬速度で割ったものが,GW の配 線部分の遅延となる. $v_{PTL}$ , $v_{RC}$  はそれぞれ PTL と RC 配線のデータ伝搬速度である.RC 配線は CACTI [8] の想 定と同様に一定間隔でドライバーが挿入され,配線長と伝 搬遅延は比例関係にあるとしている.GW に PTL を用い る SFQ,ハイブリッドキャッシュはレシーバとドライバ による遅延の増加を無視できないため,ノード部分の時間 を加えている.ノードの遅延の合計はノード 1 つあたり の遅延  $T_{node}$  とノード数の積によって表される.MAT 数  $N_{MAT}$  が 2 倍になるとノードは 1 つ増えるため,ノード数 は  $log_2 N_{MAT}$  となる.

GW の配線長 *l*<sub>GW</sub> を式 (3) で表す.

$$l_{\rm GW} = H\{(N_{\rm MAT\_H} - 1)/N_{\rm MAT\_H}\}/2 + W\{(N_{\rm MAT\_W} - 1)/N_{\rm MAT\_W}\}$$
(3)

H, W はそれぞれアレイの縦幅と横幅,  $N_{\text{MAT}-\text{H}}$ ,  $N_{\text{MAT}-\text{W}}$ はそれぞれ縦,横に並んだ MAT 数である.例として,図 10 のような 4 × 4 のアレイで右上端の MAT に対して入 出力が行なわれる場合,横向きの GW (図 10 赤線)の 長さは MAT3 (= 4 - 1) つに対応する.アレイの横幅 W が MAT4 つに対応するため,GW の横向きの長さは  $W\{(N_{\text{MAT}-\text{W}} - 1)/N_{\text{MAT}-\text{W}}\} = W(4 - 1)/4 = W × 3/4$ となる.縦向きの GW (図 10 青線)の長さは横向きと同 様だが,アレイの端ではなく中央から伸びる配線であるた め,全体に 1/2 を掛ける.

アレイの縦幅 H を式 (4) で表す.

1

 $H_{\text{MAT_SFQ}}, H_{\text{MAT_CMOS}}$  はそれぞれ SFQ 回路, CMOS 回路と SRAM で実装した場合の MAT の縦幅である.また,  $N_{\text{GW_H}}$  は縦に並んだ GW の本数,  $P_{\text{PTL}}, P_{\text{RC}}$  はそれぞれ PTL と RC 配線のピッチである.

H<sub>MAT\_SFQ</sub>を式 (5) で表す.

$$H_{\rm MAT\_SFQ} = R_{\rm array\_h} H_{\rm MAT\_CMOS}$$
(5)



図 10 MAT が 4×4 で並ぶ場合の GW

R<sub>array</sub>h は SFQ シフトレジスタ型メモリアレイと SRAM で構成されたメモリアレイの縦幅の比である.メモリアレ イの面積は MAT の大部分を占めているため、本モデルで はメモリアレイの縦幅、横幅の比を用いて SFQ 回路で実 装された MAT の縦幅、横幅を表す.

R<sub>array\_h</sub>を式 (6) で表す.

$$R_{\rm array\_h} = H_{\rm DFF} / 2H_{\rm SRAM} \tag{6}$$

H<sub>DFF</sub>, H<sub>SRAM</sub> はそれぞれ SFQ 回路の DFF, SRAM の 縦幅である. 図 11 は 4 × 4 メモリアレイの場合における SRAM と SFQ シフトレジスタの対応を表している. 縦一 列の SRAM がループ構造を持つ SFQ シフトレジスタ 1 つ に対応する (図 11 の青線で囲われている部分). また, ど ちらのメモリアレイも図 11 の赤い破線で囲われている部 分を 2 × 4 で配置しているとみなすことができる. よっ て, メモリアレイの縦幅の比は 1 つの DFF の縦幅と 2 つ の SRAM の縦幅の比にほぼ等しい.

アレイの横幅 W を式 (7) で表す.

$$W = \begin{cases} N_{\text{MAT}} W W_{\text{MAT}} SFQ + N_{\text{GW}} W P_{\text{PTL}}, \\ (SFQ) \\ N_{\text{MAT}} W W_{\text{MAT}} CMOS + N_{\text{GW}} W P_{\text{RC}} \\ + W_{\text{interface}}, \\ (CMOS) \\ N_{\text{MAT}} W W_{\text{MAT}} CMOS + N_{\text{GW}} W P_{\text{PTL}} \\ + N_{\text{MAT}} W W_{\text{interface}}, \\ (\prime \lor \checkmark \forall \forall \forall \forall ) \end{cases}$$
(7)

 $W_{MAT_SFQ}, W_{MAT_CMOS}$ はそれぞれ SFQ 回路, CMOS 回路と SRAM で実装した場合の MAT の横幅である.また,  $N_{GW_W}$ は横に並んだ GW の本数である. CMOS キャッシュの場合は GW と SFQ プロセッサの境界にインタフェー

#### 情報処理学会研究報告

IPSJ SIG Technical Report



図 11 4×4メモリアレイにおける SRAM と SFQ シフトレジスタの対応

ス回路が挿入される.そのため、インタフェース回路1つ分の横幅 $W_{\text{interface}}$ が加算される.ハイブリッドキャッシュの場合、GWとMATの境界にインタフェース回路が挿入される.そのため、 $W_{\text{interface}}$ と $N_{\text{MAT}-W}$ の積が加算される.

W<sub>MAT\_SFQ</sub>を式 (8) で表す.

$$W_{\rm MAT\_SFQ} = R_{\rm array\_w} W_{\rm MAT\_CMOS}$$
(8)

R<sub>array-w</sub> は SFQ シフトレジスタ型メモリアレイと SRAM で構成されたメモリアレイの横幅の比である.

R<sub>array\_w</sub>を式 (9) で表す.

$$R_{\rm array\_w} = (2W_{\rm DFF} + W_{\rm SPL3})/W_{\rm SRAM}$$
(9)

W<sub>DFF</sub>, W<sub>SPL3</sub> はそれぞれ SFQ 回路の DFF, 3 出力スプ リッタの横幅, W<sub>SRAM</sub> は SRAM の横幅である. 図 11 よ りメモリアレイの横幅の比は 2 つの DFF の横幅と 1 つの 3 出力スプリッタの横幅の和と, SRAM の横幅の比にほぼ 等しい.

MAT の遅延 T<sub>MAT</sub> を式 (10) で表す.

$$T_{\rm MAT} = \begin{cases} T_{\rm cycle\_SFQ}(N_{\rm sub} + N_{\rm shift} + N_{\rm mux}), \\ (SFQ) \\ T_{\rm decoder} + T_{\rm wordline\_driver} \\ + T_{\rm bitline} + T_{\rm senseamp}, \\ (CMOS, \land \checkmark \not\supset \lor \lor \lor) \end{cases}$$
(10)

SFQ キャッシュの場合は,各構成要素の所要サイクル 数の和と駆動パルスの周期  $T_{cycle_SFQ}$  の積となる. $N_{sub}$ ,  $N_{shift}$ ,  $N_{mux}$  はそれぞれ減算器,シフトレジスタ,マルチ プレクサの所要サイクル数である. ハイブリッド, CMOS キャッシュの場合,各構成要素の遅延の和となる. $T_{decoder}$ ,  $T_{wordline\_driver}$ ,  $T_{bitline}$ ,  $T_{senseamp}$  はそれぞれデコーダ,ワー ドラインドライバ,ビットライン,センスアンプの遅延で ある.

N<sub>sub</sub> は減算器の論理ゲート段数に等しい.本研究では, 過去のシフトレジスタ型キャッシュのアクセス時間の見積



 $\boxtimes$  12 SFQ\_MUX(Input\_{mux} = 8)

もり [6] におけるモデル式を使用する (式 (11)).

 $N_{\rm sub} = 3 + 2\lceil \log_2(B_{\rm addr} - \log_2 N_{\rm MAT}) \rceil$ (11)

B<sub>addr</sub> はアドレスのビット数である.

N<sub>shift</sub> (式 (12)) はシフトレジスタの動作回数に等しく, 対象とするデータの位置によって動作回数は変化する.入 出ポートから最も遠いワードラインに対象データがある場 合 (最悪ケース) はワードラインの本数 N<sub>wordline</sub> だけシフ トレジスタを動作させる必要がある.入出力ポートがある ワードラインに対象データがある場合 (最良ケース) はシ フトレジスタは動作しない.

$$N_{\rm shift} = \begin{cases} N_{\rm wordline}, & (最悪ケース) \\ 0, & (最良ケース) \end{cases}$$
(12)

N<sub>mux</sub> はマルチプレクサの論理ゲート段数に等しい.マ ルチプレクサは AND ゲートとバイナリ・ツリー状の OR ゲートで構成されたもの(図 12)を想定し,論理ゲート段 数を式 (13) で表す.

$$N_{\rm mux} = 1 + \log_2 Input_{\rm mux} \tag{13}$$

Input<sub>mux</sub> はマルチプレクサの入力数である.

 $T_{\text{interface}}$ はSFQ/DCインタフェース回路の遅延 $T_{\text{SFQ/DC}}$ とDC/SFQインタフェース回路の遅延 $T_{\text{DC/SFQ}}$ の和で表す(式 (14)).

$$T_{\rm interface} = T_{\rm SFQ/DC} + T_{\rm DC/SFQ}$$
(14)



#### 図13 アクセス時間評価の流れ

表 1 MOSFET のパラメータ

|                              |              | -            |
|------------------------------|--------------|--------------|
| 温度                           | 4 kelvin     | 300 kelvin   |
| $V_{\rm dd}$ [V]             | 0.44         | 0.8          |
| $V_{\rm th}~[{ m V}]$        | 0.228        | 0.1395       |
| $V_{\rm tsat}$ [V]           | 0.123        | 0.0233       |
| $I_{\rm on\_n}$ [A/µm]       | 0.00625      | 0.0026264    |
| $I_{\rm on_{-p}}  [A/\mu m]$ | 0.00312      | 0.0013132    |
| $I_{\rm off\_n}$ [A/µm]      | $4.52^{-10}$ | $1.22^{-07}$ |
| $I_{\rm g\_on\_p}$ [A/µm]    | $3.36^{-12}$ | $1.81^{-09}$ |
| Mobility_n $[\mu m^2/Vs]$    | $2.00^{11}$  | $4.26^{10}$  |
| resistivity $[\mu\Omega m]$  | 0.008        | 0.018        |

## 5. アクセス時間の評価

#### 5.1 評価方法

図 13 はアクセス時間の評価の流れである. キャッシュ のレイアウト (MAT 数やサブアレイのワードライン, ビッ トライン数など), CMOS 回路と SRAM で構成される MAT に関するパラメータ, RC 配線に関するパラメータ は CACTI 7.0 [11] を用いて算出し, アクセス時間モデル に入力する. CACTI 7.0 には 4 kelvin における MOSFET のパラメータと, キャッシュの構成を入力する. SFQ 回路 の MAT, PTL, インタフェース回路に関するパラメータは 直接モデルに入力する.

## 5.2 パラメータの設定

## 5.2.1 キャッシュの構成

本評価では,連想度は1 (ダイレクトマップ),アドレス 長は32 ビットに設定する.容量は2 KB から16 MB, ブ ロックサイズは8 B から64 B の範囲で評価する.ブロッ クサイズとデータの入力・出力ビット数は等しいとする.

## 5.2.2 MOSFET のパラメータ

本研究では CMOS 回路のプロセスサイズを 22 nm に設定 している.表 1 は MOSFET のパラメータのうち 4 kelvin と 300 kelvin で値が異なるものをまとめたものである.

| 表 2 SFQ 回路, PTL, インタフェース回路のパラメータ |             |                 |        |
|----------------------------------|-------------|-----------------|--------|
| SFQ 回路のプロセス                      | $1 \ \mu m$ | $0.2~\mu{ m m}$ | 22 nm  |
| $T_{\rm SFQ/DC}$ [ps]            | 100         | 100             | 100    |
| $T_{\rm DC/SFQ}$ [ps]            | 19          | 4.75            | 0.418  |
| $v_{\rm PTL}~[{\rm mm/ns}]$      | 100         | 100             | 100    |
| $W_{\text{interface}}$ [µm]      | 1.3         | 1.3             | 1.3    |
| $T_{\rm node} \ [ps]$            | 7.9         | 1.975           | 0.1738 |
| $T_{\rm cycle\_SFQ}$ [ps]        | 20          | 5               | 0.44   |
| $H_{\rm DFF}$ [ $\mu {\rm m}$ ]  | 30          | 6               | 0.66   |
| $W_{\rm DFF}$ [ $\mu m$ ]        | 30          | 6               | 0.66   |
| $W_{\rm SPL3}$ [ $\mu m$ ]       | 30          | 6               | 0.66   |
| $P_{\rm PTL}$ [ $\mu$ m]         | 15          | 3               | 0.33   |

4 kelvin における MOSFET のパラメータは 4 kelvin 下で の SFQ-CMOS ハイブリッドのスクラッチパッドメモリを 提案した先行研究 [7] における値を用いる.

5.2.3 SFQ 回路, PTL, インタフェース回路のパラメータ

SFQ 回路のプロセスは現行の Nb (ニオブ) 接合による 1 µm と, Nb 接合における動作周波数の上限とされてい る 0.2 µm, CMOS 回路と同等まで微細化すると想定した 22 nm の 3 つの場合を考える.表 2 は SFQ 回路, PTL, インタフェース回路のパラメータの一覧である.

## $1 \ \mu m$

 $T_{\text{SFQ/DC}}$ は 100 ps [12] と設定する.  $T_{\text{SFQ/DC}}$ は 2  $\mu$ m プロセスの LDDS の遅延の実測値が 38 ps [10] であ るため、1  $\mu$ m の場合は半分の 19 ps とする.  $v_{\text{PTL}}$ は真空中の光速の約 1/3 である 100 mm/ns とする.  $W_{\text{interface}}$ は nTron の横幅とする [9].  $T_{\text{node}}$ は CON-NECT セルライブラリ [13], [14] のレシーバ、スプリッ タ、ドライバの遅延の和とする.  $T_{\text{cycle_SFQ}}$ は、SFQ 回路の動作周波数を 50 GHz とし 20 ps に設定する.  $H_{\text{DFF}}, W_{\text{DFF}}, W_{\text{SPL3}}, P_{\text{PTL}}$ はそれぞれ CONNECT セルライブラリの DFF の縦幅、DFF の横幅、3 出力 スプリッタの横幅、PTL のピッチである.

## $0.2~\mu\mathrm{m}$

現在 SFQ 回路の超伝導材料として用いられている Nb のまま微細化が進展しても Nb のギャップ電圧である 3.0 mV 以上はパルスは高くならず,パルス幅の縮小 ならびに動作周波数の向上はそこで打ち止めになる. パルス高が 3.0 mV となるのは 0.2  $\mu$ m プロセスであ るとされている [15]. このとき,1  $\mu$ m の場合から動 作周波数は約4倍,回路の遅延は約1/4 になると考え られる.また,セルの縦幅,横幅,PTL のピッチは 1  $\mu$ m プロセスの場合の1/5 とする.nTron は SFQ 回 路ではないため,本評価では  $T_{SFQ/DC}$ ,  $W_{interface}$  は微 細化によって変化しないとする.

## 22 nm

0.2 μm よりも微細化を進める場合, Nb のままでは 動作周波数は向上しない.また,臨界電流密度が

情報処理学会研究報告 **IPSJ SIG Technical Report** 



(a) SFQ 回路が 1 μm プロセスの場合

図 14 アクセス時間評価結果(ブロックサイズ: 32 B)



図 15 SFQ 回路が 0.2µm プロセスの場合のアクセス時間の内訳(ブロックサイズ: 32 B)

250 kA/cm<sup>2</sup> よりも高いトンネル障壁作製プロセス を開発する必要がある. さらに, 配線となる超伝導体 を流れる電流密度の増加も問題となる可能性があり、 十分に高い臨界電流密度を確保するなどといった課題 もある.本評価では超伝導材料の変更などによってこ れらの課題を解決でき、CMOS 回路と同等の 22 nm まで微細化した場合を考える.このとき、回路の遅延、 セルの縦幅, 横幅, PTL のピッチは1 µm プロセスの 場合の 22/1000 であるとする.

#### 5.3 評価結果 (ブロックサイズ: 32 B)

ブロックサイズが 32 B の場合のアクセス時間の評価結 果を図 14 に示す. SFQ 回路が 1 μm プロセスのとき, SFQ キャッシュのアクセス時間は最良ケースの場合でも他の 構成法より常にアクセス時間が大きい結果となった(図 14(a)). 0.2 μm プロセスの場合, 64 KB 以下のキャッシュ サイズで SFQ キャッシュの最良ケースが最小のアクセス 時間である一方、最悪ケースは常にアクセス時間が最大で あった (図 14(b)). 22 nm プロセスの場合, 2 MB 以下の キャッシュサイズで SFQ キャッシュが最悪ケースであっ ても最小のアクセス時間であった(図14(c)).また,ハイ ブリッドキャッシュのアクセス時間は低容量の場合 CMOS キャッシュに対して同程度かそれ以上である一方、容量が 大きくなるに従って CMOS キャッシュよりも小さくなる 傾向が見られた.容量が大きいほど GW の遅延がアクセ ス時間全体に占める割合は高くなるため, GW を RC 配線 ではなく PTL で実装したことによる伝送速度向上の効果 が大きく表れたと考えられる.

図 15 は Nb 接合で動作周波数が上限になるとされてい る 0.2 μm まで SFQ 回路が微細化した場合の,各構成法の アクセス時間の内訳である. SFQ キャッシュの場合, シフ トレジスタの動作数が最大であった場合(最悪ケース)の 遅延がアクセス時間の大部分を占めている(図 15(a)).シ フトレジスタの最大動作数が少なくなるようなレイアウト の最適化や、シフトレジスタの入出力ポートに近い位置に アクセスされる可能性の高いデータを配置することが有効 な解決策であると考えられる.また,SRAMのような直接 データを選択するメモリアレイが SFQ 回路で実現される ことでも解決しうる. CMOS, ハイブリッドキャッシュの 場合, SFQ/DC インタフェース回路である nTron の遅延 がアクセス時間の大部分を占めている(図 15(b)(c)).低 容量において特にこの傾向は強くなる. nTron の遅延の改 善や、新しい低遅延 SFQ/DC インタフェース回路の実現 がCMOS, ハイブリッドキャッシュのアクセス時間の削減 に重要な役割を果たすと考えられる.



図 16 CMOS, ハイブリッドキャッシュのアクセス時間(SFQ回路: 1 µm プロセス)

## 5.4 ブロックサイズがアクセス時間に与える影響

SFQ 回路が 1  $\mu$ m プロセスの場合,ブロックサイズが大 きいほどハイブリッドキャッシュのアクセス時間が CMOS キャッシュを下回る容量の範囲が狭くなることが分かった (図 16). SFQ 回路が 0.2  $\mu$ m, 22 nm プロセスの場合には この傾向は見られなかった.本評価ではブロックサイズと データの入力・出力ビット数は等しいとしている.このと き,ブロックサイズが大きいほど GW の配線数が多くな る.また,1 $\mu$ m プロセスの PTL のピッチは RC 配線と比 べて非常に大きい.さらに,キャッシュの縦幅,横幅のう ち GW 部分が占める部分は GW の配線数とピッチの積で ある (式 (4)(7)).以上の理由により,1 $\mu$ m かつブロック サイズが大きい場合,GW 部分の幅が CMOS キャッシュ と比べて非常に広くなり,キャッシュの面積ならびに GW の配線長,遅延を大きくしたと考えられる.

# 6. おわりに

本研究では、SFQ プロセッサの高速動作に追従するキャッ シュシステム探索を目的に、4 kelvin で動作するキャッシュ メモリの構成法を検討し、各構成法についてアクセス時間 モデルを作成し評価を行った.

評価結果より,SFQ 回路が現行プロセスの場合は SFQ キャッシュよりもハイブリッド,CMOS キャッシュのアク セス時間が小さいが,CMOS 回路と同等のプロセスまで SFQ 回路が微細化したと仮定した場合,SFQ キャッシュ のアクセス時間が 2 MB よりも容量が小さい場合は最小 になると見積もられた.また,アクセス時間の内訳より, SFQ キャッシュはメモリアレイであるシフトレジスタの遅 延が, CMOS, ハイブリッドキャッシュは SFQ/DC イン タフェース回路の遅延が大部分を占めていることが明らか になった.

今後はタグアレイを含めたモデルや消費電力モデルを作成し、アクセス時間、面積、消費電力を総合的に考慮した SFQ プロセッサ向けキャッシュシステムの探索を行う予定である.

**謝辞** 本研究を進めるにあたり,活発な議論とご協力 をいただいた九州大学井上研究室の皆様に心より感謝 の意を表します.なお,本研究は一部,JST 未来社会創 造事業 JPMJMI18E1,JST さきがけ JPMJPR21B3,JP-MJPR2015 ならびに,日本学術振興会科学研究費補助金また は JSPS 科研費 JP18H05211,JP18J21274,JP22H05000, JP22K17868 の支援による.

#### 参考文献

- Dennard, R., Gaensslen, F., Yu, H.-N., Rideout, V., Bassous, E. and LeBlanc, A.: Design of ion-implanted MOS-FET's with very small physical dimensions, *IEEE Journal of Solid-State Circuits*, Vol. 9, No. 5, pp. 256–268 (online), DOI: 10.1109/JSSC.1974.1050511 (1974).
- [2] Likharev, K. and Semenov, V.: RSFQ logic/memory family: a new Josephson-junction technology for subterahertz-clock-frequency digital systems, *IEEE Transactions on Applied Superconductivity*, Vol. 1, No. 1, pp. 3–28 (online), DOI: 10.1109/77.80745 (1991).
- [3] Nagaoka, I., Tanaka, M., Inoue, K. and Fujimaki, A.: A 48GHz 5.6mW Gate-Level-Pipelined Multiplier Using Single-Flux Quantum Logic, 2019 IEEE International Solid- State Circuits Conference - (ISSCC), pp. 460– 462 (2019).
- [4] 田中雅光,石田浩貴,長岡一起,村瀬 健,佐野京佑,小 野貴継,井上弘士,藤巻 朗:単一磁束量子回路に基づ くゲートレベル・パイプライン算術論理演算器の設計と エネルギー効率評価,技術報告 22 (2018).
- [5] Ishida, K., Tanaka, M., Nagaoka, I., Ono, T., Kawakami, S., Tanimoto, T., Fujimaki, A. and Inoue, K.: 32 GHz 6.5 mW Gate-Level-Pipelined 4-Bit Processor using Superconductor Single-Flux-Quantum Logic, 2020 IEEE Symposium on VLSI Circuits, pp. 1–2 (2020).
- [6] Ishida, K., Tanaka, M., Ono, T. and Inoue, K.: Single-flux-quantum cache memory architecture, 2016 International SoC Design Conference (ISOCC), pp. 105–106 (online), DOI: 10.1109/ISOCC.2016.7799755 (2016).
- [7] Zokaee, F. and Jiang, L.: SMART: A Heterogeneous Scratchpad Memory Architecture for Superconductor SFQ-Based Systolic CNN Accelerators, p. 912–924 (online), available from (https://doi.org/10.1145/3466752.3480041), Association for Computing Machinery (2021).
- [8] Thoziyoor, S., Muralimanohar, N., Ahn, J. H. and Jouppi, N. P.: CACTI 5. 1 (2008).
- [9] McCaughan, A. N. and Berggren, K. K.: A Superconducting-Nanowire Three-Terminal Electrothermal Device, *Nano Letters*, Vol. 14, No. 10, pp. 5748–5753 (online), DOI: 10.1021/nl502629x (2014).
- [10] Konno, G., Yamanashi, Y. and Yoshikawa, N.: Fully Functional Operation of Low-Power 64-kb Josephson-CMOS Hybrid Memories, *IEEE Transactions on*

*plied Superconductivity*, Vol. 27, No. 4, pp. 1–7 (online), DOI: 10.1109/TASC.2016.2646911 (2017).

- [11] Balasubramonian, R., Kahng, A. B., Muralimanohar, N., Shafiee, A. and Srinivas, V.: CACTI 7: New Tools for Interconnect Exploration in Innovative Off-Chip Memories, ACM Trans. Archit. Code Optim., Vol. 14, No. 2 (online), DOI: 10.1145/3085572 (2017).
- [12] Tanaka, M., Suzuki, M., Konno, G., Ito, Y., Fujimaki, A. and Yoshikawa, N.: Josephson-CMOS Hybrid Memory With Nanocryotrons, *IEEE Transactions on Applied Superconductivity*, Vol. 27, No. 4, pp. 1–4 (online), DOI: 10.1109/TASC.2016.2646929 (2017).
- [13] Yamanashi, Y., Kainuma, T., Yoshikawa, N., Kataeva, I., Akaike, H., Fujimaki, A., Tanaka, M., Takagi, N., Nagasawa, S. and Hidaka, M.: 100 GHz demonstrations based on the single-flux-quantum cell library for the 10 kA/cm2 Nb multi-layer process, *IEICE Transactions on Electronics*, Vol. E93-C, No. 4, pp. 440–444 (online), DOI: 10.1587/transele.E93.C.440 (2010).
- [14] Yorozu, S., Kameda, Y., Terai, H., Fujimaki, A., Yamada, T. and Tahara, S.: A single flux quantum standard logic cell library, *Physica C: Superconductivity*, Vol. 378-381, pp. 1471 – 1474 (online), DOI: https://doi.org/10.1016/S0921-4534(02)01759-8 (2002).
- [15] Patel, V. and Lukens, J.: Self-shunted Nb/AlO/sub x//Nb Josephson junctions, *IEEE Transactions on Applied Superconductivity*, Vol. 9, No. 2, pp. 3247–3250 (online), DOI: 10.1109/77.783721 (1999).