# SDI モデルに基づく局所同期型非同期式 VLSI 設計方式

今 井  $\mathbf{n}^{\dagger}$  Metehan Özcan<sup>†</sup> 南 谷 崇<sup>†</sup>

本論文では,SDI(Scalable-Delay-Insensitive)モデルに基づく非同期式システムの一設計方式として,要求-応答プロトコルに基づいて生成されたローカルタイミング信号を利用する非同期式 VLSI 設計方式を提案する.本設計方式では,セルフリセット構造を持つローカルタイミング信号生成回路 を利用して要求-応答オーバヘッドの小さい回路を実現する.また,入力データに依存して処理遅延 が大きく変動する場合,繰り返し実行されるレジスタ間データ転送処理遅延の平均値で性能を評価す ることができ,高速化を図ることができる.さらに,タイミング信号のみ非同期で実装する設計方式 であるため,制御回路とデータパスに分離してそれぞれの設計モデル・設計方式に応じた仕様記述を 行わなければならない従来の非同期式システム設計手法と比較して,設計が容易である.

# An SDI Model Based Design Methodology for Locally-timed Asynchronous Circuits

# MASASHI IMAI,<sup>†</sup> METEHAN ÖZCAN<sup>†</sup> and TAKASHI NANYA<sup>†</sup>

In this paper, an SDI (Scalable-Delay-Insensitive) model based design methodology for locally-timed asynchronous circuits is presented. In this methodology, register transfer level circuits are synchronized by local request-acknowledgment signals when delay values can be properly estimated and utilized. By using self-resetting circuits as local-timing generator circuits, request-acknowledgment overhead is minimized. In addition, further performance gain can be obtained by exploiting average-case behavior for input-dependent loop-structured implementations. Since only timing signals are implemented as asynchronous circuits, logic synthesis is relatively easier than the traditional asynchronous synthesis methodologies in which the general circuit is divided into data-path and control circuits and separate modeling and synthesis methods are applied on both parts.

1. はじめに

半導体集積回路製造技術の進歩にともなう素子の微 細化とシステムの大規模化が進むに従い,配線遅延が 支配的になるため,チップ全域にクロック信号を分配 する同期式システムでは,期待されるスイッチング速 度の向上がシステムの性能向上に反映されなくなる と予測されている<sup>1)</sup>.この問題を解決するための1つ の手段が,事象生起の因果関係を駆動原理とする非同 期式システムによる実現である.非同期式システムは グローバルクロックの制約がなく,プロセス微細化に ともない減少するゲート遅延でサイクルタイムが決定 されるカスケード ALU アーキテクチャ<sup>2)</sup>の採用等に より,素子の高速性をそのまま直線的にシステムの性 能向上に反映しうる.また,その動作原理から Delay

Research Center for Advanced Science and Technology, The University of Tokyo Insensitivity 特性があり,予測不能な遅延変動に対す る高いロバスト性が得られるとともに,モジュラー設 計が容易となる利点がある.

非同期式システム設計に関しては様々な研究が行わ れており、遅延モデルや回路構成方式の異なる様々な設 計方式<sup>3)</sup>が提案され、ツールの実装も行われている.主 なものとして、以下があげられる.1つ目は、Huffman モデル<sup>4)</sup>と呼ばれる遅延仮定に基づいた非同期式順序 回路の設計手法を基として、ある一定時間内の状態遷 移をまとまった遷移として考え、その遷移を引き起こ す入力遷移列をBurstとして指定するBurst Mode<sup>5)</sup> に基づいた設計手法と設計支援ツール ACK<sup>8)</sup>、およ び XBM(Extended Burst-mode)モデルに基づいた 論理合成ツール 3D<sup>6)</sup>等である.これらのモデルに基 づいた設計では、予測できない入力変化タイミングは ないものと仮定しているが、現実のシステムとしては 回路要素が環境と複雑な相互作用を及ぼしながら動作 するため、この仮定は必ずしも成立しない.2つ目は、

<sup>†</sup> 東京大学先端科学技術研究センター

Speed Independent (SI)回路理論<sup>7)</sup>に基づき,要求-応答プロトコルによりシステムを動作させるモデルで ある.この設計モデルでは,仕様記述の段階では"内 部状態"という概念を持たない.仕様の記述方法とし て, Petri-netやSTG(Signal Transition Graph)等 のグラフ表現に基づいた方法があり,それらを入力仕 様として論理合成を行うアルゴリズムの研究とツール Petrify 等の実装が行われている<sup>9)~11)</sup>. Petri-net や STG を仕様記述とする合成手法では,論理合成段階で いったん状態遷移図を作成し,それに基づいてハザー ドフリー構成を求める.この手法では,使用されてい る変数に対して指数関数オーダの記憶領域を必要とす るため,大規模な回路では状態爆発を引き起こしやす く,論理合成が実質的に不可能となる場合がある.さ らに,回路要素の遅延はSpeed Independent(SI)モ デルに基づいているため,要求-応答プロトコルにと もなうオーバヘッドが大きい.3つ目は,マイクロプ ロセッサ等の大規模な回路を対象とした設計モデルで あり, CHP (Communicating Hardware Processes) 言語を用いて動作仕様をプロセスとして記述するこ とにより制御回路を合成する方法<sup>12)</sup>や,仕様を Tangram により記述し,中間表現 Handshake circuit に 変換した後に直接制御回路を合成する方法<sup>13)</sup>,および Tangram と同様の Balsa と呼ばれる言語を用いた非 同期式 VLSI 設計方式とその支援システム<sup>14),15)</sup>等が ある.これらに基づいた設計では,プロセス記述とい う VLSI 設計者にとって馴染みの薄いものを使用する 必要があるため,仕様を記述するのが困難な場合があ る. Balsa システムは Balsa-C と呼ばれる C 言語類 似の高位記述言語からの合成環境,シミュレーション 環境等が提供されているが,ハンドシェイク回路を意 識して仕様を記述する必要があり,同期式システム設 計者にとっては設計が困難である.これら従来の非同 期式システム設計手法は,いずれも事象生起の因果関 係に基づいて要求-応答信号の制御を行う非同期式制 御回路と,制御回路から出力される要求信号に基づい て論理動作を開始し,その完了を応答信号によって制 御回路に通知するデータパスモジュール等から構成さ れるモデルを対象としている.また,いずれも Delay Insensitivity 特性を重視し、それぞれの遅延モデルで 規定された範囲内の遅延変動が生じても正しく動作す るように回路を構成するため,速度性能に対するオー バヘッドが大きくなりやすい.

Delay Insensitivity 特性を維持しつつ,速度性能に 対するオーバヘッドの小さい非同期式システムを実現 するための1つの手段が,遅延情報を利用することがで きる局所領域内において, Scalable-Delay-Insensitive (SDI)モデル<sup>16)</sup>に基づいた設計を行うことである. SDIモデルに基づいた回路設計例には, 32ビット非同 期式マイクロプロセッサ TITAC- $2^{16)}$ や DDL 回路を 用いた非同期式パイプライン<sup>17)</sup>がある.また, SDIモ デルに基づいて設計された回路のタイミング検証ツー ルの実装<sup>18)</sup>も行われている.

一方,高速性を重視し,遅延は既知と仮定した高速 な非同期式システムの回路構成がいくつか提案されて いる.主なものとして,ダイナミック CMOS 論理回 路を用いた高スループット非同期式パイプライン<sup>19)</sup>, GasP と呼ばれるパルス的なタイミング信号を生成す る回路を用いた FIFO 回路構成<sup>20)</sup>がある.GasP 回 路はトランジスタサイズを調整してすべての素子遅 延を等しくすることを仮定しており,素子3個で構 成される最小のループ構造のサイクルタイムで動作す る高速な FIFO を実現することができる<sup>20)</sup>.また,1 入力1出力の FIFO のほか, 多入力多出力, 選択分 岐,アービトレーション等の機能を持った FIFO の 回路構成も提案されている<sup>20),21)</sup>.これらの回路構成 を用いた非同期式システムは従来の非同期式システ ム設計方式と異なり,タイミング信号のみ要求-応答 プロトコルに基づいて実現し,データパスはそのロー カルなタイミング信号に同期して制御を行うモデル となっている.このようなシステムを本論文では局所 同期型非同期式 VLSI と呼ぶ.局所同期型非同期式 VLSIは, ローカルタイミング信号としてクロック信 号を用いる GALS( Globally-Asynchronous Locally-Synchronous) システム<sup>23),24)</sup>と比較して, クロック 信号のように最悪遅延で制約されないため,遅延が変 動するシステムでは,繰り返し実行される演算処理の 平均値で速度性能を評価することができる.さらに, データパスのタイミング制約は同期式システムと同様 にクリティカルパスとタイミング信号間の制約のみと なるため、データパスの設計に関して同期式システム 設計支援 CAD 環境を有効利用することができる.

本論文では,SDIモデルに基づいた非同期式 VLSI の一設計方式として,局所同期型非同期式 VLSI 設計 方式を提案する.次章では,設計方式の前提となる遅 延モデルについて述べる.3章では,基本回路構成モ デルとその回路が SDIモデルに基づいて正しく動作 するための遅延制約等を示す.4章ではシステム全体 の設計方式について述べ,5章では設計例と性能を示 し,6章でまとめる.



#### 2. SDI モデル

非同期式システム設計では,論理ゲートや配線の遅 延に関して設ける仮定,すなわち遅延モデルが重要な 役割を果たす.論理ゲートや配線の遅延の大きさは有 限であるが上限は未知とする SI モデル等のように遅 延変動に対して悲観的な遅延モデルに基づいた設計で は,現実には起こりそうもない遅延変動が生じても正 しい動作を保証するため,要求-応答プロトコルにと もなうオーバヘッドが大きく,十分な速度性能を得る ことが困難となる.一方,遅延変動に対して楽観的な 遅延モデルの基で設計された回路は,環境変動や設計 時のプロセス変動等により誤動作を引き起こしやすい. これらの遅延モデルに対して,より現実的な仮定とし て,チップ製造後の論理ゲートや配線等の回路要素の 遅延はそれぞれが独立に変動するのではなく,ほぼ-律に変動することに着目し,遅延変動率の相対値には 上限および下限があると仮定したモデルが SDI モデ ルである.

SDIモデルの定義は以下のとおりである<sup>16),22)</sup>「ある 回路要素 C に対して,設計者が設計段階で予測した遅 延を De とし,システムの生涯を通じて起こりうる実際 の遅延を Da(t) とする.このとき,R(t) = Da(t)/Deは回路要素 C の時刻 t における遅延変動率を表す. 任意の 2 つの回路要素 C1 と C2 の時刻 t にお ける遅延変動率をそれぞれ R1(t),R2(t) とすると, V(t) = R2(t)/R1(t) は時刻 t における相対遅延変動 率を表す.このとき,回路には定数  $K(K \ge 1)$ が存在 し,任意の 2 つの回路要素の間の相対遅延変動率 V(t)に関して,システムの生涯を通じて  $1/K \le V(t) \le K$ がつねに成り立つ」

SDIモデルで仮定している遅延変動について以下に 述べる.ある回路要素 C1, C2 に対し,予測遅延が それぞれ De1, De2 であり, De1 = De2 であるこ とを仮定する(図1).また,システムの生涯を通じ た任意の時点で,その回路要素がとりうる実際の遅延 値をそれぞれ Da1, Da2 とする.このとき,それぞ れの回路要素の遅延変動率の大きさによって,実際の 遅延値 Da1, Da2 は様々な値をとりうる.

個々の回路要素の遅延変動率が等しい, すなわち相





対遅延変動率 V = 1のとき,実際の遅延値は図2に 示すように,必ず同じ遅延値となる.ただし,遅延変 動の大きさは有限であるが上限は未知であり,予測遅 延に対して小さくなることもあれば大きくなることも ある.

各回路要素の遅延変動率がそれぞれ異なる場合,遅 延変動率が近い値であるか , 掛け離れた値であるかに よって,実遅延のとりうる値が大きく異なる.各回路 要素の遅延変動率が近い値, すなわち相対遅延変動率 Vが1に近い場合,図3a)に示すように,実遅延も ほぼ等しいものとなる.一方,各回路要素の遅延変動 率が大きく異なる場合,すなわち相対遅延変動率 V が1以上の大きい値,あるいは1未満の小さい正数値 (分子が1で分母が大きな値)である場合,図3b)に 示すように,回路要素がとりうる実遅延はその差が大 きいものとなる.ただし,いずれの場合も遅延変動率 はそれぞれ独立であるため , Da1 が Da2 よりも大き くなることもあれば,その逆となることもありうる. 定義から相対遅延変動率 V = R2/R1 であり, 遅延 変動率 R2 が R1 よりも大きい場合は V が 1 以上で 大きな値となり,その逆の場合は1未満の小さい正数 値となる.

SDIモデルに基づいた設計では,相対遅延変動率が 1に近いことが予測される場合は,相対遅延変動率の 上限,下限を規定する定数 $K(K \ge 1)$ を1に近い値 として設計時に与えることができる.一方,個々の回 路要素の遅延変動率がそれぞれ大きく異なり,相対遅 延変動率が1より大きな値,あるいは1未満の小さい 正数値をとることが予測される場合は,定数Kを大 きな値として設計時に与えなければならない.定数Kの値は設計経験,使用テクノロジ,製造プロセス等に より決定される値である.本論文では定数Kは設計



図4 SDIモデルに基づいた回路実現の遅延制約 Fig.4 Timing constraint in SDI model based circuits.

時に与えられるものと仮定する.

非同期式システム設計では,データパスにおける データ信号とその安定を示す完了信号との関係のよう に,順序関係を保証しなければならない信号遷移が存 在する.SDIモデルに基づいた設計では,回路中の信 号遷移 t1 が信号遷移 t2 よりも早く生じるように仕様 で定められている場合,図4に示すように,信号遷移 t1,t2 の共通原因となる信号遷移 t からの各パスの予 測遅延値をそれぞれ d1,d2 としたとき, $K \cdot d1 < d2$ が成り立つように回路を構成することで,任意の時 刻における信号遷移 t1 と t2 の順序関係が保証され る<sup>221</sup>.

実際の設計では,すべての信号遷移間で,共通遷移 元と信号遷移の順序関係を求め,不等式を満たすよう に設計する必要はない.順序関係を保証する信号遷移 間に関してのみ,共通信号遷移元からのそれぞれのパ スの遅延が不等式を満たせばよい.たとえば要求信号 を共通の信号遷移元とした場合,ソースレジスタから デスティネーションレジスタまでの演算処理のパスが 速いパスであり,その演算処理の完了を示す信号を生 成するまでのパスが遅いパスとなる.

3. 設計モデル

3.1 基本回路構成モデル

局所同期型非同期式 VLSI の基本となる回路構成 モデルを図5 に示す.なお,図5 のように,書き込 み要求信号(\_wr)と読み出し要求信号(rr)を入力 とし,書き込み応答信号(\_wa)と読み出し応答信号 (\_ra)およびローカルタイミング信号を生成する回路 と,そのローカルタイミング信号に同期して値が更新 される記憶素子および組合せ回路を持つ構成を「基本 モジュール」と呼ぶものとする.また,先頭に「\_」が 付加された信号名は負論理の信号であることを表す. システム全体は基本モジュールを結合することにより 実現される.ある基本モジュールに対して,入力側に 接続された基本モジュールの読み出し応答信号(\_ra) が書き込み要求信号(\_wr)として接続され,書き込 み応答信号(\_wa)が入力側基本モジュールの読み出 し要求信号(rr)として接続される.出力側も同様で



図 5 基本モジュールの構成 Fig. 5 Structure of the basic module.

ある.

図5において, ローカルタイミング信号(LTS)生 成回路は,高速な FIFO を実現する GasP 回路<sup>20)</sup>に 対し,回路構成自体は変更せず,書き込み側・読み出 し側それぞれで4相ハンドシェイクを実現するように 構成単位を変更したものであり,基本モジュールは容 量1の非同期 FIFO として動作する. GasP FIFO 回 路では、トランジスタサイズを調整することによりす べての素子遅延を等しくし,正しく動作することを保 証している.しかしながら,実際の回路構成において, すべての素子遅延を等しくするためにはフルカスタム でレイアウトをする必要があり,設計が困難である. また,データパスもパルス的なローカルタイミング信 号の生成間隔に合わせて細かく分割する必要がある. そこで,遅延モデルを SDI モデルに基づいたものと し,構成単位を図5ととらえ,破線で囲った回路を基 本セルとして設計し,スタンダードセル方式でデータ パスの遅延に合わせたローカルタイミング信号を生成 することができるようにする.これにより設計の容易 化が図れる.以降,破線で囲われたブロックは1つの 基本セルとして構成することを表すものとする.

基本モジュールが SDI モデルに基づいて正しく動 作するために満たさなければならない制約を図6に 示す.実線で示す遅いパスの遅延が破線で示す速い パスの遅延の K 倍より大きくなるように回路を構成 する.また,図6において「-」は立ち下がり遷移, 「+」は立ち上がり遷移であることを表す.図6(a)は セルフリセットの方が遅くなければならない制約であ り,これが満たされないと keeper(図5)が保持して いる値が遷移しないため,データの消失が生じる.ま た,slow1のセルフリセットの方が遅く遷移しないと, VDDから GND までショートし,故障の原因となる. 図6(b)はセルフリセットの方が速くなければならな





い制約であり、これが満たされないと keeper への入 力となる INV 構造で VDD から GND までのパスが 通り、ショートする.図6(c)はデータの二度読み・二 度書きを防ぐための制約である.図6(d)は、ローカ ルタイミング信号生成回路とそれに同期して値の更新 等の制御を行うデータパスとの遅延関係である.セル フリセットの開始を始点として、遅いパス slow7の遅 延が fast7 として示すデータパスの遅延の K 倍より も大きくなるように回路を構成する.また、セルフリ セットの遅延が記憶素子の最小クロックパルス幅の K 倍よりも大きくなるように回路を構成する.

遅延の調整はセル設計段階で行うものと,論理設計・

レイアウト設計段階で行うものとに分けて考えること ができる.図6において,fast1-slow1の関係は完全に セル内に閉じた関係であるため,セルの設計の際に遅延 調整を行うことで容易に大小関係式を満たすことができ る.また,fast8-slow8の関係も,あらかじめ定められた 最小クロックパルス幅が速いパスであり,セル設計段階 で調整することができる.slow2とfast4は同一のパス であるため, $K^2$ ·fast2 < K·slow2 = K·fast4 < slow4 となるように図6(a) E1の PMOS のサイズを大きく, (b)の B1の NMOS のサイズを小さくセルを設計する. また,fast3-slow3,fast5-slow5,fast6-slow6,fast7slow7の関係はいずれも基本モジュール間のインバー



図7 n入力, m 出力を持つ場合の回路構成モデル Fig. 7 Structure of the basic module for n-inputs and moutputs.

タの立ち上がり遅延を論理設計・レイアウト段階で調整することで,大小関係式を満たすように設計することができる.データパスの遅延の方が支配的である場合,基本モジュール間のインバータの立ち上がり遅延は以下のように求められる.組合せ回路の遅延をTe,記憶素子のセットアップタイムをTsetup,記憶素子の書き込み遅延をTw,ローカルタイミング信号を生成するインバータの遅延をTinvとすると,

 $K \cdot (Tinv + Tw + Te + Tsetup) <$ 

 $T_{C1+} + T_{D1} + T_{A2+} + T_{B2} + Tinv$  (1) を満たすようにインバータ A2 の立ち上がり遅延  $T_{A2+}$ を調整する.これにより,ローカルタイミング信号 LTS1 が1に遷移してから,次のローカルタイミング 信号 LTS2 が1に遷移するまでの遅延をデータパスの 遅延に合わせたものとすることができる.

#### 3.2 複数の入出力を持つ基本回路構成モデル

図 5 に示した基本モジュールは 1 入力 1 出力の回 路構成であり,単純な FIFO を表していた.しかしな がら,一般的な回路構成では,異なるローカルタイミ ング信号に基づいて動作している複数のレジスタ間で データのやりとりを行う場合がある.そこで,n入 力,m 出力を持つ場合の基本モジュールを図 7 に示 す.図7 において,in1~inn はそれぞれローカルタイ ミング信号が異なるレジスタから出力されたデータを 現し,out1~outm はそれぞれローカルタイミング信



図 8 入力データに依存したローカルタイミング信号の生成 Fig. 8 Utilization of variable delay inverter.

### 号が異なるレジスタへ入力するデータを表す.

図7のローカルタイミング信号生成回路の基本構成 はGasP family<sup>20)</sup>の中のTwo successor places を拡 張したものであり,1入力1出力の基本モジュールと 同様,入出力でそれぞれ4相ハンドシェイクを実現す るように構成したものである.また,図5同様,破線 で囲まれた部分をセルとして用意する.なお,初期状 態でレジスタに初期値が代入されるときは,m 個あ る keeper はすべて full(0)とし,初期値が不要な場 合は keeper はすべて empty(1)とする.

回路動作は1入力1出力のときと同じく,書き込み, 読み出しの要求-応答信号遷移に基づいて FIFO 動作 を実現する.また,SDIモデルに基づいて正しく動作 するための制約は基本的に図6に示したものと同じで ある.図6では速いパスと遅いパスの関係が1対1と して示されているが,入力数 n,あるいは出力数 m に応じて,1対 n,あるいは1対 m すべてに関して 遅いパスの遅延が速いパスの遅延の K 倍となるよう に回路を構成する.

3.3 平均遅延動作による速度性能の向上

前述のとおり,ある基本モジュールのローカルタイ ミング信号が1に遷移してから,次の基本モジュール のローカルタイミング信号が1に遷移するまでの遅延 は,図5におけるインバータAの立ち上がり遅延に より決定される.そこで,状態機械における状態ごと にクリティカルパスが変化する構成,あるいは図8に 示すように,データパスが遅延の異なる演算処理を行 い,入力データに依存していずれかの処理をマルチプ レクサで選択する構成の場合,インバータの立ち上が り遅延をデータパスの処理遅延に合わせてそれぞれ用 意し,マルチプレクサで選択することで,ローカルタ イミング信号 LTS1を1に遷移させてから,LTS2を 1に遷移させるまでの遅延を変化させることができる. 選択されたパス単体で考えると,その中の最悪遅延に



図 9 入力データに依存した遅延の生成回路 Fig.9 Implementation of variable delay inverter.

合わせたタイミング信号を生成する東データ方式<sup>1)</sup>と なるが、システム全体としてはサイクルごと、あるい は入力データごとのクリティカルパスの遅延と、その パスの選択される確率を掛け合わせた平均遅延により 性能評価を行うことができる.

ただし,インバータの遅延制約は図6に示したとお りであり,いずれのインバータを選択したときでも, 立ち下がり遅延はfastの制約を満たさなければなら ない.図9はこの制約を満たす回路構成の例である. 立ち上がりはANDゲートの段数分の遅延となるが, 立ち下がりはつねに一定の遅延で構成することができ る.また,図8に破線の速いパスと実線の遅いパスと して示すように,マルチプレクサへのインバータの入 力が立ち上がる前に選択信号が確定するように回路を 設計しなければならない.

3.4 ループ構造や選択分岐構造の実現

これまでに示してきた基本モジュールは容量1の FIFOであり,データパスが完全な直線構造であれば, 単純に基本モジュールを結合することで,システム全 体を構成することができる.しかしながら,実際の システムではループ構造や選択分岐・合流構造が存在 する.

初めにループ構造を実現する場合の制約を示す.図5 および図7に示すローカルタイミング信号生成回路 を用いる場合,その出力側に接続されているローカル タイミング信号生成回路のkeeperがempty状態にな らないと要求-応答信号が遷移せず,データ転送が行 われない.したがって,ループ構造は少なくとも2つ のローカルタイミング信号生成回路を持ち,初期状態 でkeeperがfullとemptyとなっていなければならな い.すなわち,ループ構造を実現するためには少なく とも2つの基本モジュールが必要となる.また,ルー プ構造でも基本モジュールの回路構成自体は変わらな いため,SDIモデルに基づいて正しく動作するために 満たさなければならない遅延制約は図6と同じものと なる.

次に,選択分岐・合流構造を実現する基本モジュー ルの構成として,GasP family<sup>20)</sup>のData conditional GasP を拡張した2出力の選択を行う基本モジュール 構造を図10,合流を行う基本モジュール構造を図11



図 10 選択分岐構造の基本モジュール

Fig. 10 Structure of the basic module with output selection.



図11 合流構造の基本モジュール Fig.11 Structure of the basic module with input selection.

に示す.選択分岐構造では,1-out-of-2信号として入 力された選択信号(sel1,sel2)により,読み出し応答 信号\_ra1,\_ra2Nずれか一方のみが0に遷移し,選択 分岐構造と対になる合流構造では,1-out-of-2信号と して入力された書き込み要求信号(\_wr1,\_wr2)に基 づいて書き込みが行われる.

3.5 遅延制約を満たすことが困難な場合の回路構成

SDI モデルに基づいて正しく動作するための制約 は図6に示すとおりであり,図6(a)のslow2と(b) のfast4のように,同じパスが一方では速いパス,他 方では遅いパスとなるため,遅延制約を満たすのが困 難な場合がある.また,基本モジュール間の遅延も予 測可能でなければならないが,実際の設計では基本モ ジュール間の遅延が予測できない場合もある.このよ うな場合,基本モジュールの構成として,図12,お よび図13に示す構成を用いる.図12は出力側の遅



図12 出力側の遅延が不明な場合の基本モジュールの構成 Fig. 12 Structure of the basic module with DI-output.





Fig. 13 Structure of the basic module with DI-input.

図14 SDIモデルに基づく遅延制約 Fig.14 Timing constraints to be observed.

延が予測できない個所,図 13 は入力側の遅延が予測 できない個所に使用する回路構成である.これらは入 力と出力で対として使用する.

遅延の予測ができない個所ではデータ自身に遅延 情報を持たせるため、2線化を行う.図12、図13に おいて、信号線名に「」」の付加されたデータ信号線 は2線式論理の否定成分であることを表す.入力側 では2線化されたデータ信号がすべて符号語あるい はスペーサ(0,0)となったことを完了信号生成回路 (図13, completion signal generator)により検知し、
 書き込み要求信号を生成する。

図 12 および図 13 に示す回路構成が SDI モデルに 基づいて正しく動作するための遅延制約は,図6に加 えて,図14に示す制約を満たす必要がある.

4. 同期式構造モデルを用いた設計

前章に示した基本モジュールを用いた局所同期型非 同期式 VLSI の設計方式を以下に示す.

- (1) グローバルクロックの立ち上がりエッジに基づ いて値を更新するレジスタと組合せ回路から構 成される同期式 RTL 構造記述を用意する.
- (2) 同一のタイミング信号に基づいて動作するレジ スタ群を以下に基づいて決定する.
  - ソースレジスタとデスティネーションレジ スタがまったく重複しない完全な直線構造 の場合,レジスタは完全な FIFOとして動 作すると考えてよいため,ソースごと,お よびデスティネーションごとにそれぞれ異 なるタイミング信号に同期して動作するも のとする.
  - パイプライン構造ではパイプラインステージごとにそれぞれ異なるタイミング信号に同期して動作するものとする.
  - ・ 直線構造,パイプライン構造以外の場合, 全レジスタが1つのローカルタイミング信 号で動作するものとする.
- (3) システムが完全な直線構造であり,記憶素子に 初期値を入力する必要がない場合,すべての ローカルタイミング信号生成回路の keeper を empty状態にしておき,データが入力されたと ころから順次ローカルタイミング信号を1に遷 移させることができるため,レジスタ間を分割 する必要はない.したがって,データパスはそ のままとして組合せ回路とレジスタごとに基本 モジュールを構成する.

それ以外の場合は初期値の入力されたレジス 夕間に存在する keeper のうち,少なくとも1 つを empty としないとデータ転送が行われな いため,組合せ回路を2分割し,レジスタ間に 2つの基本モジュールを構成する.

(4) SDI モデルに基づいて正しく動作するように,
 図 5 のインバータ A の立ち上がり遅延を式(1)
 に基づいて決定する.

図8 に示すようにデータパスがマルチプレク サでいずれかの演算を選択する構成の場合,そ れぞれの処理遅延に応じて図9の可変遅延回路 を付加する.

(5) レイアウトを行った後の配線遅延情報を用いて, SDIモデルに基づいて正しく動作するための遅 延制約を満たしているかどうか確認する.遅延 制約を満たしていない場合は基本モジュールを 図 12 および図 13 の構成とする.また,基本 モジュール間のデータ信号線を2線化し,入力 側に完了信号生成回路を付加する.

本設計方式では,組合せ回路とレジスタから構成さ れ,レジスタはグローバルクロックの立ち上がりエッ ジに基づいて値を更新する同期式システム構造記述 を入力として,それを直接局所同期型非同期式 VLSI として実現する.したがって,制御回路とデータパス に分離してそれぞれの設計モデル・設計方式に応じた 仕様記述を行わなければならない従来の非同期式シス テム設計手法と比較して,設計が容易となる.また, 入力が同期式 RTL 構造記述であるため,同期式シス テム設計支援 CAD を有効利用することも可能と思わ れる.

#### 5. 設計例と評価

本章では,同期式構造記述を利用した局所同期型非 同期式 VLSI の設計例として,フィルタ回路の設計例 と評価結果を示す.また, $K = 1 \ge K = 1.5$  でそ れぞれ設計し,K の値と速度性能とを比較した結果 を示す(K = 1 は遅延変動がないことを表すもので はなく,各回路要素の遅延変動率がすべて同じである ことを表す).なお,評価条件として,テクノロジは  $0.25 \mu m \mu - \mu のスタンダードセルライブラリを用い,$ ゲートの遅延は 0.24 mm の配線とインバータ 3 個の負荷がすべてのゲートに一律で課せられているとしたときの値を用いるものとする.

2nd order IIR Filter  $|\mathbf{t}| o1 = (c0 * w1 + c1 * w2 + c1) + (c1 + w2 + c$ 



図 15 IIR フィルタのデータフローグラフ Fig. 15 Data flow graph of 2nd order IIR filter.

xi) + c2 \* w1 + c2 \* w2 を実現するフィルタであり, 乗算回路2個,加算回路2個,およびデータレジス タ4個を使用できる状況においてスケジューリング とリソースアロケーションを行うと図15に示すもの が得られる.1サイクル目と2サイクル目は乗算回路 がクリティカルパスとなり,サイクルタイムは乗算回 路の遅延で制約され.3サイクル目と4サイクル目の サイクルタイムは加算回路の遅延で制約される.これ をグローバルクロック信号に同期して制御を行う同期 式 RTL 構造記述として実現したものが図 16(a) で あり,本論文で提案した手法に基づいて局所同期型非 同期式 VLSI として実現したものが図 16(b) である. 図 16(a) は自己ループ構造を含むため,1サイクルの 処理を2つに分割して間にレジスタを挿入し,それぞ れのレジスタを制御するローカルタイミング信号を生 成する回路を付加する.また,1,2サイクル目は乗算 回路の遅延に合わせ,3,4サイクル目は加算回路の 遅延に合わせた立ち上がり遅延を持つように図9の遅 延選択回路を設計し,選択信号によっていずれかを選 択するようにする.

図 16 に示す各回路の遅延は表 1 に示すとおりで ある.

このとき,それぞれの回路のサイクルタイムを Verilog-XL によるシミュレーションにより求めた結 果を表 2 に示す.同期式システムでは回路全体のク リティカルパスで制約されるサイクルタイムであり, 6.63(ns)となる.一方,局所同期型非同期式 VLSIで は平均サイクルタイムであり,K = 1 のとき 6.23(ns) となる.平均動作となることによるサイクルタイムの 減少は 0.40(ns) であり,これは乗算回路と加算回路

表1 演算回路のスペック Table 1 Specifications for filter circuit.

|                  | 遅延 (ns) |
|------------------|---------|
| next state       | 0.549   |
| datapath control | 0.769   |
| mux              | 0.912   |
| mul              | 4.09    |
| add              | 1.58    |
| dff(write)       | 0.727   |
| (setup)          | 0.130   |
| (min clk pulse)  | 0.68    |

#### 表 2 速度性能の評価結果

Table 2 Performance analysis.

|                         | サイクルタイム (ns) |
|-------------------------|--------------|
| 同期式システム                 | 6.63         |
| 局所同期型非同期式システム $(K=1)$   | 6.23(1.00)   |
| 局所同期型非同期式システム $(K=1.5)$ | 9.67(1.55)   |



(b) Locally-timed aynchronous implementation

図 16 フィルタ回路の設計 Fig. 16 An example filter circuit.

の遅延差の平均から挿入したレジスタの遅延を引いた 値 ((4.09 - (4.09 + 4.09 + 1.58 + 1.58)/4) - (0.727 + 0.130) = 0.398)である.したがって,局所同期型非 同期式 VLSI は,入力データに依存して処理遅延が変 動する場合,「(処理遅延の最悪値) - (処理遅延の平均 値) - (挿入する記憶素子のセットアップ遅延 + 書き込 み遅延)」の分,同期式システムよりも高速化を実現 できるといえる.また, $K = 1 \ge K = 1.5$ で設計し た回路を比較した場合,Kの値にほぼ比例して遅延 が大きくなることが確認できる.これは基本的にデー タ転送方式が束データ方式のデータ転送であり,スト ローブ信号の遷移遅延をデータパスの遅延のK倍に するためである.

# 6. ま と め

本論文では,SDIモデルに基づく非同期式 VLSIの 一設計方式として,要求-応答プロトコルに基づいて 生成されたローカルなタイミング信号を利用する回路 構成とシステム全体の設計方式を提案した.

ローカルタイミング信号生成には,GasP回路と呼ばれるパルス的なタイミング信号を生成するFIFO制

御回路を利用し,要求-応答プロトコルにともなうオー バヘッドの小さい回路を実現した.また,提案した回 路構成は,あるローカルタイミング信号が1に遷移し てから次のローカルタイミング信号が1に遷移するま での遅延をデータパスの遅延に合わせて動的に変動さ せることができるため,入力データに依存して処理遅 延が大きく変動するシステムでは,繰り返し実行され るレジスタ間データ転送処理遅延の平均値で性能を評 価することができる.また,タイミング信号のみ非同 期で実装する方式であるため,制御回路とデータパス に分離してそれぞれの設計モデル・設計方式に応じた 仕様記述を行わなければならない従来の非同期式シス テム設計手法と比較して,設計が容易である.さらに, システム全体の設計は同期式システム RTL 構造モデ ルを入力とし,それを局所同期型非同期式システムと して実現する方式であるため,同期式システム設計支 援 CAD を有効利用することができると思われる.

謝辞 本研究に対して適切な助言をいただいた中村 宏東京大学先端科学技術研究センター助教授に深く感 謝いたします.また,本研究に対する適切な助言,お よび本設計方式に基づいた非同期式システム設計支 援 CAD システム「AINOS」の開発にご尽力いただ いた NEC マルチメディア研究所若林一敏,高橋渡両 氏,NEC 情報システムズ中越優佳,宮沢義幸両氏に 深く感謝いたします.

なお,本研究の一部は情報処理振興事業協会「独創 的情報技術育成事業」の一環として行われたものであ る.また,本研究の遂行にあたり,文部科学省科学研 究費補助金基盤研究(B)(2)13480076のご支援をい ただいた.

# 参考文献

- 南谷 崇:非同期式マイクロプロセッサの動向, 情報処理, Vol.39, No.3, pp.181-186 (1998).
- Ozawa, M., Ueno, Y., Imai, M., Nakamura, H. and Nanya, T.: A cascade ALU architecture for asynchronous superscalar processors, *IEICE Trans. Electronics*, Vol.E84-C, No.2 (2001).
- Hauck, S.: Asynchronous design methodologies: An overview, *Proc. IEEE*, Vol.83, No.1, pp.69–93 (1995).
- 4) Huffman, D.A.: The synthesis of sequential switching circuits, J. Franklin Inst., Vol.257, No.3, pp.161–190 (1954). ibid., No.4, pp.275– 303 (1954).
- Nowick, S.M.: Automatic Synthesis of Burst-Mode Asynchronous Controllers, Ph.D. Thesis, Stanford University, Department of Computer Science (1993).
- 6) Chou, W.-C., Beerel, P.A. and Yun, K.Y.: Average-case technology mapping of asynchronous burst-mode circuits, *IEEE Trans. Computer-Aided Design*, Vol.18, No.10, pp.1418–1434 (1999).
- Muller, D.E. and Bartky, W.S.: A theory of asynchronous circuits, *Proc. International Symposium on the Theory of Switching*, pp.204– 243. Harvard University Press (April 1959).
- 8) Jacobson, H., Brunvand, E., Gopalakrishnan, G. and Kudva, P.: High-level asynchronous system design using the ACK framework, *Proc. International Symposium on Ad*vanced Research in Asynchronous Circuits and Systems, pp.93–103. IEEE Computer Society Press (April 2000).
- 9) Cortadella, J., Kishinevsky, M., Kondratyev, A., Lavagno, L. and Yakovlev, A.: Petrify: a tool for manipulating concurrent specifications and synthesis of asynchronous controllers, *IE-ICE Trans. Inf. Syst.*, Vol.E80-D, No.3, pp.315– 325 (1997).
- 10) http://www.lsi.upc.es/~jordic/petrify
- 11) Park, S.B. and Nanya, T.: Synthesis of asyn-

chronous circuits from signal transition graph specifications, *IEICE Trans. Inf. Syst.*, Vol.E80-D, No.3, pp.326–335 (1997).

- 12) Martin, A.J.: A synthesis method for selftimed VLSI circuits, Proc. International Conf. Computer Design (ICCD), pp.224–229, Rye Brook, NY, IEEE Computer Society Press (1987).
- 13) van Berkel, K., Kessels, J., Roncken, M., Saeijs, R. and Schalij, F.: The VLSIprogramming language Tangram and its translation into handshake circuits, *Proc. European Conference on Design Automation (EDAC)*, pp.384–389, 1991.
- 14) Bardsley, A. and Edwards, D.A.: The Balsa asynchronous circuit synthesis system, *Forum* on Design Languages (Sept. 2000).
- 15) http://www.cs.man.ac.uk/amulet/
- 16) Takamura, A., Kuwako, M., Imai, M., Fujii, T., Ozawa, M., Fukasaku, I., Ueno, Y. and Nanya, T.: TITAC-2: An asynchronous 32bit microprocessor based on scalable-delayinsensitive model, *Proc. International Conf. Computer Design (ICCD)*, pp.288–294 (Oct. 1997).
- 17) 今井 雅, 中村 宏, 南谷 崇: SDI モデルに 基づいた非同期式パイプライン・データパスの 論理合成,情報処理学会論文誌, Vol.40, No.4, pp.1547–1556 (1999).
- 18) Özcan, M., Imai, M. and Nanya, T.: Generation and verification of timing constraints for fine-grain pipelined asynchrounous data-path circuits, *Proc. Async2002*, pp.109–114 (April 2002).
- 19) Singh, M. and Nowick, S.M.: High-throughput asynchronous pipelines for fine-grain dynamic datapaths, Proc. International Symposium on Advanced Research in Asynchronous Circuits and Systems, pp.198–209, IEEE Computer Society Press (April 2000).
- 20) Sutherland, I. and Fairbanks, S.: GasP: A minimal FIFO control, Proc. International Symposium on Advanced Research in Asynchronous Circuits and Systems, pp.46–53, IEEE Computer Society Press (March 2001).
- 21) Ebergen, J.: Squaring the FIFO in GasP, Proc. International Symposium on Advanced Research in Asynchronous Circuits and Systems, pp.194–205, IEEE Computer Society Press (March 2001).
- 22) Nanya, T., Takamura, A., Kuwako, M., Imai, M., Ozawa, M., Özcan, M., Morizawa, R. and Nakamura, H.: Scalable-delay-insensitive design: A high-performance approach to de-

pendable asynchronous systems, Proc. International Symp. on Future of Intellectual Integrated Electronics, pp.531–540, Sendai, Japan (March 1999).

- 23) Muttersbach, J., Villiger, T. and Fichtner, W.: Practical design of globally-asynchronous locally-synchronous systems, Proc. International Symposium on Advanced Research in Asynchronous Circuits and Systems, pp.52–59 (April 2000).
- 24) Sjogren, A.E. and Myers, C.J.: Interfacing synchronous and asynchronous modules within a high-speed pipeline, *Advanced Research in VLSI*, pp.47–61 (Sept. 1997).

(平成 14 年 10 月 17 日受付) (平成 15 年 3 月 4 日採録)



# 今井 雅(正会員)1996年東京工業大学工学部電気

電子工学科卒業.1997年同大学院 情報理工学研究科計算工学専攻修士 課程修了.2000年東京大学大学院 工学系研究科先端学際工学博士後期

課程満期退学.2000年東京大学先端科学技術研究センター助手.非同期式 VLSIシステムの設計方式および設計支援環境の構築に関する研究に従事.



# Metehan Özcan

1993 年トルコ Bilkent 大学工学部 情報工学科卒業.1996 年東京工業大 学大学院工学系研究科電気・電子工 学専攻修士課程修了.1999 年東京 大学大学院工学系研究科先端学際工

学博士後期課程満期退学.1999年東京大学先端科学 技術研究センター学術研究支援員.非同期式 VLSIシ ステムの CAD に関する研究に従事.



#### 南谷 崇(正会員)

1946年生.1969年東京大学工学 部計数工学科卒業.1971年同大学院 修士課程修了.日本電気(株)中央 研究所勤務を経て,1981年東京工 業大学情報工学科助教授,1989年

同電気電子工学科教授.1995年東京大学計数工学科 教授.1996年東京大学先端科学技術研究センター教 授.論理システムの物理的実現に関する諸問題に興味 を持つ.工学博士.1987年電子情報通信学会論文賞, 1994年大川出版賞,1998年ASP-DAC Best Paper 賞,Outstanding Design 賞受賞.著書「順序機械」 (岩波書店),「フォールトトレラントシステムの構成 と設計」(槙書店),「フォールトトレラントコンピュー タ」(オーム社)等.IEEE fellow,電子情報通信学会 フェロー