

乾重人 inui@mel.cl.nec.co.jp 深石宗生 fukaishi@mel.cl.nec.co.jp

## はじめに

半導体製造技術のテクノロジドライバは初期において はDRAMがその役割を果たしてきたが、1990年代後半 にその役割はマイクロプロセッサへと移行した。その結 果マイクロプロセッサの性能向上を目的として、クロッ ク周波数の向上に着目した技術向上が行われてきた。現 在、プロセッサの動作周波数は3GHzを超えるまでに高 速化されている。またプロセッサ本体の高速化と並行し てプロセッサーメモリ/周辺機器間のデータ転送速度 も着実に増強された。この速度向上にはパラレル転送か らシリアル転送へのパラダイムシフトが寄与し、90年 代に30MHz程度であった速度は近年GHzに到達してい る。このようにプロセッサ本体と外部インタフェース双 方が歩調を合わせて高性能化することにより、増大する プロセッサの演算能力を無駄なく使用し、システム全体 の性能が着実に強化されている。

本稿では、まずこれまでマイクロプロセッサの性能を 向上させてきた回路技術について述べ、続いてチップ 間インタフェース技術を主としてシリアル転送の観点か らまとめ、各々について要素技術を紹介する.前半のプ NEC システムデバイス研究所

ロセッサ回路技術ではプロセッサ本体の回路技術として, 論理段数の削減や高速アルゴリズム,クロック生成/分 配/ノイズ低減技術,低電力について紹介する.後半の 高速インタフェース技術ではまずチップ間インタフェー スの変遷をまとめた後,現在主流となっているシリアル 転送技術の要素技術として,クロックレス伝送の観点か ら,CDR技術と高速IO技術について紹介する.

## プロセッサ回路技術

ごく初期のものを除いて、LSIはパイプライン構造を 採用している.パイプラインは、LSIの機能を実現する 論理回路を入力から出力へ向かって一定の時間間隔のブ ロックに区切り、それらのブロック間にパイプラインレ ジスタを配置したものである.図-1にパイプライン構 造の概要を示す.パイプラインレジスタは、クロック信 号に同期して一斉に動作し、論理回路で処理されたデー タを次々に次段のパイプラインへ送り込むことでLSIの 動作を実現している.LSIの高速化とは、単純に言えば、 このクロック信号が高速であることを指すが、高速化の 実現にはクロック信号の分配と、各パイプラインの論理



図-1 単純なパイプラインの説明

GHzプロセッサを支える高速回路技術

回路の高速動作の2点がポイントとなる.

パイプラインレジスタはLSI全体に散らばっているが, これらに対して均一なクロックを分配できずに「ずれ」 が生じると,誤動作にならないまでもずれの分だけ性能 が下がることになる.またクロック信号を高速化すると, パイプライン1段ごとに許される遅延時間が減少するた め,各パイプラインの論理回路には同一の論理をより少 ない時間で実現する回路を用いるか,パイプラインの分 割損が許容できる範囲内で1段のパイプラインを複数に 再分割することが必要となる.

本章では、クロックと論理回路に対するこれまでの取 り組みを、高速マイクロプロセッサを例に紹介する.加 えて、近年高速プロセッサで顕在化しつつある電力問題 に言及する.

最初に、LSIを構成する基本コンポーネントである回路の高速化について紹介する.回路の高速化には3つの考え方がある.(a)サイクルあたりの論理段数削減,(b)アルゴリズム,(c)回路スタイル,である.以下,各々について説明する.

#### ■サイクルあたりの論理段数

サイクルあたりの論理段数とは、論理回路をパイプラ インに分割する際のパイプラインピッチを指す.ある機 能をパイプラインとして実装する際、パイプラインのス テージ数を増やす代わりにステージ1段ごとの論理量を 減らし、各ステージの遅延を削減し、クロックの高速化 を実現することができる.この考え方は非常に単純なク ロック高速化手法であり、近年の高速マイクロプロセッ サでは連綿とサイクルあたりの論理段数を削減する設計 が行われている.

ここで言う「サイクルあたりの論理段数」をより一般 的な形で表したものにFO4換算論理段数という考え方 がある.FO4の考え方を図-2に示す.FO4は、あるサ イズのインバータが、自身の4倍のサイズのインバータ を駆動するように構成されたインバータチェーンである. 近年のLSIでは、nMOSトランジスタとpMOSトランジ スタをペアで使用して論理を構成するCMOS論理が広 く用いられている.一般的にCMOS論理では回路を構 成する際に、FO4程度の構成をとることが遅延の点から 最適であることが知られており、サイクルあたりの論理 段数の汎用的な指標として、FO4で換算した論理段数が よく用いられる.図-3に、Intel製マイクロプロセッサ の論理段数の削減状況を示す.図によるとサイクルタイ ムあたりの論理段数は2002年までの30年間で200分の 1にまで削減されているが、このことは、同一のプロセ



図-2 FO4 インバータの説明

ステクノロジを用いた場合に、クロック周波数を理想的 には200倍程度まで向上させることができることを示し ている. すなわちプロセステクノロジだけではなく、回 路設計の点からも高速化の努力が行われていることが見 て取れる.

では、サイクルあたりの論理段数削減に限界はないの であろうか、あるパイプラインステージを半分に分割 し、元のステージの中間にパイプラインレジスタを追加 することを考える、理想的には周波数は倍になるはずで あるが、パイプラインレジスタは一定の遅延を持つため に、その分だけ周波数が落ちることになる、方式や機能 によっても異なるが、パイプラインレジスタの遅延は FO4で3段程度であるのに対して、現在の高性能マイク ロプロセッサクロック周波数では、ステージ1段の論理 段数はFO4換算で10段程度となっており、従来の手法 を踏襲しての周波数向上はきわめて困難になってきてい る、消費電力・面積増に目をつぶることによって、FO4 換算1段程度で動作する高速なパイプラインレジスタも 開発されている。しかしながらマイクロプロセッサの電 力増は、システムの冷却コストを無視できない領域にま で押し上げており、前述のような高速なレジスタを無制 限に使用することが難しくなってきている。

以上の理由から近年のプロセッサ設計では、電力と性 能をパラメータとして、高速であるが電力消費の大きい レジスタ、比較的低速であるが低消費電力であるレジス タ、というかたちでパイプラインレジスタを複数準備し、 適宜使い分けてプロセッサ全体として電力増を抑えつつ 性能を向上させる手法が用いられている.このような手 法を用いることにより、パイプラインあたりの論理段数 は今でも少しずつ削減されている.

### ■アルゴリズム

アルゴリズムは、与えられた機能を回路に実装するための手法のことである。アルゴリズムを考える上では、いかに少ない論理段数で多くの論理を実装するかということが課題となる.

これらには単純な四則演算から浮動小数点演算,シ



**図 -3** プロセッサのサイクル タイムにおける FO4 イ ンバータ換算論理段数

フト演算や論理演算などがある.アルゴリズムはLSI黎 明期より盛んに研究されており,四則演算では,加算 における Carry Look Ahead (CLA),乗算における Booth Recording + Wallace Tree,除算における SRT アルゴリ ズムなど,基本的な手法は完成の域に達した感がある<sup>1)</sup>. そのため近年では,後述の回路スタイルや,実際に用い られるブロックに合わせた最適化の検討が行われている. また,グラフィック処理における法線ベクトル演算や暗 号処理における剰余演算といったよりアプリケーション に特化したアルゴリズムの検討にも軸足が移っている.

### ■回路スタイル

図-4 (a) に広く用いられている CMOS 論理の一例を 示す. CMOS 論理は、非常に単純な構成であること、入 力が変化しなければほとんど電力を消費しないこと、外 乱ノイズへの耐性も高いことから、非常に使いやすい論 理ファミリといえる. その反面、動作速度が遅い pMOS トランジスタを用いて論理を実現するため速度性能に限 界があるなどの欠点が存在する.

この欠点を改善するためによく用いられる論理ファ ミリの1つがドミノ論理である. ドミノ論理の一例を 図-4(b) に示す. CMOS論理と大きく異なるのは, 速度 性能のボトルネックとなっていたpMOSトランジスタを 論理演算経路から排除し, pMOSトランジスタはクロッ ク信号で駆動されるプリチャージ用途にしか用いてい ないことである. nMOSトランジスタの高速性を活用し, pMOSトランジスタを論理演算に用いないことによる速 度ボルトネックの排除とファンイン容量削減を実現する ことにより, CMOS論理と比較して30~40%程度の高 速化が実現される. 反面, クロック信号が常時入力され ることによる電力消費の増大や, プリチャージサイクル や評価サイクルといった複数の動作タイミングの存在に よる遅延検証の複雑さ、すなわち設計コスト増大が問題 となる.そのためドミノ論理の使用は、シフト論理やア ドレス加算器、算術演算回路(ALU)等、プロセッサ性 能上クリティカルであるブロックに限定されることが 多い.

さらに、ドミノ論理を超える高速性を実現する手法 として、IntelのPentium4のALUで採用された低振幅論 理を紹介する. Pentium4のALUでは低振幅論理を使用 することで、ALUのクロック周波数をプロセッサコア周 波数の倍にすることに成功し、ALUを必用とする2個の 内部命令 (uOP)の同時実行による命令実行効率向上を 実現している. 図-4(c) に当該 ALU を示す. 信号伝達の 高速化として信号の振幅を落とすことは、高速インタ フェース等でよく用いられる手法である。振幅を落とせ ば論理を反転させる時間を減少させることができるが、 周辺の信号の振幅はそのままに、高速化する信号の振幅 のみを削減するためSN比が悪化することになる、ノイ ズに対しては当該回路をシールドすることでその影響を 低減できるが、これは面積増につながる、また、最終的 には通常のCMOS論理と接続する必要があるため、セ ンスアンプを用いてCMOS論理レベルまで振幅を復元 することになるが、そのタイミング設計はメモリに匹敵 する設計難易度となる. こうした欠点のため, 低振幅論 理の採用はドミノ論理よりさらに限定されているのが現 状である.

回路スタイルには、設計コストが低く低消費電力であ るが相対的に性能の低いCMOS論理と、設計コストが 高く消費電力大であるが高い性能のドミノ論理/低振幅 論理、という相反する2種類の選択肢が存在する.した がって、よりシステム性能へのインパクトの高いブロッ



図-4 回路スタイル

クに,よりコストは高いが高性能な回路スタイル・アル ゴリズムを割り当てることで,リーズナブルなシステム を実現することができる.

次に高周波数でLSIを動作させるクロック信号の生成・ 分配について紹介する.プロセッサ内の基準となるク ロック信号はPLL等の発振回路により生成され、その信 号はクロック分配回路を経て、末端であるLSI内のパイ プラインレジスタへ分配され、その結果すべての回路が 同期して動作する.起点である発振回路におけるクロッ ク信号はもちろん単一の信号であるが、末端に分配され る過程で各々のクロック信号間に到達時間のずれが発生 する.図-5に「ずれ」の概念を示す.

ずれの原因は,発振回路であるPLLのゆらぎや分配回路のトランジスタ特性のばらつきであったり,外部からのノイズであったりさまざまであるが,一般的に,静的に発生するクロック信号のずれをスキュー,LSIを動作させたときに動的に発生するクロック信号のずれをジッタと呼ぶ.広義には双方をまとめてスキューと呼ぶ場合もあるが,本稿でのスキューは前者の静的なずれを指すものとする.

スキューやジッタは周波数に比例して縮小するような 性質のものではなく、かつ、"サイクルあたりの論理段数" で述べたパイプラインレジスタの遅延と同じくパイプラ インステージごとに発生する遅延オーバーヘッドである。 つまり "高速回路"で述べた回路の高速化手法を用いて サイクルタイムを削減する努力と並行して、高速化に見 合うようにスキューやジッタを削減していかないと全体 としての高速化は達成できない、言い換えるならば、回 路の高速化は性能をより向上させる努力であるのに対し て、スキュー・ジッタの低減は性能の低下を抑え込むた めの努力であり、しかもクロックはチップ全体に分配さ れるため、プロセッサ全体の性能に対して直接的に影響 を与える、クロック分配回路の設計には、最大限の努力 と注意を払う必要がある。

では高品質なクロック信号の分配とはどのようなもの だろうか.まずずれの原因をここでまとめ,次に各々の 対策について紹介する.

- (a) 設計時点で発生するずれ…クロックの起点から末 端に至るまでの分配回路の構成の違い
- (b)製造時に発生するずれ …トランジスタの特性の ばらつき, 配線形状のばらつき(主として抵抗のば らつき)
- (c)動作時に発生するずれ …ノイズによる変動

(a),(b)はLSIの製造時点で決定されるため、最終 製品の段階では静的であり、スキューの原因といえる. その一方,(c)は動的に発生するためジッタの原因となる.

### ■設計時点で発生するずれ

設計時点で発生するずれは、主としてクロック信号を 分配すべきパイプラインレジスタの空間的なばらつきに より発生する.LSIには、ALUのようにパイプラインレ ジスタが密集するようなブロックもあるし、反対にまば らにしか存在しないブロックもある。大量のパイプライ ンレジスタに分配しようとすればするほど比例して多く の分配バッファを要することになり、まばらなブロック と比較して回路構成にずれが発生することになる.この 問題に対する解決方法は、Hツリーなど空間的に対称構 造である分配経路や、クロックメッシュによる分配の採 用である<sup>2)</sup>.**図-6**にクロック分配の種類を示す.前者 はIBM POWERシリーズやCELLプロセッサ、後者は旧 解説





図-6 クロック分配の種類

DECの Alphaプロセッサ等に用いられている. また, チッ プ内に小規模なメッシュを設け, そのメッシュまでをH ツリーのように駆動する, ハイブリッド型の分配系等が IntelのPentium4等のプロセッサで採用されている.

クロックメッシュはクロック分配の末端をすべて低抵 抗配線でショートする手法であり、末端に至るまでに多 少の分配ばらつきがあったとしてもそれらは「強制的に」 平均化される、力技的な手法である.末端をショートす るための配線量が多いため、メッシュを駆動するために、 図-5 スキュー・ジッタの説明

実に数10cm (mmでもumでもない)の総延長のトラン ジスタが使用される.メッシュはスキューの低減の観点 からは最も有効な手法であるが、電力の増大や配線層を 多量に消費してしまうなどの欠点があり、近年では高速 プロセッサといえども採用例は減少している.

Hツリーに代表される対称的クロック分配は、メッ シュに比較して配線リソースや電力対策等のコストは低 いが、スキューの低減効果はやや劣る.これを補うため に、設計時にクロック分配系全体の回路シミュレーショ ンを実行してスキューを算出し、その結果を用いてより スキューが小さくなるようにクロック分配系の再設計を 実行する必要がある.LSI全体のクロック分配系の起点 から末端までの遅延を求めるような遅延シミュレーショ ンは当然大規模なものとなり、規模や実行時間の点での 制約が多かったが、近年のワークステーションの計算能 力の増大・CAD技術上の遅延計算アルゴリズム最適化 などにより、この問題は徐々に解決されつつある.

### ■製造時点で発生するずれ

マイクロプロセッサでよく採用される最先端デバイス 技術を用いてLSIを製造する場合,成熟したデバイスプ



図-7 デスキュー方式

ロセス技術を用いる場合と比較すれば製造時点での大き なばらつきを避けることは難しい、加えて、製造時に発 生するずれを設計時点で完全に吸収することは不可能で ある、そこで、製造後にクロック分配系の遅延を調整す る手法がIntelにより実装されている.図-7に概要を示す. この方式は、PentiumやItanium等で採用されている<sup>3)</sup>. これは、クロック分配系内の中継バッファに遅延調整機 能を持たせ、製造後に基点から末端までの分配系の遅延 を測定し、その結果によって分配遅延の微調整を行う手 法である。また、微調整には、自動で行う手法と外部か ら調整量を入力する手法とがある。自動で行う場合、ク ロック分配系を1つの閉じた系として考え、末端でのス キューを入力、調整量を出力とする伝達システムとして 設計を行う. 伝達関数や時定数の設計にミスがあると誤 動作となるため、ローパスフィルタを挿入するなどして 安定化を図る。外部から調整量を入力する場合は、LSI に備わる診断回路を使用する.診断回路は出荷前のテス ト時に、診断テストに用いる回路である.診断回路によ り分配回路の遅延を測定し、その遅延にあわせて外部よ り診断回路経由で調整量をLSIへ書き込み、微調整を行 う. 本手法は製造後に調整可能であることから汎用性は 高いが、欠点としてテストコスト増大が挙げられる.

### ■動作時に発生するずれ

クロック分配系はLSI全体に分布して配置され,絶え ず周辺の回路からのノイズにさらされる. それはクロッ ク信号へのノイズもあるが,消費電力の変動による電源 の "ゆれ" である電源ノイズが顕在化しつつある.

電源ノイズは、LSI内部の論理回路で消費される電力 の変化で生じる.電力問題が顕在化するまでのマイク ロプロセッサでは、消費電力は大きいが常時ほぼ一定の 電力が消費されていたため、電力の時間的な変化は相対 的に小さいと考えられていた.対して近年のマイクロプ ロセッサでは冷却の観点から低電力化が必須となりつつ あり、その実装手法としてクロックゲーティングの採用 例が増えている(ゲーティングについては次章で詳しく 述べる).クロックゲーティングはLSI内の非動作ブロッ クへのクロック供給をダイナミックに停止させて低電力 化を図る手法であるが、代償として、ゲーティング制御 の単位でチップ内における動作率のばらつきが大幅に拡 大し、電源ノイズを引き起こす結果となっている.電源 ノイズを低減するためにはLSI内外にキャパシタを実装 して電源電流変動を補完することが有効であり、最適な キャパシタ量を求めるための手法が盛んに研究されてい る.しかしながら電源ノイズをシミュレーションするた めにはチップレベルでの回路シミュレーションが必要で あり、その規模の大きさから実設計での運用が難しく、 今後の課題となっている.

GHzプロセッサを支える高速回路技術

#### 

当初の電力問題とは、バッテリーによるシステムの 駆動時間をいかに延ばすかという問題であった.対し て、プロセステクノロジが90nm世代に入りGHz動作 のCPUが当たり前になったあたりから、プロセッサが 発する熱による電力密度問題が注目されてきている.現 時点での問題点としては、それはシステムの冷却コスト の問題であるが、将来的には電力密度増大によるLSI動 作の破綻が懸念されている.高速マイクロプロセッサに おける低電力化手法としては設計の階層の点から、(a) クロック/データゲーティングの実装、(b)電力を評価 関数とするプロセッサの動作制御の実装、の2点がある.

#### ■クロック/データゲーティングの実装

クロック/データゲーティングとは、動作する必要の ないブロックを停止させる論理を、ブロックごとに組 み込む手法である. 図-8に各々の概要を示す. ブロッ クの入力信号にイネーブル機能を付加し、動作不要の場 合にデータの変化を停止させる手法をデータゲーティン



図-8 ゲーティング

グ、データではなくクロック信号に論理を組み込み、動 作不要時に全パイプラインレジスタを停止させる手法を クロックゲーティングと呼ぶ.低電力化の観点からはも ちろん、クロック分配系も含めてすべての論理ゲートが 停止するクロックゲーティングが有効であるのは言う までもない.しかしながらクロックゲーティングはゲー ティング制御単位内のパイプラインレジスタと論理ゲー トが一斉に停止するため消費電流の変動が比較的大きく、 前述の電源ノイズの発生源になりやすい.対してデータ ゲーティングはパイプラインを構成するステージごとに 停止していくため電源電流変動が比較的小さい.またク ロックゲーティングでは、メッシュクロックを採用した 場合はそもそも細かな単位のゲーティングは実装できな いといった欠点がある.

パイプラインステージごとにクロックゲーティングの 制御単位を限定することができれば最も粒度が細かく, 効率の良いゲーティング手法を実現できる.しかしなが らその実現のためには、パイプラインレジスタの配置と クロック分配系の設計を、ゲーティングを考慮しつつ行 う必要があり、一般的には設計コストの大幅な上昇を招 く.一例として、IBM/Sony/東芝のCellプロセッサでは ステージレベルでのクロックゲーティングを実装してい ることが報告<sup>4)</sup>されており、4GHzクラスの周波数なが ら低消費電力の実現に成功している.決して実現不可能 ではなく、効果が非常に大きい手法であることから、今 後数年以内に汎用化されていくものと思われる.

#### ■電力を評価関数とするプロセッサの動作制御の実装

この動作制御の実装では,評価関数として選択される ものは,多くの場合温度である.温度センサ(通常はダ イオードであり,比較的容易にチップ内に集積化できる) によりチップ内数点の温度をリアルタイムに計測し,あ

400 47巻4号 情報処理 2006年4月

らかじめ設定した温度特性により動作制御を行う. IBM のPOWER5で実装されたスロットリング技術<sup>5)</sup>は,温 度上昇が一定のしきい値を超えた際に命令の発行レー トを落とし,温度上昇を抑える手法である.**図-9**に POWER5での,スロットリングの制御の例を示す.図中, "over-temperature"で示される温度が,スロットリング 制御を開始すべきしきい値となる温度であり,チップ温 度がこれを超えた段階で命令発行を停止,あるいは発行 レートを低下させる.次に "recovery-temperature"で示 される適切な値にチップ温度が下がった時点で再度発行 レートを元に戻す.このような制御を行うことで,ソフ トウェア上での使用電力の大小を効果的に利用し,トー タルの電力を抑えつつ高性能を実現することができる.

#### 

以上、マイクロプロセッサの高速化と、それに付随す る問題点について簡単にまとめた、最後に今後の回路 技術開発の展望について一言触れる、電力の点から見て、 単一プロセッサのクロック周波数をひたすら向上させて システム性能の向上を図る考え方はすでに破綻している といえる、近年では、この限界を打破してさらなる高性 能を狙い、単一チップ内に複数のCPUコアを収納する マルチコアに開発の主流が移っている。マルチコアの設 計では、シングルコアと比較するとより設計規模が大き くなり、前述のクロックスキューのさらなる増大が懸念 される。また、プロセッサ全体のクロック周波数向上に は一定の制約がかかるが、性能インパクトの大きいブ ロックのみ高い周波数で動作させたり、複数コアのうち 一部のコアだけ異なる周波数で動作させるようなことも 考えられる、このようにマルチコアでは、大きなクロッ クスキューや異なる周波数の混在等を考慮する必要があ り、対策として非同期技術の適用が考えられはじめて

GHzプロセッサを支える高速回路技術



いる.

非同期技術は一般的にはクロックレスなシステムでの データ転送手法として研究されてきていたが、近年で はオンチップでの大域的な通信や周波数変換技術に用 いられ始めている.その一例としては、GALS (Globally-Asynchronous Locally-Synchronous,大域的非同期かつ 局所的同期技術)等が挙げられる.このようなアーキテ クチャをとる場合、大域的なデータ転送は"通信"のイ メージに近くなり、よりスキューやジッタに対して耐性 の高い実装方式が求められる.また、開発環境の点から 見ると非同期技術は、論理検証、論理合成&配置配線、 遅延検証といった基本ツールすべてに対してインパクト を与え、かつ、設計規模をさらに増大させることになる. マルチコアを前提に、リーズナブルな設計コストで大規 模マイクロプロセッサを実現する手法の構築が求められ ていくであろう.

### 高速インタフェース技術

マイクロプロセッサの性能向上に伴って、プロセッサ チップが必要とするバンド幅、特にCPUチップ―メモ リチップ間など、プロセッサと外部チップとの間での データ伝送容量増加への要求が高くなっている.その 結果、チップ間インタフェースの性能が、チップ内部 回路の性能に加えて、システムの性能を決定する要因 となっている.たとえばパソコンにおいて、90年代半 ばから現在に至る約10年間で、CPU速度が200MHzか ら4GHz弱に向上してきたのに比例するかたちで、パソ コン周辺機器とのインタフェースは、33MHz動作のPCI インタフェースから2.5GHz動作のPCI-Express インタ フェースへと移行してきた.

数10MHzのインタフェースとGHz動作の高速なイン タフェース,それらの間で1番の技術的な違いは,パラ

レルインタフェースからクロックレス伝送を特徴とす るシリアルインタフェースへの転換である。クロックレ ス伝送は、従来、東京一大阪間などを結ぶ超長距離通信 を行う光伝送技術などに広く用いられてきた技術である. このようなクロックレス伝送に用いられていた. データ 信号からクロック信号成分を抽出するクロックおよび データ抽出回路 (Clock & Data Recovery : CDR) をボー ド上などの近距離でのチップ間インタフェースへ適用す ることによって、チップ間インタフェースでのGHz動 作が実現された、しかしながら近年では、伝送データ がシリアル化され、GHzを超えるような高速化に伴い, LSI内部のデータ入出力回路の動作速度とLSI外部の伝送 路特性との特性乖離が顕在化してきている。すなわち、 伝送速度を制限していたLSI内部回路の動作速度が半導 体技術の進展に伴って高速化されてきたため、受動部品 であるLSI外部のプリントボードやケーブルなどの伝送 路の特性が伝送速度を制限するようになってきた<sup>6)</sup>.

本章では、このような劇的なチップ間インタフェース の速度向上がいかにして実現されてきたのか? また、 それを実現するために鍵となる技術革新は何なのか?に 着目し、チップ間インタフェースの大容量化に対する技 術変遷とチップ間インタフェースに特有な課題と対策、 今後開発すべき課題を整理、紹介する.特に、高速化を 支える技術として、クロックレス伝送の鍵となる CDR と、伝送速度劣化の要因となるLSI外部の伝送路を直接 駆動する高速な入出力バッファ回路を詳細に解説する.

### GHzを超える電気インタフェース技術の

**変遷と課題** 図-10にチップ間の伝送方式の変遷を,表-1にさまざ まなインタフェース規格に使われている伝送方式を示 す.チップ間インタフェースでは必要とされるバンド幅 の向上,そしてそれを実現する伝送速度の高速化に伴い,



| 伝送規格                | 信号数(bit) | 1 信号あたりの速度(bps) | バンド幅(Bps)  | 伝送方式      |
|---------------------|----------|-----------------|------------|-----------|
| PCI                 | 32       | 33M             | 133M       | バス接続      |
| SDR                 | 64       | 100M            | 800M       |           |
| DDR-200             | 64       | 200M            | 1.6G       |           |
| DDR-400             | 64       | 400M            | 3.2G       |           |
| DDR2                | 128      | 800M            | 12.8G      |           |
| DDR3                | 128      | 1.6G            | 25.6G      |           |
| Rambus              | 8        | 600M            | 600M       |           |
| AGP                 | 32       | 66-533M         | 266M-2.13G | 1対1接続     |
| Hyper Transport     | 2-32     | 1.6G            | 156M-6.4G  |           |
| Hyper Transport 2.0 | 32       | 2.8G            | 11.2G      |           |
| USB                 | 1        | 12M             | 1.5M       | シリアル接続    |
| USB 2.0             | 1        | 480M            | 60M        |           |
| IEEE 1394           | 1        | 100-400M        | 12.5-50M   |           |
| S-ATA               | 1        | 1.5G            | 188M       |           |
| S-ATA 2             | 1        | 3-6G            | 375-750M   |           |
| XAUI                | 4        | 3.125G          | 1.56G      | 多並列シリアル接続 |
| PCI Express         | 32       | 2.5G            | 10G        |           |

表-1 インタフェース規格と伝送方式

伝送形態がバス接続型,1対1接続型,シリアル伝送型, 多並列シリアル伝送型へと変化してきた.以下,これら 4つの伝送形態の特徴と変遷の理由を説明する.

### バス接続型インタフェース:

チップ間のデータ伝送に必要とされるバンド幅が数 100MBpsから数GBps程度であった時代では,PCIや DDRメモリインタフェースに代表されるような,1つの 伝送路に複数のチップやモジュールを接続する多数接続 型のバス接続形態が広く用いられてきた.バス接続型イ ンタフェースでは、さまざまな機能モジュールや多数の メモリモジュールなどが簡単に接続可能なため、機能や メモリ容量の拡張性に優れている。しかしながら、伝送 線路に多くの分岐点が存在しその分岐点でインピーダン スの不整合が存在するため、分岐点で伝送波形が劣化し 高速化が困難である。

#### 1対1接続型インタフェース:

1対1接続型とは、接続するチップ数を2つに限定し、チップ間の接続を1対1にする接続方法で、バス接続型で高

速化を阻害していた伝送線路の分岐点をなくしたもので ある.1対1接続型では、伝送路の分岐点に起因するイ ンピーダンス不整合が生じず、高速化が可能となる.こ のような1対1接続形態をとっているインタフェースと してはAGPなどがある.しかしながら、1対1接続型の データ伝送では、データ伝送と同時にクロック信号も 併走させ、受信器にて送信されたクロック信号をその まま用いてデータ信号をチップに取り込むソースシンク ロナス伝送が用いられているため(図-10)、複数の伝送 路の長さのばらつきに起因したデータ到着時間の差(ス キュー)が高速化に伴って相対的に大きくなり、高速化 の阻害要因となってしまう.

### シリアル伝送型インタフェース:

複数の送信データ間やデータ信号とクロック信号間のス キュー問題を解決し、さらなる高速化を目指した伝送方 式がシリアル伝送形態である、シリアル伝送とは、従来、 SONETやSDHといった基幹系ネットワークなど数10m 以上、数100kmといった長距離伝送に用いられてきた 伝送方式で,比較的低速な複数のデータ信号をまとめ, 高速な1本のデータ信号として伝送するのに加えて、受 信チップで用いるクロック信号を送信データから抽出す るクロックレス伝送機能を有している。そのため、1対 1接続で問題となった伝送路での複数のデータ信号間や クロック信号とデータ信号間のスキュー問題が存在しな い、このような長距離伝送に用いられていたクロックレ ス伝送技術を数cmから数mといった近距離のチップ間 インタフェースに適用し、シリアル伝送型インタフェー スでは高速化に伴うスキュー問題を解決している。シリ アル伝送技術がチップ間インタフェースに用いられてい る例としては、USBやシリアルATAなどがある。しかし ながら、シリアル伝送では伝送データの大容量化を伝送 速度の高速化だけに求めるため、大容量化に限界がある.

#### 多並列シリアル伝送型インタフェース:

そこで現在では、シリアル伝送を多数用いるXAUIや PCI-Expressに代表されるような多並列シリアル伝送形 態が主流となり始めている。多並列シリアル伝送では、 複数の伝送路を用いて伝送されるデータのひとつひとつ において最適なタイミングのクロック信号を抽出し正確 なタイミングでそれぞれ複数のデータ信号をチップに取 り込むと同時に、複数の伝送路で発生するスキューは受 信回路内部で高速な伝送データを低速データに変換した 後に取り除いている。

シリアル伝送を行うインタフェース技術の学会発表と 製品化動向を図-11に示す.シリアルインタフェースの 高速化は、まず基幹系通信用途への適用を目指して行われ、その後多並列のチップ間伝送向けに展開されている. また、使用されるトランジスタは、まずは高速動作に優れている化合物半導体材料やSiGe材料を用いて開発され、その後安価で高集積化やロジック回路との親和性が高いCMOSトランジスタに移行する傾向がある.現在では、CMOSを用いたシリアルインタフェースは、基幹系通信向けでは1伝送路あたりの伝送速度が学会発表において10Gbpsを超え10Gの次の規格帯である40Gbpsに達しようとし、製品化においても10Gbps動作のインタフェース技術が開発されている.一方、多並列伝送向けにおいても、学会発表、製品化共に10Gbpsに達している.今後、多並列伝送向けCMOSを用いたシリアルインタフェースの動作速度も向上を続け、40Gを目指して開発されていくと予想される.

### クロックレス伝送を実現するシリアル伝送回路 🥢

図-12にクロックレス伝送を可能とするシリアル伝送 回路のブロック図を示す、シリアル伝送回路では、送信 部の機能として、CPUなどの内部論理回路から出力さ れる多ビットのデータを1ビットの高速データに変換す る機能 (パラレル―シリアル変換), 伝送路への出力デー タを作成し信号を出力する機能(出力バッファ), 各ブ ロックを高速で動作させるための高速クロックを作成す る機能(PLL)に大別され、必要に応じて受信器にて伝送 データからクロック信号を抽出しやすくするなどの目的 で、伝送データを符号化する機能が追加される.なお、 符号化機能は、低速動作が可能なパラレル-シリアル変 換機能の手前で行われることが多い。一方受信部での機 能は、伝送路を介して入力されるデータを受信する機 能(入力バッファ)、クロックレス伝送を実現するため の2つの機能として受信データから最適タイミングのク ロック信号を作成する機能(クロックおよびデータ抽出: CDR) および高速クロック信号作成機能 (PLL), 高速シ リアルデータを多ビットのパラレルデータに変換する機 能(シリアル―パラレル変換),そして符号化されたデー タを復号化する機能に分けられる。それぞれの機能ブ ロックでは動作速度に応じて、比較的低速な動作である シリアル―パラレル変換機能と符号化/復号化機能には ディジタル回路技術、高速動作が要求される PLL, CDR, 入出力バッファにはアナログ回路技術が必要であるため、 シリアル伝送回路はアナデジ混在の回路技術が必要とさ れる、ディジタル回路での課題には高速化に加えて、一 般的なディジタル回路の課題と同様に、小面積化や低レ イテンシ化が挙げられ、アナログ回路での課題には高速 化に加えて耐ノイズ技術、低電力化、高速伝送設計に必 要なチップ外部のパッケージ、ボードなど伝送路の高精



図-11 シリアルインタフェース技術の開発動向



図 -12 シリアル伝送回路および必要技術

度なモデル化技術などが挙げられる.

このような各種の機能ブロックから構成されるシリア ル伝送回路であるが、シリアル伝送を特徴付ける機能は、 クロックレス伝送と高速信号の伝送である。クロックレ ス伝送は前述したようにスキュー問題を解決してデータ の大容量化をもたらすからである。一方、高速信号の伝 送では、PCボードやケーブルなど伝送路に対していか に高速な信号を伝送するかの鍵となるからである。たと えば、伝送データがGHzを超えると数10cmのPCボー ド上の配線を伝送させるだけで、データ振幅が1/10以 下になってしまう場合もある。

以上示したようなシリアル伝送を高速化してきた技術と伝送速度の関係を図-13に示す.シリアル伝送で

はCDRの採用によるクロックレス伝送で,従来1Gbps 程度であった伝送速度を2~3倍に高速化した.その後, ケーブルなどの伝送路でデータ信号が減衰するのを補償 するイコライズ技術や多値伝送などの高機能な入出力 バッファにより10Gbps程度まで高速化してきた.以下, 近年強く求められているデータ伝送の大容量化を実現す るシリアル伝送技術においてその特徴となる,クロック レス伝送の心臓部であるCDR部の高精度化と低電力化, 高速データ伝送で直接伝送路にデータを送受信する入出 カバッファ部の高速化と長距離伝送化に注目して,課題 と最新の取り組みを紹介する.

### GHzプロセッサを支える高速回路技術



**CDR技術** CDRでは送信されたランダムなデータ信号からデー タ信号の周波数と等しいクロック信号を抽出することと 同時に、抽出されたクロック信号のタイミングを送信 データに最適に合わせることが要求される. 伝送データ 速度の高速化に伴って、それらの要求の実現はさらに困 難になっていく. 加えて、多並列伝送では電力や面積を 小さく保ちつつ要求を満たす必要もある. このような要 求に答える多並列伝送のCDRに用いられる構成を図-14 に2つ示す.

図-14の左図はシリアルデータから最適なクロック信 号を抽出するのに、複数のシリアルデータのそれぞれに PLLを用い、クロック信号の位相と周波数の双方を同時 に最適化する PLL型 CDR, 右図は高速クロックを作成す る PLL は多数のシリアルデータで共通化し、データごと にクロックの位相だけを調整する位相補間 (フェーズ・ インターポレータ:PI) 型またはゲーテッド VCO型 CDR である<sup>7)</sup>. PLL型CDRでは各々のシリアルデータに対し てPLLを用いてクロック信号の位相と周波数の双方を同 時に最適化するため、クロック信号のジッタが小さいと いう優位性を持つものの、PLLに必要なローパスフィル タの面積が大きく、多並列伝送では面積オーバーヘッド が大きくなる。一方、PI型やゲーテッドVCO型CDRでは、 大面積を占有するフィルタが必要な PLLを複数のデータ で共通化しているため、PLL型CDRに比べ小面積である. しかしながら、クロック信号の位相だけを最適化してい るため、周波数を正確に最適化することが困難である点 や、PLLからの高速なクロックの分配を高精度に行う必 要がある点などから、PLL型CDRに比べ抽出されたクロッ

ク信号の精度が悪くなる課題がある. 多並列シリアル伝送では、その適用先の多くが伝送距離が数m以下のチップ間通信であるため伝送中での伝送データの揺らぎが小さく、抽出クロック信号のジッタへの要求がそれほど高くないため、ある程度のクロック信号の精度の悪化を犠牲にしても小面積性能に優先度を置く場合が多く、PI型やゲーテッドVCO型CDRが広く用いられている.

図-15にPLL型, PI型, ゲーテッドVCO型CDRの特徴 をまとめる. それぞれのCDRでは電力, 面積, クロッ ク精度, 多並列への適性で優位点が分かれており, 適用 するアプリケーションに応じてCDRを使い分けること が必要である. たとえば, 光通信や基幹系通信のように 抽出クロック信号の精度が強く求められる場合は, ク ロック信号の精度が高いPLL型CDRが有効であり, 多並 列伝送のように小面積を最優先とし, ある程度クロック 精度を犠牲にできる場合ではPI型CDRが有効である.

高速シリアル入出力回路技術 半導体技術の進展に伴い、チップ内部の動作速度は GHzを超え、伝送データ速度もGHzを超えるほどの高 速動作が可能となってきている。しかしながら、チップ 外部の伝送路に関しては半導体のような能動素子が用い られず受動素子で構成されること、装置の大きさやチッ プを搭載するプリント基板の大きさがほとんど変わらな いことなどから、伝送されるデータ信号をチップの動作 速度の高速化に比例するように高速化するのは非常に困 難である。この原因は、伝送データ速度が高速になると

伝送媒体での伝送減衰に起因した伝送データの歪みが大

きくなるからである。たとえば、5Gbpsを超える速度の

| アーキテクチャ        | 電力                     | 面積                                   | 精度                              | 多ch                          | ブロック図                     |       |         |
|----------------|------------------------|--------------------------------------|---------------------------------|------------------------------|---------------------------|-------|---------|
| PLL型           | <u>Good</u><br>-50 mW  | <u>Poor</u><br>-0.1 mm <sup>2</sup>  | <u>Good</u><br>周波数&位相<br>共に制御   | <u>Poor</u><br>エリア<br>ペナルティ  |                           |       |         |
| 位相補間型<br>(PI型) | <u>Fair</u><br>-150 mW | <u>Fair</u><br>-0.05 mm <sup>2</sup> | <u>Fair</u><br>位相のみ<br>制御       | <u>Good</u><br>高精度<br>クロック分配 | Multi-phase clock gen.    |       |         |
| ゲーテッドVCO<br>型  | <u>Good</u><br>-50 mW  | <u>Good</u><br>-0.02 mm <sup>2</sup> | <u>Poor</u><br>送信データの<br>ジッタが転写 | <u>Fair</u><br>ジッタ 大         | Din Start/Stop<br>Control | 図 -15 | CDR まとめ |



データをプリントボード上の数10cmの伝送路で伝送した場合,受信チップで受信されるデータ振幅は,送信チップから出力された信号振幅の1/10以下まで減衰してしまう場合がある.このような信号減衰の原因とその対策であるイコライズ技術と多値伝送技術を示す.

### ■信号減衰とイコライズ技術

伝送媒体での信号減衰の原因は、表皮効果による抵抗 損失と伝送路を構成する誘電体の誘電損失に大別される。 抵抗損失は√f(f:伝送周波数)に比例し、誘電損失はf に比例する.加えて、伝送データがランダムデータの場 合、伝送データには低周波から高周波までの周波数成分 を含んでいるため、伝送データを構成する各周波数成分 で減衰差や位相差が生じる.これを、伝送データの前後 への波形干渉、すなわち符号間干渉(ISI)と呼ぶ.

ISIの例を図-16に示す.上図には単ービットをある減 衰特性を持つ伝送路で送信した場合の受信端での受信波 形を示している.伝送データが前後に染み出し(干渉し), 前後のビットではその干渉したデータがノイズのように 振る舞う. その結果、ISIが大きくなるような高速デー 夕伝送下では正確なデータ伝送ができない.

このような伝送データの高速化に伴って顕在化する ISIの影響を補償するのが、イコライズ技術である、イ コライズは送信側で行うプリエンファシスと受信側で行 うポストイコライズとに大別される。送信側のイコライ ズであるプリエンファシスの例を図-16の下図に示す<sup>8)</sup>. プリエンファシスとは、伝送路で引き起こされるISIの 影響を予測して、送信側であらかじめ送信波形を補正し て伝送する技術である、プリエンファシス技術を用いる ことで、受信端での伝送波形の幅は1ビット幅に抑えら れ,前後のビットへのデータ干渉を抑制できる.図-17 にプリエンファシスによるイコライズの例を示す。送信 データの遷移点でデータ遷移を強調するようにプリエン ファシスをかけることで受信端でのエラーがなく送信が 可能となることが分かる.一方、プリエンファシスをか けない場合は、送信データパターンに応じてISIの影響 が現れ、受信端でのデータ受信が正確に行われない場合 があることが分かる.



図-17 プリエンファシスによるイコライズの例



#### ■多値伝送技術

一方イコライズ技術だけでなく、高速化を可能とする インタフェース技術として開発されているのが多値伝 送である。多値伝送とは、従来の2値(NRZ: No Return to Zero)伝送では1データ幅に1ビットのデータ(0また は1)を電圧方向に割り当てて伝送していたのに対して、 1データ幅に多ビットのデータ(たとえば2ビット、4値 伝送の場合は、0,1,2,3)を電圧方向に割り当てて伝送 するものである(図-18)<sup>9)</sup>.2値伝送と同等なデータ量 を伝送する場合、たとえば4値伝送であれば、1データ 幅を2倍に、すなわち伝送レートを1/2に低減すること ができる。したがって、高速化とともに顕在化するISI の影響を受けずに、またはISIが小さい中での伝送が可 能となる。しかしながら、4値伝送では伝送信号の電圧 振幅が2値伝送の1/3となり、信号の読み取りマージン が低下する、そのため、2値伝送と4値伝送のどちらが 有利かは,一概には決定できず,伝送路の特性に依存す る.伝送路減衰の周波数依存が小さい場合は,4値伝送 に比べ2倍の速度が必要な2値伝送における信号減衰よ りも,4値伝送の伝送信号の電圧方向幅が1/3となる信 号減少効果のほうが大きいため,2値伝送が有利である. 一方,伝送路減衰の周波数依存性が大きい場合は,4値 伝送が有利となる.

また、4値伝送の場合、隣り合う信号伝送路からの信 号漏話(クロストーク)や反射によるノイズの影響は2 値伝送に比べて大きくなる.これは、4値伝送に含まれ る信号遷移で最大なものは0から3などに遷移する場合 で、この遷移の大きさは信号振幅の3倍となるのに対し、 2値伝送の場合は、信号遷移の最大幅と信号振幅の大き さが同一だからである.したがって、4値伝送ではクロ ストークや反射によるノイズの影響が2値伝送に比べて 3倍大きくなる.すなわち、4値伝送ではSN比が2値伝



図-19 デュオバイナリ伝送の受信波形

送に比べ悪化してしまう.そこで、4値伝送でのノイズ 対策として、最大遷移を0から2までと制限するなどの 工夫がとられることが多い.しかしながら、このような 遷移の制限は実効的な伝送レートを低下させてしまう.

一方、高速化で顕在化するISIを積極的に利用する伝 送方法、たとえばデュオバイナリ伝送なども開発され始 めている<sup>10)</sup> デュオバイナリ伝送とは、従来の2値伝 送では完全に補償する必要があったISIのうち、隣り合 うビットからの干渉を許容することで完全なイコライ ズを不要にしたものである(図-19). 隣り合うビットか らの干渉を許容したため、デュオバイナリ伝送の受信 データは3値データとなる.たとえば、(前のデータ)+ 今のデータ=受信データ とすれば、(0)+0=0,(0) +1=1, (1) +0=1, (1) +1=2となる. またデュ オバイナリ伝送では2値伝送と同一のデータ量を伝送 する場合、その伝送周波数は2値伝送に対して2/3とな る. その結果、たとえば、2 値伝送で 10 Gbps のデータ 伝送を行うためには伝送路は10Gbpsの周波数成分であ る5GHzの帯域が必要であるのに対して、デュオバイナ リ伝送で10Gbpsの伝送を行うには2/3の約3.3GHzの 帯域の伝送路での伝送が可能となる.

以上示したように、伝送周波数と伝送路減衰に応じ て2値、4値、デュオバイナリ伝送で優位性が得られる 伝送方式が異なるため、伝送周波数と伝送路減衰特性を 考慮した最適な伝送方式を選択する必要がある。現状の サーバやルータなどでは、2値伝送が広く用いられ、4 値やデュオバイナリ伝送はほとんど用いられていない。 今後、伝送速度が高速化され、プリントボードやケーブ ルなどの伝送媒体での減衰が顕著になった場合、装置に 用いられてきた伝送媒体をそのままに伝送速度を向上さ



10 伝送速度 (Gbps/ 伝送路) 40

ボード改良 ノイズ対策

図-20 高速インタフェース技術の変遷と特徴

光伝送領域

10m

最大伝送距離(ボード)(cm)1

1

以上説明したように、高速インタフェースではクロッ クレス伝送 (CDR), イコライズ技術 (プリエンファシ スなど)、多値(4値、デュオバイナリ伝送)などの技術 開発により高速化を達成し,現在では1伝送路あたり 10Gbpsを超えるほどの速度で伝送が可能となってきて いる. 図-20に伝送距離と伝送速度の関係を,開発技術 によりどれほどの改善が見込まれるかに注目して示した. 高速インタフェースを適用するシステムからの伝送距離 に求められる要求を1mとした場合、通常の2値伝送で は2Gbps程度であった伝送速度は、プリエンファシス などのイコライザ技術により5Gbps程度まで高速化さ れ、さらに多値伝送技術により8Gbps程度までの高速 化が可能となる、今後、さらなる高速化を実現するため には、伝送路減衰の改善を目指したボードなどの伝送路 の改良、高速化で顕在化するクロストークや反射などの ノイズ対策が必要と思われ、それらにより20Gbps弱程 度までの高速化がなされると予想される。それ以上の高 速化には、電気伝送に替わる光伝送が有望な候補の1つ であろう.

一方,高速化と長距離伝送の両立の中で,性能向上 やCMOSトランジスタの微細化の進展とともに消費電 力も課題の1つとなり始めている.図-21にハイエンド 機器とミドルレンジ機器に用いられているLSIのインタ フェース部分の消費電力のトレンドを示す.機器の性能 向上や素子の微細化とともにインタフェースの高速化に より消費電力が急増し,2000年ではハイエンド機器に



図-21 インタフェース部の電力

て2~3W程度, ミドルレンジ機器にて1W以下であっ た消費電力が, 2005年ではハイエンド機器にて約10~ 20W, ミドルレンジ機器にて約2~3Wの消費電力に達 している. 今後2010年には, ハイエンドで50W程度, ミドルレンジでも10W程度にまで達する可能性もある. このような大きな消費電力を持つLSIを冷却するために は, 大規模な冷却システムが必要となり, 冷却システム の装置に占めるコストや面積の割合が高くなってしまう. そのため, 冷却システムが装置全体の性能を制限してし まう恐れがある.したがって,これまで高速インタフェー ス技術に求められてきた高速化と長距離伝送化の両立と いった課題解決に加え, 低電力化を目的とした高速イン タフェース技術の開発が急務であると思われる.

# まとめ

プロセッサなどのLSIは、チップ内部のクロック信号 の高速化や論理回路の高速化技術、チップ外部の高速イ ンタフェース技術の進展が、互いに支えあってGHzを 超える速度まで高速化と高性能化を続けてきた。チップ 内部の高速論理回路ではゲート段数の削減に加えてドミ ノ論理や低振幅論理といった高速回路技術が盛んに用い られ、チップ間インタフェースにおいても、クロックレ ス伝送に加えてチップ外部の伝送路特性を補償するイコ ライズ技術などが開発・適用され始めている。

今後、プロセッサの高性能化はチップ内部ではマルチ コア化、インタフェースではデュオバイナリや光伝送な どの新しい信号伝送方式を開発、採用しながら、さらに 進展を続けると予想される。GHz プロセッサの開発に おいて残る課題としては、LSI内部およびインタフェー ス双方に共通して電力問題が挙げられる。プロセッサの 消費電力をアプリケーションに応じて抑えつつ、高性能 化をいかに図るかが鍵となる.また、トランジスタの微細化に伴って高集積化を続けるLSIに対して、設計コストの増加を抑えながら大規模プロセッサを実現する手法の構築も必要であろう.

### 参考文献

- 1) Koren, I. : Computer Arithmetic Algorithms, A K Peters (2002).
- 2) Oklobdzija, V. G., Stojanovic, V. M., Markovic, D. M. and Nedovic, N. M. : Digital System Clocking, Wiley Interscience (2003).
- 3) Rusu, S. and Tam, S. : Clock Generation and Distribution for the First IA-64. Microprocessor, IEEE International Solid-State Circuits Conference Digest of Technical Papers, pp.176-177 (Feb. 2000).
- 4) Takahashi, O., Cottier, S., Dhong, S. H., Flachs, B., Hirairi1, K., Hofstee, H. P., Michael, B., Noro, H., Wendel, D. and White, M. : The Power Conscious Synergistic Processor Element of a Cell Processor, IEEE Asian Solid-State Circuits Conference Proceedings of Technical Papers, pp.21-24 (Nov. 2005).
- 5) Clabes, J., Friedrich, J., Sweet, M., DiLullo, J., Chu, S., Plass, D., Dawson, J., Muench, P., Powell, L., Floyd, M., Sinharoy, B., Lee, M., Goulet, M., Wagoner, J., Schwartz, N., Runyon, S., Gorman, G., Restle, P., Kalla, R., McGill, J. and Dodson, S. : Design and Implementation of the POWER5<sup>(TM)</sup> Microprocessor, IEEE International Solid-State Circuits Conference Digest of Technical Papers, pp.56-57 (Feb. 2004).
- 6)「ボード設計にダウンサイジングの波 GHz を超えるために—」,日 経エレクトロニクス、6-6, No.901, pp.89-113 (2005).
- 7) Fukaishi, M., Nakamura, K., Heiuchi, H., Hirota, Y., Nakazawa, Y., Ikeno, H., Hayama, H. and Yotsuyanagi, M. : A 20-Gb/s CMOS Multichannel Transmitter and Receiver Chip Set for Ultra-High-Resolution Digital Displays, IEEE Journal of Solid-State Circuits, Vol.35, No.11, pp.1611-1618 (Nov. 2000).
- Fiedler, A., Mactaggart, R., Welch, J. and Krishnan, S. : A 1.0625Gbps Transciver with 2x-Oversampling and Transmit Signal Pre-Emphasis, IEEE International Solid-State Circuits Conference Digest of Technical Papers, pp.238-239 (Feb. 1997).
- Farjad-Rad, R., Yang, C-K. k., Horowitz, M. A. and Lee, T. H. : A 0.4m CMOS 10-Gb/s 4-PAM Pre-Emphasis Serial Link Transmitter, IEEE Journal of Solid-State Circuits, Vol.34, No.5, pp.580-585 (May 1999).
- 10) Yamaguchi, K., Sunaga, K., Kaeriyama, S., Nedachi, T., Takamiya, M., Nose, K., Nakagawa, Y., Sugawara, M. and Fukaishi, M. : 12Gb/s Duobinary Signaling with × 2 Oversampled Edge Equalization, IEEE International Solid-State Circuits Conference Digest of Technical Papers, pp.70-71 (Feb. 2005).

(平成 18 年 3 月 13 日受付)