# 配線アクティビティを考慮した 3次元積層プロセッサ向けフロアプランナ

# 入江 英嗣<sup>1,a)</sup> 放地 宏佳<sup>1,†1,b)</sup> 稲場 朋大<sup>1,c)</sup> 眞島 一貴<sup>1,d)</sup> 藤原 大輔<sup>1,e)</sup> 吉見 真聡<sup>1,f)</sup> 吉永 努<sup>1,g)</sup>

#### 受付日 2012年12月21日, 採録日 2013年5月30日

概要:半導体3次元積層技術の進展により,3次元化したプロセッサの性能/パワーバランスが向上することが予測されている.配置配線の3次元化は、プロセススケーリングでは縮まないロングワイヤを幾何学的に縮め、電力消費の主要部分を占めている配線電力を削減することができる.しかし、既存の3次元モジュールマッパでは、配線のコスト関数はスイッチングアクティビティを考慮しておらず、またどのようなフロアプランが得られたかが明らかにされていない.本研究では、パイプラインシミュレータと連携して、モジュール間の通信頻度を考慮する3次元モジュールマッパを提案し、3次元プロセッサのフロアプランおよびそのアーキテクチャへの影響を明らかにする.提案モジュールマッパの出力結果からは、3次元構造を利用した効率的なデータパスやキャッシュ配置が確認された.3層、TSVの配線容量を30µmの通常配線と同等と仮定したときのフロアプランでは、2次元実装に比べて面積を34%、ロングワイヤ電力の近似値である配線アクティビティ値を57%まで削減し、従来のフロアプランナによる3次元実装に対して10%の配線アクティビティ値削減となった.

キーワード:3次元積層 VLSI, マイクロプロセッサ, フロアプランナ

# A Novel Wire-activity-aware Floorplanner for 3D-stacked Processor

HIDETSUGU IRIE<sup>1,a)</sup> HIROYOSHI HOUCHI<sup>1,†1,b)</sup> TOMOHIRO INABA<sup>1,c)</sup> KAZUKI MAJIMA<sup>1,d)</sup> DAISUKE FUJIWARA<sup>1,e)</sup> MASATO YOSHIMI<sup>1,f)</sup> TSUTOMU YOSHINAGA<sup>1,g)</sup>

#### Received: December 21, 2012, Accepted: May 30, 2013

**Abstract:** As 3D-stacked silicon technology grows, the significant increase of performance/power balance of 3D-stacked processor is expected. Exploiting 3D-stacked design, long wires that are not shrunk by process scaling can shrink geometrically, which essentially reduce the interconnect power that is the major part of the power dissipation. However, existing 3D module-mappers have not reflected switching activity to cost functions of wires; moreover, their outputs of 3D-microprocessor floorplans have not been revealed. This study introduces novel 3D module-mapper which reflects communication patterns to the cost function by collaborating with pipeline simulator, and reveals the floorplan and its effects to the 3D-stacked processor architectures. Our result showed efficient mapping of 3D data path and cache structures. With the condition of 3-layer, assuming the wire load of TSV as same as  $30 \,\mu$ m of the normal wire load, compared to that of 2D floorplan, it requires 34% footprint and shows 57% "Wire-Activity" value that represents interconnect power dissipation, which is improved by 10% from the result of existing 3D floorplanners.

Keywords: 3D-stacked VLSI, microprocessor, floorplanner

c) inaba@comp.is.uec.ac.jp

- d) majima@comp.is.uec.ac.jp
- $^{\rm e)}$  Dz-Fujiwara@comp.is.uec.ac.jp
- <sup>f)</sup> yoshimi@is.uec.ac.jp
- <sup>g)</sup> yosinaga@is.uec.ac.jp

電気通信大学大学院情報システム学研究科 Graduate School of Information Systems, The University of Electro-Communications, Chofu, Tokyo 182-8585, Japan

<sup>&</sup>lt;sup>†1</sup> 現在,株式会社ディー・エヌ・エー Presently with DeNA Co., Ltd. <sup>a)</sup> irie@ie.uec.ac.in

<sup>&</sup>lt;sup>a)</sup> irie@is.uec.ac.jp

 $<sup>^{\</sup>rm b)}$  houchi@comp.is.uec.ac.jp

## 1. はじめに

計算機システムの中核となるプロセッサは、半導体デバ イス技術とアーキテクチャ技術により急速な性能向上を続 けてきた.近年、半導体デバイスの3次元実装技術が進展 し、従来のテクノロジスケーリングに加え新たな性能向上 の源泉が生じている.数百 µm 間隔で実装できるシリコン 貫通電極(Through-silicon via, TSV)により、積層ダイ 間の高密度な接続が可能となり[1],[2],[3],3次元設計は、 従来のパッケージレベルからブロックレベル、セルレベル の細かい設計への進展が見込まれている[4].

3次元実装の利点として、パッケージ内の有効面積を広 げるほか、ロジック、メモリ、RFといった異なる半導体 プロセスを柔軟かつ密接に接続できること、配線を幾何学 的に縮め、配線電力を改善することがあげられる.克服す べき課題として、熱密度、製造テスト、TSVのコスト(1 本あたりのコストは従来のワイヤボンディングよりも安価 だが、活用により本数が増加すると考えられるため)があ げられるが、モジュール配置による対策技術が提案されて いる[4],[5],[6].さらに、TSVよりも高密度かつ柔軟な接 続を可能とするモノリシック 3D 技術も研究が進められて おり[7]、半導体デバイスの3次元方向の活用はコスト・性 能両面の利点からさかんに研究が進められている.

マイクロプロセッサ設計においても、3次元化によって従 来の制約を超えた性能を得るための研究が進められている. DRAM プロセス積層によるキャッシュ大容量化,キャッ シュの3次元積層によるフットプリント節約,3次元化し た SRAM による高性能キャッシュ,マルチコア積層など, マルチコアやメモリシステムに関する研究が多く行われて いる [8], [9], [10] ほか, プロセッサコアそのものの3次元 化により10%以上の性能向上と10%以上の電力削減を同時 に達成できるという見積りも報告されている [5], [11], [12]. プロセッサ3次元化の特に主要な利点として、ロングワイ ヤの電力削減があげられる. VLSI の配線はローカルワイ ヤとロングワイヤの2種類に分類でき、ロジック内にあっ てプロセス微細化に従って短くなるローカルワイヤに対 し, モジュール間のインタコネクトであるロングワイヤの 電力が、チップの主要な電力要因となっている [13]. 配置 配線の3次元化は、このロングワイヤの距離を幾何学的に 縮め、チップの消費電力を本質的に削減する. このような 3次元化の効果はテクノロジスケーリングとは直交してお り、今後急速に活用が進むと考えられる。

しかし、プロセッサはメモリと異なりレギュラ構造では ないため、どのような3次元配置が良いかは自明でない. 既存研究では、2次元設計で用いられている手法を3次元 に拡張したフロアプランナをプロセッサのモジュール配置 に導入しているが、どのようなフロアプランが得られたか は、我々の知る限り明らかにされていない[5]、[13]. さら に、これらの既存手法では、配線のコスト関数として総配 線長が用いられている. 配線電力は配線長とスイッチング アクティビティに依存するため、3次元配置による電力削 減を目的とした最適化からは乖離している可能性がある. この問題に関して、プロファイルなどからスイッチングア クティビティを推定してコスト関数へ導入すれば、より良 い配置結果が得られることが、いくつかの2次元の配置配 線の分野では報告されている [14], [15].

そこで本研究では、パイプラインシミュレータによる動 的情報を利用し、配線のコスト関数に通信頻度の重みを加 える最適化手法を提案する.このことにより、3次元化の 利点の1つであるロングワイヤ電力削減をより推し進め る.提案手法によって得られる3次元フロアプランを明ら かにし、プロセッサモジュールの3次元配置傾向と、アー キテクチャへの効果について議論する.

以降,本論文は次のように構成される.2章では3次元 フロアプランの設計技術および3次元積層プロセッサに 関する研究を紹介する.3章では我々の提案する3次元モ ジュールマッパの概要と新しいコスト関数について述べ, 4章ではアルゴリズムの詳細について示す.5章では評価 環境について述べる.6章では提案モジュールマッパに よって得られたフロアプランを示し,従来アルゴリズムと の比較および3次元化の効果について議論する.7章でま とめを述べる.

## 2. 3次元積層プロセッサの設計

## 2.1 3次元モジュールマッパ

IC の 3 次元設計はテクノロジレベル, アーキテクチャレ ベル, 回路レベルという各粒度の 3 次元分割・配置の組合 せで構成される [4]. テクノロジレベルでは, 平面ロジック プロセスで製造されたプロセッサに DRAM プロセスで製 造されたメモリや, 異なるテクノロジ世代で製造されたロ ジック回路を積層し, パッケージの性能バランスを最適化 する.回路レベルではバンクスタッキング [9], [16] やポー トスプリッティング [8] など, 主に SRAM 回路や多ビッ ト演算器など規則的な構造を持つモジュールを 3 次元高性 能化する.中間粒度であるアーキテクチャレベルでは, 機 能モジュールの 3 次元配置によりロングワイヤやバスを最 適化する.アーキテクチャレベルの 3 次元設計では,広大 な設計空間から各モジュールの配置最適化する 3 次元モ ジュールマッパが用いられる.

従来用いられている2次元モジュールマッパは、シーケ ンスペア [17] や B\* ツリーを用いて非スライス構造のフロ アプランを記述し、シミュレーテッドアニーリング法 (SA) によりパッキング問題を探索する.最小化するコスト関数 として面積のほか、チップの消費電力の主要部分を占める ロングワイヤ電力の削減を期して、モジュール間の総配線 長が用いられる. モジュールマッパの3次元拡張では、フロアプランを3 次元表現する TCG [18] やシーケンス・トリプル [19] 手法 が存在するが、3次元積層 IC 設計の場合、積層方向(z軸) は他の方向(x, y軸)に比べて自由度が低いため、より軽 量な、層ごとの2次元配列を複数管理する手法が用いられ ることが多い [6], [20], [21], [22].

Shiuら [20] は 3 次元積層 SiP (System in Pakage) にお いて、シーケンスペアと SA を用いたモジュール配置手法を 提案している. 彼らはコスト関数として、面積、配線長、ビ ア数、配置制約ペナルティを組み合わせたものを提案してい る. Nainら [22] は 3 次元 SRAM のような 3 次元モジュー ルに対応した配置手法、GSP (Grouped Sequence Pair)を 提案している. 温度の問題に関して、Congら [21] はコスト 関数に温度評価を導入した CBA (Combined-bucket-and-2D-array) 方式を提案している. 一方、最近の Li ら [6] の 手法では温度評価は計算量を増加させるとして SA のイテ レーションからは取り除き、得られたフロアプランに対し て温度制約をチェックする方法を採用している. また、彼 らは TSV の大きさを考慮した配置手法を提案している.

近年の高性能回路ではモジュールの使用頻度に応じてク ロックゲーティングやパワーゲーティングなどが適用さ れるため,配線長と通信コストの相関が複雑となってい る.Yehら [23] はパワーゲーティングを行う SoC を対象 に,プロファイルを用いてパワーゲーティングを適用する モジュールを選択し,パワートランジスタの配置を最適化 する手法を提案しているが,彼らのモジュールマッパでは, 従来手法と同様,配線長をコスト関数として用いている.

## 2.2 プロセッサコアの3次元化

プロセッサ3次元化に関しては、3次元 SRAM や DRAM プロセス積層を利用してキャッシュやレジスタなどのメ モリ要素を強化する Liu ら [24] や Puttaswamy ら [8], [9], 上野ら [10] の研究が行われている一方で、プロセッサコア のロジックを3次元化する研究は、設計の困難さからまだ 優位性が一般的となっておらず、多くない.

Xie ら [5] は 3 次元積層プロセッサについて, SRAM 最 適化, 3 次元モジュールマッパ, IPC などのアーキテク チャ評価, チップ試作を通した総合的な議論を行ってい る. 彼らの評価では IA32 アーキテクチャを 2 層で 3 次元 実装した場合, 従来の平面実装に比べて, 性能/パワー効 率は 50%以上向上すると見積もられている.また, 彼らは Cong ら [21] の 3 次元 IC モジュールマッパをもとにして, 温度評価の代わりにパワー密度の偏りをコスト関数に導入 したモジュールマッパを提案し, プロセッサ設計に適用し ている.しかし, 彼らの性能評価ではヒューリスティック によって得たフロアプランが用いられており, 提案された モジュールマッパによってどのようなフロアプランが得ら れたかは明らかでない. Hungら [13] はパワー密度の偏り評価において, モジュー ルの消費電力だけでなくロングワイヤの消費電力を考慮す る手法を提案している. 彼らは, 配線による発熱を考慮す ることで 90 nm プロセスで最大 15 度の温度上昇を防ぐこ とができるとしているが, Xie ら同様, どのようなフロア プランが得られたかは明らかにされていない. コスト関数 は, 面積, 配線長, 電力密度の偏りの要素を足しあわせた ものとなっている. 手法の特徴である配線電力の見積りは Design Compiler のプロファイルをもとに算出されている が, スイッチングアクティビティは考慮されず, 総電力を 配線長に応じた比で分配することにより, 各モジュール間 配線の電力を推定している,

3次元プロセッサのチップ試作は Black ら [11], [12] に よっても報告されており,平面実装に比べて,最高温度 を14度上昇させる代わりに15%の性能向上と15%の電力 削減,あるいは最高温度を変化させずに8%の性能向上と 34%の電力削減が見込まれるとしているが,フロアプラン の設計ツールは明らかにされていない.

## 2.3 配線スイッチングアクティビティの考慮

チップ電力消費の主要部分を占めるロングワイヤ電力は 一般に式(1)に比例する[15]. ここで $SW_{ij}$ はモジュール*i* とモジュール*j*の間の配線のスイッチングアクティビティ であり,配線の信号が0から1,あるいは1から0へ変わ る頻度を示している.  $C_{ij}$ は配線容量を示すが,モジュー ルマッパの段階では主にモジュール間の配線長(モジュー ル間距離と配線ビット幅の積)によって決定される.こ れはゲート負荷容量はモジュール間配線容量に比べて無 視できるほど小さいためである[25].一方, $SW_{ij}$ 項につ いて,配置配線のレイヤでは取得できない情報であるた め,ロングワイヤ電力解析の典型的な手法では,この値を 0.05 から 0.2 の間の固定値,あるいは乱数とすることが多 い [26], [27], [28].

$$\sum SW_{ij} \times C_{ij} \tag{1}$$

しかし、スイッチングアクティビティの傾向はモジュー ルによって異なるため、スイッチングアクティビティを一 律と仮定する手法、つまり配線のコスト関数として総配 線長で近似する手法では、実際の電力最適化からは乖離 が生じる.このため、上位レイヤツールのプロファイルを 利用してスイッチングアクティビティを推定し、コスト 関数に組み込む手法が有効であることが2次元モジュー ルマッパでは報告されている.Ekpanyapongら[14]は、 SPECPCU2000から選んだ10本のプログラム実行時のプ ロファイルからスイッチングアクティビティを推定してい る.彼らは、重み付き配線遅延を線形計画法により最小化 して、最大40%の性能向上を得る配置を得たとしている. また、Liuら[15]は、専用回路の配置配線において、デー タフローグラフを解析して各エッジのスイッチングアクテ ビティが少なくなるように回路合成を行い,さらに配線の コスト関数にスイッチングアクティビティの重みを付けて SA 法による配置を試みることで,ロングワイヤ電力を従 来手法に比べて 15%削減したとしている.

## 3. 3次元プロセッサ向けモジュールマッパの 提案

## 3.1 配線長へ重み付け

前章で見たように,現在,3次元積層チップのフロアプ ラン問題では2次元モジュールマッパを3次元拡張した手 法が様々に研究されており,プロセッサコアの3次元化に ついても研究が行われ始めている.しかし,既存の3次元 モジュールマッパでは配線のコスト関数にスイッチングア クティビティが考慮されておらず,また,どのようなフロ アプランが得られたかも明らかになっていないため,将来 の3次元プロセッサのアーキテクチャを議論することが難 しくなっている.

プロセッサ3次元化の主要な利点の1つは、チップの主 要な消費電力や配線遅延を占めているロングワイヤを幾何 学的に縮め、チップの性能/電力バランスを本質的に改善 することである.配置のコスト関数として、ロングワイヤ の消費電力に近い値を用いることで、より良いフロアプラ ンを得ることができる.このため、従来手法では一律に近 似されている、各モジュール間のロングワイヤのスイッチ ングアクティビティ傾向を考慮することが有効である.そ こで、我々はプロセッサシミュレータを用いて各ロングワ イヤのスイッチングアクティビティを推定し、配線長に重 み付けした"配線アクティビティ"を配線のコスト関数と するモジュールマッパを提案する.また、提案コスト関数 や従来のコスト関数によって、実際にどのようなフロアプ ランや効果が得られるかを明らかにし、将来の3次元プロ セッサについて議論を行う.

プロセッサの各モジュール配置では、互いに多くのモ ジュールが接続して密な接続網を形成し、それらの通信頻 度は一様ではない.モジュール間のスイッチングアクティ ビティ推定について、我々はこのモジュール単位の通信頻 度に着目した.一般に、高性能プロセッサでは、モジュール 間通信が必要ないサイクルにクロック/パワーゲーティング や値のホールドが適用されるため、通信頻度が低い配線は スイッチングアクティビティも小さくなる.モジュール間 通信頻度はパイプラインシミュレータを利用すれば設計の 初期段階から見積り可能であり、これをモジュール間配線 長に対して重み付けた関数、配線アクティビティとして提 案し、配線消費電力を反映する指標として用いる(式(2)).

## WireActivity

$$= \sum Distance_{ij} \times Bitwidth_{ij} \times Usage_{ij}$$
(2)

ここで  $Distance_{ij}$  はフロアプラン上のモジュール  $M_i$  とモ ジュール  $M_j$  間の距離,  $Bitwidth_{ij}$  は  $M_i$  と  $M_j$  間の接続 ビット幅であり,  $Usage_{ij}$  が我々が新たに導入する, パイ プラインシミュレータから得た  $M_iM_j$  間の通信頻度であ る.式 (2) から  $Usage_{ij}$  の積算を取り除くと, 従来の配線 長の式となる.

式(2)における Usageij はモジュール間の有効な通信の 有無で与えられるため、厳密にはスイッチングアクティビ ティとは異なり、近似値となる.たとえば、2 サイクル連 続でモジュールから同じ値を通信する場合, ビット単位で 見れば反転がなく、ロングワイヤ電力が発生しない場合が ありうるが, 配線アクティビティでは, 2回の通信があっ たとして重みが計測される.これは、ビットレベルの反転 傾向を重みに反映しようとすると、プロファイルしたベン チマーク入力値の影響が大きくなること、また高速性のた めにラッチやダイナミック回路を用いる部分では同じ値が 連続してもビット反転がありうることから、設計の初期段 階の見積りとしては、プロファイリングをビット単位とし ても精度向上が少ないためである.一方,クロック/パワー ゲーティングや値のホールドによるスイッチング頻度の現 象は、モジュール間通信の有無で決定されるため、配線ア クティビティ値はこれらの傾向を反映する.

### 3.2 提案システムの概要

提案システムの構成図を図1に示す.提案モジュール マッパは、プロセッサを構成するレジスタ、キャッシュ、 ALUなどのモジュールの粒度で最適な3次元フロアプラ ンを探索、出力する.各モジュールは平面矩形で表され、 同じ層の中では重ならないように配置される.

モジュールマッパは大きく2種類の入力を必要とする. 1つはパッケージのパラメータで,積層する層数および TSVの配線コストを与える.もう1つはプロセッサ情報 で,モジュールのリストとそれぞれの面積,およびすべて のモジュール間接続について,接続しているモジュール対,



図 1 提案手法の概要 Fig. 1 Outline of our Floorplanner.

ビット幅,通信頻度のリストで構成される.これらの情報 はテクノロジパラメータ,アーキテクチャモデル,パイプ ラインシミュレーション結果を用いてあらかじめ生成する.

モジュールマッパは入力情報をもとに SA を用いてパッ キング問題を最適化する.フロアプランを各層のシーケン スペアで表現し、イテレーションごとに揺動させて最適解 へ接近する.最小化するコスト関数は、式(3)に示すよう に、面積とロングワイヤ負荷の双方を考慮する.

## $CostFunction = \alpha Footprint + \beta WireActivity \quad (3)$

提案手法では従来手法に比べて,さらにロングワイヤ電 力を削減したフロアプランを得ることができる.また,新 しいプロセッサ設計について,アーキテクチャレベルの設 計段階で3次元向けのフロアプラン傾向を得て,アーキテ クチャパラメータにフィードバックすることが可能となる.

## 4. 配置アルゴリズム

## 4.1 SA の制御

提案モジュールマッパは,関連研究 [5],[13] 同様,3次 元フロアプランを各層のシーケンスペアで表現する.最初 にランダムにシーケンスペアを作成してモジュールを各層 に配置し,イテレーションごとにフロアプランへの小さな 改良を企図した揺動を繰り返し最適化を進めていく.SA の特徴として,揺動によって解が一時的に悪化しても,「温 度」に応じて確率的に悪化を受け入れることで局所最適解 を避けることがあげられる.

提案モジュールマッパのSAの制御の流れを図2に示す. まずランダムに初期配置を生成し、近傍解の生成とその採 択の判断を繰り返しながら徐々に温度を下げていき,終了 温度に達したときの配置を出力とする. 各イテレーション では、スワップ操作とソフトモジュール操作の中からラン ダムに1つを選び、近傍解を生成する.スワップ操作は、 シーケンスペアの配置を交換することでモジュールの位置 関係を変更する. ソフトモジュール操作は, 面積を保った ままモジュールのアスペクト比を変形して周りの境界線と 合わせ、ホワイトスペースを少なくする [29] (図 3). な お,各モジュールは横:縦および縦:横の比が1:4を超えな い範囲で変形されることとした.Xieら[5]の手法同様,配 置探索の終盤になるほどソフトモジュール操作が選択され る確率が高くなるように、アルゴリズム選択の確率に重み を付ける. 揺動操作の詳細は以下の8種類となっており, この中から各イテレーションで1つが選択される.ここで は、その時点のフロアプランについて、最も WireActivity (式(2))の増加に寄与しているエッジの両端のモジュール を $M_1$ および $M_2$ と呼ぶことにする.

- *M*<sub>1</sub>を同じ層または別の層のランダムなシーケンスペ ア位置へ移動させる.
- *M*<sub>2</sub>を同じ層または別の層のランダムなシーケンスペ



図2 モジュールマッパアルゴリズム

Fig. 2 Flowchart of our module mapper algorithm.



Fig. 3 Soft module optimization.

ア位置へ移動させる.

- ランダムに選ばれたモジュール M<sub>R</sub> を同じ層または別の層のランダムなシーケンスペア位置へ移動させる.
- *M<sub>R</sub>*の下辺が上方向に移動するようアスペクト比を変 更し、境界線を揃える。
- *M<sub>R</sub>*の右辺が左方向に移動するようアスペクト比を変 更し、境界線を揃える。
- *M<sub>R</sub>*の下辺が下方向に移動するようアスペクト比を変 更し、境界線を揃える。
- *M<sub>R</sub>*の右辺が右方向に移動するようアスペクト比を変 更し、境界線を揃える。

この入れ替え操作によって得られた遷移候補のコスト関数が改善された場合はフロアプランを更新する.悪化した場合は、0 < Rand < 1なる乱数Randを生成し、式(4)が満たされれば採択、更新する.ここで、Cost()はSAで最小化を目指すコスト関数、mapBは揺動によって得られた近傍解、mapAは揺動前の配置とする.温度が高いほど、悪化したフロアプランでも採択する確率が高くなる.冷却スケジューリングは典型的な冷却関数に従い、d回イテレーションごとのT := rT更新とした.dおよび初期温度の決定法については評価環境の章で述べる.

$$Rand > \frac{Cost(mapB) - Cost(mapA)}{Temperature}$$
(4)

## 4.2 コスト関数

提案モジュールマッパは SA のコスト関数として面積と ロングワイヤ負荷の双方を考慮した式 (3) を用いる.式 (3) 中の WireActivity は式 (2) で与えられるので,代入して,

## CostFunction

 $= \alpha Footprint$ 

 $+\beta(\sum Distance_{ij} \times Bitwidth_{ij} \times Usage_{ij}) (5)$ 

を各フロアプランについて計算する.

面積は図4のように、各層を重ねあわせたときにプロ セッサ全体を含めることができる最小の矩形として計算す る. 各モジュール間の配線距離について, まず xy 平面上 の配線長は、広く用いられている half-perimeter bounding box モデルを用い、配線の周囲を囲う矩形の外周長の半分 とした.次に,z軸方向の配線長は、またぐ層の数にTSV の配線コストを表すパラメータ, TSVweight をかけること により与えられる. TSV による配線長には、TSV そのも のの長さに加えてバンプや再分配層, TSV 間隔の制限によ るオーバヘッドが加算される.また,電気特性について, 他の TSV との間に生じる容量や TSV を囲う絶縁体を通し て基板との間に生じる容量が発生し、さらに高周波帯では L成分の影響が大きくなるなど、通常の配線とは異なる特 性を持つ [2]. TSVweight はこれらのオーバヘッドを考慮 し、TSV1本あたりの配線コストが、どれだけの長さの通 常配線と等しいかを表すパラメータとなる.

イテレーション内演算の軽量化のため、ロングワイヤ はつねに最短距離で配線されると仮定し、2モジュール間  $(M_i, M_j)$ の配線長は以下の式 (6)で計算される.ここで  $M_ix, M_iy$ は $M_i$ の重心のx座標およびy座標, $M_iz$ は $M_i$ の配置される層番号を示している. $M_j$ についても同様に 定義する.

 $Distance_{ij}$ 

$$= |M_i x - M_j x| + |M_i y - M_j y|$$





$$+TSV weight \times |M_i z - M_j z| \tag{6}$$

残る Bitwidth<sub>ij</sub> と Usage<sub>ij</sub> はプロセッサ情報として入 力から与えられた値を利用する. Usage<sub>ij</sub> はパイプライン シミュレータを利用し,各モジュールのヒット/ミスや処 理命令数の統計から,全モジュール間エッジの通信頻度を 推定して作成する. αとβは面積とロングワイヤの最適化 の重みを調整する係数である.

提案アルゴリズムではアウトライン制約は用いず,フットプリントの大きさやアスペクト比はフロアプランナが最 適配置とした値に合わせる設計を仮定している.チップ内 のプロセッサ領域が決まっていてアウトライン制約が必要 な場合は,Unified convex optimization (UFO) [30] のよ うな設計方法が知られている.

## 5. 評価環境

#### 5.1 比較モデル

提案するモジュールマッパを Java version 1.6.0\_21 環境 上に実装し,フロアプランの取得を行った.実験に用いた パッケージの設定パラメータを表1に示す.従来モジュー ルマッパで用いられているコスト関数との比較のため,以 下の3種類のコスト関数について実験を行った.比較対 象となる2種類は,いずれも2次元および3次元のICモ ジュールマッパにおいて,一般的に用いられているコスト 関数である.

- F:面積のみを考慮
- F+WL:面積と配線長を考慮
- F+WA:提案モデル,面積と通信頻度の重み付き配線 長を考慮

式(5)における α と β の係数は,最適化が進んだときの 面積と配線長要素の重みが等しくなるよう,コスト関数と パッケージパラメータごとに決定した.具体的にはモンテ カルロシミュレーションによるランダム配置を行い,各要 素について最も良かった数値の比を用いる.係数決定のた めのモンテカルロ試行回数は10,000,000回とした.

## 5.2 アーキテクチャパラメータ

配置を行うプロセッサモデルとして,DEC Alpha 21264 [31] を想定し,入力ファイルを作成した.配置す るモジュールの接続図を図5に示す.モジュール間通信頻 度の情報は,プロセッサシミュレータ鬼斬2 rev.4240 [32] 上に集計ルーチンを実装し,SPEC CPU2006 ベンチマーク 全プログラムについて先頭10G 命令スキップ,続く100M 命令の実行について各モジュール間の通信頻度を計測し,

表 1 パッケージ設定 Table 1 Settings of parameters.

| 層数        | 1 - 3                               |
|-----------|-------------------------------------|
| TSVweight | $30\mu\mathrm{m},100\mu\mathrm{m}4$ |



図 6 モジュール間配線の重み Fig. 6 Weight of the long wires.



図 5 配置するプロセッサモジュールと接続図 Fig. 5 Modules and their connection diagram.

作成した.

図 6 は,得られた通信頻度の重みを示したものである. 横軸に通信エッジのあるモジュールペアを列挙し,縦軸に そのエッジの重みの相対値(全エッジの重みの総和を1と する)を示している.グラフでは,従来手法であるエッジ ビット幅の重みと,提案手法である通信頻度が考慮された重 みの2つの値が示されている.図6のL2decoder:L2bank0 などの値を見ると,ビット幅の重みとアクティビティの 重みでは差があり,低次キャッシュでは確保されたビッ ト幅に対して通信頻度は多くないことが分かる.一方で, Reg:iALU以降のデータパスの項目に着目すると,通信頻 度を考慮した場合に重みが顕著に増加するエッジがあるこ とが分かる.各モジュールのサイズはKessler [31] および Lewis ら [4] の報告をもとに,アーキテクチャ構成はその まま,28 nm プロセスにスケールしたと見積もった値を設

表 2 SA パラメータ Table 2 SA parameters.

|                | 開始温度         | 終了温度   |
|----------------|--------------|--------|
| F (1 layer)    | 5000000      | 0.0125 |
| F (2 layer)    | 4000000      | 0.01   |
| F (3 layer)    | 3000000      | 0.0075 |
| F+WL (1 layer) | 10000000     | 0.025  |
| F+WL (2 layer) | 8000000      | 0.02   |
| F+WL (3 layer) | 8000000      | 0.02   |
| F+WA (1 layer) | 150000000000 | 375    |
| F+WA (2 layer) | 60000000000  | 150    |
| F+WA (3 layer) | 40000000000  | 100    |

定した.

## 5.3 SA パラメータ

実験では同じパラメータのものについてそれぞれ 100 回 のフロアプラン生成を行い,最もコスト関数の低い結果を 採用した.初期温度はパラメータごとにコスト関数の収束 の様子を予備取得し,最も深い局所解のコスト関数値から 十分抜け出せるような値をそれぞれ設定した.パラメータ が異なっても SA イテレーション回数を同じとするため, 終了温度と開始温度の比はすべてのパラメータで一定とし た.冷却スケジューリングについて,rの値を 0.9 とし,温 度更新間隔 d は,近傍解の数のオーダに従い,モジュール 数の 3 乗と揺動数の積とした.設定パラメータを表 2 に 示す.

## 6. 評価結果

#### 6.1 2次元フロアプランにおける検証

まず,現行のプロセッサと同様の1層,平面構成について,我々のモジュールマッパによって得られたフロアプラン結果を図7に示す.フロアプラン図は,メモリサブアー



 I2b0
 s
 rote: Induction formulation

 I2b2
 I1
 d
 r
 d1

 I2b2
 I1
 f
 Ipdecoder Isu

 I2b3
 I2b3
 I2b1

図 7 1 層, F+WA Fig. 7 1 layer, F+WA.

キテクチャ,フロントエンド,バックエンドについてそれ ぞれ色分けし,密接に関係するブロックどうしの配置が分 かりやすいようにした.最も密な通信が行われるバックエ ンド部分が密集して配置され,効率の良いデータパスを形 成している.またフロントエンド部分もまとまって配置 されている.命令キャッシュはフロントエンドに,データ キャッシュはデータパスに隣接して配置され,後方のL2 キャッシュへと続いている.ホワイトスペースも少なく, パッキングの最適化が行われていることが分かる.L2の サブアレイに特別な制約をいれていないため,それぞれ独 立したアスペクト比で配置されている点を除けば,図7は 2次元プロセッサに典型的なブロック配置が得られている.

同様に、2次元のプロセッサについて、面積のみ(F)および面積と配線長の考慮(F+WL)のコスト関数によって 取得したフロアプランをそれぞれ図8と図9に示す.面 積のみを考慮して得られた図8では提案手法に比べてさ らに少ないホワイトスペースを実現している.しかし、モ ジュール間の接続を考慮していないため、フロントエンド およびバックエンドは広がって配置されており、プロセッ サの配置としては効率が悪くなっている.配線長が考慮さ れた図9では関連する機能モジュールがまとまって配置さ れた図9では関連する機能モジュールがまとまって配置さ れているが、提案手法ほど徹底した配置とはなっておらず、 フロントエンドとバックエンドが入り交じっている.これ は、通信頻度の重みをいれない従来手法では、分岐予測ミ ス時のみにアクティブとなるパス(バックエンドとフェッ チロジック)の配線コストが、提案手法に比べて相対的に 大きく見積もられているためと考えられる(図6).また、



図 9 1 層, F+WL Fig. 9 1 layer, F+WL.

提案手法に比べ L2 キャッシュとの配線の重さが大きくな るため、すべての L2 バンクの距離を縮めるために対称的 な配置が選択されている.以上より、提案手法は既知のプ ロセッサフロアプランと同様のモジュール配置を出力で き、プロセッサ向けの最適化は他のコスト関数に比べて優 れていることが分かる.

#### 6.2 提案手法によるロングワイヤ電力削減

次に,3次元化および提案コスト関数による効果を確認 する.図10は各モデルについて得られたフロアプランの 配線アクティビティ値(式(2))の値を示している.1層,





2 層, 3 層, および 2 層以上の場合は 2 種類の TSV weight の条件を X 軸に示し, また, Y 軸には配線アクティビティ 値を, 1 層のときの F+WA モデルによる値を 1 とした相 対値で示している.前述のように,この値はチップの電力 消費の主要部分を占めるロングワイヤ電力 [15] を近似し ている.まず,提案モデル F+WA について,3 次元化の 効果に着目すると,1 層のときに対して,2層 TSV weight 100  $\mu$ m のモデルでは 80%, TSV weight 30  $\mu$ m のモデルで は 66%にまで削減している.2 層から3層への改善は緩や かだが,3層 TSV weight 30  $\mu$ m のときに 57% となってい る.次に,従来手法 F+WL と比較すると,提案手法はす べてのパッケージパラメータについて 10% から 14% の改善 となっており,3次元化の利点であるロングワイヤ電力削 減に適した手法であることが分かる.

一方,提案手法では配線長に通信頻度の重みを考慮する ため,純粋な総配線長については悪化することが予想され る.図11は得られたフロアプランの配線長コストを,1層 F+WLモデルのときの値を1として正規化して示したグ ラフである.悪化量はすべてのパラメータについて6%以 内であった.なお,1層に対し2層,3層の配線長は30%か ら50%の短縮となっており,Xieら[5]がAlphaアーキテ クチャに対して行った見積りにおける38%と同様な結果と なっている.

フロアプランの配線領域について考えた場合,総配線長か らz軸方向の寄与分を除いた値によって近似される.図11 において,z軸方向の寄与分はF+WAモデル,F+WLモ デルともに各パラメータで同じ値を示し,2層TSVweight 100 $\mu$ mのときに15ないし19%,2層TSVweight 30 $\mu$ m のときに7%,3層TSVweight 100 $\mu$ mのときに20%,3 層TSVweight 30 $\mu$ mのときに12%などとなった.このた め,配線領域に寄与するxy方向の総配線長に注目した場 合も,提案手法による悪化は少なかったといえる.また, モジュール間配線の重なりを確認したところ,積層される 各チップにおいて,それぞれ3層の配線層をモジュール間 通信で使用できれば,最短距離での接続が可能であり,最



図 11 3次元フロアプランの効果(総配線長) Fig. 11 The effect of 3D floorplan (Total longwire length).



図 12 3次元フロアプランの効果(面積) Fig. 12 The effect of 3D floorplan (Footprint).

終的な配置配線結果でも同様の傾向と考えられる.ビット 幅の重みと配線アクティビティ値の重みの乖離が大きい場 合は,配線領域の最適化品質を維持するために,コスト関 数として配線アクティビティ値と配線長の双方を用いる手 法も考えられる.

最後に,面積について確認する.図12はフロアプラン の面積コストを,1層,Fのときの値を1とした相対値で 示している.値が小さいほど面積を小さくパッキングでき ていることになる.面積のみを優先するため,各設定でF が最も良い結果となっているが,他のコスト関数でも同様 の面積効果が得られている.モデルF+WAでは3次元化 することにより面積は2層で51%,3層で34%まで縮小さ れており,層数に応じた縮小効果が得られており,配線ア クティビティを考慮することによって面積効率が劣化する こととはなっていない.この値もXieら[5]の見積りにお ける50%,Hungら[13]の見積りにおける52.6%と同様の 結果が得られている.

## 6.3 取得された3次元フロアプラン

ここでは,得られたフロアプランを確認する.3次元モ ジュールマッパによるマイクロプロセッサの配置結果は, 我々が知る限りこの報告が初めてである.2層,TSVweight 100 µm の設定時に得られたフロアプランを図13に示す. 2層になってもホワイトスペースの少ないパッキングが得



図 13 2 層, F+WA, TSVweight  $100 \,\mu$ m Fig. 13 2 layer, F+WA, TSVweight  $100 \,\mu$ m.



図 14 2 層, F, TSVweight 100 µm Fig. 14 2 layer, F, TSVweight 100 µm.

られており,面積が効率良く使われることが分かる. バッ クエンド部分は fp と int に分かれ,2層に重なったコンパ クトな形成が得られている.

同様に,2層,TSVweight 100 µm 設定時の従来コスト 関数フロアプランについて,図14にコスト関数F,図15 にコスト関数F+WLの結果を示す.1層のとき同様,面 積のみを考慮した場合(図14)ではさらにホワイトスペー スの少ない配置が得られているが,フロントエンドおよび バックエンドは広い範囲に配置され,通信効率は悪くなっ ている.面積と配線長を考慮した場合(図15)では,バッ クエンドが集中していることが確認できるが,提案手法に よる図13の方が密集度は高い.1層時同様,フェッチロ



図 15 2 層, F+WL, TSVweight  $100 \,\mu\text{m}$ Fig. 15 2 layer, F+WL, TSVweight  $100 \,\mu\text{m}$ .



図 16 3 層, F+WA, TSVweight 100 µm Fig. 16 3 layer, F+WA, TSVweight 100 µm.

ジックがデータパスの近くに寄せられ、またL2キャッシュ のバンクの等距離配置が優先されていることが分かる.

図 16 は、3 層、TSVweight 100 µm としたときの提案 手法によるフロアプランである.3層の場合もホワイトス ペースは少なく、面積が効率良く使われている.z軸方向 を利用することにより狭い面積にすべてのデータパスが構 築され、配線が短縮されている.また、L2キャッシュのサ ブアレイは積み重ねられ、大容量のキャッシュを効率良く 実装できることが分かる.SAによるコスト関数の収束の 様子を図 17 に示す.開始時直後は振れ幅が大きく、イテ レーションの進展に従って最適コストを徐々に下げながら 振れ幅が収束していくSA の挙動となっている.

## 6.4 プロセッサ3次元化とアーキテクチャ

以上に述べた3次元フロアプランおよびコスト関数の結 果をもとに、プロセッサ3次元化によるアーキテクチャへ の影響について議論する.関連研究 [5], [11], [12] でも指摘 されているように、3次元化によりパッケージ内で利用で きる面積はほぼ層数に比例して増加する.また、隣接する モジュール数を増やすことができ、ルータビリティが向上 している.このことはコア数の増加や大容量キャッシュ、 メインメモリ積載に有利に働き、メニーコアアーキテク チャをより推進する.

一方,面積の使い方として大容量キャッシュは性能向上 への寄与が低いことが指摘されている [33].また,コア数 がメニーコアと呼ばれるオーダへ入ってくると,十分なス レッド並列性が存在する場合でも,従来のようにコア数に 比例した性能向上が得られなくなるという報告も行われ ている [34].キャッシュ容量,コア数のほかに3次元化が 寄与する要素としては,データパスの配線が効率化するこ とによるバックエンドのレイテンシ短縮,あるいはバック



図 17 コスト関数の収束の様子 (3 層, TSV weight 100 µm, F+WA)

Fig. 17 The Convergence of Cost Function (3 layer, F+WA, TSVweight  $100 \,\mu$ m).

エンド幅の向上があげられる.また面積の使い方として キャッシュではなくレジスタやリオーダバッファへ資源を 振り分ける設計が考えられる [35].

## 6.5 アーキテクチャによるフロアプラン見積りの変化

本手法の特徴の1つとして、プロセッサ・アーキテク チャによるフロアプランの変化を設計初期段階で見積もる ことができる点があげられる.ここでは、これまでの評価 に用いた図5のプロセッサにプリフェッチを導入した場合 の変化を観察する.簡単のため、プリフェッチャはLSUに 含まれ、このことによるLSUの面積増はないものとする. プリフェッチではキャッシュの転送頻度は増えるが、接続 のビット幅は変化しない.このため、転送頻度を考慮しな い従来のフロアプランナの場合、プリフェッチの有無にか かわらず同じフロアプランが出力される.

I1, D1, L2 キャッシュにそれぞれプリフェッチを適用 し, 図 6 と同様にシミュレータによりモジュール間配線の 重みを取得したものを図 18 に示す. プリフェッチアルゴ リズムは単純なシーケンシャルプリフェッチとし, 変化を 分かりやすくするために, 積極的な先読みを行った. 具体 的には I1, D1 キャッシュではミスアドレスの 16 ライン先 まで順次読み出しを行い, L2 キャッシュではミスアドレス の 64 ライン先までプリフェッチを行うものとした. 図 18 からは, プリフェッチの導入によって, キャッシュを含む エッジの重みが増加していることが分かる.

提案手法によって得られたフロアプランを1層(図 19), 2層(図 20),3層(図 21)についてそれぞれ示す.こ れらは TSVweight 100 um とした場合のフロアプランであ





図 19 プリフェッチ有り, 1 層, F+WA Fig. 19 With prefetch, 1 layer, F+WA.



図 20 プリフェッチ有り, 2層, F+WA, TSVweight  $100 \,\mu m$ Fig. 20 With prefetch, 2 layer, F+WA, TSVweight  $100 \,\mu m$ .



図 21 プリフェッチ有り、3層, F+WA, TSVweight 100 µm Fig. 21 With prefetch, 3 layer, F+WA, TSVweight 100 µm.

り, それぞれ図 7, 図 13, 図 16 に対応している.

これらの配置では、プリフェッチが適用されないときの フロアプランに比べると、キャッシュの配置が優先されて いる様子が分かる.たとえば、1層や2層のフロアプラン では、L2キャッシュの各バンクが実行コアから等距離にな るように配置され、極端に遠いバンクが存在しない.2層 のフロアプランでは特に顕著な最適化が行われている.ま た3層のフロアプランにおいても、L2の各バンクに接続さ れる L2decoder が中央の層に配置されるように変化してお り、よりキャッシュが優先された配置となっている.これ らのフロアプランの変化はプリフェッチによるキャッシュ トランザクション増に対応した変化となっており、シミュ レータによる重み取得により、適したフロアプランが得ら れることが分かる.

## 7. まとめ

本論文では 3D プロセッサのためのモジュールマッパを 提案し、プロセッサ3次元化のアーキテクチャへの影響を 議論した.半導体3次元実装技術の進展は著しいが、プロ セッサモジュール配置の3次元化はまだ研究は多くない. 既存の3次元モジュールマッパでは配線のコスト関数と して総配線長が用いられているが、電力解析の研究では、 チップ電力消費の主要部分を占めるロングワイヤ電力の 削減のために、配線のスイッチングアクティビティを考慮 することが有効とされている.本論文では、プロセッサシ ミュレータと連携して、モジュール間の配線頻度を推定し、 配線長への重みとするモジュールマッパを開発した.

Alpha21264 アーキテクチャと SPEC CPU2006 実行時 のワークロードを入力とし,提案システムによる配置最適 化を行った.得られた3層,TSVweight 30 µm フロアプラ ンは,2次元構成に対して面積を34%,ロングワイヤ電力 を57%にまで削減した.また,提案コスト関数は従来の最 適化に対して10%以上のロングワイヤ電力を削減し,従来 の3次元プロセッサの見積りよりも最適化を進めることが 分かった.また本論文では,自動配置によって得られる3 次元プロセッサフロアプランを,我々の知る限り初めて明 らかにした.提案モジュールマッパはアーキテクチャ設計 の早い段階でのフロアプラン見積りが可能であり,新アー キテクチャの見積りに有用である.

今後の課題として、マルチコアプロセッサの最適配置や 温度シミュレーションの反映、遅延スラックの最適化があ げられる.提案システムはシミュレータと連携しているた め、既存のシミュレータと組み合わせることで実装の拡張 が可能である.

謝辞 本研究の一部は,平成24年度服部報公会工学研 究奨励援助金による.

#### 参考文献

 Hsieh, A. and Hwang, T.: TSV Redundancy: Architecture and Design Issues in 3-D IC, Trans. on Very Large Scale Integration Systems, Vol.20, No.4, pp.711– 722 (2012).

- [2] Kim, J., Pak, J., Cho, J., Song, E., Cho, J., Kim, H., Song, T., Lee, J., Lee, H., Park, K., Yang, S., Suh, M., Byun, K. and Kim, J.: High-Frequency Scalable Electrical Model and Analysis of a Through Silicon Via (TSV), *Trans. on Components, Packaging, and Manufacturing Technology*, Vol.1, No.2, pp.181–195 (2011).
- [3] Pak, J., Kim, J., Cho, J., Kim, K., Song, T., Ahn, S., Lee, J., Lee, H., Park, K. and Kim, J.: PDN Impedance Modeling and Analysis of 3D TSV IC by Using Proposed P/G TSV Array Model Based on Separated P/G TSV and Chip-PDN Models, *Trans. on Components*, *Packaging, and Manufacturing Technology*, Vol.1, No.2, pp.208–219 (2011).
- [4] Lewis, D. and Lee, H.-H.: A scanisland based design enabling prebond testability in die-stacked microprocessors, *Test Conference*, 2007, *IEEE International*, pp.1– 8 (2007).
- [5] Xie, Y., Loh, G., Black, B. and Bernstein, K.: Design space exploration for 3D architectures, ACM Journal on Emerging Technologies in Computing Systems, Vol.2, No.2, pp.65–103 (2006).
- [6] Li, C., Mak, W. and Wang, T.: Fast Fixed-Outline 3-D IC Floorplanning With TSV Co-Placement, *IEEE Trans. Very Large Scale Integration Systems*, pp.1–10 (2012).
- [7] Batude, P., Vinet, M., Pouydebasque, A., Royer, C.L., Previtali, B., Tabone, C., Hartmann, J., Sanchez, L., Baud, L., Carron, V., Toffoli, A., Allain, F., Mazzocchi, V., Lafond, D., Delenibus, S. and Faynot, O.: 3D monolithic integration, *Int. Symp. on Circuits and Systems*, pp.2233–2236 (2011).
- [8] Puttaswamy, K. and Loh, G.: Implementing Register Files for High-Performance Microprocessors in a Die-Stacked (3D) Technology, *IEEE Computer Society Annual Symposium on Emerging VLSI Technologies and Architectures*, pp.384–389 (2006).
- Puttaswamy, K. and Loh, G.: 3D-Integrated SRAM Components for High-Performance Microprocessors, *IEEE Trans. Computers*, Vol.58, No.10, pp.1369–1381 (2009).
- [10] 上野伸也,橋口慎哉,福本尚人,井上弘士,村上和彰:3 次元積層 LSI 向け SRAM/DRAM ハイブリッドキャッ シュ・アーキテクチャ,情報処理学会論文誌コンピュー ティングシステム (ACS), Vol.5, No.1, pp.41–52 (2012).
- [11] Black, B., Nelson, D., Webb, C. and Samra, N.: 3D Processing Technology and Its Impact on iA32 Microprocessors, *Int. Conf. on Computer Design*, pp.316–318 (2004).
- [12] Black, B., Annavaram, M., Brekelbaum, N., DeVale, J., Jiang, L., Loh, G.H., McCauley, D., Morrow, P., Nelson, D., Pantuso, D., Reed, P., Rupley, J., Shankar, S., Shen, J. and Webb, C.: Die Stacking (3D) Microarchitecture, *Int. Symp. on Microarchitecture*, pp.469–479 (2006).
- [13] Hung, W., Link, G., Xie, Y., Vijaykrishnan, N. and Irwin, M.: Interconnect and thermal-aware floorplanning for 3D microprocessors, *Int. Symp. on Quality Electronic Design*, pp.104–109 (2006).
- [14] Ekpanyapong, M., Minz, J., Watewai, T., Lee, H. and Lim, S.: Profile-guided microarchitectural floorplanning for deep submicron processor design, *Design Automation Conference*, pp.634–639 (2004).
- [15] Liu, Z., Bian, J., Zhou, Q., Yang, L. and Wang, Y.: Interconnect Power Optimization Based on the Integration of High-level Synthesis and Floorplanning, *Int. Conf. on*

Communications, Circuits and Systems, pp.2286–2290 (2006).

- [16] Li, F., Nicopoulos, C., Richardson, T., Xie, Y., Vijaykrishnan, N. and Kandemir, M.: Design and Management of 3D Chip Multiprocessors using Network-in-Memory, *Int. Symp. on Computer Architecture*, pp.130– 141 (2006).
- [17] Murata, H., Fujiyoshi, K., Nakatake, S. and Kajitani, Y.: VLSI module placement based on rectangle-packing by the sequence-pair, *Trans. on Computer-Aided De*sign of Integrated Circuits and Systems, Vol.15, No.12, pp.1518–1524 (1996).
- [18] Bazargan, K., Kastner, R. and Sarrafzadeh, M.: 3D Floorplanning: Simulated Annealing and Greedy Placement Methods for Reconfigurable Computing Systems, *Int. Workshop on Rapid System Prototyping*, pp.38–43 (1999).
- [19] Yamazaki, H., Sakanushi, K., Nakatake, S. and Kajitani, Y.: The 3D-packing by Meta Data Structure and Packing Heuristics, *IEICE Trans. Fundamentals*, pp.639–345 (2000).
- [20] Shiu, P., Ravichandran, R., Easwar, S. and Lim, S.: Multi-layer Floorplanning for Reliable System-on-Package, *Int. Conf. on Circuits and Systems*, Vol.5, pp.69–72 (2004).
- [21] Cong, J., Wei, J. and Zhang, Y.: A thermal-driven floorplanning algorithm for 3d ics, *Int. Conf. on Computer-Aided Design*, pp.306–313 (2004).
- [22] Nain, R. and Chrzanowska-Jeske, M.: Fast Placement-Aware 3-D Floorplanning Using Vertical Constraints on Sequence Pairs, *IEEE Trans. Very Large Scale Integration Systems*, Vol.19, No.9, pp.1667–1680 (2011).
- [23] Yeh, C., Chen, H., Huang, L., Wei, W., Lu, C. and Liu, C.: Using power gating techniques in area-array SoC floorplan design, *Int. SOC Conference*, pp.233–236 (2007).
- [24] Liu, C., Ganusov, I., Burtscher, M. and Tiwari, S.: Bridging the processor-memory performance gap with 3D IC technology, *Design Test of Computers, IEEE*, Vol.22, No.6, pp.556–564 (2005).
- [25] Predictive Technology Model (PTM), available from (http://www.eas.asu.deu/~ptm/).
- [26] Sylvester, D. and Keutzer, K.: Getting to the bottom of deep submicron, *Int. Conf. on Computer-Aided Design*, pp.203–211 (1998).
- [27] Zhang, L., Chen, H., Yao, B., Hamilton, K. and Cheng, C.: Repeated On-Chip Interconnect Analysis and Evaluation of Delay, Power, and Bandwidth Metrics under Different Design Goals, pp.251–256 (2007).
- [28] Qiu, X., Ma, Y., He, X. and Hong, X.: IPOSA: A Novel Slack Distribution Algorithm for Interconnect Power Optimization, *Int. Symp. on Quality Electronic Design*, pp.873–876 (2008).
- [29] Chi, J. and Chen, M.: An Effective Soft Module Floorplanning Algorithm Based on Sequence Pair, *Int. Conf.* on ASIC/SOC, pp.54–58 (2002).
- [30] Lin, J. and Hung, Z.: UFO: Unified Convex Optimization Algorithms for Fixed-Outline Floorplanning Considering Pre-Placed Modules, *Trans. on Computer-Aided Design of Integrated Circuits and Systems*, Vol.30, No.7, pp.1034–1044 (2011).
- [31] Kessler, R.: The Alpha 21264 Microprocessor, *IEEE Micro*, Vol.19, No.2, pp.24–36 (1999).
- [32] 塩谷亮太,五島正裕,坂井修一:プロセッサ・シミュレー タ「鬼斬弐」の設計と実装,先進的計算基盤システムシン

ポジウム 2009 ポスター (2009).

- [33] Lotfi-Kamran, P., Grot, B., Ferdman, M., Volos, S., Kocberber, O., Picorel, J., Adileh, A., Jevdjic, D., Idgunji, S., Ozer, E. and Falsafi, B.: Scale-Out Processors, Int. Symp. on Computer Architecture (2012).
- [34] Bhadauria, M., Weaver, V. and McKee, S.: Understanding PARSEC Performance on Contemporary CMPs, *Int. Symp. on Workload Characterization*, pp.98–107 (2009).
- [35] Irie, H., Fujiwara, D., Majima, K. and Yoshinaga, T.: STRAIGHT: Realizing a Lightweight Large Instruction Window by using Eventually Consistent Distributed Registers, Int. Workshop on Challenges on Massively Parallel Processors, pp.336–342 (2012).



# 入江 英嗣 (正会員)

1999年東京大学工学部電子情報工学 科卒業.2004年同大学院情報理工学 系研究科電子情報学専攻博士課程修 了.博士(情報理工学).2004年科学 技術振興機構CREST研究員,2008年 東京大学情報理工学系研究科助教を経

て,2010年より電気通信大学大学院情報システム学研究科 准教授.計算機システムおよびその応用の研究に従事.特 に汎用プロセッサアーキテクチャ,ディペンダブルシステ ム,HCIの研究を進めている.情報処理学会山下記念研究 賞(2010),同学会論文賞(2010).電子情報通信学会コン ピュータシステム研究会幹事(2011~).電子情報通信学 会,IEEE,ACM 各会員.



## 放地 宏佳

2009 年富山商船高等専門学校情報工 学科卒業.2011 年豊橋技術科学大学 知識情報工学課程卒業.2013 年電気 通信大学大学院情報システム学研究科 修士課程修了.現在,株式会社ディー・ エヌ・エーにて開発者支援に従事.



ラム受講生.



## 稲場 朋大

2013年電気通信大学電気通信学部電 子工学科卒業.同年より電気通信大学 大学院情報システム学研究科情報ネッ トワークシステム学専攻修士課程にて 3次元積層プロセッサの研究に従事. 2013年度スーパー連携大学院プログ



2011 年電気通信大学電気通信学部情報通信工学科卒業.2013 年同大学院 情報システム学研究科情報ネットワークシステム学専攻修士課程修了.プロ セッサアーキテクチャの研究に従事.



## 藤原 大輔

2012 年電気通信大学電気通信学部情報通信工学科卒業.現在,同大学院情報システム学研究科情報ネットワークシステム学専攻修士課程在学中.プロセッサアーキテクチャの研究に従事.



## 吉見 真聡 (正会員)

2004 年慶應義塾大学理工学部情報工 学科卒業.2009 年同大学院理工学研 究科開放環境科学専攻後期博士課程修 了.博士(工学).2006 年度より日本 学術振興会特別研究員(DC1).2009 年より同志社大学理工学部助教を経

て,現在,電気通信大学大学院情報システム学研究科助教. リコンフィギャラブルシステム,並列処理の研究に従事. 人工知能学会会員.



吉永 努 (正会員)

1986年宇都宮大学工学部情報工学科 卒業.1988年同大学院修士課程修了. 同年より宇都宮大学工学部助手.1997 年から翌年にかけて電子技術総合研究 所客員研究員.2000年電気通信大学 大学院情報システム学研究科助教授.

現在, 教授. 博士 (工学). 計算機アーキテクチャ, 並列分 散処理等に興味を持つ. ACM, IEEE, 電子情報通信学会 各会員.