## 温度制約を考慮した三次元積層 マルチコア・プロセッサの性能評価

花田高彬 井上弘士 村上和彰

## 1. はじめに

マイクロプロセッサの性能向上を実現する1手段で ある3次元積層技術を活用した3次元積層マルチコ ア・プロセッサが注目されている.3次元積層マルチ コアは,既存のプロセッサ・ダイを積層し,層間を多 数の貫通ビア(TSV:Through Silicon Via)で接続さ れた構造をとる.この構造より,3次元積層マルチコ アは同コア数の2次元実装マルチコアと比較し,パッ ケージ面積の抑制とダイ歩留まりの向上を狙える.し かしながら,3次元積層LSIでは,積層ダイ数に伴い 放熱特性が低下するため温度上昇が深刻な問題となる. 一般に,LSIにおける過度の温度上昇は経年劣化の加 速やリーク消費電力の増大を招くため,温度制約を超 えるような場合には動作周波数を低減する等の対策を 施す必要がある.その結果,場合によっては3次元積 層により性能が低下するといった事態も想定される.

本稿では,温度制約を考慮した3次元積層マルチコ アの性能評価を行う.コア数の増加による並列度向上 と温度制約に起因する動作周波数低下の間に存在する トレードオフを解析することで,今後の3次元積層マ ルチコアにおいて解決すべき課題を議論する.

2. 前提とする3次元積層マルチコアの構成

3次元積層マルチコアは,各層に2基のプロセッサ・ コア,ならびに,2MBの共有L2キャッシュを搭載す るものとする.コア・アーキテクチャはAlpha21364 を想定した.また,プロセッサは常にピーク電力を消 費するとし,最もプロセッサが高温となるケースを想 定した.なお,本評価では温度制約を満たすため,プ ロセッサの動作周波数を低下させるものとする.

想定する3次元積層マルチコアの構造を図1に示す. ダイ積層に関しては,メタル層とバルクシリコン層が 向かい合う Back-To-Face 接合であり,バルクシリコ



図 2 4 層 3 次元積層マルチコアの 2 通りの積層方法

ンは薄膜化されて積層されるため,積層ダイの厚みは 既存プロセッサ・ダイよりも薄いと想定する.また, 本評価においては,図2に示す2通りの積層方法を評 価対象とする.コアが垂直方向に隣接する積層方法で あるNon-Flipでは,局所的に高温となる部分(ホット スポット)が重なる可能性が高くなる.他方,偶数番 目のダイを水平方向に180度回転させた積層方法であ るFlipでは,コアよりも熱密度の低いL2キャッシュ がコアに垂直方向に隣接するため,熱分散が高まり, Non-Flipと比較して温度上昇の抑制が期待できる.

なお,ダイを2層以上積層した場合には,共有L2 キャッシュは複数の層にまたがって構成される.この 共有L2キャッシュはTSVによって構成される共有バ スを介して全てのコアに接続される.共通L2キャッ シュの容量は2MB ×積層数で決定されるものとする. また,共有L2キャッシュのアクセス時間は2次元実 装の場合と同等のアクセス時間を想定し,キャッシュ・ シミュレータ CACTI<sup>3)</sup>より求める.

## 3. 温度解析ならびに性能評価

3次元積層マルチコアの温度解析を行い,温度制約 下における最大動作周波数を求める.具体的には,プ ロセッサ熱解析ツールである HotSpot 5.0<sup>2)</sup>を用いて, 様々な動作周波数における3次元積層マルチコアの温

<sup>†</sup> 九州大学大学院 システム情報科学府

<sup>++</sup> 九州大学大学院 システム情報科学研究院

| <u>表1 3次元積層構造パラメータ</u> |                                                |  |
|------------------------|------------------------------------------------|--|
| プロセッサ・ダイ               | 33um厚, $28.1W/mdegC$                           |  |
| ボンディング層                | 2um厚, $60.24W/mdegC$                           |  |
| ヒートシンク                 | $5\times5\times2.5\mathrm{cm}$ , 240 $W/mdegC$ |  |
| ヒートスプレッダ               | $3\times3\times0.1 {\rm cm}$ , 400 $W/mdegC$   |  |
| 大気温度                   | 30.0 degC                                      |  |
| 温度制限                   | 88.0 degC                                      |  |

表 2 温度<u>制約下における評価対象プロセッサの最大</u>動作周波数 プロセッサ構成 ↓ 動作周波数 (MHz)

| ノロビノノ博成  |          |      |
|----------|----------|------|
|          | Non-Flip | Flip |
| 2 層 4 コア | 820      | 980  |
| 4 層 8 コア | 510      | 630  |
| 8層16コア   | 310      | 390  |

度解析を行い,プロセッサ内部のホットスポット部の 温度を抽出し,多項式近似により動作周波数と温度の 相関を求め,温度制約下における最大動作周波数を求 める.HotSpot 5.0 に与える3次元積層構造パラメー タを表1に示す.温度解析の結果より,最大動作周波 数は表2に示す値となった.なお,同条件下における 2次元実装デュアルコアの動作周波数は2000MHzで ある.この結果より,積層ダイ数増加に伴い動作周波 数を低く設定しなければならない事が示されている. また,熱分散を考慮した積層パタン Flip では熱分散 が進み,比較的高い動作周波数を設定できる事が結果 より示されている.

本性能評価では,性能指標として以下に示す MIPS(Mega Instructions Per Second) 値を用いた.

 $MIPS = IPC \times f_{MAX}$  (1) ここで, *IPC* はクロックサイクル当りの実行命令数,  $f_{MAX}$  は温度制約下における最大動作周波数である. プログラム実行時の *IPC* 値算出には, マルチコア・シ ミュレータ  $M5^{1)}$  を用いた.ベンチマーク・プログラ ムには SPLASH-2 より 3 種のプログラムを選択した.

式(1)に基づく性能評価結果を図3に示す.図3で は,MIPSとIPCを各プログラムにおいて2次元実 装デュアルコア(2コア2D)の性能で正規化してい る.図3中左の縦軸はMIPSに基づく性能向上率で あり,各プロセッサ・モデルにおける2本の棒グラフ (Non-Flip時とFlip時)に対応する.また,図3中右 の縦軸はIPC向上率であり,マーカで表している.

評価結果より,並列性の違いが3次元積層マルチ コアにおける性能に大きな影響を与える事が示されて いる.並列性の高いプログラム(例えば Barnes)で は,コア数増加に伴い IPC が向上し続けるため,温 度制約下においても積層ダイ数増加に伴い性能向上が 狙える.しかしながら,並列性の低いプログラム(例



図 3 温度制約下におけるプロセッサ性能 (MIPS ならびに IPC)

えば FFT) では, コア数の増加に伴う IPC 向上幅が 小さいために,動作周波数を低く設定する影響が強く 性能に現れ,積層ダイ数の増加による性能向上幅が小 さい.この結果より,動作周波数を低く設定するよう なナイーブな温度管理下では,3次元積層を利用した コア数増加による性能向上が望めない場合がある事が 示されている.

4. おわりに

本稿では,温度制約下における3次元積層マルチコ アの性能を評価した.結果,3次元積層マルチコアにお いては,ワークロードの並列性が性能に大きな影響を 与える事を示した.今後は,過渡温度解析を行い,並 列性の異なる様々なワークロードを実行した場合の3 次元積層マルチコアの温度のふるまいを明らかにする.

謝辞 日頃から御討論頂いております九州大学 安浦・村上・松永・井上研究室,ならびに,システム LSI研究センターの諸氏に感謝します.本研究は,一 部,独立行政法人新エネルギー・産業技術総合開発機 構(NEDO)若手グラント,科学研究費補助金(課題 番号:21680005),ならびに,パナソニック株式会社 との共同研究による.本研究は主に九州大学情報基盤 研究開発センターの研究用計算機システムを利用しま した.

## 参考文献

- N. L. Binkert, et al., "The M5 Simulator : Modeling Networked Systems," IEEE Micro, Vol. 26, No. 4, pp. 52-60, 2006.
- K. Skadron, et al., "Temperature-Aware Microarchitecture," ISCA, pp. 2-13, 2003.
- S. J. E. Wilton, et al., "CACTI: An enhanced cache access and cycle time model," IEEE JSSC, Vol. 31, No. 5, pp. 677-688, 2002.

(平成 00 年 0 月 0 日受付)(平成 00 年 0 月 0 日採録)