## 5H-05

# 可変構造パイプラインを持つ粗粒度再構成アクセラレータ CCSOTB2

小島 拓也 † 安藤 尚樹 † 天野 英晴 † †慶應義塾大学

## 1 はじめに

Cool Mega Array (CMA)[1] は低消費電力で高い演 算処理能力が求められる IoT デバイスやウェアラブル コンピューティングへの応用を目指した粗粒度再構成 可能アーキテクチャである。CMA は演算処理部である  $PE(Processing Element) \mathcal{P} \mathcal{V} \mathcal{I}, \mathcal{F} \mathcal{I} \mathcal{I}, \mathcal{F} \mathcal{O} \mathcal{I}$ つのデータ転送を制御するマイクロコントローラから成 る。過去の CMA 試作チップ CCSOTB (CMA CUBE SOTB)[2] では演算処理部を大規模な組み合わせ回路 のみで構成することによりダイナミック電力の削減を 図り、高い電力効率を示した。一方で、[3] では従来の CMA アーキテクチャにおけるクリティカルパス長大と グリッチによる消費電力の増加を指摘し、可変パイプラ イン化された新たなアーキテクチャVPCMA (Variable Pipelined Cool Mega Array) を提案した。本稿では VPCMA を実装した最新の試作チップ CCSOTB2 の実 装と実チップ評価を報告する。

## 2 アーキテクチャ

VPCMA アーキテクチャのブロック図を図1に示す。 8行×12列のPEアレイは演算処理部である。各PEは 24bit 幅の ALU と入力データ用のセレクタ、SE(Switch Element) から構成されており、レジスタファイルを持 たない。そのため、各 PE へのクロック分配は不要で ありダイナミック電力削減を図っている。各 PE の動 作や、PE間の相互接続はコンフィグレーションデータ によって定める。PE アレイの行と行の間には再構成可 能なパイプラインレジスタが配置されている。各パイ プラインレジスタを個別にアクティブにすることが可 能でユーザーは要求性能やアプリケーションに応じて パイプライン構造を変化させることができる。パイプ ラインレジスタが使用されない時はクロックゲーティ ングによって電力消費を抑えている。パイプライン構 造決定のためにダイナミック電力のモデル式および電 力最適化アルゴリズムが提案されている [4]。データメ モリはバンク化されており、データマニピュレータは データメモリと PE アレイとの間で柔軟なデータ転送 を提供する。マイクロコントローラはデータ転送の制 御を行う小規模な RISC プロセッサである。

### 3 実装

VPCMA アーキテクチャを実装した試作チップ CC-SOTB2 の実装環境を表1に、実チップ写真を図2に 示す。

## 3.1 SOTB プロセス

実装には前試作チップ CCSOTB と同様に SOTB(Silicon on thin buried oxide) プロセス [5] を用いた。SOTBのトランジスタはボディバイアス電 圧を広い範囲で制御することができ、リーク電力と遅 延時間のトレードオフを調節することが可能である。



図 1: VPCMA アーキテクチャ



図 2: CCSOTB2 実チップ写真

VPCMA では PE 行毎に異なるボディバイアスドメイ ンへ分割することで、パイプラインステージ間の遅延 ばらつきを軽減しリーク電力の最適化が検討されてい る [6]。しかしながら、CCSOTB2 では使用可能な電 源ピン数の制約から1 行目から5 行目までを同一のド メインにしている。

## 3.2 TCI

CCSOTB2 は図 2 で示したように無線 3 次元積層 のためのチップ間インターフェース TCI(ThruChip Interface)[7] を備えている。したがって、現在提案中 であるビルディングブロック型計算システムのプロト タイプ 2 号機 Cube-2 へ応用することが可能となって いる。

## 4 実チップ評価

過去の試作チップ CCSOTB と今回試作した CC-SOTB2 の実チップ測定に基づく評価結果を示す。電

| 表 1: 実装環境 |                                  |  |
|-----------|----------------------------------|--|
| 設計        | Verilog HDL                      |  |
| シミュレータ    | Cadence NC-Verilog               |  |
| プロセス      | Renesas SOTB 65 nm / LPT-8       |  |
| 論理合成      | Synopsys Design Compiler         |  |
|           | 2016.03-SP4                      |  |
| 配置配線      | Synopsys IC Compiler             |  |
|           | 2016.03-SP4                      |  |
| チップサイズ    | $6 \text{mm} \times 3 \text{mm}$ |  |

#### 表 2: 評価用アプリケーション

| アプリケーション | 内容                         |
|----------|----------------------------|
| gray     | 24 bit (RGB) gray scale    |
| sepia    | 8 bit sepia filter         |
| sf       | 24 bit (RGB) sepia filter  |
| af       | 24 bit (RGB) alpha blender |

源電圧 VDD は 0.55 V とした。また、評価には表 2 に 示す 4 つのアプリケーションを用いた。ただし、CC-SOTB は実チップの不具合により sf を実行することが できないため、Synopsys PrimeTime によるシミュレー ション結果を利用している。

#### 4.1 性能

図 3 に CCSOTB と CCSOTB2 の各アプリケーシ ョンで達成した最高性能を示す。ただし、性能の単位 は MOPS(Million Operations Per Sec)を用いた。CC-SOTB では PE アレイが性能のボトルネックとなって いタノに対し、CCSOTB2 では PE アレイのパイプラ イン化により性能ボトルネックがマイクロコントロー ラとなり、最大動作周波数は 35MHz となった。これに より、全てのアプリケーションで性能向上を達成する ことができ、全アプリケーション (ただし, sf を除く) で平均して 66%性能が向上した。

### 4.2 電力効率

各アプリケーションで CCSOTB と CCSOTB2 にお ける電力効率を図4に示す。電力効率は1mW あたり の性能 MOPS/mW を用いた。CCSOTB の電力効率は 最高性能時の電力で計算されている。CCSOTB2の電 力効率は CCSOTB と同じ性能で動作させた時の電力 と自身の最高性能を達成するときの電力の2種類で計 算している。また、CCSOTB2 では [4] のアルゴリズム により決定したパイプライン構造を適用したときの電 力で計算している。ただし、今回はボディバイアス制御 を行なっていない。CCSOTB において最高電力効率を 達成した afでは同等性能時 CCSOTB2 の電力効率が約 10%低下した。しかし、それ以外のアプリケーション では同等性能時において CCSOTB よりも優れた電力 効率を示した。特に、sepiaで最大 87%の電力効率改善 が見られ, 全アプリケーション (ただし, sfを除く) で平 均して約17%向上した。最高性能時 CCSOTB2 の電力 効率は同等性能時と比べて変化が小さく、CCSOTB2 は前試作チップ CCSOTB と比べて電力効率を保ちつ つ性能を向上できたと言える。

### 5 結論

CMA アーキテクチャを可変パイプライン化した新 しいアーキテクチャVPCMA を実装したチップ CC-SOTB2 を開発し、評価を行なった。パイプライン化



により性能のボトルネックを解消し、過去の試作チッ プ CCSOTB と比べてすべてのアプリケーションで性 能を向上させることができた。また、パイプライン構 造を可変にすることでアプリケーションや要求性能に 応じて適切なパイプライン構造を適用することができ るようになった。これにより性能を向上させつつ、高 い電力効率を得られた。

### 参考文献

- N. Ozaki, et al., "Cool Mega-Arrays: Ultralow-Power Reconfigurable Accelerator Chips," IEEE Micro, vol.31, no.6, pp.6–18, Nov. 2011.
- [2] 増山滉一朗他, "超低電力再構成可能アクセラレータ CC-SOTB の実装と評価 (コンピュータシステム)-(若手研究 会),"電子情報通信学会技術研究報告, vol.115, no.374, pp.99–103, 2015.
- [3] N. Ando, et al., "Variable Pipeline Structure for Coarse Grained Reconfigurable Array CMA," 2016 International Conference On Field-Programable Technology, pp.231–238, 2016.
- [4] T. Kojima, et al., "Glitch-aware Variable Pipeline Optimization for CGRAs," 2017 International Conference on Reconfigurable Computing and FPGAs (ReCon-Fig), pp.1–6, IEEE, 2017.
- [5] Y. Morita, et al., "Smallest Vth variability achieved by intrinsic silicon on thin BOX (SOTB) CMOS with single metal gate," 2008 Symposium on VLSI Technology, pp.166–167, June 2008.
- [6] T. Kojima, et al., "Body bias optimization for variable pipelined CGRA," 2017 27th International Conference on Field Programmable Logic and Applications (FPL), pp.1–4, IEEE, 2017.
- [7] T. Yasuhiro, et al., "3-D NoC with Inductive-Coupling Links for Building-Block SiPs," IEEE Transactions on Computers (TC), vol.63, no.3, pp.748–763, March 2014.