3K-04

# DRAM リソースに着目した メニーコアソフトプロセッサの性能チューニング

# 森 悠 <sup>†</sup> 吉瀬 謙二 <sup>†</sup> <sup>†</sup> 東京工業大学 大学院情報理工学研究科

### 1 はじめに

プロセッサに搭載されるコア数は日々増加しており,数 十から数千のコアを搭載するメニーコアプロセッサが主 流になりつつある、今後のメニーコアプロセッサの研究 に対応していくため,FPGA上で実現されるソフトプロ セッサとしてメニーコアソフトプロセッサを設計した<sup>1)</sup>. 設計したプロセッサは大規模 FPGAを搭載する FPGA ボードをターゲットとしており,ボード上に搭載される DRAM リソースを利用した構成となっている、本稿では, この DRAM リソースに着目し DRAM 性能を引き出すよ うなチューニングをプロセッサに与える.

2 メニーコアソフトプロセッサ

#### 2.1 アーキテクチャ

メニーコアプロセッサの研究基盤とするべく,大規模 FPGA 上で動作するフレキシブルなメニーコアプロセッ サを設計した.設計したメニーコアプロセッサはハード ウェア記述言語(HDL)による2,400行程度のコードで記 述され,ユーザは要求性能や研究要素,実装するターゲッ トデバイスに応じてプロセッサ数やキャッシュ容量などの 構成を変更することが可能である.

設計したメニーコアプロセッサは内部接続として 2次 元メッシュ状のネットワークで構成される Network on Chip<sup>2)3)</sup>を採用した.プロセッサやキャッシュとしての機 能を持つノードはメッシュネットワークで相互に接続され,ノード同士はネットワークを介したパケット交換に よりノード間通信を行う.

設計したメニーコアプロセッサは数種のノードによっ て構成され,32bitのMIPSアーキテクチャを採用するパ イプラインプロセッサ<sup>4)5)</sup>とL1キャッシュから成るプ ロセッサノード,L2キャッシュとして機能するキャッシュ ノード,プロセッサのスケジューリングを行うためのスケ ジューラノード,メインメモリへのアクセス権を持つメ モリノード,ノード間通信を仲介するフロートノードが 存在する.

図1に36ノード構成のメニーコアプロセッサのアー キテクチャを示す.P,C,S,M,Fおよび数字が付された円 はノードを表し,それぞれプロセッサノード(P),キャッ シュノード(C),スケジューラノード(S),メモリノード (M),フロートノード(F)を意味する.図1の実線は二 次元メッシュネットワークにおけるノード間の物理的配 線を,色掛けされた領域はプロセッサノードとキャッシュ ノードが構成するペアを表している.キャッシュノードは プロセッサノードとペアを組むことで,プロセッサノー ドのプライベートキャッシュとして機能する.

<sup>†</sup>Graduate School of Information Science and Engineering, Tokyo Institute of Technology



図 1: 36 ノード構成のメニーコアプロセッサ

図1ではプロセッサノードとキャッシュノードが交互に 配置されており,隣接するプロセッサノードとキャッシュ ノードがペアを構成している.たとえば,図1中のノー ド番号18と19がペアに相当する.

メモリ・キャッシュメモリは階層化されており,メモリ システムはプロセッサごとに独立した分散メモリの形態 を取る.すなわち,プロセッサとキャッシュの組は自身の メモリ領域へのアクセス要求をメモリノードに対して行 い,メモリノードはその要求を逐次処理している.

## 2.2 実装と制約

大規模 FPGA である Virtex-7 XC7VX485T を搭載す る VC707 Evaluation Board を用い,設計したメニーコ アプロセッサを FPGA に実装した.この FPGA ボード は RAM リソースとして, FPGA 内部に BRAM(Block RAM) と呼ばれる On-Chip RAM と,ボード上に取り付 けられた Off-Chip DRAM モジュールの両方を有する.

これまでの実装では, On-Chip RAM の移植性の高さ とアクセスの手軽さから,メインメモリリソースとして BRAM を利用してきた.しかし,メモリ容量が大きく制 限される BRAM だけでは複雑で大規模なアプリケーショ ンをメニーコアプロセッサ上で動作させたいという要求 を満たすことができないため,VC707 をターゲットとし て Off-Chip DRAM を利用した実装を行った.

FPGA およびボードの開発元である Xilinx の提供する DRAM 制御のための IP コアを利用し,メモリノードの アクセス対象を BRAM から DRAM に置き換えたところ, メモリアクセスが頻発するアプリケーションにおいて実行 サイクル数の増加および並列処理性能の低下がみられた.

図2に並列行列積計算において,処理コア数を変化させたときの相対性能を示す.相対性能は実行に要したサイクル数に基いて算出され,系列はBRAMを利用した版とDRAMを利用した版,および相対性能が処理台数に比例する理想値である.メモリリソースをBRAMからDRAMに変更したところ,16コア実行時の相対性能が13倍から3倍へと低下している.これはメインメモリへのアクセスレイテンシが増加し,メモリノードの処理がボトルネックとなっていることに起因する.本稿ではDRAMリソースの性質に着目した性能チューニングを行い,メニーコアプロセッサの性能向上を目指す.

Performance tuning of a manycore soft processor focusing on DRAM resources

Haruka MORI<sup>†</sup>, and Kenji KISE<sup>†</sup>



図 2: メモリリソース変更に伴う相対性能の変化

表 1: 1GB バーストアクセス時の DRAM 帯域

|                 | 変更前                        | 変更後                         |
|-----------------|----------------------------|-----------------------------|
| write cycle     | 20,132,690                 | 10,066,635                  |
| read cycle      | 18,705,013                 | $9,\!352,\!508$             |
| write bandwidth | $5.0 \; [\mathrm{GB/sec}]$ | $9.9 \; [\mathrm{GB/sec}]$  |
| read bandwidth  | $5.3 \; [\mathrm{GB/sec}]$ | $10.6 \; [\mathrm{GB/sec}]$ |

## 3 チューニング手法

#### 3.1 DRAM の高速動作

DRAM のアクセスレイテンシを短縮する手法の一つと して,DRAM の動作周波数の引き上げが挙げられる.提 供されている IP コアは DRAM コントローラと DRAM のクロック比率を1:4 としており,メニーコアプロセッサ および DRAM コントローラの動作周波数を 200MHz と することで,DRAM を最大動作周波数である 800MHz で 駆動することができる.しかし,現在の版のメニーコア プロセッサの安定動作周波数は 100MHz 程度であるため, DRAM が持つ本来の帯域性能を十分に活かすことができ ていない.

この問題を解消するため, DRAM コントローラにバッ ファリング機能を付し,メニーコアプロセッサと DRAM コントローラの動作クロックを分離した.メニーコアプロ セッサと DRAM コントローラ, DRAM のクロック比率 を1:2:8 とすることで,メニーコアプロセッサと DRAM をそれぞれの最大動作周波数で駆動させる.

表1に1GBのデータをDRAMに対しバースト書き 込み/読み込みしたとき,動作に要したサイクル数と平均 スループットを示す.検証に用いた回路の動作周波数は 100MHzであり,変更前と変更後のDRAMの動作周波数 はそれぞれ400MHzと800MHzである.変更により検証 に要したサイクル数はほぼ半分となり,約2倍のスルー プットが得られた.また,DRAMが毎サイクルのアクセ スが可能であると仮定すると,スループットの最大理論 値は12.8GB/secであり,検証におけるアクセスパターン では理論値に対し8割程度のスループットを達成するこ とができた.

#### 3.2 ブロックサイズの調整

DRAM のアクセスレイテンシを短縮するもう一つの手 法として, DRAM 内部の Row buffer を活用する方法が挙 げられる.DRAM が自身のメモリセルアレイにアクセス するとき,まずメモリセルへの Row アクセスにより Row がまとめて Row buffer に格納される.その後, Column アクセスにより Row buffer の中から所望の Column が選 択される.次の DRAM アクセス時,もし前のアクセスと Row が同じであれば Row buffer hit となり, Row アクセ ス分のレイテンシを削減することができる.Row buffer



図 3: バーストアクセス時のスループット に格納されているデータには空間的局所性が存在するた め,バーストアクセスすることが一般に望ましい.

図 3 にバースト長を変えて計 4GB のランダムアクセス を行ったときのスループットを示す.block は DRAM コ ントローラにアクセスする最小の粒度であり,1block あ たり 64byte である.128block(8KB) 単位で書き込みのス ループットがピークに,256block(16KB) 以上の単位で読 み込みスループットの上昇が概ね飽和することがわかる. 現在の仕様ではキャッシュのブロックサイズが 64byte 以下であるためバーストアクセスは行っておらず,スルー プットは1block ごとのアクセスに近い値となっている. この手法を適用するためにキャッシュのブロックサイズを より大きくし,積極的にバーストアクセスを行うことが 求められる.

#### 4 まとめと今後の課題

設計したメニーコアプロセッサがより大きなメモリ領域 を扱えるよう,Off-Chip DRAMを用いた実装を行った. また,DRAMの構造や特性に着目し,設計したメニーコ アプロセッサがDRAM性能を引き出せるようなチューニ ング方法を考案した.考案した手法を設計したメニーコ アプロセッサに適用し,並列アプリケーションによる詳 細な評価を行うことが今後の課題である.

#### 謝辞

本研究は MEXT 科研費 25330056 の助成を受けたもの です.

#### 参考文献

- Haruka Mori and Kenji Kise. "Design and Performance Evaluation of a Manycore Processor for Large FPGA", 2014 IEEE 8th International Symposium on Embedded Multicore/Manycore SoCs, 207-214.
- 2) Shashi Kumar, Axel Jantsch, Juha-Pekka Soininen, Martti Forsell, Mikael Millberg, Johny berg, Kari Tiensyrj, and Ahmed Hemani. "A network on chip architecture and design methodology", ISVLSI '02 Proceedings of the IEEE Computer Society Annual Symposium on VLSI, 105–112.
- Benini, L and Bertozzi, D. "Network-on-chip architectures and design methods", IEE Proceedings -Computers and Digital Techniques, 2005, 261–272.
- 4) David A. Patterson and John L. Hennessy. "Computer Organization and Design, Fourth Edition: The Hardware/Software Interface", 2011, Morgan Kaufmann.
- 5) John L. Hennessy and David A. Patterson. "Computer Architecture, Fifth Edition: A Quantitative Approach", 2011, Morgan Kaufmann.