7K-03

MEC 向け ROS2-FPGA ノード自動生成ツールの並列処理性能評価

岡崎 英佑<sup>†</sup> 菅谷 みどり<sup>‡</sup> 大川 猛<sup>†</sup>
東海大学情報通信学部組込みソフトウェア工学科<sup>†</sup>
芝浦工業大学工学部情報工学科<sup>‡</sup>

### 1. はじめに

IoTや5G通信における計算基盤として注目の集 まる MEC (Multi-access Edge Computing)は、エ ッジから近い位置にサーバを配置することで通 信の最適化や超低遅延化などの役割が期待され ている[1]. これらを実現するために,並列処 理・負荷分散・低消費電力・再利用性が求めら れ, 高効率な FPGA 処理を ROS 2 (Robot Operating System 2)ノードして動作させること が望ましい. ROS 2は、通信方式の一つとして採 用されている publish/subscribe 通信により, ROS 2 ノード間で非同期が可能である.また, ROS 2は、容易に機能の追加や変更が可能で、再 利用性が高い. これまで我々は、PYNQ 上で動作 する ROS 2 ノードの自動生成ツール FOrEST (FPGA-Oriented Easy Synthesizer Tool)[2]を開 発してきた. FOrEST を用いることで, FPGA ロジ ックを ROS 2 システムに統合した ROS2-FPGA ノー ドを自動生成し、迅速に低電力かつ低遅延なア プリケーションを構築することが可能である. また、ROS2-FPGA ノードによる並列処理を可能と するため、複数 ROS2-FPGA ノードが生成可能なツ ール meta-FOrEST を提案した[4]. しかし、複数 の ROS2-FPGA ノードが動作する際の性能や課題が 明らかとなっていない.

本研究の目的は、複数 ROS2-FPGA ノードの遅延時間や消費電力を評価し、複数 ROS2-FPGA ノードの課題を明らかとすることである.

2. 複数 ROS2-FPGA ノード

図 1 は, meta-FOrEST[4]が生成可能な複数 ROS2-FPGA ノードの構成である. Talker/Listener ノードは, ROS2-FPGA ノードの 入出力としての役割を担う.各ROS2-FPGA ノード は, ARM プロセッサ上で動作する FPGA ノードと PYNQ ドライバ, FPGA 上で動作する FPGA ロジック から構成される.FPGA ノードは, FPGA ロジック のドライバである PYNQ ドライバを用いて, Talker/Listener ノードと FPGA ロジック間のイン ターフェースとして機能する.

Parallel Processing Performance Evaluation of ROS2-FPGA Nodes Automatic Generation Tool for MEC †Eisuke Okazaki, Takeshi Ohkawa, Tokai University

Midori Sugaya, Shibaura Institute of Technology



図1 複数 ROS2-FPGA ノードの構成

# 3. 評価方法

複数 ROS2-FPGA ノードを運用する際に,ボトル ネックとなる処理を調査するため,消費電力や ROS2-FPGA ノード遅延時間を計測した.各 ROS 2 ノードは独立して動作し,計測も独立して行っ た.評価環境として, FPGA ボードに M-KUBOS[5] を用いた. M-KUBOS は CPU に ARM Cortex-A53(4 コ ア), FPGA に Zynq Ultrascale+ MPSoC (xczu19egffvc1760-2-i)が搭載されている.OS は PYNQ v2.5.1 を用いた.

評価には、1024 点 FFT 回路の IP コアを複数含 む ROS2-FPGA ノードを用いた.FFT 回路は、 Xilinx FFT IP コア[6]を C++デザインから呼び出 して一体として高位合成可能なライブラリ[7]を 用いた.ROS2-FPGA ノードの入出力を行う Talker/Listener ノードは1000BASE-Tで繋がれた デスクトップ PC 上で実行され、全体の遅延時間 をメッセージ送信 (Talker)から受信 (Listener) までの時間とした.なお、Talker ノードは、2秒 毎に 1024 個の要素を含む浮動小数点(float)配列 を Publish する.

### 4. 評価結果

表1は、FFT 回路や DMA 回路などを含む全体の ハードウェア使用量と、配置配線後の消費電力 の推定値である.FFT 回路のコア数を2のべき乗 数増やしていくと、評価環境上で32 個搭載でき た.また、Vivado による消費電力の推定値は、 コア数が1個の時に3.503W、32 個の時に5.798W だった.しかし、表1の結果は回路を駆動するた

| Э  | LUT      | FF       | BRAM     | DSP     | 電力     |
|----|----------|----------|----------|---------|--------|
| ア  |          |          |          |         | 推定     |
| 数  |          |          |          |         | 値(₩)   |
| 1  | 10, 751  | 15, 218  | 10.5     | 27      | 3. 503 |
|    | (2.06)   | (1.46)   | (1.07)   | (1.37)  |        |
| 2  | 20,065   | 28, 891  | 21       | 54      | 3. 579 |
|    | (3.84)   | (2.76)   | (2.13)   | (2.74)  |        |
| 4  | 38, 881  | 56,233   | 42       | 108     | 3. 725 |
|    | (7.44)   | (5.38)   | (4.27)   | (5.49)  |        |
| 8  | 76, 453  | 110, 918 | 84       | 216     | 4.029  |
|    | (14.63)  | (10.61)  | (8.54)   | (10.98) |        |
| 16 | 152, 871 | 221,700  | 168      | 432     | 4.607  |
|    | (29.25)  | (21.21)  | (17.07)  | (21.95) |        |
| 32 | 305, 356 | 442, 146 | 336      | 864     | 5. 798 |
|    | (58.42)  | (42.29)  | (34. 15) | (43.90) |        |

| 表 1 | コア数ごとの HW 量と消費電力の推定値(W)   |
|-----|---------------------------|
|     | (括弧内は xczu19 における HW 使用率) |

めに必要な電力推定値であり, ROS 2ノードとし て動作する際は,より多くの電力を要すると考 えられる.

図 3 は、ROS2-FPGA ノードの遅延時間である. 左端が ROS2-FPGA ノード化前の処理時間であり、 FFT 処理の結果を得られるまでに約 0.76ms 要し た. FPGA ロジックは、DMA 転送により入出力が行 われ, データ入出力(約 0.05ms)・FPGA ロジック 処理(約0.31ms)の時間を含む. 左端以外は ROS2-FPGA ノードの通信を含む遅延時間であり、複数 の ROS2-FPGA ノードが動作しているときに1つの ノードを計測した結果である. ノード数が増え るごとに CPU-FPGA 間データ送受信時間が増加し た.これは、データ転送帯域利用率の増加が要 因であると考えられる. また, FPGA ロジック処 理時間が増加した. これにはソフトウェアから 処理終了の判断をする時間も含まれており、終 了判断をポーリングにより行うため、複数のプ ロセスが CPU コアを占有し合った結果,処理時間 が増加したと考えられる. さらに、ノード入出 力通信遅延時間において、1ノード時に約2.45ms であったが 32 ノード時は約 5.23ms と, 2 倍以上 の時間を要した. これは、デスクトップ PC と M-KUBOS 間の通信トラフィックの増加に起因してい ると考えられる.

#### 5. 結論

本研究では, FFT 処理を行う複数 ROS2-FPGA ノ ードの性能を評価した. 評価環境において 32 個 の FFT 回路を搭載することができ, 消費電力は, FFT 回路が1個の時に3.503W, 32 個の時に5.798W だった. ROS2-FPGA ノードの遅延時間の評価では, ノード数が増えるごとに ROS 2 の通信遅延が増加 した. また, ノード数に関わらず, ROS 2 の通信 遅延が全体遅延時間の半分以上を占めているこ



### 図 3 ROS2-FPGA ノードの遅延時間

とが分かった. 今後の課題は, 複数 ROS2-FPGA ノ ードが動作する際の ROS 2 の通信遅延を削減する 方法の検討である.

## 謝辞

本研究は, JST, CREST, JPMJCR19K1 の支援を受けたものです.

#### 文 献

- P. Porambage, J. Okwuibe, M. Liyanage, M. Ylianttila and T. Taleb, "Survey on Multi-Access Edge Computing for Internet of Things Realization," in IEEE Communications Surveys & Tutorials, vol. 20, no. 4, pp. 2961-2991, Fourthquarter 2018, doi: 10.1109/COMST.2018.2849509.
- [2] D. P. Leal, M. Sugaya, H. Amano and T. Ohkawa, "Automated Integration of High-Level Synthesis FPGA Modules with ROS2 Systems," 2020 International Conference on Field-Programmable Technology (ICFPT), 2020, pp. 292-293, doi: 10.1109/ICFPT51103.2020.00052.
- [3] 森隼人, 菅谷みどり, 大川猛, "FOrEST による ROS2-FPGA ノード自動生成手法の評価", 情報処理学会第 84 回全国大会 6J-01.
- [4] 岡崎英佑, 菅谷みどり, 大川猛, "PYNQ 上で動作する 複数 ROS2 ノード自動生成ツールの開発", 信学技報, vol. 122, no. 174, pp. 61-62, 2022 年 9 月.
- [5] FPGA コンピューティングプラットフォーム M-KUBOS(エム・キューボス) | 株式会社 PALTEKhttps://www.paltek.co.jp/design/original/mkubos/index.html
- [6] Fast Fourier Transform (FFT), https://www.xilinx.com/products/intellectualproperty/fft.html
- [7] FFT IP Library, https://docs.xilinx.com/r/en-US/ug1399vitis-hls/FFT-IP-Library