# FPGA ベース並列マシン RASH での SAR 画像再生処理の適用

浅見 廣愛†,水野 政治†,中島 克人†,飯田 全広‡,森 伯郎†

+ 三菱電機(株),

± 三菱電機エンジニアリング(株)

〒247-8501 神奈川県鎌倉市大船5丁目1番1号

tel. 0467-41-2526 , e-mail : hiroai@isl.melco.co.jp

合成開口レーダ(SAR, Synthetic Aperture Radar)はマイクロ波を利用した映像レーダであり, その画像再生処理は演算量が膨大である.我々の試作したRASH(Reconfigurable Architecture based on Scalable Hardware)のようなFPGAベース並列マシンにおいてSAR画像再生処理を適 用することを検討した.

FPGA上でのSAR画像再生処理の実装手法について検討し、RASHでの処理時間の見積りを行 った.SAR画像再生のアルゴリズムはレンジ-ドップラーアルゴリズムとし,SAR生データのサ イズはレンジ / アジマス方向共に,8Kポイントと仮定した.RASH1ユニットにおいて,10万ゲ ート規模のFPGA24個,256MByteのメモリカード6枚を使用した構成でのSAR画像再生処理の時 間は10秒程度との見積もりとなり,市販DSPボードと比べて半分の規模で同程度の性能になると 試算した.

# The Applicability of Synthetic Aperture Radar Processing on a FPGA-based Parallel Machine "RASH"

Hiroai Asami, Masaji Mizuno, Katsuto Nakajima, Masahiro Iida, Hakuro Mori Mitsubishi Electric Corp. ,Mitsubishi Electric Engineering Co. LTD. address: 5-1-1 Ofuna, Kamakura, Kanagawa 247-8501, Japan tel.0467-41-2526 , e-mail : hiroai@isl.melco.co.jp

SAR (Synthetic Aperture Radar) is a microwave imaging radar. The reproduction of images from SAR data (SAR processing) requires huge amount of computation. We studied how much FPGA-based machines like "RASH" (Reconfigurable Architecture based on Scalable Hardware) have the computation power for SAR processing.

We studied the way of implementation of the algorithm on FPGAs and estimated the processing time on RASH. The algorithm of the reproduction used here is so-called "rangedoppler" algorithm. The range and azimuth size of data is 8K points each. By one unit system of RASH with 24 of 10K-gate FPGAs and 6 of 256MB memory cards, the reproduction can be done in about 10 sec, which is about the half of that by a system of the same scale consisting of commercial DSP boards.

#### はじめに 1

Radar)はマイクロ波を使用した映像レーダであ 合成開口レーダ (SAR, Synthetic Aperture り, レーダで受信したデータに SAR 画像再生と 呼ばれる処理を行い画像を作成する.SAR画像再 生処理の大部分はFFT(Fast Fourier Transformation:高速フーリエ変換)による処理 であり,画像サイズが大きくなると演算量が膨大 になる.このため,従来は汎用大型計算機かワー クステーション,もしくは専用ハードウェア等を 用いて処理を行っていた.

近年 FPGA(Field Programmable Gate Array) は,最新デバイステクノロジの適用により高速 化・大規模化の進展が著しく,その利便性・柔軟 性と処理性能の高さから,特に信号処理や画像処 理等の分野で幅広く利用されている.我々は FPGAの特性に注目し、複数の FPGAを使用した 可変構造型計算機として, FPGA ベース並列マシ > RASH(Reconfigurable Architecture based on Scalable Hardware)を開発し[1] [2] , DES(Data Encryption Standard)を始めとする秘密鍵暗号 の鍵探索処理が高速に行えることを実証した[3] . 我々は FPGA を用いて SAR 画像再生処理を行う ことにより,大規模な画像の高速な処理と,画像 サイズ等の変更に対する柔軟な対応が可能になる と考えた.そのため,今回,RASH 上での SAR 画像再生処理の適用検討を行った.

今回の検討において, RASH における SAR 画 像再生処理の処理時間等を見積もった.その結果, 市販 DSP ボードに比べて半分以下のチップ数で 同程度の性能が得られるとの結果になったので報 告する.

#### 2 RASH の構成

以下では, RASH のアーキテクチャの概要につ いて説明する.

2.1 EXE ボード

RASHはCompactPCI(Peripheral Component Interconnect)基板を使用した演算ボード(EXE (EXEcution)ボード)を基本構成要素としている. EXE ボードには,1石 10 万ゲート規模相当の SRAM タイプの FPGA である,ALTERA 社の FLEX10K100A-1(240 ピン QFP)が8 個搭載されて いる(図 2.1参照).

各 FPGA 間は 32bit の信号線でメッシュ / リン グ状に接続されている.これにより,2 石以上の FPGA を使用して1つの機能を実現するような場 合や,機能ブロック間の処理データをパイプライ ン的に流すような構成も可能となる.このような 用途を考慮して各 FPGA には共通のグローバル クロックが供給される.また,各 FPGA での独立



#### 図 2.1 EXE ボードの構成

した処理を可能にするために各々の FPGA には 個別にローカルクロックが供給される.グローバ ルクロックおよびローカルクロックは約 4.9MHz から 60MHz の 16 種類から選択できる.

また,各 FPGA はコントローラとバス接続 (32bit)されており,コントローラには EXE ボー ドに搭載された PCI バスインタフェース回路と 2MB の SRAM のローカルメモリが接続されてい る.FPGA の回路情報はローカルメモリを経由し てロードされる.ローカルメモリ上に複数種類の 回路情報を常駐させることができ,1 つの FPGA 当り 190ms 程度で再構成が可能である.

また,EXEボードの各 FPGA からは直接 40bit ずつの信号線が拡張ボードコネクタに接続されて おり,以下のようなドータカードを増設すること で様々な機能拡張が可能である.

2.2 ドータカード

ドータカードは EXE ボードの機能を拡張する ための拡張用ボードであり,拡張ボードコネクタ を介して FPGA と直接接続される.EXE ボード 上の FPGA だけでは処理性能が十分ではない場 合や,PCI バス経由では入出力のスループットが 不足する場合には,EXE ボード上にドータカード を搭載することにより機能拡張が可能である.例 えばメモリや I/O デバイスコントローラ等をドー タカード上に実現すれば良い.このような実装形 態を取ることにより,EXE ボード上でのアーキテ





図 2.3 ドータメモリカードの外観 クチャ上の制約の最小化と用途別の性能最大化の 両立を図れる.

図 2.2, 図 2.3 に我々の開発した RASH 用メモ リ搭載ドータカード(RDM:Rash Daughter Memory card)の構成と外観を示す.RDMには, APEX20K200を使用した SDRAM コントローラ が2個搭載されており,それぞれに128MByteの SDRAM モジュール(S.O.DIMM)が接続されて いる.SDRAM コントローラには EXE ボード上 の2つのFPGA から40bitの信号が拡張コネクタ を通して接続され,SDRAM モジュールをそれぞ れ2つずつのFPGAで共有する構成になっている. RDM1 枚で4個のFPGA に対応するため,1枚の EXE ボードには2枚まで RDM を搭載できる.

また, 各々の SDRAM コントローラには USB コントローラが接続されており, ドータカード上 の USB コネクタを介して外部とのデータ交換が できる構成になっている.

2.3 ユニット構成

RASH では,1 つの CompactPCI ユニットから なる構成を基本構成(1ユニット)としている(図 2.4参照).基本構成では,CompactPCI バス上で 最大6枚の EXE ボードとそれらを制御するため の1枚の汎用プロセッサボード(CPU ボード)が接 続されている.また,EXE ボードに RDM を搭載



する場合には, CompactPCIのスロットの制約からEXEボード3枚, RDM6枚(各EXEボード にRDM2枚搭載)が最大の構成になる.基本構成にはCPUボード経由で接続される磁気ディスクやネットワークインタフェースも含まれている.

ネットワークはイーサネットとし,これを介し て 制御用に FEP(Front-End Processor)や複数の ユニットが接続可能である.ユニット間の通信量 がそれ程多くない場合は,多数のユニットを接続 することにより大きなシステムを構成することが でき,そのための制御ソフトウェアも用意されて いる.

#### 3 SAR 画像再生処理

SAR は, 雲霧等の天候に左右されず, 高い分 解能で地表を撮像することができるセンサであ る[4] .SAR では, 飛行機等のプラットフォーム からマイクロ波を送信し, 反射波が返ってくるま での時間・強度から対象物体までの距離情報を測 定する.測定したデータを SAR 画像再生と呼ば れる処理で重ね合わせることにより画像を再生 する.

SAR 画像再生のアルゴリズムは種々提案され ているが,ここでは最も一般的に使用されている, レンジ ドップラーアルゴリズム[5]を対象とす る.このアルゴリズムの基本的な処理の流れを図 3.1に示す.レンジ ドップラーアルゴリズムは,



図 3.1 SAR 画像再生処理の流れ

アジマス方向(プラットフォーム進行方向)とレ ンジ方向(アジマス方向に対して垂直な方向)の 受信データそれぞれに,参照関数と呼ばれる送信 波を表すデータとの相互相関をとることにより2 次元ホログラムを得る処理である.

相互相関処理には単純に乗算を行う方法(時間 領域処理と呼ぶ)とFFTを用いる方法(周波数 領域と呼ぶ)があるが,図3.1のようにFFTを 用いて周波数領域で行う方が一般的であり演算 量が少なくすむ.しかし,時間領域処理の方はデ ータの分割が容易であり,並列処理を行う場合に ノード間のデータ転送量を少なくできる.

## 4 RASH での適用検討

SAR 画像再生処理の時間領域処理,周波数領 域処理の両方の手法について,RASHの各構成で の処理方式と演算時間の検討を行った.また,今 回の検討では,レンジマイグレーション補正は対 象から除外した.レンジマイグレーション補正は SAR 画像再生処理を行う上では重要な処理であ るが,本検討では,装置の規模や処理時間の試算 を目的としているため,最も演算量に影響する相 互相関処理のみを対象とすることにした.また, 以下の条件で検討を行った.

- SAR の生データのサイズはレンジ方向 8K ポイント,アジマス方向 8K ポイント
- 2) 参照関数のデータは 1K ポイント
- 3) 各ポイントは実数部 8bit, 虚数部 8bit
   4.1 装置構成

今回,以下の3つの構成について演算速度,実 現性等の検討を行った.構成ごとに処理手法につ いて示す.

なお,各接続の転送速度は RASH での実測値か ら次のものを使用した.

・CompactPCIのデータ転送速度:128Mbps

・ローカルバスの転送速度: 128Mbps

また, FPGA 内部の回路はシミュレーションに よる見積りから表 4.1 の値を使用した.

RASH **単体** 

ドータカードを搭載せず,基本構成だけの構成 である.この構成ではメモリ不足により時間領域 処理が不可能であるため,周波数領域で処理を行 う.レンジ方向の処理(レンジ圧縮処理)をEXE ボード上のFPGAで行った後,CPUボード上の メインメモリでコーナーターンと呼ばれるデータ の転地処理を行い,再びEXEボードでアジマス 方向の処理(アジマス圧縮処理)を行う.1 個の

表 4.1 FPGA 内部のコア回路のデータ

| 回路       | 動作周波数 | 使用 LE 数 |
|----------|-------|---------|
| バタフライ演算器 | 40MHz | 2993LE  |
| 8bit 乗算器 | 35MHz | 135LE   |

FPGA で 8K ポイントの FFT を行う場合, FPGA 内部のメモリ不足により処理が困難である.この ため,図 4.1 のように複数の FPGA に処理を分け レンジ / アジマス圧縮を行う.FPGA にメモリが 接続されていないため, FFT の中間結果は EXE ボード上のローカルメモリに格納する.

#### RASH + ドータカード(メモリ搭載)

EXE ボードにメモリドータカード (RDM)を 搭載してメモリを補強した構成である.これによ り,EXEボードでのメモリ不足が解消され,時間 領域による処理が可能になる.この場合,図 4.2 のように,EXEボード上の半分のFPGAに乗算 器を構成することにより,レンジ圧縮を時間領域 処理で行い,残りのFPGAでアジマス圧縮を周波 数領域で行うことで,レンジ圧縮とアジマス圧縮 をパイプラインで処理する.これにより,レンジ



圧縮処理での演算量が増えるが,コーナーターン による EXE ボード間のデータ転送が無くなるた め処理時間が短縮される.

RASH + **ドータカード(メモリ**+1/0 **ポート**) EXE ボード間の通信ボトルネックを補うため, ドータカードに通信ポートを追加した構成を想定 した.ドータカード上には 100Mbps の通信ポー トが2個あると仮定した.これは,今後 RDM上 に USB2.0(最大性能 480Mbps)の機能を実装で きるならば,実現可能な値である.この場合,図 4.1 のような構成で,アジマス/レンジ圧縮共に 周波数領域で処理を行う.ただし,のRASH単 体の場合と異なり,FFT の中間結果は各 FPGA に直接接続されたドータカード上のメモリに格納 する.

4.2 見積もり結果

4.1 節の構成・条件で, EXE ボード上の回路動 作を想定して,1行(8K ポイント)のデータの処 理にかかる演算時間,データ転送時間等を試算し, RASH で SAR 画像再生を行った場合の総処理時 間を見積もった.その結果を表4.2 に示す.構成 は全て1ユニットであり,表には各構成において 最良となる処理時間のみを記載した.また,市販 DSP システムでの検討結果[6]も合わせて示す. DSP での検討は, Analog Device 社製の DSP で ある SHARC(ADSP-21060,40MHz)を搭載した Mercury Computer Systems 社の DSP ボードで 行った.

SAR 画像再生の処理時間は, 各 EXE ボードへ のデータ転送時間と, 各 EXE ボードでの演算時 間のうち,より大きい方の値になる.データ転送 時間と演算時間の影響を示すため,表 4.1 には外 部からのデータの入出力時間を考慮しない処理時 間を"演算時間"として示し,1 行のデータの処 理時間を記載した.なお,表にある1行のデータ の演算処理時間は,使用したチップ(FPGA,DSP) の数で割った仮想的な値である.これらの値から, 各構成における処理時間は,データ転送時間が演 算時間と同じかそれより大きいことが分かる.

また, DSP と比較して, 半分のチップ数でほぼ 同程度の性能が得られることが分かる.

### 5 大容量 FPGA での検討

8K×8K ポイントの SAR 画像再生処理を行う 場合, RASH で使用されている FLEX10K100A では 内部メモリが十分でないため 複数のFPGA に分けて処理を行う必要があり, FPGA 間の通信

表 4.2 構成による性能比較

|                    |         | ドータカード拡張   |        | 市販 DSP  |
|--------------------|---------|------------|--------|---------|
| 基本構成               |         | メモリ拡張 メモリ& |        | システム    |
|                    |         | (RDM)      | I/O 拡張 |         |
| 処理時間               | 49秒     | 24 秒       | 8秒     | 10秒     |
| 演算時間               | 36 秒    | 24 秒       | 8秒     | 7秒      |
| 1 行のデータの<br>演算処理時間 | 2.28 ms | 3.32ms     | 0.48ms | 0.045ms |
| 1 行のデータの<br>転送時間   | 3.7ms   | 3.7ms      | 0.38ms | 0.52ms  |
| 処理手法               | 周波数     | 時間         | 周波数    | 周波数     |
|                    | 領域処理    | 領域処理       | 領域処理   | 領域処理    |
| 構成                 |         |            |        |         |
| 演算ボード数             | 6枚      | 3枚         | 3枚     | 8枚      |
| ドータカード数            | -       | 6枚         | 6枚     | -       |
| FPGA/DSP 数         | 48 個    | 24 個       | 24 個   | 96 個    |

等が処理のボトルネックとなる.しかし,これら の問題は,現在製品化されている大容量の FPGA を使用することで解消できると考えられる.そこ で,ALTERA 社の大容量 FPGA である APEX20K1500Eを使用した場合の検討を以下で 行った.

#### 5.1 装置構成

APEX20K1500E を搭載した基板として図 5.1 の構成を検討した.1枚の基板上には,演算用の FPGA として APEX20K1500E を 4 個,制御用 FPGA を 1 個搭載する.接続構成は制御用 FPGA と演算用 FPGA 間は 64bit バス接続し,各演算 FPGA 間は 64bit 信号線で直接接続する.また, 128Mbyte の SDRAM と 1Gbps の転送性能を持 つ通信用 I/Oポートを各演算 FPGA に直接接続し, これらを基板上に搭載する.制御用 FPGA にはロ ーカルメモリと PCI バスが接続される.



図 5.1 APEX20K1500Eを用いた基板の構成

通信用 I/O ポート用のコントローラと SDRAM 用コントローラは FPGA が大容量である点を生 かして演算用 FPGA 内部に構成する.

#### 5.2 性能見積り

表5.1に RASH と APEX20K1500E を用いた場 合との性能比較を示す. APEX20K1500E では, バタフライ演算器を 12 個搭載でき,66MHz で動 作するものとした.また,ローカルバス,FPGA 間接続の通信は 66MHz の同期転送で行うものと した.

APEX20K1500Eには,SAR画像1行分にあたる 8KポイントのデータのFFTを行うのに十分な内 部メモリがあり,1個のFPGA内部で処理が行え る.この場合,1行分のデータの転送・演算処理 に要する時間を310µsと見積もった.これから, 図5.1の基板を使用した場合の全データの処理時 間は1.3秒となった.

#### 6 考察とまとめ

本稿では FPGA ベース並列マシン RASH での SAR 画像再生処理について述べ, RASH 単体で 50 秒程度, RASH とドータカードの組み合わせ た構成では 10~20 秒程度で処理が可能であると いう結果になった.また,市販の DSP ボードを 用いた場合には, DSP96 個で 10 秒程度という結 果になった.

この結果から, RASH とドータカードを組み合わせることにより, 市販 DSP ボードに比べて半分以下のチップ数で同程度の性能が得られることが分かった.このため, ハードウェアのコストはFPGAを使用したほうが有利になると考えられる.

また,RASHでの処理ではドータカードに通信 ポートを搭載した構成以外ではほとんどの場合で データ転送がボトルネックになっている.このこ とから,SAR画像再生処理のようにデータ量が大 きい処理をRASH上で行うには、PCI等を介して のデータの転送ではなく,個々のドータカードに 直接データを転送し、それをFPGAで処理するよ うな方法が有効と考えられる.

これは,最近の大容量 FPGA を使用した場合に ついても同様である.最新の FPGA4 個で1秒程 度で処理が可能との見積もり結果を得たが,これ を実現するためには,データの転送に4Gbps 以 上の性能が必要となる.

また,今回の検討ではレンジ参照関数生成,ア ジマス参照関数生成,レンジマイグレーション補 正は考慮していない.これらの演算の中にはDSP

### 表 5.1 大容量 FPGA での処理性能

|           | RASH        | 大谷童 FPGA 基板  |  |
|-----------|-------------|--------------|--|
| 使用 FPGA   | FLEX10K100A | APEX20K1500E |  |
| 性能        | 8秒          | 1.3 秒        |  |
| 動作周波数     | 40MHz       | 66MHz        |  |
| FPGA 使用個数 | 48 個        | 4 個          |  |
| LE 数総計    | 234K        | 203K         |  |
| バタフライ     |             |              |  |
| 演算器の数     | 48 個        | 48 個         |  |

に比べ FPGA では処理時間のかかるものがあり うるので検討する必要がある.

今回の検討結果を踏まえ,今後,処理方式の 詳細検討等を行う予定である.

参考文献

- [1] 中島 克人,森伯郎,佐藤 裕幸,高橋 勝己, 浅見 廣愛,水上 雄介,飯田 全広,新留 勝 広,"FPGAベース並列マシンRASHの概 要",第58回情処全国大会,1H-08,1999-3.
- [2] 浅見 廣愛,佐藤 裕幸,飯田 全広,森 伯郎, 中島 克人,"FPGAベース並列マシンRA SHのシステム機能と構成",第58回情処全 国大会,1H-09,1999-3.
- [3] 浅見 廣愛,飯田 全広,中島 克人,森 伯郎," FPGAベース並列マシンRASHでのDES暗号解析処理の改良",情報処理学会論文誌:ハイパフォーマンスコンピューティングシステム,Vol.41,No.SIG 5(HPS 1),pp.50-57,2000-8.
- [4] 藤坂 貴彦, 岩本 雅史, 原 芳久, 江馬 浩
   一: "画像レーダ", 非破壊検査, vol.47, no.12, pp872-877, 1998.
- [5] Curlander, J.C. and McDonough, R.N.: "SYNTHETIC APERTURE RADAR systems and Signal Processing", John Wiley & Sons, Inc. (1991).
- [6] 水野 政治,浅見 廣愛,飯田 全広,中島 克 人,森伯郎," FPGAベース並列マシンR ASHのSAR 画像再生処理への適用検討(2)
  市販DSPシステムとの比較検討 - ",第59 回情処全国大会,5H-04,1999-9.