# 耐永久故障 FPGA アーキテクチャ

岡田崇志<sup>†1</sup> 喜多貴信<sup>†1</sup> 五島正裕<sup>†1</sup> 坂井修一<sup>†1</sup>

宇宙で使用される電子機器は,放射線によりシングル・イベント効果などの故障を 引き起こしやすいため,高い放射線耐性が要求される.また修理,交換が困難なこと もあり,自律的に故障から回復する機構が求められる.本稿では,通常用途のFPGA (Field-Programmable Gate Array)にわずかなハードウェアを追加するだけで,過 渡故障,永久故障に対する耐性を付加する手法を提案する.本手法では,機能回復ロ ジックをFPGAのユーザロジック上に構成することで,コンフィギュレーションデー タを計算するための追加ハードウェアの必要をなくす.この手法により生じる面積オー バヘッドは小さいため,通常用途と高信頼用途の両立が可能であると考えられる.

# Fault-tolerant FPGA Arichitecture

Takashi Okada,<sup>†1</sup> Takanobu Kita,<sup>†1</sup> Masahiro Goshima<sup>†1</sup> and Shuichi Sakai<sup>†1</sup>

Since electric devices for space applications are likely to experience radiation induced errors, such as the Single Event Effects, they must be designed to protect against faults. In addition, it is difficult to replace or fix faulty units in space. For that reason, autonomous detection and recovery machanism is required. This paper presents a fault-tolerant FPGA (Field-Programmable Gate Array) architecuture that requires little additional hardware. We incorporate an RM (Recovery Manager) into the FPGA 's user logic, which means no special hard-wired logic is required for calculating configuration data. The area overhead is so small in our apporach that we can devise FPGAs that are useful for both normal and critical operations.

†1 東京大学大学院情報理工学系研究科

Graduate School of Information Science and Technology, The University of Tokyo

## 1. はじめに

宇宙用途の LSI は, 地上とは異なる, 以下のような過酷な環境に曝される.

- 高いエネルギーの放射線が頻繁に降り注ぐため、この放射線の衝突により、電子部品には、メモリ情報反転(シングル・イベント効果)と放射線エネルギーの蓄積効果(トータル・ドーズ効果)が同時に発生する.
- 高真空環境であり、衛星内部機器であっても −30°C から +60°C の温度サイクルが加 わり、機器の劣化を早める要因となる.

これらの複合的な環境要因のため,過渡故障(transient fault, soft fault)のみならず, 永久故障(permanent fault, hard fault)の確率も跳ね上がる.

また,人工衛星等に搭載される宇宙用途のLSIに特徴的なこととして,交換が困難であることが挙げられる.航空用途を含む非宇宙用途のLSIの場合,故障を起こしたとしても, 最悪そのLSIを交換すればシステムの運用を続けることができる.一方,宇宙用途では,交換が極めて困難であるため,1個のLSIの故障がシステム全体の永久的な運用停止につながり得る.

以上のような要因のため,宇宙用途のLSIには,地上用途に比べて,格段に高い信頼性 が要求されるのである.

高い信頼性を確保するため,宇宙用途においては,米軍使用の高信頼性部品 MIL 規格部 品が使用されてきた.しかし,MIL 部品は,古い世代のプロセスで製造されているので民 生品と比べ,性能面で劣る.そのうえ,高価,長納期であるというデメリットを持っている.

そこで本稿では,通常用途向けの **FPGA** (Field-Programmable Gate Array)をベースとして,十分に小さい追加ハードウェアで耐故障性を付加することを考える.このアプローチによれば,MIL 部品などを使う際に生ずる問題は以下のように解決される:

(1) 通常 FPGA を使用可能

耐故障性のための追加ハードウェアは十分に小さければ,通常の FPGA からのコス トアップも最小限に抑えられる.したがって,通常用途向けに大量に製造し,安価に 販売しながら,その全く同一の FPGA を宇宙用途向けに使用することが可能になる.

(2) 性能面での優位

民生品と同様の最先端のテクノロジを用いて製造される.したがって, FPGA であっても, MIL 部品など, 2~3世代前のテクノロジで製造される ASIC と比して十分な性能が提供できる.

IPSJ SIG Technical Report

一方で,通常用途向けの FPGA をベースとして,十分に小さい追加ハードウェアで耐故 障性を付加するためには,以下のような点について考慮する必要がある.

まず,最先端の微細なテクノロジを使うため,放射線に対する感受性が高い.そのため, 必然的に,故障の回避(avoidance)ではなく,故障の検知(detection)と回復(recovery) によって対処することになる.基本的には,TMR (Triple Modular Redundancy)など を用いて故障を検出し,動的部分再構成(Dynamic Partial Reconfiguration: DPR)に よって回復を行うことになろう.

実際,類似の提案は多い<sup>1)-3)</sup>.しかし既存の研究では,DPRのための(再)構成情報を 計算する回復マネージャをハードワイアード・ロジックで構成する例がほとんどである.そ のような方式では,回復マネージャが大きくなりがちで,追加ハードウェアを十分に小さく するという目的を達成できない.また,回復マネージャ自体が単一故障点(single point of failure)になってしまっている提案もある.

そこで本稿では,回復マネージャを,ハードワイアード・ロジックではなく,ユーザ・ロ ジックで構成する手法を提案する.回復マネージャ自体をユーザ・ロジックとして TMR で 構成すれば,回復マネージャが単一故障点となることは避けられる.一方で,回復マネー ジャ自体をユーザ・ロジックとして TMR で構成するということは,回復マネージャを構成 するロジック上に故障が検出された場合,回復マネージャが回復マネージャ自体の DPR を 行うことを意味する.

### 構 成

以下,第2章と第3章では,背景知識として,LSIにとっての宇宙環境と,提案のベース となる FPGA とそれに対する故障耐性技術についてまとめる.第4章では,DPR を用い た故障耐性技術について既存のものを取り上げる.第5章では,提案手法について詳しく説 明する.

### 2. 宇宙環境

本章では,宇宙空間で起こりうる放射線エラーについて,具体的に説明し,その後,宇宙 用途で用いられる MIL 部品について説明する.

2.1 放射線に起因する故障

衛星に搭載される機器は,高いエネルギーの放射線に曝される.このような放射線が原因でLSIに発生する故障は,大きく2種類に分けられる.一つは偶発的に起こる現象であり,シングル・イベント効果(Single Event Effect:SEE)<sup>7)</sup>と呼ぶ.もう一つは,長時間放

射線に曝されることによって生じる経年現象であり、トータル・ドーズ効果(Total Ionizing Dose:TID)と呼ぶ.この節では SEE 及び TID について説明する.

シングル・イベント効果

放射線によって確率的に起こる故障をシングル・イベント効果と呼ぶ.主な現象として シングル・イベント・アップセット(Single Event Upset:SEU)がある.これは,宇 宙線と半導体メモリの構成物質であるシリコン原子核との反応によってメモリ内の情報 が反転する現象である<sup>4)</sup>.これは,デバイスのハードウェアに永久的な損傷を与えるも のではないため,過渡故障に分類される.検出した段階でデバイスをリセットしたり, 正しい値を上書きすることで正常な動作に戻すことができる.

トータル・ドーズ効果

放射線によって生じる効果は,偶発的な現象だけでなくダメージの蓄積によって引き起 こされるものもある.これは,トータル・ドーズ効果と呼ばれ,放射線に長時間さらさ れることによって,トランジスタの動作速度の低下,リーク電流の増加などが引き起こ される.最終的には永久故障につながる.

2.2 MIL 部品

宇宙空間での,放射線エラーに対し,高い耐性を確保するため,宇宙用途においては,従来,主に米軍仕様の高信頼性部品 MIL 規格部品が用いられてきた.たとえば,次世代型無人 宇宙実験システム(USERS)衛星バス<sup>\*1</sup>では,使用されている MIL 部品数は約37,900 点 で,その購入費用は全体価格の22%を占める.また,電子部品費用の87%がマイクロプロ セッサ,メモリ,ゲート・アレイ等の高機能な電子部品で占められている<sup>8)</sup>.

しかし MIL 部品は, 信頼性こそ高いものの, 民生部品と比較すると以下のようなディメ リットがある:

- 低性能,高価,長納期である.
  - 半導体の微細化にともない,LSI は放射線などの影響を受けやすくなるため,民生 品より 2~3 世代古いテクノロジで製造される.そのため,チップ面積は大きく, 動作周波数は低く,消費電力は大きい.
  - 製造量/出荷量が少ないため,高価かつ長納期である.
- 調達が困難になる可能性がある.製造量が少なく採算が合わない等の理由から,部品
  メーカの MIL 部品生産からの撤退が顕著となっており,今後,必要な部品が調達でき

<sup>\*1</sup> 衛星バス:全ての衛星に備わっている共通的部分で,通信系,姿勢制御系,太陽電池パドル系,電源系等からなる

Vol.2009-ARC-184 No.4 2009/8/4

情報処理学会研究報告 IPSJ SIG Technical Report



図1 FPGAの構造 Fig.1 FPGA structure

なくなる可能性も決して低くはない.

3. FPGA と故障耐性技術

本節では,まず FPGA の構造と特徴を説明した後, FPGA において用いられる故障耐性 技術について述べる.

3.1 FPGA の構造

FPGA の内部仕様は各メーカによって異なるが,基本的な原理は同じであると考えてよい.本稿では,Xilinx 社の FPGA を例として説明する.

図 1 に示すように, FPGA 内部には CLB (Configurable Logic Block) と呼ばれるブ ロックが格子状に並び、それらが相互にスイッチマトリックスで接続された構造となってい る. CLB は FPGA の回路を構成する基本単位である.

組み合わせ回路は CLB 内にある LUT (Look Up Table)によって実現される.LUT と は,SRAM で構成されたテーブルであり,任意の真理値表を格納できる.入力値をアドレ スとして,このテーブルを参照し,対応した値を出力することで,組み合わせ回路を実現で きる.図2は二入力 LUT で AND 回路を構成した例である.

CLB を用いて,小規模な組み合わせ回路,シフトレジスタ,RAM などを実現できる.設計者が回路を実装する場合,論理回路を CLB にマッピングし,それらをつなぐ配線を決定する必要がある.通常このような作業は CAD によって自動化されている.



図 2 二入力 LUT による AND ゲート Fig. 2 AND gate implementation with a two-input LUT

3.2 コンフィギュレーション

FPGA に回路を構成することをコンフィギュレーションと呼ぶ.FPGA の回路の,プロ グラム可能な機能は全て,デバイス内にあるコンフィギュレーションメモリに書き込まれた コンフィギュレーションデータによって決定する.コンフィギュレーションデータには,信 号のルーティング情報,LUT の内容,入出力端子の電圧などの情報が含まれており,通常 はFPGA ベンダーが提供するツールによって,HDL<sup>\*1</sup>で書かれたソースコードを元に自動 的に生成される.

FPGA に回路を書き込むには,コンフィギュレーションメモリのコントローラに対する コマンドが埋め込まれたコンフィギュレーションデータ(ビットストリーム)を指定のポー トにダウンロードすればよい.

3.3 動的部分再構成

FPGA に生じた故障から回復するためには,回路を再構成する必要がある.ここでは,その仕組みについて説明する.

コンフィギュレーションメモリは,フレームという単位で分割されている.このフレーム という単位は,一度の操作で書き換え可能な最小単位であり,フレームアドレスと呼ばれる アドレスで特定のフレームを指定し,部分的に一つのフレームのみ,データを書き換える ことが可能である.Viretx-4(XC4VSX35)を例にあげると,全コンフィギュレーション

\*1 ハードウェア記述言語.集積回路を設計するために用いられるプログラム言語

IPSJ SIG Technical Report

データは約 1.7MByte , フレームの大きさは 164Byte であり , 一つのデバイス内に 10410 個のフレームが存在する<sup>6)</sup> .

Xilinx 社の Virtex シリーズでは,動作中にコンフィギュレーションデータの一部を書き 換える方法をサポートしている.あるフレームに対してコンフィギュレーションデータの書 き換えを行った場合,他のフレームに書き込まれたデータには影響を与えないため,残りの 回路の動作を継続したまま一部分のみを再構成することが可能である.これを動的部分再構 成と呼び,本稿ではこの手法を自律的な故障修復のメカニズムの基本とする.

### **3.4** TMR

ー般的によく用いられる故障耐性技術の一つ, TMR について説明する. TMR は, 回路 を三重化して冗長性を持たせ, 故障耐性を付加する手法である. この手法は, 宇宙用途の電 子機器において故障耐性を得るために,よく用いられる. TMR を構成するには,まず, 同 ーの回路を三つ用意し, 同一のタイミングで同じ処理をさせる. 三つの回路の出力は多数決 回路(voting logic)によって比較され, 最終的な結果として, 多数派の値が選択される仕 組みになっている.

この手法を用いることによって,三つの回路のうち,仮に一つに故障が発生したとして も,他の二つが正常な値を出力し続ける限り,正しい値が選択される.したがって,単一の 回路に発生した故障はマスクされ,全体として回路は正常な動作を継続することができる.

また, TMR を用いることによって故障個所を特定することができる.図3のように三つの出力の値を比較する回路を付加することで, どのモジュールに故障が発生したかを知ることができる.

TMR は,面積オーバーヘッドが大きいが,過渡故障,永久故障が,どのような部位に発生しても検出可能である.FPGA は,論理ゲートに相当する部分がLUT,すなわち SRAM で構成されているので,制御部を含め,あらゆる部分でシングル・イベント・アップセットが発生する恐れがある.このような故障をリアルタイムで検知するためには,TMR が有効である.

# 3.5 Scrubbing

シングル・イベント・アップセット対策として,Scrubbing<sup>5)</sup>という手法がある.この 手法では,エラーの発生の有無にかかわらず,定期的に,外部メモリ保存してあるコンフィ ギュレーションデータで,デバイス全体を上書きする.コンフィギュレーションメモリに SEUが生じても,定期的にデータを上書きすることで訂正される.この手法は,ハードウェ アをほとんど追加せずに実装できるが,コンフィギュレーションデータを上書きするだけで



は、永久故障から回復することはできない、

### 4. 関連研究

故障を検知し,再構成によって永久故障から回復する手法がいくつか提案されている.

2) で提案されている手法は,ロジック部や,配線部に発生した故障を,動的に再構成す ることで回復する手法である.この手法では,故障が発生した部位に応じて,複数の異なる 回復アプローチをとる.ワーストケースでは,故障が発生したブロックを正常なブロックに 置き換える操作が必要となるため,この際,再配線するために外部に用意されたプロセッサ に頼る必要がある.

3) で,提案されている手法は,ソフトエラー,ハードエラーそれぞれに対して,別のア プローチで故障回復する.ソフトエラーに対しては,コンフィギュレーションデータの上書 きで対応し,ハードエラーに対しては,故障部をバイパスするように新しく回路を再構成す ることで回復する.この手法では,故障耐性を持ったマイクロコントローラの存在を前提と しており,故障検出,回復はそのマイクロコントローラによって行われる.

ー方で,回路診断の分野でも,再構成を利用したものがある.1)で提案されている Roving STAR と呼ばれる手法がその一つである.STAR とは <u>Self-Testing ARea</u>を表わし,ワーキングエリアとは独立した,診断中の領域のことを指す.

まず,回路の一部分に,予備の領域を用意しておき,そこに STAR を構成する.STAR は,その領域の診断を終了すると,隣の領域に移動する.これを繰り返し,STAR が全領 域をくまなく巡回することで故障を検出する.診断中の領域は,本来の機能が失われる.し かし,STAR が自身の領域を移動する際に,移動先の回路の機能を現在の領域にコピーし,



W or king

Area



Working

再配線するので,動作中の回路に影響を与えずに全領域の診断を行うことができる.図4に 示すように,STAR は回路を水平に横切る H-STAR と垂直に移動する V-STAR の二種類 があり,双方が個別に診断を行う.この手法も,回路診断,再構成の機能は故障耐性を前提 としたマイクロコントローラが受け持つ.

これらの方法では,再配置,再配線の際に計算が必要であるため,プロセッサなどの計算 資源を追加することが必要である.また,追加したハードウェアの故障耐性は前提条件と なっており,十分に議論されているとはいえない.しかし,システム全体の故障耐性を議論 する場合,追加したハードウェアについても,十分な故障耐性を保障することは必要不可欠 である.5章で,このような問題に対するアプローチについて説明する.

### 5. 提案手法

情報処理学会研究報告

### 5.1 回復マネージャ

再構成を用いた故障回復では,故障した回路を物理的に離れた別の場所に再構成する必要 がある.その際に,新たに配置配線を行う必要があり,これには比較的大きな計算コストが かかるため,何らかの計算資源が必要である.従来の手法には,そのような計算のための専 用ロジック(ここでは回復マネージャと呼ぶ)を,ハードワイアード・ロジックで追加する ことを想定したものが多い.回復マネージャは,一度故障すればシステム全体の故障回復能 力が失われることになるため,他の回路と同程度の故障耐性を備えていなければならない. そこで,回復マネージャ自体に故障耐性を付加しようとすると,追加するハードウェア量が さらに大きくなってしまうという問題がある.





本手法では,回復マネージャを FPGA のユーザ・ロジック領域\*1に他の回路と同様に実 装する(図5).さらに,回復マネージャ自身に生じた故障を自分自身で検知,修復できる 仕組みを導入する.この方法によって以下のようなメリットが生じ,先述した問題を解決で きる.

- 回復マネージャ自身にも,他のユーザ・ロジックと同様の高い故障耐性を確保することができる.特に,FPGAの再構成可能な特徴を利用するので,ハードワイアード・ロジックでは実現できない柔軟な故障回復が可能である.
- 追加すべきハードウェアを小さく抑えることができる.回復マネージャはユーザ・ロジックとして,FPGA上の,ある領域に構成される.それは,ハードワイアード・ロジックとは独立したものであるから,通常用途のFPGAとして使用する際は回復マネージャを構成せず,その領域を自由な用途に割り当てることができる.
- 5.2 全体構造

提案する手法の概略図を図6に示す.ユーザ・ロジック領域全体はタイルと呼ばれる単位で分割されており,全てのタイルが再構成ネットワークで接続された構造となっている. それぞれのタイルには,再構成ネットワークにアクセスするために,ネットワークIFが1 つずつ付属している.タイルの内部には,CLBが数百個程度含まれており,同一の機能を 持つ CLBを三つ用意することでTMRを構成している.タイル間,CLB間での,信号の やり取りはFPGA上の通常の配線が使用されるが,故障情報,及び再構成データの伝達に 限り,特別に用意されたネットワークIFを通して再構成ネットワーク上で伝達される.

5.3 故障検出

本手法では, TMR を用いて故障を検出するため, システムの正常な動作を妨げることな

<sup>\*1</sup> FPGA において, ユーザーが使用するプログラム可能な領域.

IPSJ SIG Technical Report



Fig. 7 Fault Recovery

く,リアルタイムに故障検出,修復を行える.ここでは,TMRを用いて,故障けを検出す る仕組みについて説明する.

デバイスのユーザ・ロジック領域はタイルという単位で分割されており,タイルの内部 には数百個程度の CLB が含まれている(図6).全てのタイル内の CLB は三重化されて いる.すなわち,タイル中にある同一機能を持つ三つの CLB を用いて TMR が構成されて いる.CLB の出力は,ハードワイアード・ロジックで構成された多数決回路へ入力される. この際に,検出された故障信号は,ネットワーク IF を介して,再構成ネットワークに流さ れ,回復マネージャへと伝達される.TMR を実現するためには,多数決回路の追加が必要 であるが,これは図3に示すように,わずか6ゲートで実装可能である.TMR 一つ当たり およそ 1000 ゲート程度の規模であると考えると,全体の面積に対してほぼ無視できる量の ハードウェアである.

5.4 故障回復

TMR は単一の故障をマスクすることができるが,一度故障が発生すると TMR の持つ冗 長性は失われ,さらに別のモジュールに発生した故障に関しては,マスクされない.つま り,時間とともにシステム全体がダウンする確率が増加していくことになり,これでは,宇 宙環境での動作を想定した場合,十分な故障耐性があるとは言えない.そこで,本手法で は,故障を検出した際に,故障箇所を動的に再構成し,回復するアプローチをとる.故障検 出は CLB 単位なので,この単位での再構成が可能である.過渡故障が発生した場合と永久 故障が発生した場合の回復方法について,概念図を図7に示し,それぞれについて次に説明 する.

なお,回復マネージャを含め,全てのロジックは三重化されており,故障が発生した際も システム全体はオペレーションを継続できる.

過渡故障の場合 TMR を構成する CLB の一つに過渡故障が発生した場合,回復マネージャ が故障した CLB のコンフィギュレーションデータを再計算し動的に再構成する.故障 が起こった CLB を,元の正しい CLB で上書きすることで過渡故障から回復する.

永久故障の場合 故障が発生した際に再構成を何度か繰り返しても,回復しない場合は永久 故障と判断する.永久故障が発生した場合には,元の CLB の複製を,タイル内の別の 位置にある予備の CLB 上に構成し,再配線する.

5.5 再構成ネットワーク

自律的な故障回復を実現するために,中心的な役割を担うのが,本節で説明する再構成 ネットワークである.全てのタイルは,再構成ネットワークのノードに相当し,ネットワー クIFを通して,アクセスできる仕組みになっている.再構成ネットワークは,大きく二つ の機能を持つ.

-つは,故障情報とコンフィギュレーションデータの伝達である.タイル内の多数決回 路から送信された故障検出信号,及び,再構成に必要なコンフィギュレーションデータは, ネットワーク IF を介して再構成ネットワーク上に,パケットの形で送信される.もう一つ は,コンフィギュレーションメモリへのアクセスである.ネットワーク IF は,自身のタイ ルのコンフィギュレーションメモリに対する読み書きの機能を持っており,ネットワークを IPSJ SIG Technical Report

通じて受信したコンフィギュレーションデータを用いてタイルを再構成することができる. 再構成ネットワークは,故障情報と,再計算されたコンフィギュレーションデータを伝達 するために,特別に追加するネットワークである.単純に全てのタイル同士が接続するメッ シュネットワークを実装すると,ルーティングを行うための,複雑な追加ネットワーク IF が必要となる.そこで,本手法では,追加ハードウェアを最小化するため,図6に示すよう に,トークンリングネットワークを用いた.これにより,ルーティングなどの必要がなくな り,ルータなどを追加せずに実現できる.故障回復の処理は,複数組のタイルが同時に通信 を行う必要性がないため,トークンリングネットワークであっても十分に機能する.

さらに,このネットワークは十分に小さいハードウェアで実装可能である.なぜなら,こ のネットワークは故障回復の際にしか使われない専用ネットワークであるため,ある程度通 信に時間がかかっても許容できる.そのため,1bit幅の配線で送受信するシリアル通信を採 用することが可能で,ハードウェア量を小さく抑えることができる.このようにシンプルな ネットワークを採用することによって,ネットワークIFは,タイル全体の回路規模に対し, 十分小さい規模のハードワイアード・ロジックで実装することが可能であり,粗いプロセス で製作することができるので,この部分に故障が発生する確率は無視できるものとする.

5.6 故障回復の流れ

故障検知し,自律的に回復するまでの流れを説明する.

- (1) ネットワーク IF が TMR の多数決回路からの信号を観測し, 故障を検知する.
- (2) 故障信号は、ネットワーク IF によってパケットの形に整形され、再構成ネットワークに流される.この際、リードバック機能により、正常な CLB も含めた故障タイル 全体のコンフィギュレーションデータを読み出し、その情報もパケットに含める.
- (3) このパケットを,別のタイルに実装されている回復マネージャが受け取る.
- (4) 回復マネージャはリードバックされたコンフィギュレーションデータの中に含まれる
  正常な CLB の情報をもとに,新たに正しいコンフィギュレーションデータを計算し,
  これを含むパケットを,故障したタイル宛てに送信する.
- (5) パケットを受け取った故障タイルのネットワーク IF は自身の CLB を再構成する.
- (6) 故障信号が発生しなくなった場合は,この故障は過渡故障であったと判断しそこで一連の故障回復プロセスを終了する.
- (7) もし,新しく回路を再構成しても故障信号が継続した場合,回復マネージャは永久故 障と判断し予備の CLB に回路を移し替えるため,コンフィギュレーションデータを 再計算し,対象のタイルにパケットの形で送信する.

以上のような流れで故障から回復する.

全ての回路は TMR で実装されているので故障回復の途中であってもシステム全体としては正常に動作し続けている.

回復マネージャ自体も,他のユーザ・ロジックと同じようにタイルの形で実装されており, ネットワーク IF を通じてネットワークにアクセスできる.仮に回復マネージャに,故障が 発生しても,TMR で実装されているため,回復マネージャは動作を継続することができ, 自身のネットワーク IF に対して,自分自身を再構成するように指示することができる.こ のように,故障回復のネットワークを導入することで,回復マネージャ自体も,再構成の対 象とすることができ,単一故障点となることを回避している.

5.7 通常用途としての使用

以上で述べた故障回復の仕組みは,高い信頼性が求められる用途にのみ使用すればよい機能である.通常用途に使う場合は,ユーザ・ロジック領域に回復マネージャを構成する必要はない.また,ハードワイアード・ロジックで追加された,ネットワーク IF,再構成ネットワー及び多数決回路は無効化し,使用しない.これらの追加ハードウェアは,十分に小さく抑えられており,通常の用途の妨げになることはない.そのため,高信頼用途と通常用途の両方の用途で使用することが可能である.

### 6. ま と め

本稿では自律的に故障を検知し,修復する機能を持った FPGA のアーキテクチャを提案 した.提案した手法では,回復マネージャをユーザ・ロジック領域に実装し,他の回路と同 様に故障検出,回復の対象とした.このことによって,従来の手法では大きくなりがちで あった,追加ハードウェアをほとんど必要とせず,故障耐性を持つ FPGA を構成できるこ とを示した.同時に,本手法では,回復マネージャ自体の信頼性が確保できるため,システ ム全体の高い故障耐性を得ることができる.

通常用途の FPGA に対してハードワイアード・ロジックの追加は,最小限に抑えられる ので,故障耐性を持つ宇宙用途 FPGA を,そのまま通常用途 FPGA として安価に大量に 販売できる(宇宙用途にも使用されているとなれば,通常用途に使用する際にも,製品の 魅力の向上にもつながるであろう.)結果として,宇宙開発のコストを削減できる.

提案した手法の実効性を確かめるため,評価用の FPGA ボード(図8)を用意し,シス テムの論理設計を行ったが,実機での動作確認は行っていない.今後は,実機での動作確 認,オーバーヘッドの評価などをしていきたい.

IPSJ SIG Technical Report



図8 評価用ボード Fig.8 Testbed

# 参考文献

- 1) Abramovici, M., Stroud, C., Hamilton, C., Wijesuriya, S. and Verma, V.: Using Roving STARs for On-Line Testing and Diagnosis of FPGAs in Fault-Tolerant Applications, *Test Conference, International*, Vol.0, p.973 (1999).
- Lakamraju, V. and Tessier, R.: Tolerating Operational Faults in Cluster-based FP-GAs, in 8th International ACM/SIGDA Symposium on Field Programmable Gate Arrays, pp.187–194 (2000).
- 3) Li, Y., Li, D. and Wang, Z.: A new approach to detect-mitigate-correct radiation-induced faults for SRAM-based FPGAs in aerospace application, *National Aerospace and Electronics Conference, 2000. NAECON 2000. Proceedings of the IEEE 2000*, pp.588–594 (2000).
- 4) Mukherjee, S., Emer, J. and Reinhardt, S.: The soft error problem: an architectural perspective, *High-Performance Computer Architecture*, 2005. HPCA-11. 11th International Symposium on, pp.243–247 (2005).
- 5) Xilinx: Correcting Single-Event Upsets Through Virtex Partial Configuration (2000). Xilinx Application Note 216.
- 6) Xilinx: Viretx-4 FPGA Configuration User Guide (2008).
- 7) YAHAGI, Y., IBE, E., YAMAGUCHI, H., KAMEYAMA, H., SAITO, Y., AKIOKA, T., YAMAMOTO, S., HIDAKA, M. and SAITO, A.: Evaluation of

Terrestrial-Neutron Induced Single Event of Memory Devices : An Outlook for Logic Devices, *IEICE technical report. Dependable computing*, Vol.106, No.198, pp. 1–6 (20060725).

8) 独立行政法人新エネルギー・産業技術総合開発機構 (NEDO) 機械システム技術開発: 「宇宙等極限環境における電子部品等の利用に関する研究開発プロジェクト」事業原簿 (2004).