# FPGAによるゲノムシーケンス解析専用プロセッサの設計

水原 隆道  $^{(1)}$  中西 恒夫  $^{(1)}$  福田 晃  $^{(2)}$ 

 
 (1) 奈良先端科学技術大学院大学情報科学研究科 { takami-m,tun } @is.aist-nara.ac.jp

 (2) 九州大学大学院システム情報科学研究院 fukuda@f.csce.kyushu-u.ac.jp

#### 概要

ゲノム情報学分野における相同性検索や立体構造予測などのアプリケーションは,巨大なゲノム配列データに対して解析を行うため,特に解析精度を求める場合には、高速な計算機が要求される.本稿では,このようなゲノム情報学アプリケーションに特化した専用プロセッサを設計し,ハードウェアによるその高速処理を図る.同専用プロセッサは,ゲノム情報学アプリケーションによく用いられる動的計画法をデータフロー並列処理により高速化する.ソフトウェアシミュレーションによる予備評価の結果,PentiumIII 1GHz と比べて,約13.5 倍の処理速度が得られることを確認した.

# Design of an FPGA-based Processor for Genome Sequence Analyses

Takamichi Mizuhara<sup>1)</sup> Tsuneo Nakanishi<sup>1)</sup> Akira Fukuda<sup>2)</sup>

 Graduate School of Information Science Nara Institute of Science and Technology
 Graduate School of Information Science and Electrical Engineering Kyushu University

#### Abstract

Genome informatics applications such as homology search or protein structure prediction, which deal with a huge amount of DNA or amino acid sequences, requires extremely high performance computers especially for accurate analysis. This paper describes design of an application-specific for genome informatics to achieve high performance computing by hardware. The processor accelerates dynamic programming frequently employed by genome informatics applications by data-flow parallel processing. A preliminary experiment by software simulation shows that the processor can perform dynamic programming 13.5 times as fast as purely software processing by PentiumIII of 1GHz CPU clock.

## 1 はじめに

ヒトゲノムの解読が完了した今日においても,そ の意味的解析は課題として残されており,ゲノム情 報の配列解析は依然重要な基礎的技術である.日々増 加するさまざまな生物の膨大なゲノム情報やタンパ ク質構成の情報空間から,遺伝生物学的かつ化学的 意味を考慮した,高速で厳密な解析を施すゲノム情 報解析システムが望まれている.FASTA[5],SmithWaterman法 [3], Needleman-Wunsch法 [3], および 3D-1D法 [2] 等の多くの解析アルゴリズムにおいて、 動的計画法 (DP:Dynamic Programming) が用いら れている.本稿では, DPをハードウェアによって 高速処理する専用プロセッサを提案し,ゲノム情報 学アプリの特性に合わせたその最適設計について述 べる.また,同プロセッサを用いて、代表的な相同 性検索アルゴリズム Smith-Waterman 法を高速に処 理する.

## 2 相同性検索アルゴリズム

ゲノム情報学で扱う遺伝子情報配列のシーケンス は,4種類の塩基記号 A,C,G,T を並べた長さ 10<sup>3</sup>か ら 10<sup>8</sup> 程度の塩基文字列や,20 種類のアミノ酸記号 を並べた長さ 10<sup>3</sup>から 10<sup>5</sup> 程度のアミノ酸文字列集 合である.本稿で扱うゲノムシーケンスにおける相 同性検索アルゴリズム Smith-Waterman 法は,複数 のシーケンス間の類似度を DP を用いてスコア値と して計数し,その値を比較することによって相同性 を評価する.

Smith-Waterman 法は,DNA 全体に対する各塩基 もしくはアミノ酸文字の出現頻度,アミノ酸の化学 的性質をもとに,統計的に算出された各文字間のス コア表(アミノ酸では BLOSUM 行列)を参照してよ リ尤度が最大となる類似部位を探る.また,Smith-Waterman 法は,その類似部分において最適アライ ンメント,すなわち一方の文字列にスコア的に最小 となる変形を施して,いかに他方の文字列と一致さ せるかの方法を探る.Smith-Waterman 法では,図 1に示すようなテーブルを作成する.テーブルの*x* 軸,*y*軸には比較する文字列が並べられている.手 順1に示すアルゴリズムによりテーブルの各節点の スコア値を求める.このスコア値は,当該節点の位 置における部分文字列の相同性の強さに相当する.



図 1: Smith-Waterman 法による相同性検索

手順1【スコア算出アルゴリズム】

2 つの文字列長 m, n であるゲノムシーケンス  $s_1, s_2$ を入力として受け取り, x 軸, y 軸に対応させる.節 点 (i, j)の持つ伝搬スコアを F(i, j) とし,挿入およ び欠損によるギャップペナルティを d とする. BLOSUM 行列等のスコアテーブルを参照し決 定する.

- 2. i = 0, j = 0, 境界条件 = 0 として, 作成したテーブルの節点 <math>(0,0)から節点 (m-1, n-1)に 向かって DP を行う.
- (a) s(i,j) を保有する当該節点は,すでに計算の 完了している3方向の節点(i - 1, j),(i, j - 1),(i - 1, j - 1)からのスコアの伝搬を受ける.
- (b) 式(1)を適用し,3方向の伝搬スコアおよび ギャップ等を考慮した中で,最高スコアを示 すもののみを選択して当該節点の伝搬スコア とする.また,同時に選択した方向を伝搬元 として保存する.

$$F(i,j) = \max \begin{cases} 0 \\ F(i-1,j-1) + s(x_i,y_i) \\ F(i-1,j) - d \\ F(i,j-1) - d \end{cases}$$
(1)

- (c) 次節点3方向に対して,当該節点の伝搬スコ ア F(i,j)を伝搬する.
- (d) (a) に戻り i = m-1, j = n-1 まですべての
   節点について繰り返す.
- 3. *i* = *m*, *j* = *n* の伝搬が完了した時点で,各節点の伝搬スコアと伝搬元を出力する.
- 4. アラインメントを得るために,伝搬スコア値が 最大となる節点を見つけ,節点で保存した伝搬 元を辿りその (*i*, *j*)を出力する.

手順1の結果,各節点における伝搬スコア値と, 伝搬元方向が得られる.図1では太い矢印部分とな るが,特に,伝搬スコア値が最大となる節点から伝 搬元方向を辿ったアラインメントが最も類似してい る部分となる.

今回は,利用頻度の高い局所アラインメントを得 ることができる Smith-Waterman アルゴリズムを実 装するが,DPのスコア伝搬方法を変更することで 大域アラインメントを求める Needleman-Wunsch ア ルゴリズムもスコア値伝搬の方法を変更することに よって実現可能である.

## 3 プロセッサアーキテクチャ

本節では,2つのシーケンスのスコアとアライン メントを得ることができる専用プロセッサアーキテ クチャの概要を述べる.

<sup>1.</sup> シーケンス間の各文字同士のスコアs(i,j)を, クチャの概要を述べる.



図 2: プロセッサアーキテクチャ

提案するアーキテクチャは,Smith-Waterman法 で用いられる DPを高速処理する準データフローアー キテクチャであり,図2に示す構成をとる.

DP テーブルの各節点の情報は,固定長トークン に格納され環状パイプラインによる,データフロー 並列処理によって DP を高速処理する.

各 PE は,依存解決機構および発火機構によって パイプラインへ発火されたトークンを処理する.PE で処理された伝搬スコア値決定済みのトークンは, SRAM に書き戻される.各 PE で処理されたトーク ンは,伝搬スコア値と伝搬フラグに分割され,伝搬 スコア値は,隣接節点を処理する隣接 PE のキャッ シュに転送される.また,伝搬フラグは,伝搬スコ ア値の転送完了のシグナルとして Switch へ転送さ れ,割り当て予定の Dependence Resolver によって 処理される..

各パイブラインは,次の部品によって図3に示す 構成を行う.

- 1. デコーダ
- 2. トークンプリフェッチ機構 (Reservation Station)
- 3. データ依存監視および発火機構 (Observation Flags and Arbitrator)
- 4. スコア値を計算するプロセッサ (PE:Processor Element)
- 5. 伝搬されたトークンが格納されるキャッシュメ モリ (Delivery Cache)
- んコアテーブル
- 7. 並列化された際に PE 間で情報を交換するスイッチ (IPS:Inter Pipline Switch)



図 3: ストリーム構成

3.1 トークン

2つのシーケンスは,図4(a) に示す書式のトーク ンとして SRAM に格納され,多重化されたパイプ ラインによって並列に処理される.このトークンは, PEによって処理されスコア値が決定すると,図4(b) の書式となり,再び SRAM に格納される.

| 31 | 26        | 25    | 20               | 19 18 | 17 16            | 15               | 8 7 |      | <u>ر</u> |  |  |  |
|----|-----------|-------|------------------|-------|------------------|------------------|-----|------|----------|--|--|--|
|    | S10-6     | S20-6 | ;                | Y8-9  | X <sub>8-9</sub> | Y0-7             |     | X0-7 |          |  |  |  |
|    | (a) PE処理前 |       |                  |       |                  |                  |     |      |          |  |  |  |
| 31 |           | 22    | 21 20            | 19 18 | 17 16            | 15               | 8 7 |      | 0        |  |  |  |
|    | SCORI     | E0-9  | D <sub>0-1</sub> | Y8-9  | X8-9             | Y <sub>0-7</sub> |     | X0-7 |          |  |  |  |



図 4: トークン

トークンに格納される情報は次の通りである.

- 文字 [S1<sub>0-6</sub>, S2<sub>0-6</sub>]: 塩基やアミノ酸文字を格納 する.
- 座標 [X<sub>0-9</sub>, Y<sub>0-9</sub>]: トークンの位置を示すもので、トークンの識別や各 PE へのディスパッチに使用される。
- 伝搬スコア値 [SCORE<sub>0-9</sub>]: PE での処理前は 不定値であり, PE で処理された結果, 伝搬ス コア値が格納される.また, この値はアライン メントを辿る際や局所的な類似性の発見に使用 される.

● 伝搬元方向フラグ [D<sub>0-1</sub>]: スコア値が伝搬され てきた方向を示すフラグ.3方向を識別する.

各部品間は、トークンのキューとなるパイプライ ンによって接続される.また, IPS によって, 各パ イプライン間が互いに結合されトークン情報の一部 が交換される.SRAMに格納されるトークンは,高 速アクセスと後述するキャッシュ容量削減の点から 最小容量で構成する.

### 3.2 PEへのディスパッチアルゴリズム

DP 実行時に展開されたテーブルの節点 (*i*, *j*) の処 理を,式(2)によって与えられる番号 *PE<sub>num</sub>*の PE に割り当てる.ただし Pは,プロセッサ内の PE数 である.

$$PE_{num}(i,j) = (|j-i|+1) \mod P$$
 (2)

図5は、式(2)によるPEの割り当てを図示した ものである.節点(i,j)と(i+1,j),(i-1,j)は, 隣接する PE に割り当てられる.つまり,当該節点 において k = i + jの時,その他の各節点における i + jが k となり,かつ隣接しているか近隣の節点 は異なった PE へ割り当てる. DP のスコア伝搬は, i = 0, j = 0から右下方向に Wave Front で行われ る.その結果, k が同値の節点は近時刻に依存解決 され, PEの利用率が向上する.ただし, 波面上の 節点が同期的に処理されるわけではないことに注意 を ISS を介さずに直接キャッシュする伝搬キャッシュ されたい.

|        |   |   |   |   |   |   | •   | Х     |
|--------|---|---|---|---|---|---|-----|-------|
|        | 1 | 2 | 3 | 0 | 1 | 2 | 3   | 0     |
|        | 0 | 1 | 2 | 3 | 0 | 1 | 2   | 3     |
|        | 3 | 0 | 1 | 2 | 3 | 0 | 1   | 2     |
|        | 2 | 3 | 0 | 1 | 2 | 3 | 0   | 1     |
|        | 1 | 2 | 3 | 0 | 1 | 2 | 3   | 0     |
| ↓<br>Y | 0 | 1 | 2 | 3 | 0 | 1 | 2   | 3     |
|        |   |   |   |   |   |   | PEŝ | 女 = 4 |

図 5: 節点のディスパッチ

3.3 パイプライン間スイッチ

本アーキテクチャで使用する DP の計算パターン では,隣接節点へのスコア伝搬が必要となる.節点 でのスコア計算を並列処理によって,異なるタイミ ングで処理するため,計算された節点の伝搬スコア を隣接する次処理節点に伝搬する必要がある.

Smith-Waterman 法では,スコア値の伝搬先が隣 接節点に限られていることに着目し,複雑化しがち なデータフローアーキテクチャの交換網の設計を簡 素化する.Smith-Waterman法の任意の節点(*i*, *j*)に おけるスコア値の伝搬先は,節点(i+1,j),(i+1,j+1)1), (*i*, *j*+1) であり, どの節点においても同じ方向に 伝搬される.そこで,パイプライン間のデータ交換網 である IPS を図 6 のように構成し, スイッチを削減 し,回路規模の大幅な縮小と処理時間の短縮を図る.



#### 3.4伝搬キャッシュ

ある時刻に各PEで処理されている節点は,DPの 特性上近隣の節点である.また,該当節点の処理結 果であるスコアの伝搬先は,式(2)より隣接 PE と なる.そこで各 PE に, 隣接 PE からの伝搬スコア 機構 (図3を参照)を実装する.

前節から、スコア値の伝搬方向が固定されるため PEからの伝搬スコアのキャッシュも特定され,交換 網が不要となる.

3.5 データ発火機構とプリフェッチ機構

SRAM に格納されているトークンは,データ依存 の解決を待っている. 節点 (*i*, *j*) のデータ依存が解 決し発火可能となる条件は式(3)となる.

$$\begin{cases} 節点 (i-1,j), (i,j-1), (i-1,j-1) \\ のスコア伝搬が完了 かつ (3) \\ PE_{num}(i,j) \text{ o PE } \vec{n} \text{ empty} \end{cases}$$



図 7: データ依存監視および発火機構

ように構成する.このデータ発火機構は,パイブラ インの数だけ用意され次のモジュールで構成される.

- 1. 分配器 (Distributor)
- 2. 監視フラグ (Observation Flags)
- 3. 調停器 (Arbitrator)
- 4. 先読み予約レジスタ (Reservation Station)
- 5. 発火ゲート (Ignition Gate)

Observation Flags は,発火待ちのトークンデータ 依存待ちを示すフラグであり,発火待ちのトークン を識別するための節点情報(*i*, *j*)を参照する.この フラグは,3方向からそれぞれスコアが伝搬される とフラグがセットされ,すべてのフラグがセットさ れた時点で,データ依存が解決される.その後パイ プラインに空きが生じた時点でArbitratorによって, Ignition Gate に発火信号が伝達され,Reservation Station に格納されているトークンがパイプライン に送出される.

Distributor は, 複数存在する Observation Flags に伝搬済みフラグをセットする.あるトークンに対 して,既に伝搬情報が到達している場合は,既存の Observation Flagsの中の該当するフラグにセットさ れる.初めて,伝搬情報が届いたトークンは,SRAM にデコーダを経由してプリフェッチ命令が発行され, Reservation Station にトークンがロードされる.ま た,同時に Observation Flagsの該当するフラグが セットされる.

Arbitrator は、プライオリティセレクタで構成され、複数ある Observation Flags を監視し発火可能 なトークンを選出する.

#### 3.6 PCとの連携

これまでに述べたデータフローアーキテクチャを, FPGA にプログラムし, DP 専用プロセッサとする. 実装予定のボードとして,3万ゲートの FPGA を2 個,4MByteのSRAM と PCI バスのインターフェ イスを装備する PCI ボードを用いる.これを,PC に接続し,PCで動作するアプリケーションのDP処 理コードを FPGA を駆動するコードに置き換えて使 用する.

本稿で取り扱うようなゲノム情報学アプリケーショ ンのシーケンスは長いため,その全てを SRAM 上に 展開できない.DP のテーブルを PC において SRAM に展開可能な大きさに分割し,そのシーケンスをボー ド上の SRAM に展開する.

図 8(a) に示すように,2次元の DP の計算量は、 シーケンス長の2乗に比例する.また,この計算量 を示す面積は,SRAM 上に展開されるトークンの数 と一致する.そのため,一括計算可能な面積は制限 される.そこで,図8(b)のように一括計算可能な面 積に分割し,DP を実行する.この分割の単位を示 す矩形をウィンドウフレームと呼ぶ.



図 8: ウィンドウフレームシフト

DP 専用プロセッサは, DP 実行中には PC との通 信が発生しないことを利用して,計算が完了する前 にウィンドウフレームの左上部分を計算完了地点に シフトさせ,新しいウィンドウフレームのシーケン スを PC から転送する.このように,計算完了前に PC に割り込みを発生させ次に必要なシーケンスが 提供されることにより PE は有効に利用され,処理 時間の短縮が望まれる.

## 4 シミュレーションによる性能評価

DPを全てソフトウェアによって実行した場合と、 本稿で提案した DP専用プロセッサを用いた場合の 実行時間について予備評価を行う.評価対象のシー ケンス長は,評価ボードに搭載されている4MByte のSRAMに展開可能な,長さ1024の2つの塩基文 字列とし,スコア値決定の方法は文字比較による計 算によって行う.プロセス起動,メモリ初期化,シー ケンス転送などのオーバヘッドは含まない.つまり, 双方ともにデータがメモリ上に存在している状態で DPを実行し,結果が得られる状態になるまでの時 間を求める.

C++コンパイラを用いて生成した,DPを実行す るソフトウェアを,PentiumIII 1GHz 搭載 PC で実 行時間を測定する.また,DP専用プロセッサに搭載 する PE 数を 1 から 1024 まで変化させ,伝搬キャッ シュはそれぞれの PE 数に応じて適当な容量を確保 し,ソフトウェアシミュレーションによって実行に 要するクロックの算出を行う.DP専用プロセッサ のクロック周波数は 33MHz とする.

ソフトウェアでの実行速度は,実時間で約0.85sec であり,これを1としたときのDPプロセッサでの 実行速度比を図9に示す.1PEで6.5倍程度を示し, 16PEsで13.5倍の速度が得られることがわかった.



図 9: DP プロセッサによる速度比 (シミュレーション)

## 5 まとめ

本稿では,ゲノム情報学分野のアプリケーション プログラムを高速化するための DP 専用プロセッサ の提案を行った.本 DP 専用プロセッサを用いるこ とで、ゲノムシーケンス解析における相同性検索が、 純ソフトウェア的手法と比べて高速に実現が可能と なる、ソフトウェアによるシミュレーションでは、 PentiumIII 1GHz のおよそ 13.5 倍程度の高速化が 達成できることを確認した.また、本稿では、Smith-Waterman法の専用プロセッサによる高速化を示した が、Needleman-Wunsch法をはじめとして他の DP を用いる多くのゲノム情報学アプリケーションも高 速化が可能となる、しかし、このシミュレーション は、PCとSRAMメモリ間のシーケンス情報や実行 結果の転送などを考慮していない、また、DP を実 行するシーケンス長によってもスループットは変化 する、DP プロセッサを FPGA に実装し、評価ボー ドを用いた開発を今後の課題としたい、

## 謝辞

本研究は,平成13年度科学研究費補助金・特定領 域研究(C)(2)(題名:ゲノム情報学アプリケーション の専用プロセッサ協調型並列処理)の助成を受けて いる.

## 参考文献

- S. F. Altschul, W. Gish, W. Miller, E. W. Myers, and D. J. Lipman, "Basic local alignment search tool," *Journal of Molecular Biolog*, vol.215, pp.403–410, 1990.
- [2] J. U. Bowie, N. D. Clarke, C. O. Pabo, R. T. Sauer, "Identification of protein folds: matching hydrophobicity patterns of sequence sets with solvent accessibility patterns of known structures," *Proteins*, vol.7, pp.257–264, 1990.
- [3] R. Durbin,S. Eddy,A. Krogh, and G. Mitchison, *Biological sequence analysis*, Cambridge University Press, 1998.
- [4] D. T. Hoang, "Searching Genetic Databases on Splashzz 2," Proc. of IEEE Workshop on FP-GAs for Custom Computing Machines, pp.185– 191, April 1993.
- [5] W. R. Pearson, "Rapid and sensitive sequence comparison with FASTP and FASTA," *Methods* in *Enzymology*, Academic Press, vol.183, pp.63– 98, 1990.