# 動的計画法向け汎用ハードウェアアクセラレータの提案

田中 飛鳥 † 宮崎 敏明 †

会津大学大学院 コンピュータ理工学研究科<sup>†</sup>

# 1. はじめに

動的計画法(Dynamic Programming, DP)は、最適化 問題を多段決定問題に分解し、逐次的に最適解を求 める手法である。DPは、バイオインフォマティクス における配列アライメントや、音声認識、画像マッ チングなど、数多くの実用的な応用分野が存在する。 そのため DP を高速処理する専用ハードウェアが提 案されてきた。しかし、それらは、ある特定の DP 問題に特化しており、他の DP 問題に適用すること は困難であった。本稿では、複数の DP 問題に対応 できる汎用性の高いハードウェアアクセラレータを 提案する。

### 2. 関連研究

文献[1]は、DP に基づいたアルゴリズムである Smith-Waterman アルゴリズムのハードウェアによる 高速化を目指したものである。また、音声認識用に 特化した DP 処理ハードウェアも提案されている[2]。 それらハードウェアは個々に専用化されており、他 の DP 問題にそのまま適用できるものではない。文 献[3]は、多くの DP 問題を汎用的に解くハードウェ アを目指したものであるが、入力データの初期設定 が複雑であり、実用性に欠ける。

#### 3. 提案回路

図1に DP 問題で使用される3つの演算パス(以下、単にパス)の例を示す。図1(a)は、隣接する過 去に求めた3つの部分最適解を用いて、今の部分最 適解を得るもので、Smith-Waterman アルゴリズム[1] などで用いられる。図1(b)と(c)のパスは、音声認識



や画像処理を実現する DP 問題に用いられている[4]。 図1に示した各パスは下式(1)(2)(3)の演算処理(以 下、DP 演算)に対応する。

$$g(i,j) = \min/\max \begin{cases} g(i-1,j) + f_1(i,j) \\ g(i-1,j-1) + f_3(i,j) \\ g(i,j-1) + f_2(i,j) \end{cases}$$
(1)

A General Hardware Accelerator for Dynamic Programming †Asuka Tanaka, †Toshiaki Miyazaki

†Graduate School of Information Systems, The University of Aizu

$$g(i,j) = \min \begin{cases} g(i-1,j-2) + 2f_3(i,j-1) + f_1(i,j) \\ g(i-1,j-1) + 2f_3(i,j) \\ g(i-2,j-1) + 2f_3(i-1,j) + f_2(i,j) \end{cases}$$
(2)

$$g(i,j) = \min \begin{cases} g(i-1,j-3)+2f_1(i,j-2)+f_4(i,j-1)+f_5(i,j) \\ g(i-1,j-2)+2f_1(i,j-1)+f_4(i,j) \\ g(i-1,j-2)+2f_1(i,j) \\ g(i-2,j-1)+2f_1(i-1,j)+f_2(i,j) \\ g(i-2,j-1)+2f_1(i-2,j)+f_2(i-1,j)+f_3(i,j) \end{cases}$$
(3)

ここで、DP 演算を行う 2 つの入力データ系列をそ れぞれ A={a<sub>1</sub>, a<sub>2</sub>, ..., a<sub>i</sub>, ..., a<sub>l</sub>}、B={b<sub>1</sub>, b<sub>2</sub>, ..., b<sub>j</sub>, ..., b<sub>j</sub> }とすると、各式の左辺 g(i,j)は、I×Jの 2 次行 列に保持できる。また、右辺の f<sub>k</sub>(i,j) | k  $\in$  {1,2,3,4,5} は、応用アプリケーションごとに定義される。例え ば、式(1)の形式を持つ Smith-Waterman アルゴリズム では、f<sub>1</sub>(i,j), f<sub>2</sub>(i,j)は定数、f<sub>3</sub>(i,j)は BLOSUM などの 置換行列 (定数行列)を参照して得られる値となる。 音声認識では、f<sub>k</sub>(i,j)は局所距離となる。

提案回路は式(1)~(3)のどの形式の DP 演算も解く ことができるもので、Processing Element(以下、PE) を線形接続した 1 次元 PE アレイからなる。提案回 路全体の概要と PE の内部構造を図 2 に示す。PE は 左隣接 PE から受け取った値を使って計算を行い、 終了後に右隣接 PE へ計算結果などを転送する。隣 接する PE 同士の入出力線は対応する番号、例えば、 in1 は out1 に、in2 は out2 に接続される。図 2 中、 破線で囲った Function 部は、Function base 部と Func<sub>k</sub>部からなる。ここで、Func<sub>k</sub> | k=1,2,3 は、式 (1)~(3)中の  $f_k(i,j)$ に対応する。各 Func<sub>k</sub>の出力は、



図 2. 提案回路(PE アレイ)全体と PE の内部構造

専用加算器に入力され、式(1)~(3)の右辺の各値が 計算される。扱う DP 演算に合わせて本 Function 部を設定する。例えば、Smith-Waterman アルゴリ ズムの場合は、Function Base から置換行列の値が 出力される。Func<sub>3</sub>は、Function Base 部から出力 された値をそのまま加算器に送るが、Func<sub>2</sub> と Func<sub>3</sub>は、ユーザによって定めた定数を出力する。 Min/Max 部では 3 つの入力値の最小値または最大 値を出力する。



図 3. 図 1 の演算パス(a) を実行する際に使用する PE 内のハードウェア資源







図 5. 図1の演算パス (c) を実行する際に使用する PE 内のハードウェア資源

PE 内部に設けたマルチプレクサを制御すること により、図2のPEアレイを用いて図1に示した3 つのパスの計算を行うことができる。図3-5に、各 パスに対応したDP演算を実行する際に使用するPE 内のハードウェア資源を示す。図中において、各入 出力信号名に対応して[]付きで記述した信号名は、 図2の入出力信号名に対応する。なお、マルチプレ クサ部の表記は省略した。式(1)(2)では右辺の大小比 較の対象となる式が3つなのに対して、式(3)のそれ は5つと多い。対応する演算機能を全て1つのPE 内に実現すると回路規模が増大するだけでなく、式 (1)(2)で表現される他のDP演算を実行する際、動作 しない回路部分が多く、ハードウェア資源が無駄と なる。それを解決するために、1つPEが扱うDP演 算の右辺の式は最大3つとし、それ以上必要な場合 は隣接するPEを組合せて、論理的に新たなPEとし、 処理を実行できる機構とした(図5参照)。

# 4. 評価

提案回路の機能を、C 言語を用いてモデル化し、 動作確認を行った。結果を表1に示す。使用した PE は 100 個である。表中 A, B とは2つの入力データ 系列 A, B の長さを表す。また、ステップ数とは、対 応する演算パスを実行するのに消費するシステムク ロック数のことである。本回路をシステムクロック 周波数 100MHz で動作させる場合、どの演算パスも 約 3 us で処理を終了する。文献[1]は、Smith-Waterman アルゴリズムを実行する専用回路を実装し、本評価 と同様のデータ系列を入力した場合、処理時間が 6.87 us であり、それはソフトウェアに比べ約 62 倍 であったと報告している。我々の提案回路は、それ よりも高速な動作が期待でき、しかも異なる DP 演 算にも対応できる汎用性がある。

表1. 図1の各演算パスの計算に必要なステップ数

| 演算パス | А   | В   | ステップ数 |
|------|-----|-----|-------|
| (a)  | 100 | 200 | 299   |
| (b)  | 100 | 200 | 299   |
| (c)  | 50  | 200 | 298   |

## 5. まとめ

本稿では、DPに基づいた複数のアルゴリズムに適 用可能なハードウェアアクセラレータを提案した。 提案アクセラレータは1次元のアレイプロセッサ構 造であり、PEの内部構成を工夫することにより、複 数の異なる DP 演算を実行できる。今後は、FPGA を用いた提案回路の実機テストを実施する予定であ る。

#### 参考文献

[1] K. Benkrid, Y. Liu, and A. Benkrid, "A Highly Parameterized and Efficient FPGA-Based Skeleton for Pairwise Biological Sequence Alignment," IEEE Transactions on Very Large Scale Integration (VLSI) Systems, Vol. 17, No. 4, pp. 561-570, 2009.

[2] J. Takahashi, S. Hamaguchi, K. Tansho, "A Modularized Processor LSI with a Highly Parallel Structure for Continuous Speech Recognition," IEEE Journal of Solid-State Circuits, Vol. 26, No. 6, pp. 833-843, June 1991.

[3] K. I. Diamantaras, W. H. Chou, and S. Y. Kung, "Dynamic Programming Implementation on Array Processor Architectures," Journal of VLSI Signal Processing Systems, Vol. 13, No. 1, pp. 27-35, 1996.

[4] H. Sakoe, and S. Chiba, "Dynamic Programming Algorithm Optimization for Spoken Word Recognition", IEEE Transactions on Acoustics, Speech and Signal Processing, Vol. 26, No. 4, pp. 43-49, 1978.