@techreport{oai:ipsj.ixsq.nii.ac.jp:00210540,
 author = {弘中, 和衛 and 飯塚, 健介 and 天野, 英晴 and Kazuei, Hironaka and Kensuke, Iizuka and Hideharu, Amano},
 issue = {42},
 month = {Mar},
 note = {マルチ FPGA システム FiC (Flow-in-Cloud) は，Xilinx 社のミドルクラス FPGA Kintex Ultrascale と安価なシングルボード コンピュータ (SBC) である Raspberry Pi3B を搭載したノード同士を高速なシリアルリンクを用いて相互に直接結合して構成したシステムで，深層学習アプリ ケーショ ンなどを対象に，複数の FPGA にアプリケーションを分割して実装することで， 単一の FPGA では実装が難しい規模のアプリケーショ ンを実装可能とすることを目的としている． 一方で，深層学習のよう なドメインに特化したアーキテクチャ (DSA:Domain Specific Architecture) はこれまで数多く提案されており ，ドメインに特化した専用の命令セット (ISA) と演算ユニットを持つことで， 特定ドメインにおけるアプリケーションのプログラマビリティを向上しつつ， 処理を高速化できる．本稿では，OSS の AI 向け処理フレームワークである Apache TVM に着目し，その FPGA 向け DSA の実装である VTA (Versatile Tensor Accelerator) を FiC に実装し，TVM から FiC を利用可能とすることを目的とした予備評価を行なった．シングルノード の FiC-SW ボードを対象に VTA を実装し，TVM 付属の ResNet-18 の推論ベンチマークによる ARM Cortex-A54 と演算スループット を比較した．FiC-SW 上に実装した VTA は最大 10 倍の演算スループットを達成し，TVM から FiC を利用可能な見込みを得た．},
 title = {FPGAシステムFlow-in-CloudにおけるTVMテンソルアクセラレータ (VTA) の実装},
 year = {2021}
}