@techreport{oai:ipsj.ixsq.nii.ac.jp:00216070,
 author = {境, 琳太郎 and 中原, 康宏 and 佐野, 健太郎 and 飯田, 全広 and Rintaro, Sakai and Yasuhiro, Nakahara and Kentaro, Sano and Masahiro, Iida},
 issue = {13},
 month = {Jan},
 note = {本研究では FPGA クラスタ上で CNN の処理を高速化する CNN アクセラレータを提案する.FPGA 毎に処理を分散,並列化することで CNN の推論処理をより高速化することを目的とする.本研究では FPGA クラスタにおける CNN 推論性能の事前評価として,FPGA 用 CNN アクセラレータのアーキテクチャの単体性能評価,また複数 FPGA で CNN 処理を分割した場合の CNN 処理性能の評価を行う.アーキテクチャは本研究室で開発された再構成性をもつ AI チップ ReNA をもとに開発を行う.ReNA アーキテクチャを FPGA に最適化をした場合,最適化する前のものと比べて CNN の推論処理性能が 64% 向上した.また,複数 FPGA で CNN 処理を分割する方法では,FPGA の個数が 16 個に増えても並列化効率を最大で 90% に保てることがわかった., In this study, we propose a CNN accelerator for FPGA clusters, which accelerates the CNN inference process by distributing and parallelizing it to each FPGA.As a preliminary evaluation of CNN inference performance in FPGA clusters, we evaluate the stand-alone performance of the architecture of the CNN accelerator for FPGAs, and also evaluate the performance when the CNN processing is divided among multiple FPGAs.This architecture is developed based on our previously proposed reconfigurable AI chip, ReNA.By optimizing this architecture for FPGAs, we found that the inference performance of FPGAs is improved: the CNN throughput increased by 64% compared to the pre-optimization level.By dividing CNN processing among multiple FPGAs, parallelization efficiency can be kept at a maximum of 90% even when number of FPGAs increases to 16.},
 title = {FPGAクラスタ向けCNN推論用アクセラレータの一検討},
 year = {2022}
}