@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00204975, author = {田仲, 顕至 and 有川, 勇輝 and 伊藤, 猛 and 寺田, 和彦 and 森田, 和孝 and 三浦, 史光 and 寺本, 純司 and 坂本, 健}, book = {第82回全国大会講演論文集}, issue = {1}, month = {Feb}, note = {分散深層学習を短時間に実行するために、各計算機ノードの集団通信をRing-Allreduceで実行する先行事例がある。ただし従来例では、データがGPUまたはCPUに移動するため遅延が発生してしまう。我々は、Ring-Allreduceを実行するFPGA NICを提案する。加えて、通信のオーバーヘッドを最小限に抑えるために、GPU計算時間と通信時間をオーバーラップさせるアルゴリズムの提案、さらに、既存と深層学習フレームワークと異種デバイス制御言語から構成される生産性の高いソフトウェアスタックを提案する。評価結果として、32のバッチサイズで精度を低下させることなく通信オーバーヘッドを84.27%削減できることを確認した。また、4ノード学習システムを使用すると、合計学習時間の7%短縮を実現した。}, pages = {31--32}, publisher = {情報処理学会}, title = {分散深層学習を高速化させるFPGA Ring-Allreduceの検討}, volume = {2020}, year = {2020} }