@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00196116,
 author = {田仲, 顕至 and 有川, 勇輝 and 川合, 健治 and 加藤, 順一 and 伊藤, 猛 and ゴー, ヒュークー and 森田, 和孝 and 三浦, 史光 and 坂本, 健 and 重松, 智志},
 book = {第81回全国大会講演論文集},
 issue = {1},
 month = {Feb},
 note = {データ並列分散深層学習では、複数のワーカーノードで計算された勾配情報を集約・共有するために、Allreduceが行われる。この時、勾配情報のメッセージサイズは100KB以上と大きく、Allreduceのレイテンシが分散深層学習高速化のボトルネックとなることが知られている。本研究では、この集団通信のレイテンシを短縮するために、Allreduceに特化したデータフローアーキテクチャを提案する。実験結果より、提案手法がワイヤスピード（10 Gbps）の96％でAllreduceを実行可能であることが示された。さらに、提案手法は、既存のハードウェア実装によるAllreduceの高速化手法と比べ、ResNet-50と同等のメッセージサイズのデータをAllreduceする時に生じるレイテンシを65％短縮した。},
 pages = {7--8},
 publisher = {情報処理学会},
 title = {分散深層学習のためのワイヤースピードでのIn-Network Computingの検討},
 volume = {2019},
 year = {2019}
}