Item type |
National Convention(1) |
公開日 |
2020-02-20 |
タイトル |
|
|
タイトル |
分散深層学習を高速化させるFPGA Ring-Allreduceの検討 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
コンピュータシステム |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
NTT |
著者所属 |
|
|
|
NTT |
著者所属 |
|
|
|
NTT |
著者所属 |
|
|
|
NTT |
著者所属 |
|
|
|
NTT |
著者所属 |
|
|
|
NTT |
著者所属 |
|
|
|
NTT |
著者所属 |
|
|
|
NTT |
著者名 |
田仲, 顕至
有川, 勇輝
伊藤, 猛
寺田, 和彦
森田, 和孝
三浦, 史光
寺本, 純司
坂本, 健
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
分散深層学習を短時間に実行するために、各計算機ノードの集団通信をRing-Allreduceで実行する先行事例がある。ただし従来例では、データがGPUまたはCPUに移動するため遅延が発生してしまう。我々は、Ring-Allreduceを実行するFPGA NICを提案する。加えて、通信のオーバーヘッドを最小限に抑えるために、GPU計算時間と通信時間をオーバーラップさせるアルゴリズムの提案、さらに、既存と深層学習フレームワークと異種デバイス制御言語から構成される生産性の高いソフトウェアスタックを提案する。評価結果として、32のバッチサイズで精度を低下させることなく通信オーバーヘッドを84.27%削減できることを確認した。また、4ノード学習システムを使用すると、合計学習時間の7%短縮を実現した。 |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00349328 |
書誌情報 |
第82回全国大会講演論文集
巻 2020,
号 1,
p. 31-32,
発行日 2020-02-20
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |