| Item type |
SIG Technical Reports(1) |
| 公開日 |
2024-03-11 |
| タイトル |
|
|
タイトル |
富岳上の大規模機械学習におけるAll-reduce通信の高速化 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
通信最適化 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
東京工業大学 |
| 著者所属 |
|
|
|
株式会社メトロ |
| 著者所属 |
|
|
|
株式会社メトロ |
| 著者所属 |
|
|
|
理化学研究所 |
| 著者所属 |
|
|
|
理化学研究所 |
| 著者所属 |
|
|
|
東京工業大学 |
| 著者所属(英) |
|
|
|
en |
|
|
Tokyo Institute of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Metro, Inc. |
| 著者所属(英) |
|
|
|
en |
|
|
Metro, Inc. |
| 著者所属(英) |
|
|
|
en |
|
|
RIKEN |
| 著者所属(英) |
|
|
|
en |
|
|
RIKEN |
| 著者所属(英) |
|
|
|
en |
|
|
Tokyo Institute of Technology |
| 著者名 |
中村, 秋海
佐治, 隆行
大川, 靖
似鳥, 啓吾
黒田, 明義
横田, 理央
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年の深層学習モデルの大規模化に伴い,大規模モデルの学習では,複数の計算ノードにモデルを分散して配置し,ノード間で大量の集団通信を行うことで並列学習を実現している.ノード間集団通信において,深層学習に用いられる代表的な通信パターンである all-reduce に注目し,富岳の 6 次元メッシュ/トーラス直接網を利用して隣接通信に限定する双方向リングアルゴリズムの開発をすることで,富岳上の all-reduce 通信の高速化を行った.また,大規模言語モデルの学習コードの all-reduce を部分的に本研究で開発したものに置き換え,実際に深層学習モデルにおいて速度の計測を行った. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10463942 |
| 書誌情報 |
研究報告ハイパフォーマンスコンピューティング(HPC)
巻 2024-HPC-193,
号 10,
p. 1-10,
発行日 2024-03-11
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8841 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |