Item type |
SIG Technical Reports(1) |
公開日 |
2017-07-19 |
タイトル |
|
|
タイトル |
動的なプロセス数操作による分散深層学習の耐故障性と性能評価 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
耐故障性 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京工業大学 |
著者所属 |
|
|
|
東京工業大学 |
著者所属 |
|
|
|
東京工業大学 |
著者所属 |
|
|
|
デンソーアイティーラボラトリ |
著者所属 |
|
|
|
東京工業大学 |
著者名 |
辻, 陽平
野村, 哲弘
實本, 英之
佐藤, 育郎
松岡, 聡
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
深層学習はその認識精度の高さから研究開発が盛んに行われており,実社会においても深層学習を取り入れた応用技術を目にすることができる.深層学習では十分な認識精度を得るまでに,大量のデータと GPU などを用いた長時間の計算が必要となる.そのため HPC クラスタなどの高性能計算機での分散処理が利用される.分散システムでは故障発生間隔が短くなる傾向があり,アプリケーションの計算を正しく継続させるために耐故障性の手法が必要になる.本研究では大規模システム上の深層学習において重要になる耐故障性に対して,既存の checkpoint / restart でない新たな手法 detect / respawn を提案し,これを ULFM-MPI によって実装した.SPRINT と呼ばれる分散深層学習アプリケーションを用いて TSUBAME-KFC の 16 ノード (128 GPU) 上で提案手法と既存手法を比較したところ,10 時間の学習において提案手法が 2.5% 低いエラー率となり,より高い認識精度を達成することができた. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10463942 |
書誌情報 |
研究報告ハイパフォーマンスコンピューティング(HPC)
巻 2017-HPC-160,
号 9,
p. 1-7,
発行日 2017-07-19
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8841 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |