Item type |
SIG Technical Reports(1) |
公開日 |
2016-08-01 |
タイトル |
|
|
タイトル |
パラメータサーバを用いた並列機械学習システムにおける耐故障性のシミュレーション |
タイトル |
|
|
言語 |
en |
|
タイトル |
A simulation study on fault tolerancy of parallel machine learning systems with parameter servers |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
耐故障・信頼性 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
筑波大学/産業技術総合研究所 |
著者所属 |
|
|
|
産業技術総合研究所/筑波大学 |
著者所属 |
|
|
|
産業技術総合研究所/筑波大学 |
著者所属(英) |
|
|
|
en |
|
|
University of Tsukuba / National Institute of Advanced Industrial Science and Technology |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Advanced Industrial Science and Technology / University of Tsukuba |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Advanced Industrial Science and Technology / University of Tsukuba |
著者名 |
黎, 明曦
谷村, 勇輔
中田, 秀基
|
著者名(英) |
Mingxi, Li
Yusuke, Tanimura
Hidemoto, Nakada
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
大規模なデータを対象とする機械学習システムの高速化には並列化が必須である.パラメータサーバと多数のワーカ計算機を用いるデータ並列機械学習システムにおいては,一般の大規模システムと同様に耐故障性が問題になるが,並列機械学習システムにおける耐故障性の議論は進んでいない.本稿ではパラメータサーバを用いた並列機械学習システムにおける耐故障性に関して議論し,シミュレーションを用いて大規模なシステムにおける定量的な評価を行う.その結果,パラメータサーバ上の情報を用いることでチェックポイントのコストを大幅に低減することができること,さらには,収束への悪影響を許容すれば,チェックポイントからのリカバリコストも低減できることを明らかにした. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Parallel computation is essential for machine learning systems to be more faster. There are two techniques to build parallel machine learning systems; namely data parallel method and model parallel method. In this paper, we only disuss data parallel where large number of parameter servers and computation servers communicate each other to perform computation. Fault tolerancy is a big problem on large scale computation system in general, however, there are not much discussions about the fault folerancy of parallel machine learning system, in this paper, we discuss the fault tolerancy of parallel machine learning systems which use parameter servers. Parameter servers gives extra redundancy to the system and could double as the checkpoint server. We also quantitatively evaluate several fault tolerance method using parallel environment simulator SimGrid. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10096105 |
書誌情報 |
研究報告システム・アーキテクチャ(ARC)
巻 2016-ARC-221,
号 20,
p. 1-6,
発行日 2016-08-01
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8574 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |