@techreport{oai:ipsj.ixsq.nii.ac.jp:00172916,
 author = {黎, 明曦 and 谷村, 勇輔 and 中田, 秀基 and Mingxi, Li and Yusuke, Tanimura and Hidemoto, Nakada},
 issue = {20},
 month = {Aug},
 note = {大規模なデータを対象とする機械学習システムの高速化には並列化が必須である.パラメータサーバと多数のワーカ計算機を用いるデータ並列機械学習システムにおいては,一般の大規模システムと同様に耐故障性が問題になるが,並列機械学習システムにおける耐故障性の議論は進んでいない.本稿ではパラメータサーバを用いた並列機械学習システムにおける耐故障性に関して議論し,シミュレーションを用いて大規模なシステムにおける定量的な評価を行う.その結果,パラメータサーバ上の情報を用いることでチェックポイントのコストを大幅に低減することができること,さらには,収束への悪影響を許容すれば,チェックポイントからのリカバリコストも低減できることを明らかにした., Parallel computation is essential for machine learning systems to be more faster. There are two techniques to build parallel machine learning systems; namely data parallel method and model parallel method. In this paper, we only disuss data parallel where large number of parameter servers and computation servers communicate each other to perform computation. Fault tolerancy is a big problem on large scale computation system in general, however, there are not much discussions about the fault folerancy of parallel machine learning system, in this paper, we discuss the fault tolerancy of parallel machine learning systems which use parameter servers. Parameter servers gives extra redundancy to the system and could double as the checkpoint server. We also quantitatively evaluate several fault tolerance method using parallel environment simulator SimGrid.},
 title = {パラメータサーバを用いた並列機械学習システムにおける耐故障性のシミュレーション},
 year = {2016}
}