WEKO3
アイテム
代替ノード利用手法による耐故障性実現に向けた通信性能の評価と検討
https://ipsj.ixsq.nii.ac.jp/records/102280
https://ipsj.ixsq.nii.ac.jp/records/1022800ad845ca-e038-45b2-be29-f0bb3034f0bc
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2014 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2014-07-21 | |||||||
タイトル | ||||||||
タイトル | 代替ノード利用手法による耐故障性実現に向けた通信性能の評価と検討 | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 耐故障技術 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
理化学研究所計算科学研究機構 | ||||||||
著者所属 | ||||||||
理化学研究所計算科学研究機構 | ||||||||
著者所属 | ||||||||
理化学研究所計算科学研究機構 | ||||||||
著者所属 | ||||||||
理化学研究所計算科学研究機構 | ||||||||
著者所属 | ||||||||
東京大学/理化学研究所計算科学研究機構 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
RIKEN AICS | ||||||||
著者所属(英) | ||||||||
en | ||||||||
RIKEN AICS | ||||||||
著者所属(英) | ||||||||
en | ||||||||
RIKEN AICS | ||||||||
著者所属(英) | ||||||||
en | ||||||||
RIKEN AICS | ||||||||
著者所属(英) | ||||||||
en | ||||||||
The University of Tokyo / RIKEN AICS | ||||||||
著者名 |
吉永一美
× 吉永一美
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 莫大なハードウェアにより構成されるエクサスケール環境では,システム全体の MTBF が短縮されるため,その実現には耐故障性の確保が不可欠である.現在主流である故障対策手法は,システムレベルでのチェックポイント・リスタートである.しかし,システムの大規模化に伴う保存データサイズの増大により,故障対策の時間がアプリケーションの実行時間を圧迫してしまい,エクサスケール環境での適用は現実的ではない.そこで,故障対策をシステムに一任せずアプリケーションと連携し,ユーザレベルでの故障対策を行う Fault Resilience が提案されている.我々はエクサスケールでの Fault Resilience 環境において,ユーザレベルでの故障対策をどのような手法で実装し,故障後の実行を継続させるべきかについて検討を進めている.現在はステンシル計算アプリケーションを対象とし,代替ノード利用手法を用いた故障からの復帰手法の評価を進めている.代替ノード利用手法では,故障したノードの代わりに予め確保していた予備ノードを用いることで実行を継続する.代替ノードを用いた場合,故障前とは異なるノード間での通信が発生することになり,通信の衝突が発生し通信性能が低下する可能性がある.本論文では,ステンシル計算アプリケーションに代替ノード利用手法を実装し,その通信性能の評価を行う.通信性能の低下の要因は,複数通信が同一通信経路を共有するために発生する通信衝突であると考え,その関係性について明らかにする.さらに,通信経路を制御することで衝突を回避し,通信性能の低下を回避する手法を提案し,その有効性を示す. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10463942 | |||||||
書誌情報 |
研究報告ハイパフォーマンスコンピューティング(HPC) 巻 2014-HPC-145, 号 6, p. 1-8, 発行日 2014-07-21 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |