2024-03-29T04:48:48Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:001072882023-04-27T10:00:04Z01164:01579:07406:07755
予備ノードを利用した故障後の実行継続手法の検討と評価An Evaluation of Fault Mitigation Method Using Spare Nodesjpnシステム運用http://id.nii.ac.jp/1001/00107264/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=107288&item_no=1&attribute_id=1&file_no=1Copyright (c) 2014 by the Information Processing Society of Japan理化学研究所計算科学研究機構理化学研究所計算科学研究機構理化学研究所計算科学研究機構理化学研究所計算科学研究機構吉永, 一美亀山, 豊久堀, 敦史石川, 裕ハードウェア規模の増大によりシステムの MTBF が短縮されるエクサスケール環境では,耐故障性の確保が重要な課題となっている.耐故障性の実現に向け,アプリケーションと連携した故障対策を行う Fault Resilience が注目され,多くの研究が進められている.我々は Fault Resilience なエクサスケール環境において実現される耐故障機構を用いて,どのように実行を継続することが効果的であるか,アプリケーションの実行継続手法についての研究を進めている.本論文では,故障後も効率的な実行継続を実現する手法を確立するために,実行継続手法の評価と検討を行う.そして予備ノードを利用した手法について,3 種類の予備ノード利用方式を提案しその性能差を検討するとともに,実アプリケーションへの適用に向けた議論を進める.In the upcoming Exa-scale era, faults could happen more frequently than ever, and thus, fault tolerance (FT) is getting more important. Although many FT mechanisms to survive failures has been proposed so far, there is no discussion how a job should survive from failures. In this paper, we explore and discuss three fault mitigation methods how to survive from a failure using spare nodes without loosing execution efficiency. Finally, it is discussed to apply those proposed method to real applications.AN10096105研究報告計算機アーキテクチャ(ARC)2014-ARC-21321192014-12-022014-11-28