@techreport{oai:ipsj.ixsq.nii.ac.jp:00029363, author = {高宮, 安仁 and 松岡, 聡 and Yasuhito, Takamiya and Satoshi, Matsuoka}, issue = {77(2001-HPC-087)}, month = {Jul}, note = {コモディティクラスタリングシステムにおける,ノード数規模の拡大,計算実行時間およびメモリ空間の急激なスケールアップに伴い,アプリケーションおよびシステムの障害発生の潜在的可能性への対処が急務となっている.しかし,クラスタ等の並列計算分野では,これまでこうした耐故障性についてのソフトウェア開発が重視されておらず,十分ではなかった.また,信頼性 ユーザ透過性 実行時オーバヘッドの兼ね合いをユーザが指定することのできる,柔軟な耐故障性機構が求められているが,従来のクラスタ向け耐故障性システムでは,単一のポリシ/機構専用のものがほとんどであった.加えて,実アプリケーションを用いた場合のオーバヘッドも明らかではなかった.本稿では,耐故障性機構をもつ MPI である,Parakeet システムを提案する.Parakeet システムを用いることによって,ユーザは性能を損ねることなく,容易に耐故障性,リカバリのポリシ/機構を指定できる.本稿では予備段階として,ユーザレベルチェックポインタ,プロセスマイグレーション Coordinated Checkpointing を MPICH 上にユーザ透過に実装した.予備的な評価の結果,Parakeet システムは移植性を保ちつつ効率的であり,本研究の将来的な目標であるプラグアンドプレイクラスタリングの基礎技術として有用であることがわかった., Rapid increase in the number of nodes as well as the massive scale of computing in terms of both time and memory space for commodity clustering is mandating the handling the potential failure of applications and system as the norm,while inherent fault tolerance and recovery have not been integral part of software tools being developed for parallel computing on such clusters.Moreover,flexible fault tolerance mechanisms in which the user could manage the balance of reliability vs.transparency vs.execution overhead would be vital,but most previous work on cluster fault tolerance have made available only a single policy and/or mechanism, and moreover, their overhead have not been exactly measured for practical applications. Instead, we propose a new fault tolerant MPI system called Parakeet which allows various fault tolerance and recovery mechanism could be easily specified by the user, while retaining the efficiency.As a preliminary basis,we have implemented a user-level,coordinated checkpointing and migration protocol on top of MPICH in a user-transparent fashion. By specifying new protocols based on the underlying Parakeet mechanism, one could achieve Plug-and-Play management of large-scale clusters.Preliminary benchmarks show that Parakeet is portable and efficient,and could well serve as a basis for Plug-and-Play clustering.}, title = {ユーザ透過な耐故障性を実現するMPIへ向けて}, year = {2001} }