WEKO3
アイテム
ユーザ透過な耐故障性を実現するMPIへ向けて
https://ipsj.ixsq.nii.ac.jp/records/29363
https://ipsj.ixsq.nii.ac.jp/records/29363c48afd6b-939f-4f0b-abb3-51bab4973986
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2001 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2001-07-25 | |||||||
タイトル | ||||||||
タイトル | ユーザ透過な耐故障性を実現するMPIへ向けて | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Towards MPI with user - transparent fault tolerance | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京工業大学 | ||||||||
著者所属 | ||||||||
東京工業大学/科学技術振興事業団 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Institute of Technology/JST | ||||||||
著者名 |
高宮, 安仁
松岡, 聡
× 高宮, 安仁 松岡, 聡
|
|||||||
著者名(英) |
Yasuhito, Takamiya
Satoshi, Matsuoka
× Yasuhito, Takamiya Satoshi, Matsuoka
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | コモディティクラスタリングシステムにおける,ノード数規模の拡大,計算実行時間およびメモリ空間の急激なスケールアップに伴い,アプリケーションおよびシステムの障害発生の潜在的可能性への対処が急務となっている.しかし,クラスタ等の並列計算分野では,これまでこうした耐故障性についてのソフトウェア開発が重視されておらず,十分ではなかった.また,信頼性 ユーザ透過性 実行時オーバヘッドの兼ね合いをユーザが指定することのできる,柔軟な耐故障性機構が求められているが,従来のクラスタ向け耐故障性システムでは,単一のポリシ/機構専用のものがほとんどであった.加えて,実アプリケーションを用いた場合のオーバヘッドも明らかではなかった.本稿では,耐故障性機構をもつ MPI である,Parakeet システムを提案する.Parakeet システムを用いることによって,ユーザは性能を損ねることなく,容易に耐故障性,リカバリのポリシ/機構を指定できる.本稿では予備段階として,ユーザレベルチェックポインタ,プロセスマイグレーション Coordinated Checkpointing を MPICH 上にユーザ透過に実装した.予備的な評価の結果,Parakeet システムは移植性を保ちつつ効率的であり,本研究の将来的な目標であるプラグアンドプレイクラスタリングの基礎技術として有用であることがわかった. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Rapid increase in the number of nodes as well as the massive scale of computing in terms of both time and memory space for commodity clustering is mandating the handling the potential failure of applications and system as the norm,while inherent fault tolerance and recovery have not been integral part of software tools being developed for parallel computing on such clusters.Moreover,flexible fault tolerance mechanisms in which the user could manage the balance of reliability vs.transparency vs.execution overhead would be vital,but most previous work on cluster fault tolerance have made available only a single policy and/or mechanism, and moreover, their overhead have not been exactly measured for practical applications. Instead, we propose a new fault tolerant MPI system called Parakeet which allows various fault tolerance and recovery mechanism could be easily specified by the user, while retaining the efficiency.As a preliminary basis,we have implemented a user-level,coordinated checkpointing and migration protocol on top of MPICH in a user-transparent fashion. By specifying new protocols based on the underlying Parakeet mechanism, one could achieve Plug-and-Play management of large-scale clusters.Preliminary benchmarks show that Parakeet is portable and efficient,and could well serve as a basis for Plug-and-Play clustering. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10463942 | |||||||
書誌情報 |
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) 巻 2001, 号 77(2001-HPC-087), p. 129-134, 発行日 2001-07-25 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |