WEKO3
アイテム
自律的な通信回復を行う Fault Tolerant MPI の実装と評価
https://ipsj.ixsq.nii.ac.jp/records/29195
https://ipsj.ixsq.nii.ac.jp/records/2919537ac1e63-55a5-4912-a67f-8c412a99c3c2
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2003 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2003-08-04 | |||||||
タイトル | ||||||||
タイトル | 自律的な通信回復を行う Fault Tolerant MPI の実装と評価 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Implementation and Evaluation of a Fault Tolerant MPI with Reliable TCP/IP Sockets | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
東京工業大学 | ||||||||
著者所属 | ||||||||
東京工業大学 | ||||||||
著者所属 | ||||||||
東京工業大学/国立情報学研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Tokyo Institute of Technology/National Institute of Informatics | ||||||||
著者名 |
實本, 英之
高宮, 安仁
松岡, 聡
× 實本, 英之 高宮, 安仁 松岡, 聡
|
|||||||
著者名(英) |
Hideyuki, Jitsumoto
Yasuhito, Takamiya
Satoshi, Matsuoka
× Hideyuki, Jitsumoto Yasuhito, Takamiya Satoshi, Matsuoka
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | クラスタシステムでは、ノード数の増大によりシステム全体の障害発生の潜在的可能性が高い。そのため、長時間にわたる計算を安定して行うには、耐故障性を持ったミドルウェアが必要になる。本研究では、耐故障性を持った MPI の実装と評価を行った。この MPI は逐次プロセスのチェックポインタと耐故障性通信路により MPI プロセスのチェックポインティング/リスタートを行う。ベースとしてMPICHを用い、通信路の耐故障性はRocks ライブラリ、チェックポインタはckpt ライブラリを用いた。32プロセスを用いたNPB-CGの結果、本実装では、オーバーヘッドがオリジナルMPICHの高々8%程度に抑えられることを確認した。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | On cluster systems, failure rates tend to be high due to a large number of constituents. Therefore, to perform stable long-time computation on cluster systems, middleware support for fault-tolerancy is inevitably required. We implemented a fault-tolerant MPI prototype system and measured the overhead of the system. Our MPI system implements coordinated checkpointing and recovery protocol on MPICH using a single process checkpointer called ckpt and a reliable network called Rocks. Preliminary evaluation using NPB-CG with 32 processes showed the overhead posed by Rocks stayed within just 8% . | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10463942 | |||||||
書誌情報 |
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) 巻 2003, 号 83(2003-HPC-095), p. 149-154, 発行日 2003-08-04 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |