WEKO3
アイテム
MPI プログラムの自律チェックポインティング方式の実現
https://ipsj.ixsq.nii.ac.jp/records/28764
https://ipsj.ixsq.nii.ac.jp/records/28764ff082f75-62ac-4b45-9455-a92f57fdb908
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2007-08-01 | |||||||
タイトル | ||||||||
タイトル | MPI プログラムの自律チェックポインティング方式の実現 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Implementation of Self-Checkpointing for MPI Programs | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
広島市立大学 | ||||||||
著者所属 | ||||||||
広島市立大学/新日鉄ソリューションズ | ||||||||
著者所属 | ||||||||
広島市立大学 | ||||||||
著者所属 | ||||||||
広島市立大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Hiroshima City University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Hiroshima City University/Presently with NS Solutions Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Hiroshima City University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Hiroshima City University | ||||||||
著者名 |
松岡, 俊輔
× 松岡, 俊輔
|
|||||||
著者名(英) |
Shunsuke, MATSUOKA
× Shunsuke, MATSUOKA
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 大規模な並列計算機や PC クラスタ、グリッドなどのノード数が増加するにつれ、ノードやネットワークの故障に対処することが必要不可欠となってきている。MPI は、それらの並列処理環境上で事実上の標準並列ライブラリとして広く用いられている。そのため、同期チェックポインティングやメッセージロギングの機能を備えた耐故障性 MPI が多数提案されているが、それらは大きなオーバヘッドをもたらすという問題がある。本稿ではオーバヘッドの低減を図るプログラム主導の自律チェックポイント方式を提案し、その有効性を NAS Parallel Benchmarks を用いて評価する。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | With the increase of nodes in parallel computing platforms such as large-scale parallel machines, PC clusters and Grids, it has become necessary to handle frequent failures in node and network. On those platforms, MPI is widely used as a de-facto standard library for parallel computing. Many researches have focused on fault tolerant MPI and proposed fault tolerant message passing protocols based on coordinated checkpointing or message logging, which bring about large overhead in performance. In this report, we propose a program-initiated self-checkpointing which aims to reduce the overhead in performance. We evaluate the effectiveness of the proposed method using the NAS parallel benchmarks. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10463942 | |||||||
書誌情報 |
情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC) 巻 2007, 号 80(2007-HPC-111), p. 61-66, 発行日 2007-08-01 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |