2024-03-29T10:41:51Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000287642023-04-27T10:00:04Z01164:02240:02247:02250
MPI プログラムの自律チェックポインティング方式の実現Implementation of Self-Checkpointing for MPI Programsjpnhttp://id.nii.ac.jp/1001/00028764/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=28764&item_no=1&attribute_id=1&file_no=1Copyright (c) 2007 by the Information Processing Society of Japan広島市立大学広島市立大学/新日鉄ソリューションズ広島市立大学広島市立大学松岡, 俊輔前田, 哲宏窪田, 昌史北村, 俊明大規模な並列計算機や PC クラスタ、グリッドなどのノード数が増加するにつれ、ノードやネットワークの故障に対処することが必要不可欠となってきている。MPI は、それらの並列処理環境上で事実上の標準並列ライブラリとして広く用いられている。そのため、同期チェックポインティングやメッセージロギングの機能を備えた耐故障性 MPI が多数提案されているが、それらは大きなオーバヘッドをもたらすという問題がある。本稿ではオーバヘッドの低減を図るプログラム主導の自律チェックポイント方式を提案し、その有効性を NAS Parallel Benchmarks を用いて評価する。With the increase of nodes in parallel computing platforms such as large-scale parallel machines, PC clusters and Grids, it has become necessary to handle frequent failures in node and network. On those platforms, MPI is widely used as a de-facto standard library for parallel computing. Many researches have focused on fault tolerant MPI and proposed fault tolerant message passing protocols based on coordinated checkpointing or message logging, which bring about large overhead in performance. In this report, we propose a program-initiated self-checkpointing which aims to reduce the overhead in performance. We evaluate the effectiveness of the proposed method using the NAS parallel benchmarks.AN10463942情報処理学会研究報告ハイパフォーマンスコンピューティング(HPC)200780(2007-HPC-111)61662007-08-012009-06-30