2024-03-29T03:22:39Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:000790922023-11-14T00:51:14Z06164:06165:06617:06618
基幹バッチ処理向けグリッドスケジューラの耐障害性向上手法Fault tolerance improve method of grid scheduler for mission critical batch jobjpn大規模データ処理http://id.nii.ac.jp/1001/00079092/Conference Paperhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=79092&item_no=1&attribute_id=1&file_no=1Copyright (c) 2011 by the Information Processing Society of Japan(株)日立製作所横浜研究所(株)日立製作所ソフトウェア事業部(株)日立製作所金融システム事業部細内, 昌明渡辺, 和彦石合, 秀喜複数のジョブに渡って大量データを処理するワークフローがある基幹バッチ処理は,障害による遅延を最小化し終了時刻を厳守することが求められる.基幹バッチ処理にグリッドスケジューラを適用することでハードウェア障害への耐障害性は向上するが,他ノードで再実行しても回復できない自動回復不可能障害への耐障害性は向上せず,分割数が増えることで障害回復運用が複雑化し遅延を招きやすい.複雑化を回避するため障害発生時にワークフローを中断すると,再実行負荷を低減することができない.このため,自動回復不可能障害の耐障害向上手法として,データ視点のワークフロー管理手法を提案する.大量データを分割したロットを単位にワークフロー内の進捗状態を管理する.障害が発生してもワークフローは継続し,個々のロットを指定しなくても,未実行または異常終了したタスクのロットのみを自動選択して再実行タスクに割り当てる.本手法を実装したグリッドスケジューラ uGPS では,分割数が増えても再実行のための運用時間も再実行時間も増加させず,障害による遅延を抑制し,耐障害性を高めることができることを示した.Minimization delay due to the failure and the punctuality of the job workflow ending time are required in the mission critical batch processing large scale data across multi jobs. The fault tolerance of the hardware failure is improved by applying a grid scheduler to the mission critical batch processing. But, the fault tolerance of the automatic recoverable failure cannot be improved even if rerun the workflow to other nodes, and the workflow is delayed easily because fault recovery use becomes complicated due to increasing number of partitions. If the workflow is stopped in case of failure to avoid complexity, rerun workflow's load cannot be reduced. Therefore, this paper propose a data-centric workflow management method for improve fault-tolerance of the automatic recoverable. In this method, the scheduler manages the progress state of the workflow by the lot of the large data. The workflow continues even if a failure occurs. The scheduler assigns only the lot of not yet executing or abnormal ended task to a resubmit job's task without specifying individual lot. This paper described that the fault tolerance can be improved and control delay due to fault without increasing both the operative time for resubmits and the re-execute time even if number of partitions increased in the grid scheduler “uGPS” which implemented this method.コンピュータシステム・シンポジウム論文集201142512011-11-232011-11-21