@techreport{oai:ipsj.ixsq.nii.ac.jp:00102314, author = {老川稔 and 野村昴太郎 and 泰岡顕治 and 成見哲}, issue = {40}, month = {Jul}, note = {GPU はその高い並列計算性能から多くの高性能計算機で利用されている.近年では高性能計算機を構成する装置の複雑化と大規模化が進み,その平均故障時間は短くなる傾向にあることから,計算機システムの信頼性を確保するための耐故障性機能が求められている.本稿では,GPU 仮想化ソフトウェアの機能を拡張することにより,GPU を含んだ計算機環境の動作信頼性を向上させるシステムを開発した.GPU を使用した分子動力学シミュレーションを対象とした動作テストを実施し,想定した障害から自動的に復旧されることを確認した.想定した障害は次の 2 つ,(1) GPU カーネル関数実行中の計算誤り (2) ホスト-GPU 間通信の切断,である.具体的な手法は,GPU の多重化による計算の冗長化,代替 GPU への動的なプロセスのマイグレーション,GPU メモリ上のデータと CUDA 関数の実行履歴のチェックポインティングとロールバック実行である., GPU is widely used with many high-performance computing systems as a calculation accelerator. In recent years, the increasing scale and complexity of high-performance computing systems consists of many components causes the shorter MTBF(Mean Time Between Failure) period, so that the fault tolerant methodology are required to achieve the high reliability of the computing systems. We modified the GPU virtualization software to enhance the reliability of GPU computing systems, and tested the fault tolerant functions we implemented by executing molecular dynamics simulation using GPU devices. We supposed two types system fault, (1)calculation error during GPU kernel function, (2)unexpected disconnection between host and GPUs. We achieved the auto recovery functions from these faults, utilizing redundant GPUs, checkpointing and roll-back recovery techniques.}, title = {GPU仮想化による耐故障性を考慮した分子動力学シミュレーション}, year = {2014} }