@techreport{oai:ipsj.ixsq.nii.ac.jp:02008498, author = {小山,智之 and 串田,高幸 and 生野,壮一郎}, issue = {55}, month = {Mar}, note = {マイクロサービスアーキテクチャで構成されるWebサービスで障害が発生すると,システム管理者は障害の原因調査を行う.障害の原因調査ではログやトレース,メトリクスを調査する.障害の1つに連鎖障害がある.連鎖障害では,あるマイクロサービスの障害にともない別のマイクロサービスで障害が発生する.連鎖障害の調査は,単一のマイクロサービスでの障害に比べ調査すべき対象のログやトレース,メトリクスが増えるため,障害の原因調査に時間がかかる.本稿では連鎖障害の原因調査にかかる時間を短縮するために,アプリケーションから出力されるトレースと分散コンピューティング基盤から取得したリソース定義をもとに依存グラフを作成する.依存グラフと分散コンピューティング基盤から取得したイベントからイベントの件数を依存グラフのエンドツーエンドのパスごとに集計する.スコアを計算し,スコアの高いリソースを障害原因の候補リストとして出力する.障害原因の候補リストを提案ソフトウェアが出力することで,手動での原因調査にかかる時間の短縮を実現する.マイクロサービスで構成される論文検索のWebサービスを対象に2種類の障害を再現した.1つ目はKubernetesクラスタのノードが応答しない障害である.2つ目はOOM killに伴うボリューム割り当て時のリソース競合である.評価対象には提案手法とベースライン手法としてMicroRCAを使用する.評価指標には,障害原因の候補リストの内容を評価するためにMRRとHits@kを使用する.また,オーバーヘッドを評価するために提案手法のソフトウェアの実行時間を計測する.提案手法のMRRはベースライン手法に比べて平均で28.0%高い結果を示した.提案手法のHits@kはベースライン手法に比べてk=5において平均で0.88高い結果を示した.提案手法のソフトウェアの実行時間はベースライン手法に比べて平均で2.18秒短い結果を示した.}, title = {イベントとリソース定義から作成した依存グラフを用いた連鎖障害の調査時間の短縮}, year = {2026} }