@techreport{oai:ipsj.ixsq.nii.ac.jp:00204569, author = {藤田, 裕志 and 小野, 美由紀 and 山本, 昌生 and 渡辺, 幸洋 and Hiroshi, Fujita and Miyuki, Ono and Masao, Yamamoto and Yukihiro, Watanabe}, issue = {17}, month = {May}, note = {IT サービスを構成するインフラ装置の仮想化が進んでいる.さらに,多数のマイクロサービスが多数の物理サーバ上に分散して存在する仮想マシンやコンテナ上で稼働するため,インフラ管理の対象となるノード(サービス,コンテナ,VM,サーバ)数が膨大になる.このような環境では仮想化の層が多くなりノード間の依存関係が複雑になり,管理が人手では対処できない規模になる.このため,運用管理におけるトラブルシューティングの自動化が求められている.しかし,システムを構成するノードが多くなると各ノードの稼働情報の異常な動きを自動検出するこれまでの技術では,一か所の障害でも大鼓のノードで異常が検出されるようになる.その結果,根本原因となる異常とそれによって発生した異常の切り分けが難しくなるので,根本原因を突き止めることが困難になる.そこで,多数のノードで構成されるシステムにおいて,すべての稼働データ間の関係性を分析することで,大量の異常検出ノードの中から障害の根本原因になっているノードを抽出する障害原因分析技術を開発した.実験環境に構築したシステムにおいて多数のノードに異常が現れる障害を発生させ,開発技術による障害箇所の検出性能について検証したので報告する., The virtualization of the infrastructure equipment which constitutes the IT service advances. Furthermore, since a large number of microservices run on virtual machines or containers distributed over a numberof physical servers, the number of nodes (Services, containers, VMs, servers) to be managed by the infrastructure becomes enormous. In such anenvironment, the number of virtualization layers and the dependency relationships between nodes becomecomplex, so that the management becomes too large to be handled manually, and therefore, the troubleshooting in the operation management is also required to be automated. As the number of nodes constituting the system increases, it becomes difficult to identify the root cause by the conventional technology which automatically detects the abnormal movement of the operation information of each node, since it becomes difficult to distinguish the root cause abnormality from the abnormality which is generated by it when the abnormality is detected in a lot of nodes even in one failure. Therefore, in a system composed of a large number of nodes, a failure cause analysis technique was developed to extracta node that is the root cause of a failure from a large number of failure detection nodes by analyzing the relationship between all operation data. We implemented and evaluated our method.As the result, we verified that it can detect the root cause failure in an ICT service built with microservices.}, title = {マイクロサービス環境におけるインフラ障害発生箇所切り分け技術の開発}, year = {2020} }