@techreport{oai:ipsj.ixsq.nii.ac.jp:00204555, author = {小野, 美由紀 and 藤田, 裕志 and 山本, 昌生 and 渡辺, 幸洋 and Miyuki, Ono and Hiroshi, Fujita and Masao, Yamamoto and Yukihiro, Watanabe}, issue = {3}, month = {May}, note = {本稿では,クラウドシステム運用時に検出されるサービスの性能問題の原因究明を目的とし,アプリケーションから物理インフラまでの稼働データを分析技術への入力とするためのデータクレンジング処理について報告する.数台の物理サーバに仮想マシンやコンテナを配置した小規模な構成においても稼働データは数千になることがあり,性能問題の原因究明のための分析に数時間かかる場合もある.そこで,データクレンジング処理として,まず,値のバリエーション数などにより分析対象データを絞り込み,分析の効率化を図った.次に,欠損値処理では,本来補間すべきではない連続欠損値を削除する方法を提案した.今回実験環境で取得した稼働データに対してクレンジング処理を行い,14 %までデータ量を削減できた.また,連続欠損データを作成して連続欠損値処理の検証を行い,今回の事例では,従来の補間する方法よりも欠損時刻の値を削除する提案方法のほうがより正確であることがわかった., In this paper, to investigate the cause of service performance problems detected during cloud system operation, we report the data cleansing process that uses operational data from applications to physical infrastructure as input to analysis technology. Even a small configuration with virtual machines and containers on a few physical servers can have thousands of operating data and can take hours to analyze for performance issues. Therefore, as the data cleansing process, we attempted to improve the efficiency of the analysis by narrowing down the data to be analyzed. Next, in the missing value processing, we propose a method of deleting a continuous missing value which should not be interpolated originally. Cleansing was performed on the operation data obtained in the experimental environment, and the data volume was reduced to 14%. In addition, we verified the continuous missing value processing by generating continuous missing data and found that the proposed method of deletingthe missing time value is more accurate than the conventional interpolation method in this case.}, title = {クラウドインフラにおける性能問題の分析を支援するデータクレンジング処理}, year = {2020} }