2024-03-29T18:01:27Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:001979622024-03-29T05:26:34Z01164:01384:09752:09853
モデルの歪みと機械学習プログラムの欠陥Distortion in Learning Models and Faults in Machine Learning Programsjpnhttp://id.nii.ac.jp/1001/00197872/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=197962&item_no=1&attribute_id=1&file_no=1Copyright (c) 2019 by the Information Processing Society of Japan国立情報学研究所中島, 震機械学習ソフトウェアは,データの集まり (データセット) から有用な情報を導き出す方法に基づく.学習対象データセットは標本であり,標本の品質を客観的に考えることが難しい.多様なデータセットを用いるデータセット多様性が,ソフトウェア ・テスティングによる品質検査の標準的な方法となる.本稿は,学習プログラムの欠陥がモデルの歪みとして現れるという仮説に基づき,データセット多様性を訓練済み学習モデルの歪みと関連して整理する.また,テスティングで用いるデータセットの自動生成法を提案し,手書き数字認識学習タスクの実験を通して提案方法の効果を考察する.Machine learning software derives useful information from a group of data, a dataset. However, a dataset is just a sample, and defining its absolute quality is almost impossible. Software testing with various datasets is a standard approach to the quality assurance. This paper introduces a hypothesis that faults in learning programs manifest themselves as distortion in the trained machine learning models. The paper also proposes a new dataset generation method, and illustrates its effectiveness with a case study of classifying hand-written roman numbers.AN10112981研究報告ソフトウェア工学(SE)2019-SE-2021182019-07-052188-88252019-06-25