@techreport{oai:ipsj.ixsq.nii.ac.jp:00217304, author = {中村, 悠人 and 松尾, 春紀 and 松田, 雄河 and 近藤, 将成 and 亀井, 靖高 and 鵜林, 尚靖}, issue = {18}, month = {Mar}, note = {機械学習の開発を効率的に進めるための手法の一つとして ML パイプラインが挙げられる.ML パイプラインとは,ステージと呼ばれる,機械学習開発で行われるデータ取得,特徴づけ,学習などの工程を 1 つにつなげ,順番に自動で実行する機能である.ML パイプラインを実現するアプリケーションとして,Data Version Control (DVC) が挙げられる.DVC は,ML パイプラインに加えて,データバージョン管理やリモートリポジトリ管理が可能で,有用な機能を多く持っているため GitHub 上のプロジェクトでよく利用される.しかし,実際にどのような ML パイプラインが作成されているかはあまり知られていない.これらの知見を得ることは,最適な ML パイプラインの選択や,有効でない ML パイプラインを除外する上で重要であると考える.そこで本研究では,DVC を使用しているプロジェクト内の 540 個のMLパイプラインを対象に,ML パイプラインファイル内のステージの変化に関する調査を行い,推奨される ML パイプライン作成の指針を提示する.調査の結果,プロジェクト存在期間にパイプラインファイルが変更された回数は平均 2.9 回,中央値 3.0 回であった.また,パイプラインファイルが編集されたコミット全てを対象とすると,モデル学習ステージの変更が最も多く,データ取得ステージでの変更が最も少なかった.さらに,ML パイプラインをコミット数により 3 つのパターンに分けたとき,最終的な ML パイプラインはどのパターンもデータ取得,モデル学習,モデル評価の構成であるものが最も多いということがわかった.}, title = {DVCリポジトリにおけるMLパイプラインの進化に関する調査}, year = {2022} }