| Item type |
SIG Technical Reports(1) |
| 公開日 |
2022-03-04 |
| タイトル |
|
|
タイトル |
DVCリポジトリにおけるMLパイプラインの進化に関する調査 |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
機械学習工学(SE4ML) |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
九州大学 |
| 著者所属 |
|
|
|
九州大学 |
| 著者所属 |
|
|
|
九州大学 |
| 著者所属 |
|
|
|
九州大学 |
| 著者所属 |
|
|
|
九州大学 |
| 著者所属 |
|
|
|
九州大学 |
| 著者所属(英) |
|
|
|
en |
|
|
Kyushu University |
| 著者所属(英) |
|
|
|
en |
|
|
Kyushu University |
| 著者所属(英) |
|
|
|
en |
|
|
Kyushu University |
| 著者所属(英) |
|
|
|
en |
|
|
Kyushu University |
| 著者所属(英) |
|
|
|
en |
|
|
Kyushu University |
| 著者所属(英) |
|
|
|
en |
|
|
Kyushu University |
| 著者名 |
中村, 悠人
松尾, 春紀
松田, 雄河
近藤, 将成
亀井, 靖高
鵜林, 尚靖
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
機械学習の開発を効率的に進めるための手法の一つとして ML パイプラインが挙げられる.ML パイプラインとは,ステージと呼ばれる,機械学習開発で行われるデータ取得,特徴づけ,学習などの工程を 1 つにつなげ,順番に自動で実行する機能である.ML パイプラインを実現するアプリケーションとして,Data Version Control (DVC) が挙げられる.DVC は,ML パイプラインに加えて,データバージョン管理やリモートリポジトリ管理が可能で,有用な機能を多く持っているため GitHub 上のプロジェクトでよく利用される.しかし,実際にどのような ML パイプラインが作成されているかはあまり知られていない.これらの知見を得ることは,最適な ML パイプラインの選択や,有効でない ML パイプラインを除外する上で重要であると考える.そこで本研究では,DVC を使用しているプロジェクト内の 540 個のMLパイプラインを対象に,ML パイプラインファイル内のステージの変化に関する調査を行い,推奨される ML パイプライン作成の指針を提示する.調査の結果,プロジェクト存在期間にパイプラインファイルが変更された回数は平均 2.9 回,中央値 3.0 回であった.また,パイプラインファイルが編集されたコミット全てを対象とすると,モデル学習ステージの変更が最も多く,データ取得ステージでの変更が最も少なかった.さらに,ML パイプラインをコミット数により 3 つのパターンに分けたとき,最終的な ML パイプラインはどのパターンもデータ取得,モデル学習,モデル評価の構成であるものが最も多いということがわかった. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10112981 |
| 書誌情報 |
研究報告ソフトウェア工学(SE)
巻 2022-SE-210,
号 18,
p. 1-8,
発行日 2022-03-04
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8825 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |