Item type |
SIG Technical Reports(1) |
公開日 |
2022-03-04 |
タイトル |
|
|
タイトル |
Kaggle熟練度に着目したデータ分析プログラム実装におけるソースコード再利用方法の探索的分析 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
運用・保守 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
著者所属 |
|
|
|
奈良先端科学技術大学院大学 |
著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
著者所属(英) |
|
|
|
en |
|
|
Nara Institute of Science and Technology |
著者名 |
池上, 綾乃
佐藤, 郁弥
Ani, Hovhannisyan
石尾, 隆
松本, 健一
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
データ分析技術は情報社会における重要な技術のひとつである.世界規模のデータ分析コミュニティである Kaggle では,データ分析技術を競うコンペティションの実施や,データ分析に使用したプログラムの公開,共有が行われている.データ分析プログラムには,プログラムの再利用がコピー&ペーストで行われるという特徴がある.一方で,類似するプログラム片を複数箇所に記述すると,保守性の低下を招くと言われており,これを防ぐためには関数の定義やライブラリの活用が必要である.しかし,データ分析プログラムの実装において,プログラムの再利用は容易だが,保守作業が困難であるという報告があり,保守性を保ちながらプログラムを再利用するのは難しいと考えられる.本研究では,データ分析の熟練者はプログラムを適切に再利用しているという仮説に基づいて,Kaggle で定義されている熟練度の異なる作者が作成したプログラムに対して,類似するプログラム片の割合やライブラリの利用方法を比較する分析を行った.その結果,熟練度が高い作者ほど関数を多く定義し,類似するプログラム片の割合が少ない傾向にあることがわかった.また,使用されるライブラリの種類に大きな差異は見られなかった.これらの結果から,プログラム片の再利用の観点でデータ分析の初学者が熟練者に近づくには,多くのライブラリを学習することより,類似する処理がある場合には自作関数を定義するような工夫が重要であると考えられる. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10112981 |
書誌情報 |
研究報告ソフトウェア工学(SE)
巻 2022-SE-210,
号 27,
p. 1-8,
発行日 2022-03-04
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8825 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |