Item type |
SIG Technical Reports(1) |
公開日 |
2024-06-13 |
タイトル |
|
|
タイトル |
多種多様なデータセットに対する最適なモデル選択方法の分析 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Analysis of optimal model selection methods for a variety of datasets |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
情報論的学習理論と機械学習3 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
NTTコンピュータ&データサイエンス研究所 |
著者所属 |
|
|
|
NTTコンピュータ&データサイエンス研究所 |
著者所属(英) |
|
|
|
en |
|
|
NTT Computer and Data Science Laboratories |
著者所属(英) |
|
|
|
en |
|
|
NTT Computer and Data Science Laboratories |
著者名 |
尾形, 嵐士
及川, 一樹
|
著者名(英) |
Arashi, Ogata
Kazuki, Oikawa
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
AI の活用領域が拡大する中で,様々なドメインや複雑性を持つデータセットに対し AI モデルを生成するケースが増えてきた.また AI の発展に伴い様々な構造を持つモデルが登場し,ImageNet 精度の SOTA を次々と更新している.ここで疑問となるのが,どのデータセットでも SOTA モデルを使用することが最適なのかという点である.すなわち,多種多様なデータセットに対する最適なモデル選択方法とは何であろうか.この問いを解明すべく,96 種類の画像分類データセット,22 種類のモデル,49 パターンのハイパーパラメータの全 103,488 通りの組み合わせで学習し,ImageNet 精度との順位相関がデータセットによって大きく異なることを示した.また現状でのモデル選択方法として考えられる 3 つの既存手法について検証し,どの既存手法もモデル選択性能としての有用性が低いことを明らかにした.さらに追加分析によりデータセット・モデル・ハイパーパラメータ間の相性にどのような特性があるのか調査し,最適なモデル選択手法の実現に何が必要となるのかを考察した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
As the application of AI expands, more and more AI models are being generated for datasets with various domains and complexities. In addition, with the development of AI, models with various structures have appeared, and the ImageNet-accurate SOTA is being updated one after another. The question is whether it is optimal to use SOTA models for all datasets. In other words, what is the optimal model selection method for a wide variety of datasets? To answer this question, we trained a total of 103,488 combinations of 96 image classification datasets, 22 models, and 49 hyperparameters, and showed that the rank correlation with ImageNet accuracy varied greatly from dataset to dataset. We also examined three existing methods for model selection, and found that none of the existing methods had high performance in model selection. Additional analysis was conducted to investigate the characteristics of the compatibility between datasets, models, and hyperparameters, and to determine what is needed to realize an optimal model selection method. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA12055912 |
書誌情報 |
研究報告バイオ情報学(BIO)
巻 2024-BIO-78,
号 27,
p. 1-8,
発行日 2024-06-13
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8590 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |