WEKO3
アイテム
行動認識における深層学習モデル訓練時の最適なsoftmax温度パラメータ
https://doi.org/10.20729/00227142
https://doi.org/10.20729/002271424d1c3ef8-83a1-4edd-ba7b-169db9625e9f
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2025年8月15日からダウンロード可能です。
|
Copyright (c) 2023 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, 論文誌:会員:¥0, DLIB:会員:¥0 |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2023-08-15 | |||||||
タイトル | ||||||||
タイトル | 行動認識における深層学習モデル訓練時の最適なsoftmax温度パラメータ | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Optimal Temperature Parameter of Softmax while Training Deep Learning Model in Activity Recognition | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | [一般論文(推薦論文,特選論文)] Softmax関数,温度パラメータ,ニューラルネットワーク,行動認識 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
ID登録 | ||||||||
ID登録 | 10.20729/00227142 | |||||||
ID登録タイプ | JaLC | |||||||
著者所属 | ||||||||
福井大学大学院工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, University of Fukui | ||||||||
著者名 |
長谷川, 達人
× 長谷川, 達人
|
|||||||
著者名(英) |
Tatsuhito, Hasegawa
× Tatsuhito, Hasegawa
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 深層学習はハイパーパラメータが膨大であり,適切に使いこなすには熟練の技能が必要となる.本研究では,膨大なハイパーパラメータの中でも未解明な点が多いsoftmax関数の温度パラメータTと特徴マップの次元数Mに焦点を当てる.特に行動認識ではモデルサイズを調整することは少なくなく,TとMの関係の解明は重要である.深層学習モデルを出力の分散の観点から理論的に考察した結果,出力層のパラメータはMの制約を受けて最適化されており,最適なTの設定はこの制約を緩和できる可能性があると考えた.本研究では,様々な行動認識データセットやモデル構造において,TとMの関係を実験的に検証する.実験の結果,T=1の従来の設定ではモデルの最良のパフォーマンスを発揮しきれていないこと,Mの増加にともない最適なTも増加すること,最適なTにおいてはsoftmax関数の入力の分布が安定していること等を明らかにした.実験結果をもとに,出力層にLayer Normalizationを挿入することでMの影響を緩和する手法を新たに提案し,追加実験を経て提案手法の有効性を示した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Deep learning has many hyperparameters and requires skilled operators to use it properly. In this study, we focus on the temperature parameter T of the softmax function and M: the number of dimensions of the feature map, which are still largely unexplained among many hyperparameters. In particular, it is important to clarify the relationship between T and M because, in activity recognition, model scale M is commonly adjusted. Theoretical consideration of deep learning models in terms of output variance suggests that output layer parameters are optimized under the constraint of M, and that optimal T may deregulate this constraint. In this study, we experimentally verify the relationship between T and M on various activity recognition datasets and model architectures. Experimental results show that the model does not perform at its best in the conventional setting of T=1, that the optimal T increases as M increases, and that the distribution of inputs to the softmax function is stable at the optimal T. Based on the experimental results, we proposed a new method to mitigate the effect of M by inserting a layer normalization after the output layer and demonstrated the effectiveness of the proposed method through additional experiments. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 64, 号 8, p. 1182-1192, 発行日 2023-08-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 | |||||||
公開者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |