ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 論文誌(ジャーナル)
  2. Vol.64
  3. No.8

行動認識における深層学習モデル訓練時の最適なsoftmax温度パラメータ

https://doi.org/10.20729/00227142
https://doi.org/10.20729/00227142
4d1c3ef8-83a1-4edd-ba7b-169db9625e9f
名前 / ファイル ライセンス アクション
IPSJ-JNL6408004.pdf IPSJ-JNL6408004.pdf (1.4 MB)
 2025年8月15日からダウンロード可能です。
Copyright (c) 2023 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, 論文誌:会員:¥0, DLIB:会員:¥0
Item type Journal(1)
公開日 2023-08-15
タイトル
タイトル 行動認識における深層学習モデル訓練時の最適なsoftmax温度パラメータ
タイトル
言語 en
タイトル Optimal Temperature Parameter of Softmax while Training Deep Learning Model in Activity Recognition
言語
言語 jpn
キーワード
主題Scheme Other
主題 [一般論文(推薦論文,特選論文)] Softmax関数,温度パラメータ,ニューラルネットワーク,行動認識
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ journal article
ID登録
ID登録 10.20729/00227142
ID登録タイプ JaLC
著者所属
福井大学大学院工学研究科
著者所属(英)
en
Graduate School of Engineering, University of Fukui
著者名 長谷川, 達人

× 長谷川, 達人

長谷川, 達人

Search repository
著者名(英) Tatsuhito, Hasegawa

× Tatsuhito, Hasegawa

en Tatsuhito, Hasegawa

Search repository
論文抄録
内容記述タイプ Other
内容記述 深層学習はハイパーパラメータが膨大であり,適切に使いこなすには熟練の技能が必要となる.本研究では,膨大なハイパーパラメータの中でも未解明な点が多いsoftmax関数の温度パラメータTと特徴マップの次元数Mに焦点を当てる.特に行動認識ではモデルサイズを調整することは少なくなく,TとMの関係の解明は重要である.深層学習モデルを出力の分散の観点から理論的に考察した結果,出力層のパラメータはMの制約を受けて最適化されており,最適なTの設定はこの制約を緩和できる可能性があると考えた.本研究では,様々な行動認識データセットやモデル構造において,TとMの関係を実験的に検証する.実験の結果,T=1の従来の設定ではモデルの最良のパフォーマンスを発揮しきれていないこと,Mの増加にともない最適なTも増加すること,最適なTにおいてはsoftmax関数の入力の分布が安定していること等を明らかにした.実験結果をもとに,出力層にLayer Normalizationを挿入することでMの影響を緩和する手法を新たに提案し,追加実験を経て提案手法の有効性を示した.
論文抄録(英)
内容記述タイプ Other
内容記述 Deep learning has many hyperparameters and requires skilled operators to use it properly. In this study, we focus on the temperature parameter T of the softmax function and M: the number of dimensions of the feature map, which are still largely unexplained among many hyperparameters. In particular, it is important to clarify the relationship between T and M because, in activity recognition, model scale M is commonly adjusted. Theoretical consideration of deep learning models in terms of output variance suggests that output layer parameters are optimized under the constraint of M, and that optimal T may deregulate this constraint. In this study, we experimentally verify the relationship between T and M on various activity recognition datasets and model architectures. Experimental results show that the model does not perform at its best in the conventional setting of T=1, that the optimal T increases as M increases, and that the distribution of inputs to the softmax function is stable at the optimal T. Based on the experimental results, we proposed a new method to mitigate the effect of M by inserting a layer normalization after the output layer and demonstrated the effectiveness of the proposed method through additional experiments.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN00116647
書誌情報 情報処理学会論文誌

巻 64, 号 8, p. 1182-1192, 発行日 2023-08-15
ISSN
収録物識別子タイプ ISSN
収録物識別子 1882-7764
公開者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 12:12:33.474684
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3