WEKO3
アイテム
複数ヘッドを用いる強化学習手法の学習効率向上
https://ipsj.ixsq.nii.ac.jp/records/225959
https://ipsj.ixsq.nii.ac.jp/records/225959591057b9-35b9-40b7-8ade-ddf18bd2d92e
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]()
2025年5月11日からダウンロード可能です。
|
Copyright (c) 2023 by the Information Processing Society of Japan
|
|
非会員:¥660, IPSJ:学会員:¥330, CVIM:会員:¥0, DLIB:会員:¥0 |
Item type | SIG Technical Reports(1) | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2023-05-11 | |||||||||||
タイトル | ||||||||||||
タイトル | 複数ヘッドを用いる強化学習手法の学習効率向上 | |||||||||||
言語 | ||||||||||||
言語 | jpn | |||||||||||
キーワード | ||||||||||||
主題Scheme | Other | |||||||||||
主題 | 卒論スポットライトセッション (CVIM) | |||||||||||
資源タイプ | ||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
資源タイプ | technical report | |||||||||||
著者所属 | ||||||||||||
豊田工業大学 | ||||||||||||
著者所属 | ||||||||||||
豊田工業大学 | ||||||||||||
著者所属 | ||||||||||||
豊田工業大学 | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Toyota Technological Institute | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Toyota Technological Institute | ||||||||||||
著者所属(英) | ||||||||||||
en | ||||||||||||
Toyota Technological Institute | ||||||||||||
著者名 |
相津, 知晴
× 相津, 知晴
× 大羽, 剛瑠
× 浮田, 宗伯
|
|||||||||||
論文抄録 | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | 強化学習はエージェントと呼ばれる行動主体が,周囲の状況である「状態」において最適な「行動」を学習する手法である.学習時においてエージェントは,未知の状態や報酬を探す行動を選択する「探索」と,既知の状態や報酬を使用して報酬を最大化する行動を選択する「活用」の 2 つのモードを使い分けて効率よくエージェントが得る報酬を最大化するように行動を学習する.この 2 つのモードを適切に選択するための手法として,ネットワークの学習度合いを示す不確定性を異なる時刻の状態評価値から求め,これを学習モードを選択するための指標とする手法が存在する.しかし,この手法では不確定さを異なる時刻間の状態評価値の違いから計算している.そのため,隣接ステップ入力が似ているタスクでは,学習初期において類似の評価値のが出力されるので不確定性が小さくなってしまう.ゆえに,学習初期において予測の不確定性と学習度が一致しない問題がある.本研究では各時刻に複数の出力を予測し,その予測の一致度を不確定性としてモード選択の基準に用いる手法を提案し,エージェントの学習効率向上に取り組んだ.不確定性の推定には,「ネットワークからの出力をすべて考慮する Q 値」と「Q 値が最大となる行動のみを考える出力行動」を使用した.さらに既存の活用に加え,複数出力を求める手法の特性を活かした新たな活用モードを提案した.結果として,タスクの特性によって不確定性手法や学習モードの優劣が異なることが分かった. | |||||||||||
書誌レコードID | ||||||||||||
収録物識別子タイプ | NCID | |||||||||||
収録物識別子 | AA11131797 | |||||||||||
書誌情報 |
研究報告コンピュータビジョンとイメージメディア(CVIM) 巻 2023-CVIM-234, 号 15, p. 1-8, 発行日 2023-05-11 |
|||||||||||
ISSN | ||||||||||||
収録物識別子タイプ | ISSN | |||||||||||
収録物識別子 | 2188-8701 | |||||||||||
Notice | ||||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
出版者 | ||||||||||||
言語 | ja | |||||||||||
出版者 | 情報処理学会 |