WEKO3
アイテム
弱教示的強化学習における探索割合の自律調整
https://ipsj.ixsq.nii.ac.jp/records/205393
https://ipsj.ixsq.nii.ac.jp/records/20539334c4f040-c2bc-446d-9779-6c32ec5fd080
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2020 by the Information Processing Society of Japan
|
Item type | National Convention(1) | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2020-02-20 | |||||||||||
タイトル | ||||||||||||
タイトル | 弱教示的強化学習における探索割合の自律調整 | |||||||||||
言語 | ||||||||||||
言語 | jpn | |||||||||||
キーワード | ||||||||||||
主題Scheme | Other | |||||||||||
主題 | 人工知能と認知科学 | |||||||||||
資源タイプ | ||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||||
資源タイプ | conference paper | |||||||||||
著者所属 | ||||||||||||
電機大 | ||||||||||||
著者所属 | ||||||||||||
電機大 | ||||||||||||
著者所属 | ||||||||||||
電機大 | ||||||||||||
著者名 |
佐鳥, 玖仁朗
× 佐鳥, 玖仁朗
× 神谷, 匠
× 高橋, 達二
|
|||||||||||
論文抄録 | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | 強化学習には環境の探索と知識活用のトレードオフが存在する.その自律的調整を行う手法として,人間の認知的性質を用いたリスク考慮を行う満足化価値関数(RS)が提案された.RSは評価を非満足(不正解)と満足(正解)として教示的に変換するため,弱教示的に学習する.また,RSはバンディット問題においてその最適性が証明されており,最近ではRSの強化学習への汎化手法として大局基準変換法(GRC)が考案されている.しかし,GRCには方策の探索性を司るハイパーパラメータ ζ があり,その調整は難しい.そこで本研究では ζ を必要としないGRCrを提案する.また実験を通して強化学習タスクへの広い適用可能性を示す. | |||||||||||
書誌レコードID | ||||||||||||
収録物識別子タイプ | NCID | |||||||||||
収録物識別子 | AN00349328 | |||||||||||
書誌情報 |
第82回全国大会講演論文集 巻 2020, 号 1, p. 557-558, 発行日 2020-02-20 |
|||||||||||
出版者 | ||||||||||||
言語 | ja | |||||||||||
出版者 | 情報処理学会 |