WEKO3
アイテム
合目的強化学習における希求水準変換の再検討
https://ipsj.ixsq.nii.ac.jp/records/235979
https://ipsj.ixsq.nii.ac.jp/records/235979a18cfa9b-a84a-4ed6-afaf-395d008577b0
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
| Item type | National Convention(1) | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2024-03-01 | |||||||||||
| タイトル | ||||||||||||
| タイトル | 合目的強化学習における希求水準変換の再検討 | |||||||||||
| 言語 | ||||||||||||
| 言語 | jpn | |||||||||||
| キーワード | ||||||||||||
| 主題Scheme | Other | |||||||||||
| 主題 | 人工知能と認知科学 | |||||||||||
| 資源タイプ | ||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||||
| 資源タイプ | conference paper | |||||||||||
| 著者所属 | ||||||||||||
| 電機大 | ||||||||||||
| 著者所属 | ||||||||||||
| 電機大 | ||||||||||||
| 著者所属 | ||||||||||||
| 電機大 | ||||||||||||
| 著者名 |
有村, 柊一
× 有村, 柊一
× 甲野, 佑
× 高橋, 達二
|
|||||||||||
| 論文抄録 | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | 人間は目標である希求水準を定めることで探索と活用のバランスをとり, 目標を満たす行動を効率的に学習する. この意思決定傾向を強化学習での探索手法として応用したのが Risk-sensitive Satisficing(RS)である. RSは, 大局的な希求水準を状態ごとの希求水準へと変換するGlobal Reference Conversion(GRC)によって, 各状態への希求水準を事前に与えずに目標を達成できる. しかし現在, この変換で必要な収益と行動価値のスケーリングパラメータを求める手法が存在しない. 今回我々は, この問題を抱えるGRCについて再検討を行い, 改善案を提案する. | |||||||||||
| 書誌レコードID | ||||||||||||
| 収録物識別子タイプ | NCID | |||||||||||
| 収録物識別子 | AN00349328 | |||||||||||
| 書誌情報 |
第86回全国大会講演論文集 巻 2024, 号 1, p. 271-272, 発行日 2024-03-01 |
|||||||||||
| 出版者 | ||||||||||||
| 言語 | ja | |||||||||||
| 出版者 | 情報処理学会 | |||||||||||