WEKO3
アイテム
未来考慮型の信頼度に基づく合目的強化学習
https://ipsj.ixsq.nii.ac.jp/records/229937
https://ipsj.ixsq.nii.ac.jp/records/229937413bcaac-0b46-48bf-923c-15b1f1d9cfd6
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2023 by the Information Processing Society of Japan
|
| Item type | National Convention(1) | |||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2023-02-16 | |||||||||||||
| タイトル | ||||||||||||||
| タイトル | 未来考慮型の信頼度に基づく合目的強化学習 | |||||||||||||
| 言語 | ||||||||||||||
| 言語 | jpn | |||||||||||||
| キーワード | ||||||||||||||
| 主題Scheme | Other | |||||||||||||
| 主題 | 人工知能と認知科学 | |||||||||||||
| 資源タイプ | ||||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||||||
| 資源タイプ | conference paper | |||||||||||||
| 著者所属 | ||||||||||||||
| 電機大 | ||||||||||||||
| 著者所属 | ||||||||||||||
| 電機大 | ||||||||||||||
| 著者所属 | ||||||||||||||
| 電機大 | ||||||||||||||
| 著者所属 | ||||||||||||||
| 電機大 | ||||||||||||||
| 著者名 |
有村, 柊一
× 有村, 柊一
× 南, 朱音
× 甲野, 佑
× 高橋, 達二
|
|||||||||||||
| 論文抄録 | ||||||||||||||
| 内容記述タイプ | Other | |||||||||||||
| 内容記述 | 人間は目標を定めることで探索と知識利用のバランスをとり,目標を満たす行動系列を効果的に学習できる.この合目的解を高速に獲得できる意思決定傾向を,強化学習での探索手法として応用したのが Risk-sensitive Satisficing (RS) である.RS は信頼度と, 推定価値と希求水準の差分である主観regretの積で定義される.しかし強化学習は状態系列を扱うため,状態系列に依存した信頼度を定義する必要がある.今回我々は, 深層強化学習で用いられる経験記憶を利用し現在状態を照合,過去の経験から未来を考慮した信頼度を動的に計算する手法を考案し,性能が向上することを示した. | |||||||||||||
| 書誌レコードID | ||||||||||||||
| 収録物識別子タイプ | NCID | |||||||||||||
| 収録物識別子 | AN00349328 | |||||||||||||
| 書誌情報 |
第85回全国大会講演論文集 巻 2023, 号 1, p. 279-280, 発行日 2023-02-16 |
|||||||||||||
| 出版者 | ||||||||||||||
| 言語 | ja | |||||||||||||
| 出版者 | 情報処理学会 | |||||||||||||