Item type |
SIG Technical Reports(1) |
公開日 |
2020-02-24 |
タイトル |
|
|
タイトル |
深層強化学習における時系列的内部報酬生成器による探索の改善 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Exploration Improvement by Sequential Intrinsic Reward Generator in Deep Reinforcement Learning |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
名古屋工業大学大学院工学研究科情報工学専攻 |
著者所属 |
|
|
|
名古屋工業大学大学院工学研究科情報工学専攻 |
著者所属 |
|
|
|
中部大学生命健康科学部臨床工学科 |
著者所属 |
|
|
|
名古屋工業大学大学院工学研究科情報工学専攻 |
著者所属 |
|
|
|
名古屋工業大学大学院工学研究科情報工学専攻 |
著者所属(英) |
|
|
|
en |
|
|
Department of Computer Science, Graduate School of Engineering, Nagoya Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Department of Computer Science, Graduate School of Engineering, Nagoya Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Department of Clinical Engineering, College of Life and Health Sciences, Chubu University |
著者所属(英) |
|
|
|
en |
|
|
Department of Computer Science, Graduate School of Engineering, Nagoya Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Department of Computer Science, Graduate School of Engineering, Nagoya Institute of Technology |
著者名 |
村上, 知優
森山, 甲一
松井, 藤五郎
武藤, 敦子
犬塚, 信博
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年,高次元状態における強化学習手法として深層強化学習という手法が注目されている.しかし,深層強化学習を含む強化学習全般において,報酬が疎な環境における学習が困難であることが知られている.この問題を解決する手段として,目新しい状態の訪問に対して内的な報酬を発生させ,エージェントに多様な状態への訪問を促進させる手法が存在する.本研究ではそれを時系列的なものへ拡張し,目新しい状態遷移に対して内部報酬を生成するようにした.これにより部分観測マルコフ決定過程における探索にも対応できるようにし,実験を行った結果,その有効性を確認した. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10505667 |
書誌情報 |
研究報告数理モデル化と問題解決(MPS)
巻 2020-MPS-127,
号 6,
p. 1-6,
発行日 2020-02-24
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8833 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |