Item type |
Journal(1) |
公開日 |
2019-03-15 |
タイトル |
|
|
タイトル |
報酬が疎な環境に適した深層強化学習法 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Deep Reinfocement Learning for Sparse Reward Environments |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[一般論文] 深層強化学習,探索,自動操作エージェント |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
著者所属 |
|
|
|
HEROZ株式会社 |
著者所属 |
|
|
|
東北大学大学院情報科学研究科 |
著者所属 |
|
|
|
京都大学学術情報メディアセンター |
著者所属 |
|
|
|
東京大学工学系研究科 |
著者所属(英) |
|
|
|
en |
|
|
HEROZ, Incorporated |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Science, Tohoku University |
著者所属(英) |
|
|
|
en |
|
|
Academic Center for Computing and Media Studies, Kyoto University |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering, The University of Tokyo |
著者名 |
水上, 直紀
鈴木, 潤
亀甲, 博貴
鶴岡, 慶雅
|
著者名(英) |
Naoki, Mizukami
Jun, Suzuki
Hirotaka, Kameko
Yoshimasa, Tsuruoka
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
深層強化学習の発展により,ゲーム画面とスコアの情報のみから,熟練のプレイヤを超えるスコアに到達可能なビデオゲームの自動操作エージェントを学習可能であることが示された.しかし,これまであまり言及されていないが,報酬が疎な環境のゲームに関しては,いまだ人間のスコアにはるかに及ばない.これは,一般的な強化学習の枠組みそのものが,報酬が疎な環境からの学習に適していない点に起因すると考えられる.そこで本論文では,ビデオゲームの自動操作エージェントを学習するタスクを題材に,報酬が疎な環境でも効果的にエージェントの学習が可能となる枠組みについて議論を行い,報酬が疎な環境に適した深層強化学習の枠組みを提案する.ビデオゲームの自動操作エージェントの性能を測るベンチマークとして用いられるAtari 2600において報酬が疎な環境となるゲームを用いて提案手法の評価実験を行い,提案手法が,従来の一般的な深層強化学習法を大きく上回るスコアを達成できることを示す. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Recent deep reinforcement learning (RL) algorithms demonstrate that they can successfully learn super-human-level video game agents only from the information on game screens and scores. However, a closer look at their performance reveals that the algorithms fall short of humans in games where rewards are only obtained occasionally. This is mainly because the RL framework does not fit such sparse reward environments. From this perspective, we discuss how we can build agents that specifically fit the sparse reward environments, and propose an effective method. We evaluate our method on Atari 2600 games with sparse rewards, and report that our method can provide significant improvements over conventional RL methods. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00116647 |
書誌情報 |
情報処理学会論文誌
巻 60,
号 3,
p. 956-966,
発行日 2019-03-15
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7764 |