Item type |
Symposium(1) |
公開日 |
2021-11-06 |
タイトル |
|
|
タイトル |
世界モデルによる好奇心と新規性に基づく探索 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Exploration Driven by Curiosity and Novelty via World Models |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
モデルベース強化学習 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
世界モデル |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
内発的報酬 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
東京大学工学部電子情報工学科 |
著者所属 |
|
|
|
東京大学大学院情報理工学系研究科電子情報学専攻 |
著者所属(英) |
|
|
|
en |
|
|
Department of Information and Communication Engineer-ing, The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Science and Technology,The University of Tokyo |
著者名 |
脇, 聡志
鶴岡, 慶雅
|
著者名(英) |
Satoshi, Waki
Yoshimasa, Tsuruoka
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
強化学習では学習に必要なデータをエージェントが自ら収集するため, 未知の状態をどのように探索するかが重要である. 探索の際, 好奇心や新規性を指標とする内発的報酬を与えることで学習を効率的に行えることが知られている. 本研究では DreamerV2 と呼ばれる最新のモデルベース強化学習の手法を用いて好奇心ベースの内発的報酬を生成する. さらに新規性ベースの内発的報酬と組み合わせることで好奇心ベースの手法の多くで問題となる noisy-TV problem の解消を試みた. その結果, 探索が難しいとされるMontezuma’s Revenge と Gravitar の環境下で提案手法がモデルフリー強化学習と内発的報酬を組み合わせた既存手法や DreamerV2 と好奇心ベースの内発的報酬を組み合わせた既存手法と比べ性能が優れた. また新規性ベースの内発的報酬と組み合わせることで noisy-TV problem を緩和できることを実験的に確かめた. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In Reinforcement Learning, where the agent collects the data necessary for learning by itself, methods for exploring unknown states are important. An intrinsic reward based on curiosity and novelty makes it possible for an agent to learn efficiently during search. In this paper, we propose to generate curiosity-based intrinsic rewards using a state-of-the-art model-based reinforcement learning method calledDreamerV2. We also attempted to solve the noisy-TV problem, which is a problem in many curiosity-based methods, by combining curiosity-based intrinsic rewards with novelty-based intrinsic rewards. As a result, our method outperformed previous methods that combined model-free reinforcement learning with intrinsic rewards or DreamerV2 with curiosity-based intrinsic rewards in Montezuma’s Revenge and Gravitar environments, which are considered difficult to explore. We further experimentally confirmed that the noisy-TV problem can be solved by combining the novelty-based intrinsic reward. |
書誌情報 |
ゲームプログラミングワークショップ2021論文集
巻 2021,
p. 144-151,
発行日 2021-11-06
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |