ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. シンポジウム
  2. シンポジウムシリーズ
  3. ゲームプログラミングワークショップ(GPWS)
  4. 2021

世界モデルによる好奇心と新規性に基づく探索

https://ipsj.ixsq.nii.ac.jp/records/213448
https://ipsj.ixsq.nii.ac.jp/records/213448
a5f3d716-1add-4e43-8b25-0a645471421e
名前 / ファイル ライセンス アクション
IPSJ-GPWS2021027.pdf IPSJ-GPWS2021027.pdf (10.0 MB)
Copyright (c) 2021 by the Information Processing Society of Japan
オープンアクセス
Item type Symposium(1)
公開日 2021-11-06
タイトル
タイトル 世界モデルによる好奇心と新規性に基づく探索
タイトル
言語 en
タイトル Exploration Driven by Curiosity and Novelty via World Models
言語
言語 jpn
キーワード
主題Scheme Other
主題 モデルベース強化学習
キーワード
主題Scheme Other
主題 世界モデル
キーワード
主題Scheme Other
主題 内発的報酬
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_5794
資源タイプ conference paper
著者所属
東京大学工学部電子情報工学科
著者所属
東京大学大学院情報理工学系研究科電子情報学専攻
著者所属(英)
en
Department of Information and Communication Engineer-ing, The University of Tokyo
著者所属(英)
en
Graduate School of Information Science and Technology,The University of Tokyo
著者名 脇, 聡志

× 脇, 聡志

脇, 聡志

Search repository
鶴岡, 慶雅

× 鶴岡, 慶雅

鶴岡, 慶雅

Search repository
著者名(英) Satoshi, Waki

× Satoshi, Waki

en Satoshi, Waki

Search repository
Yoshimasa, Tsuruoka

× Yoshimasa, Tsuruoka

en Yoshimasa, Tsuruoka

Search repository
論文抄録
内容記述タイプ Other
内容記述 強化学習では学習に必要なデータをエージェントが自ら収集するため, 未知の状態をどのように探索するかが重要である. 探索の際, 好奇心や新規性を指標とする内発的報酬を与えることで学習を効率的に行えることが知られている. 本研究では DreamerV2 と呼ばれる最新のモデルベース強化学習の手法を用いて好奇心ベースの内発的報酬を生成する. さらに新規性ベースの内発的報酬と組み合わせることで好奇心ベースの手法の多くで問題となる noisy-TV problem の解消を試みた. その結果, 探索が難しいとされるMontezuma’s Revenge と Gravitar の環境下で提案手法がモデルフリー強化学習と内発的報酬を組み合わせた既存手法や DreamerV2 と好奇心ベースの内発的報酬を組み合わせた既存手法と比べ性能が優れた. また新規性ベースの内発的報酬と組み合わせることで noisy-TV problem を緩和できることを実験的に確かめた.
論文抄録(英)
内容記述タイプ Other
内容記述 In Reinforcement Learning, where the agent collects the data necessary for learning by itself, methods for exploring unknown states are important. An intrinsic reward based on curiosity and novelty makes it possible for an agent to learn efficiently during search. In this paper, we propose to generate curiosity-based intrinsic rewards using a state-of-the-art model-based reinforcement learning method calledDreamerV2. We also attempted to solve the noisy-TV problem, which is a problem in many curiosity-based methods, by combining curiosity-based intrinsic rewards with novelty-based intrinsic rewards. As a result, our method outperformed previous methods that combined model-free reinforcement learning with intrinsic rewards or DreamerV2 with curiosity-based intrinsic rewards in Montezuma’s Revenge and Gravitar environments, which are considered difficult to explore. We further experimentally confirmed that the noisy-TV problem can be solved by combining the novelty-based intrinsic reward.
書誌情報 ゲームプログラミングワークショップ2021論文集

巻 2021, p. 144-151, 発行日 2021-11-06
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 17:09:29.236090
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3