状態と行動の組み合わせの探索のための内発的報酬を導入した世界モデル

深谷, 拓実; 穴田, 一

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

状態と行動の組み合わせの探索のための内発的報酬を導入した世界モデル

https://ipsj.ixsq.nii.ac.jp/records/241500

名前 / ファイル	ライセンス	アクション
IPSJ-MPS24151020.pdf (1.4 MB) 2026年12月2日からダウンロード可能です。	Copyright (c) 2024 by the Information Processing Society of Japan
非会員：¥660, IPSJ:学会員：¥330, MPS:会員：¥0, DLIB:会員：¥0

Item type

SIG Technical Reports(1)

公開日

2024-12-02

タイトル

状態と行動の組み合わせの探索のための内発的報酬を導入した世界モデル

言語

jpn

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

東京都市大学大学院情報専攻

著者所属

東京都市大学大学院情報専攻

著者名

深谷, 拓実
穴田, 一

論文抄録

内容記述タイプ

Other

内容記述

世界モデル等のモデルベースの深層強化アルゴリズムは，環境モデルを再現し活用する事によってテレビゲーム等のタスクを人間に近いサンプル効率で学習できる．しかし，ランダムな行動で報酬に到達しにくい報酬が疎な環境の場合に世界モデルは報酬を再現できず，高いサンプル効率を実現できない．そこで，環境内の探索を強化し確実に報酬に到達するために，状態と行動の組み合わせの探索を考慮した内発的報酬を世界モデルに導入することを提案する．内発的報酬によって，報酬が疎な環境でも世界モデルがこれまでのアルゴリズムより高いサンプル効率を実現できることを示す．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10505667

書誌情報

研究報告数理モデル化と問題解決（MPS）

巻 2024-MPS-151, 号 20, p. 1-5, 発行日 2024-12-02

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8833

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 07:38:33.777025

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

状態と行動の組み合わせの探索のための内発的報酬を導入した世界モデル

× 深谷, 拓実

× 穴田, 一

Versions

Share

Cite as

エクスポート