ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 数理モデル化と問題解決(MPS)
  3. 2024
  4. 2024-MPS-151

状態と行動の組み合わせの探索のための内発的報酬を導入した世界モデル

https://ipsj.ixsq.nii.ac.jp/records/241500
https://ipsj.ixsq.nii.ac.jp/records/241500
5a463062-1a63-4584-9188-751d04c23722
名前 / ファイル ライセンス アクション
IPSJ-MPS24151020.pdf IPSJ-MPS24151020.pdf (1.4 MB)
 2026年12月2日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, MPS:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-12-02
タイトル
タイトル 状態と行動の組み合わせの探索のための内発的報酬を導入した世界モデル
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
東京都市大学大学院情報専攻
著者所属
東京都市大学大学院情報専攻
著者名 深谷, 拓実

× 深谷, 拓実

深谷, 拓実

Search repository
穴田, 一

× 穴田, 一

穴田, 一

Search repository
論文抄録
内容記述タイプ Other
内容記述 世界モデル等のモデルベースの深層強化アルゴリズムは,環境モデルを再現し活用する事によってテレビゲーム等のタスクを人間に近いサンプル効率で学習できる.しかし,ランダムな行動で報酬に到達しにくい報酬が疎な環境の場合に世界モデルは報酬を再現できず,高いサンプル効率を実現できない.そこで,環境内の探索を強化し確実に報酬に到達するために,状態と行動の組み合わせの探索を考慮した内発的報酬を世界モデルに導入することを提案する.内発的報酬によって,報酬が疎な環境でも世界モデルがこれまでのアルゴリズムより高いサンプル効率を実現できることを示す.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10505667
書誌情報 研究報告数理モデル化と問題解決(MPS)

巻 2024-MPS-151, 号 20, p. 1-5, 発行日 2024-12-02
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8833
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 07:38:33.777025
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3