ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 論文誌(ジャーナル)
  2. Vol.65
  3. No.9

世界モデルの潜在表現を用いた強化学習の検討

https://doi.org/10.20729/00239266
https://doi.org/10.20729/00239266
8bed2c1a-7d87-407d-8149-62f0a6515211
名前 / ファイル ライセンス アクション
IPSJ-JNL6509032.pdf IPSJ-JNL6509032.pdf (724.7 kB)
 2026年9月15日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, 論文誌:会員:¥0, DLIB:会員:¥0
Item type Journal(1)
公開日 2024-09-15
タイトル
タイトル 世界モデルの潜在表現を用いた強化学習の検討
タイトル
言語 en
タイトル Exploring Reinforcement Learning Using Latent Representations of World Model
言語
言語 jpn
キーワード
主題Scheme Other
主題 [一般論文(テクニカルノート)] 強化学習,モデルベース強化学習,世界モデル
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ journal article
ID登録
ID登録 10.20729/00239266
ID登録タイプ JaLC
著者所属
信州大学大学院総合理工学研究科
著者所属
信州大学大学院総合理工学研究科
著者所属
信州大学大学院総合理工学研究科
著者所属(英)
en
Graduate School of Science and Technology, Shinshu University
著者所属(英)
en
Graduate School of Science and Technology, Shinshu University
著者所属(英)
en
Graduate School of Science and Technology, Shinshu University
著者名 川上, 慶紘

× 川上, 慶紘

川上, 慶紘

Search repository
丸山, 稔

× 丸山, 稔

丸山, 稔

Search repository
宮尾, 秀俊

× 宮尾, 秀俊

宮尾, 秀俊

Search repository
著者名(英) Yoshihiro, Kawakami

× Yoshihiro, Kawakami

en Yoshihiro, Kawakami

Search repository
Minoru, Maruyama

× Minoru, Maruyama

en Minoru, Maruyama

Search repository
Hidetoshi, Miyao

× Hidetoshi, Miyao

en Hidetoshi, Miyao

Search repository
論文抄録
内容記述タイプ Other
内容記述 深層強化学習はサンプル効率が低く,人間と比較すると数万倍のデータが必要になる場合もある.そこで近年,世界モデルと呼ばれる環境の遷移を表現できるモデルを構築し,そのモデルで学習する手法の研究が行われている.IRISはVQ-VAEとTransformerで世界モデルを構築し再構成画像を生成して学習することで,人間以上のサンプル効率を達成した.しかし,再構成画像を用いることで学習に時間がかかっている.そこで本研究では,再構成画像の代わりにIRISの世界モデルの潜在表現を用いて学習する手法を提案する.atari 100kベンチマークを用い,この手法によって性能を落とさずに学習時間を減少させることを示す.
論文抄録(英)
内容記述タイプ Other
内容記述 Deep reinforcement learning often suffers from low sample efficiency, sometimes requiring significantly more data compared to human learning. Recent research has focused on constructing models, known as world models, capable of imitating transitions in the environment to address this issue. IRIS constructs a world model using VQ-VAE and Transformer and learns from generated reconstructed images, achieving sample efficiency surpassing human levels. However, this approach incurs significant training time due to reconstructed images. Therefore, this paper proposes using IRIS's world model's latent representations instead of reconstructed images for learning, reducing training time without sacrificing performance in atari 100k benchmark.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN00116647
書誌情報 情報処理学会論文誌

巻 65, 号 9, p. 1451-1455, 発行日 2024-09-15
ISSN
収録物識別子タイプ ISSN
収録物識別子 1882-7764
公開者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 08:17:45.846360
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3