| Item type |
Journal(1) |
| 公開日 |
2024-09-15 |
| タイトル |
|
|
タイトル |
世界モデルの潜在表現を用いた強化学習の検討 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Exploring Reinforcement Learning Using Latent Representations of World Model |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
[一般論文(テクニカルノート)] 強化学習,モデルベース強化学習,世界モデル |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
| ID登録 |
|
|
ID登録 |
10.20729/00239266 |
|
ID登録タイプ |
JaLC |
| 著者所属 |
|
|
|
信州大学大学院総合理工学研究科 |
| 著者所属 |
|
|
|
信州大学大学院総合理工学研究科 |
| 著者所属 |
|
|
|
信州大学大学院総合理工学研究科 |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Science and Technology, Shinshu University |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Science and Technology, Shinshu University |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Science and Technology, Shinshu University |
| 著者名 |
川上, 慶紘
丸山, 稔
宮尾, 秀俊
|
| 著者名(英) |
Yoshihiro, Kawakami
Minoru, Maruyama
Hidetoshi, Miyao
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
深層強化学習はサンプル効率が低く,人間と比較すると数万倍のデータが必要になる場合もある.そこで近年,世界モデルと呼ばれる環境の遷移を表現できるモデルを構築し,そのモデルで学習する手法の研究が行われている.IRISはVQ-VAEとTransformerで世界モデルを構築し再構成画像を生成して学習することで,人間以上のサンプル効率を達成した.しかし,再構成画像を用いることで学習に時間がかかっている.そこで本研究では,再構成画像の代わりにIRISの世界モデルの潜在表現を用いて学習する手法を提案する.atari 100kベンチマークを用い,この手法によって性能を落とさずに学習時間を減少させることを示す. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Deep reinforcement learning often suffers from low sample efficiency, sometimes requiring significantly more data compared to human learning. Recent research has focused on constructing models, known as world models, capable of imitating transitions in the environment to address this issue. IRIS constructs a world model using VQ-VAE and Transformer and learns from generated reconstructed images, achieving sample efficiency surpassing human levels. However, this approach incurs significant training time due to reconstructed images. Therefore, this paper proposes using IRIS's world model's latent representations instead of reconstructed images for learning, reducing training time without sacrificing performance in atari 100k benchmark. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00116647 |
| 書誌情報 |
情報処理学会論文誌
巻 65,
号 9,
p. 1451-1455,
発行日 2024-09-15
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7764 |
| 公開者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |