ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. シンポジウム
  2. シンポジウムシリーズ
  3. ゲームプログラミングワークショップ(GPWS)
  4. 2020

環境モデルの誤差による影響を抑える強化学習手法

https://ipsj.ixsq.nii.ac.jp/records/207656
https://ipsj.ixsq.nii.ac.jp/records/207656
92133149-79a9-41d7-8f74-2b097705ce59
名前 / ファイル ライセンス アクション
IPSJ-GPWS2020012.pdf IPSJ-GPWS2020012.pdf (7.6 MB)
Copyright (c) 2020 by the Information Processing Society of Japan
オープンアクセス
Item type Symposium(1)
公開日 2020-11-06
タイトル
タイトル 環境モデルの誤差による影響を抑える強化学習手法
タイトル
言語 en
タイトル A Reinforcement Learning Method to Reduce the Effects of Environmental Model Errors
言語
言語 jpn
キーワード
主題Scheme Other
主題 モデルベース強化学習
キーワード
主題Scheme Other
主題 マルチステップ予測モデル
キーワード
主題Scheme Other
主題 サンプル効率
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_5794
資源タイプ conference paper
著者所属
東京大学工学部電子情報工学科
著者所属
東京大学大学院情報理工学系研究科電子情報学専攻
著者所属(英)
en
Department of Information and Communication Engineering, The University of Tokyo
著者所属(英)
en
Department of Information and Communication Engineering, Graduate School of Information Science and Technology, The University of Tokyo
著者名 中田, 惇貴

× 中田, 惇貴

中田, 惇貴

Search repository
鶴岡, 慶雅

× 鶴岡, 慶雅

鶴岡, 慶雅

Search repository
著者名(英) Atsuki, Nakata

× Atsuki, Nakata

en Atsuki, Nakata

Search repository
Yoshimasa, Tsuruoka

× Yoshimasa, Tsuruoka

en Yoshimasa, Tsuruoka

Search repository
論文抄録
内容記述タイプ Other
内容記述 近年, 機械学習の手法の1 つである強化学習は, ゲームやロボット制御などのタスクにおいて高い性能を示している. その一方で, 良い方策を学習するためには, 環境との多くの相互作用を必要とする. そのため, 現実のロボット制御など環境との相互作用を十分に行うことが難しく, 大量のデータを集めることができない環境ではより少ないデータからより良い方策を学習することが求められる. 本研究においてはサンプル効率の良いモデルベース強化学習に着目し, その中でも課題となる環境モデルの誤差の影響を抑えつつ方策の学習を行うことを目的とする. 本稿では, 環境モデルとしてマルチステップ予測モデルを採用し, モデルを用いて方策を学習する際のステップ数を学習が進むにつれて, 徐々に伸ばすことを提案する.実験においては, CartPole-v0 という環境において, 提案手法により環境モデルを効果的に用いることができるかについて検証を行った. その結果として, 性能の向上が見られることを確認した.
論文抄録(英)
内容記述タイプ Other
内容記述 Recently, a machine learning paradigm called reinforcement learning has shown high performance in tasks such as games and robot control. On the other hand, learning a good policy requires a lot of inter- actions with the environment. Therefore, in some environments where it is di cult to fully interact with the environment, or where it is not possible to collect large amounts of data, such as real-life robot control, it is necessary to learn better policy from less data. This study proposes a method for sample e cient model- based reinforcement learning, which aims to learn polices while minimizing the e ects of environmental model errors. In this paper, we adopt a multi-step prediction model as an environmental model and propose to gradually increase the number of steps in learning policy using the model as the learning progresses. In our experiments, we verify whether the proposed method can be used e ectively in CartPole-v0. As a result, it was con rmed that the performance was improved.
書誌情報 ゲームプログラミングワークショップ2020論文集

巻 2020, p. 70-76, 発行日 2020-11-06
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 19:06:02.339739
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3