Item type |
Symposium(1) |
公開日 |
2020-11-06 |
タイトル |
|
|
タイトル |
環境モデルの誤差による影響を抑える強化学習手法 |
タイトル |
|
|
言語 |
en |
|
タイトル |
A Reinforcement Learning Method to Reduce the Effects of Environmental Model Errors |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
モデルベース強化学習 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
マルチステップ予測モデル |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
サンプル効率 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
東京大学工学部電子情報工学科 |
著者所属 |
|
|
|
東京大学大学院情報理工学系研究科電子情報学専攻 |
著者所属(英) |
|
|
|
en |
|
|
Department of Information and Communication Engineering, The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Department of Information and Communication Engineering, Graduate School of Information Science and Technology, The University of Tokyo |
著者名 |
中田, 惇貴
鶴岡, 慶雅
|
著者名(英) |
Atsuki, Nakata
Yoshimasa, Tsuruoka
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年, 機械学習の手法の1 つである強化学習は, ゲームやロボット制御などのタスクにおいて高い性能を示している. その一方で, 良い方策を学習するためには, 環境との多くの相互作用を必要とする. そのため, 現実のロボット制御など環境との相互作用を十分に行うことが難しく, 大量のデータを集めることができない環境ではより少ないデータからより良い方策を学習することが求められる. 本研究においてはサンプル効率の良いモデルベース強化学習に着目し, その中でも課題となる環境モデルの誤差の影響を抑えつつ方策の学習を行うことを目的とする. 本稿では, 環境モデルとしてマルチステップ予測モデルを採用し, モデルを用いて方策を学習する際のステップ数を学習が進むにつれて, 徐々に伸ばすことを提案する.実験においては, CartPole-v0 という環境において, 提案手法により環境モデルを効果的に用いることができるかについて検証を行った. その結果として, 性能の向上が見られることを確認した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Recently, a machine learning paradigm called reinforcement learning has shown high performance in tasks such as games and robot control. On the other hand, learning a good policy requires a lot of inter- actions with the environment. Therefore, in some environments where it is di cult to fully interact with the environment, or where it is not possible to collect large amounts of data, such as real-life robot control, it is necessary to learn better policy from less data. This study proposes a method for sample e cient model- based reinforcement learning, which aims to learn polices while minimizing the e ects of environmental model errors. In this paper, we adopt a multi-step prediction model as an environmental model and propose to gradually increase the number of steps in learning policy using the model as the learning progresses. In our experiments, we verify whether the proposed method can be used e ectively in CartPole-v0. As a result, it was con rmed that the performance was improved. |
書誌情報 |
ゲームプログラミングワークショップ2020論文集
巻 2020,
p. 70-76,
発行日 2020-11-06
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |