Item type |
Symposium(1) |
公開日 |
2021-11-06 |
タイトル |
|
|
タイトル |
選択的注意機構を用いたロバストな強化学習手法の実現 |
タイトル |
|
|
言語 |
en |
|
タイトル |
A Robust Reinforcement Learning Method Using a Selective Attention Mechanism |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
強化学習 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
選択的注意 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ロバスト |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
東京大学工学部電子情報工学 |
著者所属 |
|
|
|
東京大学大学院情報理工学系研究科電子情報学専攻 |
著者所属(英) |
|
|
|
en |
|
|
Department of Information and Communication Engineer-ing, The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Department of Information and Communication Engineer-ing, Graduate School of Information Science and Technology,The University of Tokyo |
著者名 |
岩瀬, 諒
鶴岡, 慶雅
|
著者名(英) |
Ryo, Iwase
Yoshimasa, Tsuruoka
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
これまでに強化学習は Atari 2600 や囲碁などのボードゲームの分野で人間を超える性能を発揮している.その一方で,同一のタスクであっても学習時からの環境の変動があるような状況にまで汎化して良いパフォーマンスを行うことは困難であり,これは強化学習の課題の一つとして挙げられる.本論文では,画像の一部のみから特徴量を抽出する Attention Agent と呼ばれる手法に,Bisimulation Metrics を用いる強化学習手法である DBC (Deep Bisimulation for Control) によって学習されたエンコーダを組み合わせることによる環境の変動に頑強な強化学習手法を提案する.本稿では提案手法をいくつかのモデル構造で実装し,通常の CarRacing-v0 環境で学習を行なった後に,変化を加えた同環境で汎化性能の検証を行なった.その結果,通常の環境における注目部位の変化を確認することができたが,背景に大幅に変化する環境での汎化性能の向上は見られなかった.そのため,提案手法の問題点について考察し,改善策を議論した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Reinforcement learning has outperformed humans in games such as Atari 2600 and Go. However, it is di(fi)cult to generalize to situations in which the environment has changed since the time of training even for the same task. This is one of the challenges of reinforcement learning. In this study, we propose a reinforcement learning method that is robust to distractions by combining a method called Attention Agent, which extracts features from only a part of an image, with an encoder trained by Deep Bisimulation for Control (DBC), a reinforcement learning method that uses Bisimulation Metrics. In this paper, we implement the proposed method with several model structures, train it in the normal CarRacing-v0 environment, and then verify the generalization capability in the same environment with some modifications. As a result, we confirm the change in the region of attention in the normal environment, although there is no improvement in the generalization capability in the environment with drastic changes in the background. Therefore, we discuss the problem and possible ways to improve proposed method. |
書誌情報 |
ゲームプログラミングワークショップ2021論文集
巻 2021,
p. 71-77,
発行日 2021-11-06
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |