Item type |
Symposium(1) |
公開日 |
2020-11-06 |
タイトル |
|
|
タイトル |
二人零和マルコフゲームにおけるオフ方策評価のためのQ学習 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Q-Learning for Off-Policy Evaluation in Two-Player Zero-Sum Markov Games |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
Off-Policy Evaluation |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
Multi-Agent Reinforcement Learning |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
Causal Inference |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
株式会社サイバーエージェント |
著者所属 |
|
|
|
株式会社サイバーエージェント |
著者所属(英) |
|
|
|
en |
|
|
CyberAgent, Inc. |
著者所属(英) |
|
|
|
en |
|
|
CyberAgent, Inc. |
著者名 |
阿部, 拳之
金子, 雄祐
|
著者名(英) |
Kenshi, Abe
Yusuke, Kaneko
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
オフ方策評価は,ある方策から取得した履歴データを使用してオフラインで新しい方策を評価する問題である.本研究では,二人零和マルコフゲームにおけるオフ方策評価のために,新しいQ 学習アルゴリズムであるBest Response (BR) Q-learning を提案する.BR Q-learning は,二人零和マルコフゲームにおける履歴データを用いて,与えられた戦略に対する最適反応戦略の状態行動価値関数を推定する.本論文では,BR Q-learning によって更新される状態行動価値関数が,最適反応戦略の状態行動価値関数へと確率1 で収束することを証明する. さらに,BR Q-learning を用いることで,与えられた戦略プロファイルのexploitability を推定する手法を提案し,推定されたexploitability が, 真のexploitability に確率1 で収束することを示す. また,実験によってBR Q-learning の有効性を確認する. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Off-policy evaluation (OPE) is the problem of evaluating new policies using historical data obtained from a different policy. In this study, we propose a novel Q-learning algorithm, called Best Response (BR) Q-learning, for OPE in two-player zero-sum Markov games. BR Q-learning estimates the state-action value of the best response to the given strategy. We prove that BR Q-learning converges the state-value of the best response with probability one. Further, we propose the novel off-policy estimator for exploitability using BR Q-learning. Then, we show that the estimated exploitability converges to the true exploitability with probability one. Finally, we demonstrate the effectiveness and performance of BR Q-learning through experiments. |
書誌情報 |
ゲームプログラミングワークショップ2020論文集
巻 2020,
p. 169-174,
発行日 2020-11-06
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |