ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. シンポジウム
  2. シンポジウムシリーズ
  3. ゲームプログラミングワークショップ(GPWS)
  4. 2020

二人零和マルコフゲームにおけるオフ方策評価のためのQ学習

https://ipsj.ixsq.nii.ac.jp/records/207671
https://ipsj.ixsq.nii.ac.jp/records/207671
b5f05dbc-75f7-427c-b2c6-df37389cef7a
名前 / ファイル ライセンス アクション
IPSJ-GPWS2020027.pdf IPSJ-GPWS2020027.pdf (6.0 MB)
Copyright (c) 2020 by the Information Processing Society of Japan
オープンアクセス
Item type Symposium(1)
公開日 2020-11-06
タイトル
タイトル 二人零和マルコフゲームにおけるオフ方策評価のためのQ学習
タイトル
言語 en
タイトル Q-Learning for Off-Policy Evaluation in Two-Player Zero-Sum Markov Games
言語
言語 jpn
キーワード
主題Scheme Other
主題 Off-Policy Evaluation
キーワード
主題Scheme Other
主題 Multi-Agent Reinforcement Learning
キーワード
主題Scheme Other
主題 Causal Inference
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_5794
資源タイプ conference paper
著者所属
株式会社サイバーエージェント
著者所属
株式会社サイバーエージェント
著者所属(英)
en
CyberAgent, Inc.
著者所属(英)
en
CyberAgent, Inc.
著者名 阿部, 拳之

× 阿部, 拳之

阿部, 拳之

Search repository
金子, 雄祐

× 金子, 雄祐

金子, 雄祐

Search repository
著者名(英) Kenshi, Abe

× Kenshi, Abe

en Kenshi, Abe

Search repository
Yusuke, Kaneko

× Yusuke, Kaneko

en Yusuke, Kaneko

Search repository
論文抄録
内容記述タイプ Other
内容記述 オフ方策評価は,ある方策から取得した履歴データを使用してオフラインで新しい方策を評価する問題である.本研究では,二人零和マルコフゲームにおけるオフ方策評価のために,新しいQ 学習アルゴリズムであるBest Response (BR) Q-learning を提案する.BR Q-learning は,二人零和マルコフゲームにおける履歴データを用いて,与えられた戦略に対する最適反応戦略の状態行動価値関数を推定する.本論文では,BR Q-learning によって更新される状態行動価値関数が,最適反応戦略の状態行動価値関数へと確率1 で収束することを証明する. さらに,BR Q-learning を用いることで,与えられた戦略プロファイルのexploitability を推定する手法を提案し,推定されたexploitability が, 真のexploitability に確率1 で収束することを示す. また,実験によってBR Q-learning の有効性を確認する.
論文抄録(英)
内容記述タイプ Other
内容記述 Off-policy evaluation (OPE) is the problem of evaluating new policies using historical data obtained from a different policy. In this study, we propose a novel Q-learning algorithm, called Best Response (BR) Q-learning, for OPE in two-player zero-sum Markov games. BR Q-learning estimates the state-action value of the best response to the given strategy. We prove that BR Q-learning converges the state-value of the best response with probability one. Further, we propose the novel off-policy estimator for exploitability using BR Q-learning. Then, we show that the estimated exploitability converges to the true exploitability with probability one. Finally, we demonstrate the effectiveness and performance of BR Q-learning through experiments.
書誌情報 ゲームプログラミングワークショップ2020論文集

巻 2020, p. 169-174, 発行日 2020-11-06
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 19:05:45.824647
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3