Item type |
Symposium(1) |
公開日 |
2024-11-15 |
タイトル |
|
|
タイトル |
2段階平均による二人ゼロ和不完全情報ゲームナッシュ均衡近似精度の向上 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Improving Performance of Approximating Nash Equilibrium in Two-Player Zero-Sum Games via Two-Stage Averaging |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
不完全情報ゲーム |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ナッシュ均衡 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
CFR |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ニューラルネットワーク |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
東京大学大学院 情報理工学系研究科 電子情報学専攻 |
著者所属 |
|
|
|
東京大学大学院 情報理工学系研究科 電子情報学専攻 |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Science and Technology, The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Information Science and Technology, The University of Tokyo |
著者名 |
平野, 瑞紀
鶴岡, 慶雅
|
著者名(英) |
Mizuki, Hirano
Yoshimasa, Tsuruoka
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
二人ゼロ和ゲームでナッシュ均衡を求める多くのアルゴリズムでは, 戦略の平均化によってナッシュ均衡を近似する必要がある . アルゴリズムを大規模ゲームへ適用するために, 戦略をニューラルネットワークで表現し計算コストを削減するようになった. しかし, ニューラルネットワークによって戦略の平均を学習すると表現誤差が増幅されてしまい近似精度に影響を及ぼす. 大規模ゲームを想定した実験を実施したところ, 平均の近似が安定しないことが確認された. 近似の不安定性はアルゴリズム全体を通しての近似精度を低下させる可能性がある . そこで本研究では, 平均化された戦略をさらに平均することで安定性を向上させる 2 段階平均化を提案する . 実験によって, 提案手法が平均の近似を安定させるだけでなく , 近似精度の向上にもつながることが示された |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Many algorithms for finding Nash equilibrium in two-player zero-sum games need to approximate the Nash equilibrium by averaging strategies. In order to apply these algorithms to large-scale games, the strategies are represented by neural networks to reduce the computational cost. However, learning the average of strategies with neural networks amplify the representation error and affects the approximation performance. Experiments for large-scale games showed that the approximation of the average is not stable. The instability of the approximation may degrade the approximation performance through the algorithm. We propose a two-stage averaging method in which the stability is improved by further averaging the averaged strategy. Experiments showed that the proposed method not only stabilises the approximation of the average, but also improves the approximation performance. |
書誌情報 |
ゲームプログラミングワークショップ2024論文集
巻 2024,
p. 88-94,
発行日 2024-11-15
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |