ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 論文誌(ジャーナル)
  2. Vol.53
  3. No.11

部分観測可能マルコフ決定過程を用いた私的観測付き繰返しゲームにおける均衡分析プログラム

https://ipsj.ixsq.nii.ac.jp/records/87055
https://ipsj.ixsq.nii.ac.jp/records/87055
c85b63d4-76a5-4569-b9a7-980bd99708ac
名前 / ファイル ライセンス アクション
IPSJ-JNL5311010.pdf IPSJ-JNL5311010.pdf (1.1 MB)
Copyright (c) 2012 by the Information Processing Society of Japan
オープンアクセス
Item type Journal(1)
公開日 2012-11-15
タイトル
タイトル 部分観測可能マルコフ決定過程を用いた私的観測付き繰返しゲームにおける均衡分析プログラム
タイトル
言語 en
タイトル Equilibrium Analysis Program of Repeated Games with Private Monitoring: A POMDP Approach
言語
言語 jpn
キーワード
主題Scheme Other
主題 [特集:エージェントの理論とその応用] ゲーム理論,繰返しゲーム,部分観測可能マルコフ決定過程,有限状態機械
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ journal article
著者所属
九州大学大学院システム情報科学府
著者所属
九州大学大学院システム情報科学府
著者所属
東京大学大学院経済学研究科
著者所属
UCLA経済学部
著者所属
九州大学大学院システム情報科学府
著者所属(英)
en
Graduate School of ISEE, Kyushu University
著者所属(英)
en
Graduate School of ISEE, Kyushu University
著者所属(英)
en
Faculty of Economics, The University of Tokyo
著者所属(英)
en
Department of Economics, UCLA, Los Angeles
著者所属(英)
en
Graduate School of ISEE, Kyushu University
著者名 ジョヨンジュン 岩崎, 敦 神取, 道宏 小原, 一郎 横尾, 真

× ジョヨンジュン 岩崎, 敦 神取, 道宏 小原, 一郎 横尾, 真

ジョヨンジュン
岩崎, 敦
神取, 道宏
小原, 一郎
横尾, 真

Search repository
著者名(英) Yongjoon, Joe Atsushi, Iwasaki Michihiro, Kandori Ichiro, Obara Makoto, Yokoo

× Yongjoon, Joe Atsushi, Iwasaki Michihiro, Kandori Ichiro, Obara Makoto, Yokoo

en Yongjoon, Joe
Atsushi, Iwasaki
Michihiro, Kandori
Ichiro, Obara
Makoto, Yokoo

Search repository
論文抄録
内容記述タイプ Other
内容記述 本論文では不完全私的観測付き繰返しゲームの均衡を分析するプログラムを提案する.不完全私的観測付き繰返しゲームは,プレイヤが相手の行動についてノイズを含むシグナルを観測し,そのシグナルを他のプレイヤは観測できないという特徴を持つ.こうしたゲームは人工知能や経済の分野において様々な適用領域を持つため,大きく注目されている.しかし,このゲームにおける均衡を求めるには,非常に複雑な統計的推論が必要になるため,従来難しい未解決問題として知られていた.近年,均衡における振舞いを有限状態オートマトン(finite state automaton,FSA)で記述し,部分観測可能マルコフ決定過程(partially observable Markov decision process,POMDP)の理論を用いることで,あるFSAが均衡を構成するかどうかを明らかにできることが示された.しかし,その具体的な実装方法や実際の問題へ適用するためのプログラムは提供されていない.そこで本論文ではまず,標準的なPOMDPソルバのラッパとなるプログラムを開発する.このプログラムでは私的観測付き繰返しゲームの記述とFSAを入力として,そのFSAが対称的均衡を構成するかどうかを自動的に確認できる.さらに,このプログラムを繰返し囚人のジレンマに適用し,k-期相互処罰(k-MP)と呼ぶ新しいFSAのクラスを発見した.k-MPにおけるプレイヤは,初めに協力し相手の裏切りを観測するとそれ以降自分も裏切るが,続けてk回裏切りを観測すると元に戻り協力する.このプログラムを用いて状態数3以下のFSAを全探索した結果,繰返しゲームにおける観測構造パラメータのいくらかの範囲で,2-MPが他の純粋戦略均衡より優れており,従来よく知られている均衡である無限期罰則のトリガ戦略(grim-trigger)よりも効率的,つまり高い平均利得を実現することが分かった.
論文抄録(英)
内容記述タイプ Other
内容記述 The present paper investigates repeated games with imperfect private monitoring, where each player privately receives a noisy observation (signal) of the opponent's action. Such games have been paid considerable attention in the AI and economics literature. Since players do not share common information in such a game, characterizing players' optimal behavior is substantially complex. As a result, identifying pure strategy equilibria in this class has been known as a hard open problem. Recently, Kandori and Obara (2010) showed that the theory of partially observable Markov decision processes (POMDP) can be applied to identify a class of equilibria where the equilibrium behavior can be described by a finite state automaton (FSA). However, they did not provide a practical method or a program to apply their general idea to actual problems. We first develop a program that acts as a wrapper of a standard POMDP solver, which takes a description of a repeated game with private monitoring and an FSA as inputs, and automatically checks whether the FSA constitutes a symmetric equilibrium. We apply our program to repeated Prisoner's dilemma and find a novel class of FSA, which we call k-period mutual punishment (k-MP). The k-MP starts with cooperation and defects after observing a defection. It restores cooperation after observing defections k-times in a row. Our program enables us to exhaustively search for all FSAs with at most three states, and we found that 2-MP beats all the other pure strategy equilibria with at most three states for some range of parameter values and it is more efficient in an equilibrium than the grim-trigger.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN00116647
書誌情報 情報処理学会論文誌

巻 53, 号 11, p. 2445-2456, 発行日 2012-11-15
ISSN
収録物識別子タイプ ISSN
収録物識別子 1882-7764
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-21 17:27:00.761791
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3