| Item type |
Symposium(1) |
| 公開日 |
2021-11-06 |
| タイトル |
|
|
タイトル |
ついたて王手どうぶつしょうぎの提案と CFR による戦略の学習 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Dark Check Dobutsu Shogi and Learning its Strategy by CFR |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
どうぶつしょうぎ |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
CFR |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
不完全情報ゲーム |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
| 著者所属 |
|
|
|
東京大学大学院 総合文化研究科 |
| 著者所属 |
|
|
|
東京大学大学院 総合文化研究科 |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Arts and Sciences, The University of Tokyo |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Arts and Sciences, The University of Tokyo |
| 著者名 |
中屋敷, 太一
金子, 知適
|
| 著者名(英) |
Taichi, Nakayashiki
Tomoyuki, Kaneko
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年,将棋や囲碁,チェスといった完全情報ゲーム,そしてポーカーや麻雀などの不完全情報ゲームのコンピュータプログラムは飛躍的に強くなってきている.本論文では,ついたて将棋と王手将棋,そしてどうぶつしょうぎを組み合わせたついたて王手どうぶつしょうぎを扱う.このゲームは,相手の駒の配置を把握することができないため,不完全情報ゲームである.そして,どうぶつしょうぎの盤と駒を用いて,先に王手をかけることを目指すゲームである.このゲームで,相手の駒がある場所に持ち駒を打つなどの反則手を指した場合には,反則回数が増加する.一手の反則回数を超えると,即座にそのプレイヤの負けとなる.そのため,最適な戦略は一定の反則回数を超えないように反則手を利用しながら,相手の情報を得るような戦略であると考えられる.本論文では,counterfactual regret minimization という手法を用い,適切な abstraction を適用してついたて王手どうぶつしょうぎの学習を行った.学習した戦略はランダムプレイヤに対して先手番で 8 割を超えた.本論文では,学習して得られた戦略についての分析も行った. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Recently, the playing strength of game AI agents are dramatically improved both in perfect in-formation games such as Shogi, Go or Chess learned by AlphaZero and imperfect information games such Poker and Mahjong. This paper studies dark check dobutsu shogi, that is a combination of Tsuitate (dark)shogi, check shogi, and dobutsu shogi. It is an imperfect information game because the pieces of the opponent are not visible for a player and the goal is to make a check where the board and pieces are inherited from dobutsu shogi. When a move is not legal (e.g., drop a piece on a piece of the opponent), a penalty is given. Therefore, an optimal strategy would exploit information of the opponent at the cost of penalties within the threshold defined by the rule. We applied counterfactual regret minimization in to dark check dobutsu shogi with proper abstractions and discuss the properties of obtained strategies where the winning rate against a random player is beyond 80% when it plays as the first player. |
| 書誌情報 |
ゲームプログラミングワークショップ2021論文集
巻 2021,
p. 34-41,
発行日 2021-11-06
|
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |