Item type |
Symposium(1) |
公開日 |
2020-11-06 |
タイトル |
|
|
タイトル |
逆転の余地を考慮した評価関数の設計とどうぶつしょうぎによる評価 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Design of Evaluation Functions Considering Recovery and Its Evaluation in Dobutsu Shogi |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
どうぶつしょうぎ |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
Soft Q-learning |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
Soft value |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
東京大学大学院総合文化研究科 |
著者所属 |
|
|
|
東京大学大学院情報学環 |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Arts and Sciences, The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Interfaculty Initiative in Information Studies, the University of Tokyo |
著者名 |
中屋敷, 太一
金子, 知適
|
著者名(英) |
Taichi, Nakayashiki
Tomoyuki, Kaneko
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
コンピュータプログラムはいくつかの有名なゲームで,人間を超える結果を達成することに成功したが,その強さを人間の学習に役立てるなどの点ではまだ研究が進んでいない.本稿では逆転の余地を考慮した評価関数の設計手法を提案する.従来の強さのための研究では,評価関数は勝ち負けの正確さを表現することが第一の目的であった.しかし,勝敗が完全に正確に表現されたとしても必ずしも人間の考え方に有用であるとは言えない.逆転の余地は従来の評価関数の研究では考慮が難しい観点の一つである.本研究ではSoft Q-learning で使われるSoft value を応用することでそれを実現する.Soft Q-learning は方策をなるべく決定的にならないように学習する強化学習の手法であり,選択肢の多様さを評価する観点でゲームにおける逆転の余地と関連が深い.この提案手法を「どうぶつしょうぎ」を利用した計算機実験で評価した.どうぶつしょうぎは完全解析されたゲームの1 つであり,理論的には後手必勝であるが,数億局面の広さの状態空間を持ち,ある程度難しいゲームである.提案手法で設計した評価関数に基づくプレイヤは,他のプレイヤより後手番で安全勝ちを行ったり,先手番で逆転勝ちを狙うことに優れることが対局実験により示された. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Computer programs have surpassed human players in many popular games, however it is on progress how to utilize them for humans to improve their ability. In this paper, we propose a method to design an evaluation function considering recovery from losing positions. The main goal of previous works of evaluation functions focused on how to identify game theoretical values of win or lose. Even if we have an ultimate evaluation function that captures win or lose perfectly, it could not always be useful for humans. For example, it is difficult for existing evaluation functions to choose better move to keep opportunities of recovery from losing positions. We address the problem by soft value, which is proposed in soft Q-learning. A reinforcement learning algorithm called soft Q-learning aims to learn a policy with a decent entropy, in which there is similarity with our situation in evaluation of the number of ways towards possible recovery. We evaluate the method with computational experiments in the game of ”Dobutsu shogi”. Dobutsu shogi is a solved game where the second player wins at the initial position though, the size of the state space is a couple of hundred million and therefore the game is difficult enough. Players with evaluation functions yielded by our proposed method play more safely in winning positions and more deliberately in losing positions than other players. |
書誌情報 |
ゲームプログラミングワークショップ2020論文集
巻 2020,
p. 22-29,
発行日 2020-11-06
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |