Item type |
Symposium(1) |
公開日 |
2021-11-06 |
タイトル |
|
|
タイトル |
コンピュータ囲碁の強化学習における着手限定ルールに対する条件付けの検討 |
タイトル |
|
|
言語 |
en |
|
タイトル |
A Study on Conditioning for Move Restriction Rulesin Reinforcement Learning for Computer Go |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
囲碁 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
コンピュータ囲碁 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
強化学習 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
着手限定ルール |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
大阪電気通信大学 |
著者所属 |
|
|
|
大阪電気通信大学 |
著者所属 |
|
|
|
大阪電気通信大学 |
著者所属(英) |
|
|
|
en |
|
|
Osaka Electro-Communication University |
著者所属(英) |
|
|
|
en |
|
|
Osaka Electro-Communication University |
著者所属(英) |
|
|
|
en |
|
|
Osaka Electro-Communication University |
著者名 |
谷田, 聖司
小田, 凌平
藤田, 玄
|
著者名(英) |
Tanida, Masashi
Oda, Ryohei
Fujita, Gen
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
AlphaZero のように完全情報ゲームにおいてルールを記述し、それを基に白紙の状態から強化学習を繰り返す学習方法が有効であることが知られている。ただし、コンピュータ囲碁においてこの手法を適用すると、特に学習初期において、ルールには従っているものの眼を潰すなどの不利な手を繰り返し、結果的にお互いに石を取り合うという事例が発生する。このような学習初期に見られる品質の低い学習データは学習効率に悪影響を及ぼしていると考えられる。この問題に対し、著者らは強化学習における自己対局時に眼には着手しないというルールを追加する事により、初期段階において学習効率を向上させる手法を提案した。しかし、囲碁の対局では眼への着手を行った方が良い場合もあるという課題がある。そこで本稿では、眼への着手をした方が有利となる場合、眼への着手を可能とする手法を提案する。 |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In perfect information games, it is known that a learning method in which reinforcement learning is repeated from a state of no learning using only the game rules is effective, and AlphaZero is a representative example. However, when this method is applied to computer Go, especially in the early stages of learning, there are cases where the players repeatedly make disadvantageous moves, such as moves that reduce their own liberties, and as a result, they end up taking stones from each other. Such low quality training data in the early stages of learning is thought to have a negative impact on learning efficiency. To solve this problem, the authors proposed a method to improve the learning efficiency in the early stage of reinforcement learning by adding a rule that no move should be made with less than two liberties in a self-playing game. However, there is a problem that it is sometimes better to make moves that reduce the liberties in a game of Go. Therefore, in this paper, we propose a method to enable moves to reduce the liberties with certain conditionalization. |
書誌情報 |
ゲームプログラミングワークショップ2021論文集
巻 2021,
p. 89-92,
発行日 2021-11-06
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |