@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00213437, author = {谷田, 聖司 and 小田, 凌平 and 藤田, 玄 and Tanida, Masashi and Oda, Ryohei and Fujita, Gen}, book = {ゲームプログラミングワークショップ2021論文集}, month = {Nov}, note = {AlphaZero のように完全情報ゲームにおいてルールを記述し、それを基に白紙の状態から強化学習を繰り返す学習方法が有効であることが知られている。ただし、コンピュータ囲碁においてこの手法を適用すると、特に学習初期において、ルールには従っているものの眼を潰すなどの不利な手を繰り返し、結果的にお互いに石を取り合うという事例が発生する。このような学習初期に見られる品質の低い学習データは学習効率に悪影響を及ぼしていると考えられる。この問題に対し、著者らは強化学習における自己対局時に眼には着手しないというルールを追加する事により、初期段階において学習効率を向上させる手法を提案した。しかし、囲碁の対局では眼への着手を行った方が良い場合もあるという課題がある。そこで本稿では、眼への着手をした方が有利となる場合、眼への着手を可能とする手法を提案する。, In perfect information games, it is known that a learning method in which reinforcement learning is repeated from a state of no learning using only the game rules is effective, and AlphaZero is a representative example. However, when this method is applied to computer Go, especially in the early stages of learning, there are cases where the players repeatedly make disadvantageous moves, such as moves that reduce their own liberties, and as a result, they end up taking stones from each other. Such low quality training data in the early stages of learning is thought to have a negative impact on learning efficiency. To solve this problem, the authors proposed a method to improve the learning efficiency in the early stage of reinforcement learning by adding a rule that no move should be made with less than two liberties in a self-playing game. However, there is a problem that it is sometimes better to make moves that reduce the liberties in a game of Go. Therefore, in this paper, we propose a method to enable moves to reduce the liberties with certain conditionalization.}, pages = {89--92}, publisher = {情報処理学会}, title = {コンピュータ囲碁の強化学習における着手限定ルールに対する条件付けの検討}, volume = {2021}, year = {2021} }