ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. シンポジウム
  2. シンポジウムシリーズ
  3. ゲームプログラミングワークショップ(GPWS)
  4. 2021

コンピュータ囲碁の強化学習における着手限定ルールに対する条件付けの検討

https://ipsj.ixsq.nii.ac.jp/records/213437
https://ipsj.ixsq.nii.ac.jp/records/213437
61da076b-3bd2-419f-9a7e-77539c7ab007
名前 / ファイル ライセンス アクション
IPSJ-GPWS2021016.pdf IPSJ-GPWS2021016.pdf (2.5 MB)
Copyright (c) 2021 by the Information Processing Society of Japan
オープンアクセス
Item type Symposium(1)
公開日 2021-11-06
タイトル
タイトル コンピュータ囲碁の強化学習における着手限定ルールに対する条件付けの検討
タイトル
言語 en
タイトル A Study on Conditioning for Move Restriction Rulesin Reinforcement Learning for Computer Go
言語
言語 jpn
キーワード
主題Scheme Other
主題 囲碁
キーワード
主題Scheme Other
主題 コンピュータ囲碁
キーワード
主題Scheme Other
主題 強化学習
キーワード
主題Scheme Other
主題 着手限定ルール
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_5794
資源タイプ conference paper
著者所属
大阪電気通信大学
著者所属
大阪電気通信大学
著者所属
大阪電気通信大学
著者所属(英)
en
Osaka Electro-Communication University
著者所属(英)
en
Osaka Electro-Communication University
著者所属(英)
en
Osaka Electro-Communication University
著者名 谷田, 聖司

× 谷田, 聖司

谷田, 聖司

Search repository
小田, 凌平

× 小田, 凌平

小田, 凌平

Search repository
藤田, 玄

× 藤田, 玄

藤田, 玄

Search repository
著者名(英) Tanida, Masashi

× Tanida, Masashi

en Tanida, Masashi

Search repository
Oda, Ryohei

× Oda, Ryohei

en Oda, Ryohei

Search repository
Fujita, Gen

× Fujita, Gen

en Fujita, Gen

Search repository
論文抄録
内容記述タイプ Other
内容記述 AlphaZero のように完全情報ゲームにおいてルールを記述し、それを基に白紙の状態から強化学習を繰り返す学習方法が有効であることが知られている。ただし、コンピュータ囲碁においてこの手法を適用すると、特に学習初期において、ルールには従っているものの眼を潰すなどの不利な手を繰り返し、結果的にお互いに石を取り合うという事例が発生する。このような学習初期に見られる品質の低い学習データは学習効率に悪影響を及ぼしていると考えられる。この問題に対し、著者らは強化学習における自己対局時に眼には着手しないというルールを追加する事により、初期段階において学習効率を向上させる手法を提案した。しかし、囲碁の対局では眼への着手を行った方が良い場合もあるという課題がある。そこで本稿では、眼への着手をした方が有利となる場合、眼への着手を可能とする手法を提案する。
論文抄録(英)
内容記述タイプ Other
内容記述 In perfect information games, it is known that a learning method in which reinforcement learning is repeated from a state of no learning using only the game rules is effective, and AlphaZero is a representative example. However, when this method is applied to computer Go, especially in the early stages of learning, there are cases where the players repeatedly make disadvantageous moves, such as moves that reduce their own liberties, and as a result, they end up taking stones from each other. Such low quality training data in the early stages of learning is thought to have a negative impact on learning efficiency. To solve this problem, the authors proposed a method to improve the learning efficiency in the early stage of reinforcement learning by adding a rule that no move should be made with less than two liberties in a self-playing game. However, there is a problem that it is sometimes better to make moves that reduce the liberties in a game of Go. Therefore, in this paper, we propose a method to enable moves to reduce the liberties with certain conditionalization.
書誌情報 ゲームプログラミングワークショップ2021論文集

巻 2021, p. 89-92, 発行日 2021-11-06
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 17:09:43.221037
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3