Item type |
Symposium(1) |
公開日 |
2024-11-15 |
タイトル |
|
|
タイトル |
部分問題の解決を目的とした AlphaZero型強化学習の拡張 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Extension to AlphaZero-style reinforcement learning for solving life and death problem in Go |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
AI |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
reinforcement learning |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
AlphaZero |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
東京大学大学院 総合文化研究科 |
著者所属 |
|
|
|
東京大学大学院 総合文化研究科 |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Arts and Sciences, the University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Arts and Sciences, the University of Tokyo |
著者名 |
村上, 花恋
金子, 知適
|
著者名(英) |
Murakami, Karen
Tomoyuki, Kaneko
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では AlphaZero 型の深層強化学習を拡張し、囲碁において、対局だけでなく詰碁のように局面の一部分に注目してプレイする能力を訓練する手法を提案する。そのために、ネットワークの入力に注目範囲をあらわすチャネルを加え、指定された場合は対応する部分での利益を最大化するような方策や価値を出力するように設計する。そのような訓練が可能となるよう、自己対戦での棋譜は、複数の範囲を指示したものと、範囲の指示のない通常の対局の両方を用意する。 Gumbel AlphaZero をベースに提案手法を実装し、九路盤の囲碁で性能評価したところ、 100 世代訓練したエージェントは、指定された隅に概ね対応する出力ができていることを確認した。通常の対局の強さへの影響は、許容範囲であった。 |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
This paper extends AlphaZero-style deep reinforcement learning in Go to make agents understand strategies focusing on a specified region, or Tsumego problems, while keeping playing performance in the original game. To this end, our neural networks take a set of vertices as an additional input channel and yield a policy and value to achieve a best result in the specified region if it is not empty. To train such networks, self-play is also extended so that games with various regions regions and without regions are available for Tsumego training and ordinary training, respectively. We implemented our method based on Gumbel AlphaZero in nine by nine Go and empirically showed that our agents after 100 generation yield a decent policy for a specified corner with a slight drawback in usual playing performance. |
書誌情報 |
ゲームプログラミングワークショップ2024論文集
巻 2024,
p. 103-110,
発行日 2024-11-15
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |