| Item type |
SIG Technical Reports(1) |
| 公開日 |
2022-03-11 |
| タイトル |
|
|
タイトル |
MC Softmax探索における局面評価関数の強化学習―5五将棋への適用― |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Reinforcement Learning of Evaluation Functions in Monte Carlo Softmax Search - Application to Minishogi - |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
将棋と5五将棋 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
芝浦工業大学 |
| 著者所属 |
|
|
|
芝浦工業大学 |
| 著者所属 |
|
|
|
芝浦工業大学 |
| 著者所属(英) |
|
|
|
en |
|
|
Shibaura Institute of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Shibaura Institute of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Shibaura Institute of Technology |
| 著者名 |
岩本, 裕大
粂川, 叶
五十嵐, 治一
|
| 著者名(英) |
Hiromasa, Iwamoto
Kanau, Kumekawa
Harukazu, Igarashi
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
MC Softmax 探索は,コンピュータ将棋などのゲーム AI に用いられる探索手法の一手法である.この探索法のための局面評価関数の学習法が 2018 年に五十嵐らにより提案されていたが,実際にコンピュータゲームへ適用しての検証は出来ていなかった.この学習法は探索木内の全ての葉局面や内部ノードを学習対象とすることが可能である.かつ,バックアップ方策による確率的なサンプリングを用いることで,学習パラメータに関するバックアップ評価値の勾配ベクトルの計算を効率化できる.この勾配ベクトルは,回帰,TD (λ) 法,方策勾配法,ブートストラップ法(Q 学習)などの計算に共通であり,これらの複数の学習法を同時に行う効率的な複合学習が可能である.本研究では,5 五将棋を題材としてこの学習法の検証を実験により行った.結果として,各学習法のサンプリングを用いた学習の正当性と,複数の学習法を同時に適用することによる学習効果の有効性を確認することができた. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
MC Softmax search is one of the search methods used in game AI such as computer Shogi. A learning method of state evaluation functions for this search method was proposed by Igarashi et al. in 2018, but it has not been verified by actually applying it to computer games. This learning method can be applied to all leaf nodes and internal nodes in a search tree. In addition, by using probabilistic sampling with backup policies, we can simplify the computation of the gradient vector of backed-up evaluation values with respect to learning parameters. This gradient vector is common to the computation of regression, TD(λ) method, policy gradient method, bootstrapping method (Q-learning), etc., which enables efficient combined learning where these multiple learning methods are performed simultaneously. In this study, we experimentally validated this learning method on the subject of 5x5 Shogi. As a result, we confirmed the validity of learning with sampling of each learning method and the effectiveness of learning by applying multiple learning methods simultaneously. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11362144 |
| 書誌情報 |
研究報告ゲーム情報学(GI)
巻 2022-GI-47,
号 13,
p. 1-8,
発行日 2022-03-11
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8736 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |