Item type |
Symposium(1) |
公開日 |
2018-11-05 |
タイトル |
|
|
タイトル |
MC Softmax 探索における局面評価関数の学習 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Learning Position Evaluation Functions Used in Monte Carlo Softmax Search |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
コンピュータ将棋 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
選択探索 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
モンテカルロ木探索 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
MC Softmax 探索 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ボルツマン分布 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
芝浦工業大学工学部情報工学科 |
著者所属(英) |
|
|
|
en |
|
|
Shibaura Institute of Technology |
著者名 |
五十嵐, 治一
森岡, 祐一
山本, 一将
|
著者名(英) |
Harukazu, Igarash
Yuichi, Morioka
Kazumasa, Yamamoto
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
モンテカルロ木探索法と同じく選択探索の一方式として,MC Softmax 探索法が提案されている.本論文では,この MC Softmax 探索法において次の2つのことを提案する.第 1 には,ノード選択方策とバックアップ方策とを分離し,別々に用意することである.これにより,バックアップの方法とは独立にノード選択の方策を自由に設計することできる.したがって,ノード選択方策の内容に関わらず MC Softmax 探索の最善応手手順を Minimax 探索による最善応手手順に近づけることができる.第 2 には,探索により得られた探索木に対して,バックアップ方策を用いたモンテカルロ・サンプリングを行うことにより,局面評価関数を学習する方式の提案である.この学習には,教師あり学習,強化学習,回帰による学習,Bootstrapping による学習が含まれている.本学習方式では,出現局面や最善応 手手順の末端局面だけではなく,探索木の内部ノードの局面や有力変化手順の末端局面も学習対象とすることができるので,学習に必要な対局数を大幅に減らすことができる.本論文ではサンプリングによるこれらの学習法の導出と,学習法の組合せについて考察を行った. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
This paper makes two proposals for Monte Carlo Softmax Search, which is a recently proposed method that is classified as a selective search like the Monte Carlo Tree Search. The first proposal separately defines the node-selection and backup policies to allow researchers to freely design a node-selection policy based on their searching strategies and confirms the principal variation produced by the Monte Carlo Softmax Search to that produced by a minimax search. The second proposal modifies commonly used learning methods for positional evaluation functions. In our new proposals, evaluation functions are learned by Monte Carlo sampling, which is performed with the backup policy in the search tree produced by Monte Carlo Softmax Search. The learning methods under consideration include supervised learning, reinforcement learning, regression learning, and search bootstrapping. Our sampling-based learning not only uses current positions and principal variations but also the internal nodes and important variations of a search tree. This step reduces the number of games necessary for learning. New learning rules are derived for sampling-based learning based on the Monte Carlo Softmax Search and combinations of the modified learning methods are also proposed in this paper. |
書誌情報 |
ゲームプログラミングワークショップ2018論文集
巻 2018,
p. 212-219,
発行日 2018-11-09
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |