@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00192078,
 author = {五十嵐, 治一 and 森岡, 祐一 and 山本, 一将 and Harukazu, Igarash and Yuichi, Morioka and Kazumasa, Yamamoto},
 book = {ゲームプログラミングワークショップ2018論文集},
 month = {Nov},
 note = {モンテカルロ木探索法と同じく選択探索の一方式として,MC Softmax 探索法が提案されている.本論文では,この MC Softmax 探索法において次の2つのことを提案する.第 1 には,ノード選択方策とバックアップ方策とを分離し,別々に用意することである.これにより,バックアップの方法とは独立にノード選択の方策を自由に設計することできる.したがって,ノード選択方策の内容に関わらず MC Softmax 探索の最善応手手順を Minimax 探索による最善応手手順に近づけることができる.第 2 には,探索により得られた探索木に対して,バックアップ方策を用いたモンテカルロ・サンプリングを行うことにより,局面評価関数を学習する方式の提案である.この学習には,教師あり学習,強化学習,回帰による学習,Bootstrapping による学習が含まれている.本学習方式では,出現局面や最善応
手手順の末端局面だけではなく,探索木の内部ノードの局面や有力変化手順の末端局面も学習対象とすることができるので,学習に必要な対局数を大幅に減らすことができる.本論文ではサンプリングによるこれらの学習法の導出と,学習法の組合せについて考察を行った., This paper makes two proposals for Monte Carlo Softmax Search, which is a recently proposed method that is classified as a selective search like the Monte Carlo Tree Search. The first proposal separately defines the node-selection and backup policies to allow researchers to freely design a node-selection policy based on their searching strategies and confirms the principal variation produced by the Monte Carlo Softmax Search to that produced by a minimax search. The second proposal modifies commonly used learning methods for positional evaluation functions. In our new proposals, evaluation functions are learned by Monte Carlo sampling, which is performed with the backup policy in the search tree produced by Monte Carlo Softmax Search. The learning methods under consideration include supervised learning, reinforcement learning, regression learning, and search bootstrapping. Our sampling-based learning not only uses current positions and principal variations but also the internal nodes and important variations of a search tree. This step reduces the number of games necessary for learning. New learning rules are derived for sampling-based learning based on the Monte Carlo Softmax Search and combinations of the modified learning methods are also proposed in this paper.},
 pages = {212--219},
 publisher = {情報処理学会},
 title = {MC Softmax 探索における局面評価関数の学習},
 volume = {2018},
 year = {2018}
}