@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00106503,
 author = {五十嵐, 治一 and 森岡, 祐一 and 山本, 一将 and Harukazu, Igarashi and Yuichi, Morioka and Kazumasa, Yamamoto},
 book = {ゲームプログラミングワークショップ2014論文集},
 month = {Oct},
 note = {コンピュータ将棋において探索木の枝を成長させる際に,その枝までの探索経路に沿った指し手の累積的な選択確率の値を基に探索制御を行う方法を提案する.このときの指し手の選択には,将棋の指し手に関するヒューリスティクスを組み込んだシミュレーション方策を使用する.この際,枝成長を決定論的に行う場合と確率的に行う2つの場合を考えた.さらに,本手法ではこのシミュレーション方策中のパラメータを強化学習の一手法である方策勾配法により学習する., This paper proposes a method based on the policy gradient learning algorithm for search control in computer shogi. In this method, whether every arc in a search tree should be extended is determined by the accumulated move-selection probability from the root node to the arc. Moves are selected by a simulation policy that includes heuristics for evaluating shogi moves. We consider two types of arc extension: deterministic and stochastic. In both cases, the parameters in the simulation policy can be learned by the policy gradient algorithm, which is a method of reinforcement learning.},
 pages = {90--94},
 publisher = {情報処理学会},
 title = {方策勾配法による探索制御の一考察},
 volume = {2014},
 year = {2014}
}