@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00183828, author = {古根村, 光 and 山本, 一将 and 森岡, 祐一 and 五十嵐, 治一 and Hikaru, Konemura and Kazumasa, Yamamoto and Yuichi, Morioka and Harukazu, Igarashi}, book = {ゲームプログラミングワークショップ2017論文集}, month = {Nov}, note = {我々はこれまでにコンピュータ将棋における局面評価関数の学習のために,「方策勾配を用いた教師付学習法」を提案してきた.本論文では,静止探索の導入により学習精度を高めるとともに,AdaGrad の手法を適用することにより学習速度を速めることを試みた.また,本手法では局面評価関数に含まれるパラメータによる方策関数の勾配ベクトルを計算して用いる.この勾配ベクトルは方策勾配法や TD 学習などの強化学習にも用いられている.本論文では,提案した教師付学習法とこれらの強化学習法との同時学習が可能であることを論じた., We proposed a method of supervised learning using policy gradient to learn positional evaluation functions in shogi. We used quiescence search and AdaGrad to increase the accuracy and accelerate the learning speed. The proposed algorithm uses gradient vectors in the space of the parameters included in positional evaluation functions. These gradient vectors are also used in reinforcement learning such as policy gradient algorithms and TD learning. The proposed supervised learning method can be used with these reinforcement learning methods.}, pages = {1--7}, publisher = {情報処理学会}, title = {方策勾配を用いた将棋の局面評価関数の教師付学習:静止探索の導入とAdaGradの適用}, volume = {2017}, year = {2017} }