Item type |
Symposium(1) |
公開日 |
2017-11-03 |
タイトル |
|
|
タイトル |
方策勾配を用いた将棋の局面評価関数の教師付学習:静止探索の導入とAdaGradの適用 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Policy Gradient Supervised Learning of Positional Evaluation Function in Shogi : Using Quiescence Search and AdaGrad |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
コンピュータ将棋 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
教師付学習 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
方策勾配 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
静止探索 |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
AdaGrad |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_5794 |
|
資源タイプ |
conference paper |
著者所属 |
|
|
|
芝浦工業大工学部情報工学科 |
著者所属 |
|
|
|
株式会社コスモ・ウェブ |
著者所属 |
|
|
|
芝浦工業大工学部情報工学科 |
著者所属(英) |
|
|
|
en |
|
|
Shibaura Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Cosmoweb Co.,Ltd. |
著者所属(英) |
|
|
|
en |
|
|
Shibaura Institute of Technology |
著者名 |
古根村, 光
山本, 一将
森岡, 祐一
五十嵐, 治一
|
著者名(英) |
Hikaru, Konemura
Kazumasa, Yamamoto
Yuichi, Morioka
Harukazu, Igarashi
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
我々はこれまでにコンピュータ将棋における局面評価関数の学習のために,「方策勾配を用いた教師付学習法」を提案してきた.本論文では,静止探索の導入により学習精度を高めるとともに,AdaGrad の手法を適用することにより学習速度を速めることを試みた.また,本手法では局面評価関数に含まれるパラメータによる方策関数の勾配ベクトルを計算して用いる.この勾配ベクトルは方策勾配法や TD 学習などの強化学習にも用いられている.本論文では,提案した教師付学習法とこれらの強化学習法との同時学習が可能であることを論じた. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
We proposed a method of supervised learning using policy gradient to learn positional evaluation functions in shogi. We used quiescence search and AdaGrad to increase the accuracy and accelerate the learning speed. The proposed algorithm uses gradient vectors in the space of the parameters included in positional evaluation functions. These gradient vectors are also used in reinforcement learning such as policy gradient algorithms and TD learning. The proposed supervised learning method can be used with these reinforcement learning methods. |
書誌情報 |
ゲームプログラミングワークショップ2017論文集
巻 2017,
p. 1-7,
発行日 2017-11-03
|
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |