@techreport{oai:ipsj.ixsq.nii.ac.jp:00194967,
author = {吉田, 直人 and 保木, 邦仁},
issue = {6},
month = {Mar},
note = {Multiple Choice Systemは囲碁やチェスなどの既存人工知能が候補手を複数提示し,ボスと呼ばれる人間がそれらの中から一つを選択するシステムである.本研究ではボスを強化学習及びニューラルネットワークを用いたボス人工知能に置き換え,その性能を調査する.題材としたゲームはチェス,既存人工知能はStockfish 8である.候補手は探索節点数10000のStockfish 8のMultiPV機能を用いて生成した.MultiPV機能とは指定した数の次の着手を探索する機能である.適切な強化学習法とニューラルネットワークの構成の下で,学習した対局相手に対するボス人工知能の勝点平均が,評価値最大の手を単純に選択し続けるボスの勝点平均よりも有意に高いことが示された.},
title = {Watkinsの<i>Q</i>(<i>λ</i>)法に基づくMultiple Choice Systemのボスの強化学習},
year = {2019}
}