@techreport{oai:ipsj.ixsq.nii.ac.jp:00157979,
 author = {大渡, 勝己 and 田中, 哲朗 and Katsuki, Ohto and Tetsuro, Tanaka},
 issue = {10},
 month = {Mar},
 note = {大貧民は多人数不完全情報ゲームに分類され,日本中で広く親しまれているゲームである.大貧民のコンピュータプログラムの大会 (UECda) も行われており,近年ではモンテカルロ法を用いたプログラムが上位を占めている.本研究では,大貧民の知識を用いた方策関数を設計し,そのパラメータを方策勾配を用いた教師有り学習によって過去のプログラムの棋譜から学習した.その結果,公開されている過去のコンピュータ大貧民のプログラムと比較し,モンテカルロ法を使わないプログラム,使うプログラムのいずれとしても過去最高レベルの強さを達成することが出来た.さらに,他プログラムの棋譜を用いずとも,プログラムの自己対戦棋譜からの学習を繰り返すことで,同等の強さまでプログラムを強くすることに成功した.},
 title = {方策勾配を用いた教師有り学習によるコンピュータ大貧民の方策関数の学習とモンテカルロシミュレーションへの利用},
 year = {2016}
}