Item type |
SIG Technical Reports(1) |
公開日 |
2016-03-01 |
タイトル |
|
|
タイトル |
方策勾配を用いた教師有り学習によるコンピュータ大貧民の方策関数の学習とモンテカルロシミュレーションへの利用 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Supervised learning of policy function based on policy gradients and application to Monte Carlo simulation in Daihinmin |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ゲーム状態の評価および行動価値の推定と機械学習 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京大学大学院総合文化研究科 |
著者所属 |
|
|
|
東京大学情報基盤センター |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Arts and Sciences, The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Information Technology Center, The University of Tokyo |
著者名 |
大渡, 勝己
田中, 哲朗
|
著者名(英) |
Katsuki, Ohto
Tetsuro, Tanaka
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
大貧民は多人数不完全情報ゲームに分類され,日本中で広く親しまれているゲームである.大貧民のコンピュータプログラムの大会 (UECda) も行われており,近年ではモンテカルロ法を用いたプログラムが上位を占めている.本研究では,大貧民の知識を用いた方策関数を設計し,そのパラメータを方策勾配を用いた教師有り学習によって過去のプログラムの棋譜から学習した.その結果,公開されている過去のコンピュータ大貧民のプログラムと比較し,モンテカルロ法を使わないプログラム,使うプログラムのいずれとしても過去最高レベルの強さを達成することが出来た.さらに,他プログラムの棋譜を用いずとも,プログラムの自己対戦棋譜からの学習を繰り返すことで,同等の強さまでプログラムを強くすることに成功した. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11362144 |
書誌情報 |
研究報告ゲーム情報学(GI)
巻 2016-GI-35,
号 10,
p. 1-8,
発行日 2016-03-01
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8736 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |