Item type |
SIG Technical Reports(1) |
公開日 |
2018-02-23 |
タイトル |
|
|
タイトル |
大貧民の状態価値(期待順位)の強化学習 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Reinforcement learning of state value (expected rank) of <i>Daihinmin</i> |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
不完全情報ゲーム |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
電気通信大学 |
著者所属 |
|
|
|
電気通信大学 |
著者所属(英) |
|
|
|
en |
|
|
The University of Electro-Communications |
著者所属(英) |
|
|
|
en |
|
|
The University of Electro-Communications |
著者名 |
桑原, 和人
保木, 邦仁
|
著者名(英) |
Kazuto, Kuwabara
Kunihito, Hoki
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
現在コンピュータ大貧民では,機械学習した方策関数を用いたモンテカルロ法が有効とされている.一方,バックギャモンや囲碁などでは状態価値や方策関数の強化学習で強いプレイヤの作成に成功している.本研究では大貧民を題材として,畳込みニューラルネットワークを用いた順位予測による状態価値の推定と,状態価値に基づくグリーディ方策の作成を行った.「過去の UEC コンピュータ大貧民大会 (UECda) 優勝プレイヤ同士の対戦の順位予測」 と 「ランダムプレイヤから開始した自己対戦による強化学習」 の 2 つのアプローチを実施し,どちらも UECda 優勝プレイヤに準ずる強さのグリーディ方策が得られた. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11362144 |
書誌情報 |
研究報告ゲーム情報学(GI)
巻 2018-GI-39,
号 7,
p. 1-8,
発行日 2018-02-23
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8736 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |