WEKO3
-
RootNode
アイテム
Watkinsの<i>Q</i>(<i>λ</i>)法に基づくMultiple Choice Systemのボスの強化学習
https://ipsj.ixsq.nii.ac.jp/records/194967
https://ipsj.ixsq.nii.ac.jp/records/19496758505ef9-f4a9-44f8-85df-a845500be30f
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2019 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2019-03-01 | |||||||||
タイトル | ||||||||||
タイトル | Watkinsの<i>Q</i>(<i>λ</i>)法に基づくMultiple Choice Systemのボスの強化学習 | |||||||||
タイトル | ||||||||||
言語 | en | |||||||||
タイトル | Reinforcement Learning of the Boss in Multiple Choice System Based on Watkins's <i>Q</i>(<i>λ</i>) | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
資源タイプ | technical report | |||||||||
著者所属 | ||||||||||
電気通信大学 | ||||||||||
著者所属 | ||||||||||
電気通信大学 | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
The University of Electro-Communications | ||||||||||
著者所属(英) | ||||||||||
en | ||||||||||
The University of Electro-Communications | ||||||||||
著者名 |
吉田, 直人
× 吉田, 直人
× 保木, 邦仁
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | Multiple Choice Systemは囲碁やチェスなどの既存人工知能が候補手を複数提示し,ボスと呼ばれる人間がそれらの中から一つを選択するシステムである.本研究ではボスを強化学習及びニューラルネットワークを用いたボス人工知能に置き換え,その性能を調査する.題材としたゲームはチェス,既存人工知能はStockfish 8である.候補手は探索節点数10000のStockfish 8のMultiPV機能を用いて生成した.MultiPV機能とは指定した数の次の着手を探索する機能である.適切な強化学習法とニューラルネットワークの構成の下で,学習した対局相手に対するボス人工知能の勝点平均が,評価値最大の手を単純に選択し続けるボスの勝点平均よりも有意に高いことが示された. | |||||||||
書誌レコードID | ||||||||||
収録物識別子タイプ | NCID | |||||||||
収録物識別子 | AA11362144 | |||||||||
書誌情報 |
研究報告ゲーム情報学(GI) 巻 2019-GI-41, 号 6, p. 1-7, 発行日 2019-03-01 |
|||||||||
ISSN | ||||||||||
収録物識別子タイプ | ISSN | |||||||||
収録物識別子 | 2188-8736 | |||||||||
Notice | ||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |