ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. ゲーム情報学(GI)
  3. 2022
  4. 2022-GI-47

MC Softmax探索における局面評価関数の強化学習―5五将棋への適用―

https://ipsj.ixsq.nii.ac.jp/records/217516
https://ipsj.ixsq.nii.ac.jp/records/217516
d26141b7-928f-4444-9207-13d4922f6371
名前 / ファイル ライセンス アクション
IPSJ-GI22047013.pdf IPSJ-GI22047013.pdf (1.4 MB)
Copyright (c) 2022 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2022-03-11
タイトル
タイトル MC Softmax探索における局面評価関数の強化学習―5五将棋への適用―
タイトル
言語 en
タイトル Reinforcement Learning of Evaluation Functions in Monte Carlo Softmax Search - Application to Minishogi -
言語
言語 jpn
キーワード
主題Scheme Other
主題 将棋と5五将棋
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
芝浦工業大学
著者所属
芝浦工業大学
著者所属
芝浦工業大学
著者所属(英)
en
Shibaura Institute of Technology
著者所属(英)
en
Shibaura Institute of Technology
著者所属(英)
en
Shibaura Institute of Technology
著者名 岩本, 裕大

× 岩本, 裕大

岩本, 裕大

Search repository
粂川, 叶

× 粂川, 叶

粂川, 叶

Search repository
五十嵐, 治一

× 五十嵐, 治一

五十嵐, 治一

Search repository
著者名(英) Hiromasa, Iwamoto

× Hiromasa, Iwamoto

en Hiromasa, Iwamoto

Search repository
Kanau, Kumekawa

× Kanau, Kumekawa

en Kanau, Kumekawa

Search repository
Harukazu, Igarashi

× Harukazu, Igarashi

en Harukazu, Igarashi

Search repository
論文抄録
内容記述タイプ Other
内容記述 MC Softmax 探索は,コンピュータ将棋などのゲーム AI に用いられる探索手法の一手法である.この探索法のための局面評価関数の学習法が 2018 年に五十嵐らにより提案されていたが,実際にコンピュータゲームへ適用しての検証は出来ていなかった.この学習法は探索木内の全ての葉局面や内部ノードを学習対象とすることが可能である.かつ,バックアップ方策による確率的なサンプリングを用いることで,学習パラメータに関するバックアップ評価値の勾配ベクトルの計算を効率化できる.この勾配ベクトルは,回帰,TD (λ) 法,方策勾配法,ブートストラップ法(Q 学習)などの計算に共通であり,これらの複数の学習法を同時に行う効率的な複合学習が可能である.本研究では,5 五将棋を題材としてこの学習法の検証を実験により行った.結果として,各学習法のサンプリングを用いた学習の正当性と,複数の学習法を同時に適用することによる学習効果の有効性を確認することができた.
論文抄録(英)
内容記述タイプ Other
内容記述 MC Softmax search is one of the search methods used in game AI such as computer Shogi. A learning method of state evaluation functions for this search method was proposed by Igarashi et al. in 2018, but it has not been verified by actually applying it to computer games. This learning method can be applied to all leaf nodes and internal nodes in a search tree. In addition, by using probabilistic sampling with backup policies, we can simplify the computation of the gradient vector of backed-up evaluation values with respect to learning parameters. This gradient vector is common to the computation of regression, TD(λ) method, policy gradient method, bootstrapping method (Q-learning), etc., which enables efficient combined learning where these multiple learning methods are performed simultaneously. In this study, we experimentally validated this learning method on the subject of 5x5 Shogi. As a result, we confirmed the validity of learning with sampling of each learning method and the effectiveness of learning by applying multiple learning methods simultaneously.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA11362144
書誌情報 研究報告ゲーム情報学(GI)

巻 2022-GI-47, 号 13, p. 1-8, 発行日 2022-03-11
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8736
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 15:28:06.843436
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3