ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. シンポジウム
  2. シンポジウムシリーズ
  3. ゲームプログラミングワークショップ(GPWS)
  4. 2018

MC Softmax 探索における局面評価関数の学習

https://ipsj.ixsq.nii.ac.jp/records/192078
https://ipsj.ixsq.nii.ac.jp/records/192078
1b30329c-a64b-45b9-a0e6-11e9b6f1b3ba
名前 / ファイル ライセンス アクション
IPSJ-GPWS2018033.pdf IPSJ-GPWS2018033.pdf (1.4 MB)
Copyright (c) 2018 by the Information Processing Society of Japan
オープンアクセス
Item type Symposium(1)
公開日 2018-11-05
タイトル
タイトル MC Softmax 探索における局面評価関数の学習
タイトル
言語 en
タイトル Learning Position Evaluation Functions Used in Monte Carlo Softmax Search
言語
言語 jpn
キーワード
主題Scheme Other
主題 コンピュータ将棋
キーワード
主題Scheme Other
主題 選択探索
キーワード
主題Scheme Other
主題 モンテカルロ木探索
キーワード
主題Scheme Other
主題 MC Softmax 探索
キーワード
主題Scheme Other
主題 ボルツマン分布
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_5794
資源タイプ conference paper
著者所属
芝浦工業大学工学部情報工学科
著者所属(英)
en
Shibaura Institute of Technology
著者名 五十嵐, 治一

× 五十嵐, 治一

五十嵐, 治一

Search repository
森岡, 祐一

× 森岡, 祐一

森岡, 祐一

Search repository
山本, 一将

× 山本, 一将

山本, 一将

Search repository
著者名(英) Harukazu, Igarash

× Harukazu, Igarash

en Harukazu, Igarash

Search repository
Yuichi, Morioka

× Yuichi, Morioka

en Yuichi, Morioka

Search repository
Kazumasa, Yamamoto

× Kazumasa, Yamamoto

en Kazumasa, Yamamoto

Search repository
論文抄録
内容記述タイプ Other
内容記述 モンテカルロ木探索法と同じく選択探索の一方式として,MC Softmax 探索法が提案されている.本論文では,この MC Softmax 探索法において次の2つのことを提案する.第 1 には,ノード選択方策とバックアップ方策とを分離し,別々に用意することである.これにより,バックアップの方法とは独立にノード選択の方策を自由に設計することできる.したがって,ノード選択方策の内容に関わらず MC Softmax 探索の最善応手手順を Minimax 探索による最善応手手順に近づけることができる.第 2 には,探索により得られた探索木に対して,バックアップ方策を用いたモンテカルロ・サンプリングを行うことにより,局面評価関数を学習する方式の提案である.この学習には,教師あり学習,強化学習,回帰による学習,Bootstrapping による学習が含まれている.本学習方式では,出現局面や最善応
手手順の末端局面だけではなく,探索木の内部ノードの局面や有力変化手順の末端局面も学習対象とすることができるので,学習に必要な対局数を大幅に減らすことができる.本論文ではサンプリングによるこれらの学習法の導出と,学習法の組合せについて考察を行った.
論文抄録(英)
内容記述タイプ Other
内容記述 This paper makes two proposals for Monte Carlo Softmax Search, which is a recently proposed method that is classified as a selective search like the Monte Carlo Tree Search. The first proposal separately defines the node-selection and backup policies to allow researchers to freely design a node-selection policy based on their searching strategies and confirms the principal variation produced by the Monte Carlo Softmax Search to that produced by a minimax search. The second proposal modifies commonly used learning methods for positional evaluation functions. In our new proposals, evaluation functions are learned by Monte Carlo sampling, which is performed with the backup policy in the search tree produced by Monte Carlo Softmax Search. The learning methods under consideration include supervised learning, reinforcement learning, regression learning, and search bootstrapping. Our sampling-based learning not only uses current positions and principal variations but also the internal nodes and important variations of a search tree. This step reduces the number of games necessary for learning. New learning rules are derived for sampling-based learning based on the Monte Carlo Softmax Search and combinations of the modified learning methods are also proposed in this paper.
書誌情報 ゲームプログラミングワークショップ2018論文集

巻 2018, p. 212-219, 発行日 2018-11-09
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-20 00:18:40.600415
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3