WEKO3
アイテム
自己対局による兄弟局面学習における汎用的制御の有効性
https://ipsj.ixsq.nii.ac.jp/records/97736
https://ipsj.ixsq.nii.ac.jp/records/97736498b84e4-aca7-40b9-b658-4e2be7bedd39
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Symposium(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-11-06 | |||||||
タイトル | ||||||||
タイトル | 自己対局による兄弟局面学習における汎用的制御の有効性 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | An Effectivity of General Control in Learning Evaluation Function by Comparison of Sibling Nodes by Self-play | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||
資源タイプ | conference paper | |||||||
著者所属 | ||||||||
東京農工大学大学院工学府情報工学専攻 | ||||||||
著者所属 | ||||||||
東京農工大学大学院工学府 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer and Information Sciences, Graduate School of Technology, Tokyo University of Agriculture and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer and Information Sciences, Tokyo University of Agriculture and Technology | ||||||||
著者名 |
築地, 毅
× 築地, 毅
|
|||||||
著者名(英) |
Tsukiji, Tsuyoshi
× Tsukiji, Tsuyoshi
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 自己対局による棋譜を使って兄弟局面学習で5 五将棋の評価関数を学習できることが分かってきた.特に5 五将棋では,適切な初期値を与えることで学習に成功することができた.しかし,適切な初期値が不明なゲームでは精度が高い着手を選択できないため,有効性は多く示されていない.そこで適切な評価関数の構成が確立していないブロックスデュオを題材とし,ゲームで汎用的に用いられる「進行度」「読み切り制御」「思考時間」の3 つの制御を加えることによって柿木による手法に有効性があることを示し,学習結果にどのような影響を与えるかについて議論する.実験の結果,学習用棋譜生成時の着手に「進行度」「読み切り制御」を加えた学習では,加えなかった学習に対し552 勝393 敗55 分と有意に勝ち越し,2 つの制御の有効性が示された.また,学習棋譜生成時の思考時間を10[s] で行った学習は,1[s] で行った学習に対し545 勝403 敗52 分と有意に勝ち越し,思考時間を長くすることで学習の精度を高められることが示された. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | A learning method by comparison of sibling nodes by self-play for 5x5 shogi starts with default parameter setting given by heuristic, but other games whose general evaluation function is unknown have not been experimented yet. We applied the three general controls, ”progress value”,”endgame search” and ”thinking time”, to the learning method, to show effectivity on the game Blokus duo. The player of applying progress value and endgame search is ’ 552 wins 393 losses, 55 draws’ against not applying them. The player of 10sec/move learning is ’545 wins 403 losses, 52 draws’ against 1sec/move learning. | |||||||
書誌情報 |
ゲームプログラミングワークショップ2009論文集 巻 2009, 号 12, p. 127-134, 発行日 2009-11-06 |
|||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |