WEKO3
アイテム
囲碁における勾配法を用いた確率関数の学習
https://ipsj.ixsq.nii.ac.jp/records/71075
https://ipsj.ixsq.nii.ac.jp/records/71075cd6b8080-6162-4ddc-9245-3bfb6a568801
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2010 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2010-11-15 | |||||||
タイトル | ||||||||
タイトル | 囲碁における勾配法を用いた確率関数の学習 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A Gradient Method for the Evaluation Function in the Game of Go | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 特集:ゲームプログラミング | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
著者所属 | ||||||||
株式会社KDDI研究所 | ||||||||
著者所属 | ||||||||
北陸先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属 | ||||||||
北陸先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属 | ||||||||
松江工業高等専門学校情報工学科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
KDDI R&D Laboratories Inc. | ||||||||
著者所属(英) | ||||||||
en | ||||||||
School of Information Science, Japan Advanced Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
School of Information Science, Japan Advanced Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Information Engineering, Matsue College of Technology | ||||||||
著者名 |
松井, 利樹
× 松井, 利樹
|
|||||||
著者名(英) |
Toshiki, Matsui
× Toshiki, Matsui
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 囲碁の指し手を評価するには膨大な数の特徴とそれらの複雑な関係を考慮する必要がある.人手によるパラメータの調整はほぼ不可能であり機械学習が唯一の現実的なアプローチである.本稿ではコンピュータ将棋において評価関数の学習に用いられている勾配法をコンピュータ囲碁に応用する.将棋の評価関数と囲碁の評価関数では求められるものが異なる.将棋では手が正しく順序付けられれば十分であるが,囲碁ではモンテカルロシミュレーションの確率分布を生成するため,比率も適切でなくてはならない.本稿では異なる2つの誤差関数を設計することでこの問題を解決している.ベンチマークとしてBradley-TerryモデルとEloレーティングモデルを用いた学習手法(これは世界最強の囲碁プログラムの1つCrazy Stoneで用いられている)と比較した結果,大きな性能向上を確認できた. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | To evaluate moves in the game of Go, a large number of features and their complicated relationships have to be considered. These features are nearly impossible to be optimized by hand so machine learning is one method. We apply a gradient method which is used in computer Shogi for learning of the evaluation function. Evaluation function for Shogi and Go have different characteristics. In Shogi, it is enough to be able to order moves correctly for use in alphabeta. While in Go, moves require proper score in order to generate a probability distribution for use in Monte-Carlo simulation. We solve this problem by designing two error functions. We compare our method to Bradley-Terry and Elo-Rating model that are used in Crazy Stone, which is one of the best program in the world. Experimental results show that our method produces a stronger Go player. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 51, 号 11, p. 2031-2039, 発行日 2010-11-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |