@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00106513, author = {今川, 孝久 and 金子, 知適 and Takahisa, Imagawa and Tomoyuki, Kaneko}, book = {ゲームプログラミングワークショップ2014論文集}, month = {Oct}, note = {UCT は囲碁やGeneral Game Playing などの応用で効果を発揮している探索手法で,多腕バンディット問題のアルゴリズムであるUCB1 をモンテカルロ木探索(MCTS) に応用したものである.多腕バンディット問題には,KL-UCB, Thompson Sampling, UCB1-Tuned などUCB1 より優れるとされる様々なアルゴリズムが提案されてきている. そこで本研究では、UCB1 に変えてそれらのアルゴリズムをMCTS に用いることを提案し,実際の性能についてP-game と呼ばれる仮想的なゲーム木を用いて分析した. 実験の結果,UCB1 よりもKL-UCB, Thompson Sampling, UCB1-Tuned がMCTS においても優れることが,期待通りに確認された.ただし,各アルゴリズムの差よりも各仮想的なゲーム木の性質に因る性能の違いの方が大きいことも同時に確認されている.本稿で用いたP-game は,広く探索アルゴリズムの性能の評価で用いられているが,MCTS の評価に用いる場合は,木の作り方に注意を払う必要がある可能性がある., UCT is a search method which is effective in such as Go and General Game Playing, and it is a application of UCB1, an algorithm of multi-armed bandit proplem to Monte-Carlo tree search (MCTS). In multi-armed bandit problem, various algorithms better than UCB1 have been proposed, such as KL-UCB, Thompson Sampling, UCB1-Tuned. In our research, the other algorithms instead of UCB1 are applied to MCTS and, it's effectiveness are analized by P-game, a virtual game. The result of the experiments show that KL-UCB, Thompson Sampling and UCB1-Tuned are better than UCB1 as it is expected, but also difference of effectiveness caused by properties of P-game trees is larger than difference between the algorithms. P-game is widely used for evaluating effectiveness of search algorithms, but we may need to take care of creating P-game tree when evaluating MCTS.}, pages = {145--150}, publisher = {情報処理学会}, title = {多腕バンディットアルゴリズムのMCTSへの応用と性能の分析}, volume = {2014}, year = {2014} }