@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00229354, author = {出村, 洋介 and 金子, 知適 and Yosuke, Demura and Tomoyuki, Kaneko}, book = {ゲームプログラミングワークショップ2023論文集}, month = {Nov}, note = {経験の多様性と不偏性は強化学習エージェントの性能や頑健性を向上させるが,大きな計算コストなしにそれを実現するのは困難な場合がある.多くのチェスライクゲームやオセロなどでは,初期状態(初期局面の駒配置等)が固定されていて 1 通りしかないため,AlphaZero スタイルの強化学習を行う場合,エージェントは似たようなエピソードや棋譜を経験しがちである.本論文では,この課題に対応するため,将棋の初期局面を拡張した「将棋 81 万」を提案し,将棋における有効性を実験的に評価する.「将棋 81 万」は,チェス 960 [1] と同様に駒の初期配置を一定の制約のもとでランダムにシャッフルして作成された将棋の初期局面集である.我々は,Gumbel AlphaZero の手法で 1000 万局の自己対局を行って様々なエージェントを訓練する実験を行い,最初に将棋 81 万で事前学習を行った後に通常の将棋に適応学習させたエージェントは,通常の将棋のみで訓練したエージェントよりも人間の対局で見られる様々な戦型において平均的パフォーマンスや頑健性が向上することを示した., While the diversity and unbiasedness in experiences will improve the performance and robustness of reinforcement learning agents, it is sometimes difficult to realize them without incurring significant costs. Many chess variants and Othello are typical domains where agents experience similar episodes (or game records) in AlphaZero-style reinforcement learning because there is a single fixed opening state that restricts the legal moves. In this paper, we address the problem by carefully augmenting opening positions to propose Shogi816K and empirically evaluate the effectiveness in shogi, a Japanese chess variant. As in Chess 960 or Fischer Random Chess [1], Shogi816K randomizes pieces in the opening positions with reasonable restrictions. We trained various agents by Gumbel AlphaZero with ten million game records and showed that agents first pre-trained with Shogi816K and later adapted to the usual shogi achieved better performance in average and robustness with respect to various opening variations in human playing than those trained only with the usual shogi.}, pages = {111--118}, publisher = {情報処理学会}, title = {将棋81万:強化学習のための多様性を持った将棋初期局面集}, volume = {2023}, year = {2023} }