@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00213425, author = {山下, 宏 and Hioshi, Yamashita}, book = {ゲームプログラミングワークショップ2021論文集}, month = {Nov}, note = {将棋の駒落ちを人間の知識なしでゼロから深層強化学習した。6 種類の駒落ち (香落、角落、飛落、2 枚落、4 枚落、6 枚落) と平手、の合計 7 種類を同時に学習し、勝率は 5 割になるように下手 (先手) の強さを自動調節した。980 万棋譜を自己対戦で作成した結果、平手から 6 枚落ちまで、上手、下手、どちらを持っても高段者レベルの着手を返す AI ができた。, We have developed deep reinforcement learning for Shogi handicap games without human knowledge. Handicaps are seven kinds. Lance(kyo ochi), Bishop(kaku ochi), Rook(hisha ochi), 2-Piece(ni-mai ochi), 4-Piece(yon-mai ochi), 6-Pieces(roku-mai ochi) and No handicap(hirate). Winrate are adjusted to keep 0.5 by weakening Black(shitate or sente) player strength. As a result of creating 9.8 million self-play games, AI could play reasonable moves at the level of a high dan player from No handicap to 6-Piece.}, pages = {20--27}, publisher = {情報処理学会}, title = {将棋の駒落ちの強化学習}, volume = {2021}, year = {2021} }