@article{oai:ipsj.ixsq.nii.ac.jp:00198354,
 author = {水上, 直紀 and 鶴岡, 慶雅 and Naoki, Mizukami and Yoshimasa, Tsuruoka},
 issue = {7},
 journal = {情報処理学会論文誌},
 month = {Jul},
 note = {自己対戦を利用することで囲碁や将棋といった完全情報ゲームにおいて人間プレイヤを超えるコンピュータプレイヤが示されている.一方で不完全情報ゲームの分野である麻雀ではこのような研究は行われていない.そこで本論文では自動対戦棋譜の教師あり学習による麻雀プログラムを構築する方法について述べる.まず,人間の牌譜から教師あり学習によりコンピュータプレイヤを構築し,このプレイヤ同士を対局させることにより牌譜を生成する.次に,この牌譜を用いて手牌から和了の翻数を予測するモデルを機械学習により構築する.最終的に,この翻数予測モデルの出力と期待最終順位を用いて点数状況を考慮する麻雀プログラムを構築した.評価実験により,得られた翻数予測モデルは4翻以上の高い翻数の成功率を約1ポイント向上させることを確認した., Recent reinforcement learning algorithms demonstrate that they can successfully achieve superhuman performance in the perfect information game such as Go or Shogi. However, in the domain of imperfect information game such as Mahjong, there is not much research using reinforcement learning. Therefore, this paper describes a method for building a mahjong program by supervised learning from self-play. First, a computer player is built from supervised learning from human's game records. The computer player's game records is generated by self-play. We train models that predict winning scores of a player's hand using game records. Our program decides moves based on the outputs of the prediction models and the expected final ranks. The program can predict future rewards and has obtained a skill for winning with high scores.},
 pages = {1325--1336},
 title = {自動対戦棋譜の教師あり学習による翻数予測に基づく麻雀プレイヤ},
 volume = {60},
 year = {2019}
}