@techreport{oai:ipsj.ixsq.nii.ac.jp:00232917,
 author = {神子島, 一弥 and 坂地, 泰紀 and 野田, 五十樹},
 issue = {29},
 month = {Mar},
 note = {本稿ではゲーム AI で用いられる Self-Play による深層強化学習において,スコアの確率分布を予測するモデルを提案する.提案モデルでは,一般に用いられているスコアの期待値の代わりに,スコアの確率分布を求める.それを直接用いることによって,スコア学習における性能低下問題を解決する.既存モデルと比較した評価実験により,性能低下問題が解決されることが分かった.更にスコアに対してより精密な操作を可能とする結果も得られた., We propose a model for predicting the probability distribution of score in Self-Play deep reinforcement learning, which is used in game AI. In the proposed model, the probability distribution of score is obtained instead of expected value of score that is commonly used. By using it directly, the performance degradation problem in score learning is solved. Evaluation experiments comparing the proposed model with existing models show that the performance degradation problem is solved. Furthermore, the proposed model allowed more precise manipulation of score.},
 title = {Self-Playを用いた深層強化学習におけるスコア分布予測型モデルの提案},
 year = {2024}
}