@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00214968,
 author = {岡崎, 弘侑 and 五十嵐, 治一},
 book = {第83回全国大会講演論文集},
 issue = {1},
 month = {Mar},
 note = {RoboCupサッカーシミュレーション2dリーグのサンプルプログラムagent2dでは、攻撃時のボール保持者の行動決定に「チェーンアクション」という方法が採用されている。チェーンアクションでは、局面の優劣を評価して行動を決定する。本研究では、チェーンアクション内で使用する評価関数をニューラルネットワークで近似し,学習することを試みた。学習では、ある報酬を仮定し、強豪チームの行動決定方法(方策)に基づく状態価値関数を、強化学習の手法を用いて試合ログから計算した。その結果、学習前のニューラルネットワークを用いたチームより対agent2dでの勝率が向上した。},
 pages = {333--334},
 publisher = {情報処理学会},
 title = {RoboCupサッカーシミュレーション2Dリーグにおけるニューラルネットワークを用いた評価関数の模倣学習},
 volume = {2021},
 year = {2021}
}