@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00214968, author = {岡崎, 弘侑 and 五十嵐, 治一}, book = {第83回全国大会講演論文集}, issue = {1}, month = {Mar}, note = {RoboCupサッカーシミュレーション2dリーグのサンプルプログラムagent2dでは、攻撃時のボール保持者の行動決定に「チェーンアクション」という方法が採用されている。チェーンアクションでは、局面の優劣を評価して行動を決定する。本研究では、チェーンアクション内で使用する評価関数をニューラルネットワークで近似し,学習することを試みた。学習では、ある報酬を仮定し、強豪チームの行動決定方法(方策)に基づく状態価値関数を、強化学習の手法を用いて試合ログから計算した。その結果、学習前のニューラルネットワークを用いたチームより対agent2dでの勝率が向上した。}, pages = {333--334}, publisher = {情報処理学会}, title = {RoboCupサッカーシミュレーション2Dリーグにおけるニューラルネットワークを用いた評価関数の模倣学習}, volume = {2021}, year = {2021} }