WEKO3
アイテム
RoboCupサッカーシミュレーション2Dリーグにおけるニューラルネットワークを用いた評価関数の模倣学習
https://ipsj.ixsq.nii.ac.jp/records/214968
https://ipsj.ixsq.nii.ac.jp/records/21496829fb24ab-79fa-4bb2-8a1a-d016b7cefb8b
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2021 by the Information Processing Society of Japan
|
| Item type | National Convention(1) | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2021-03-04 | |||||||||
| タイトル | ||||||||||
| タイトル | RoboCupサッカーシミュレーション2Dリーグにおけるニューラルネットワークを用いた評価関数の模倣学習 | |||||||||
| 言語 | ||||||||||
| 言語 | jpn | |||||||||
| キーワード | ||||||||||
| 主題Scheme | Other | |||||||||
| 主題 | 人工知能と認知科学 | |||||||||
| 資源タイプ | ||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||
| 資源タイプ | conference paper | |||||||||
| 著者所属 | ||||||||||
| 芝浦工大 | ||||||||||
| 著者所属 | ||||||||||
| 芝浦工大 | ||||||||||
| 著者名 |
岡崎, 弘侑
× 岡崎, 弘侑
× 五十嵐, 治一
|
|||||||||
| 論文抄録 | ||||||||||
| 内容記述タイプ | Other | |||||||||
| 内容記述 | RoboCupサッカーシミュレーション2dリーグのサンプルプログラムagent2dでは、攻撃時のボール保持者の行動決定に「チェーンアクション」という方法が採用されている。チェーンアクションでは、局面の優劣を評価して行動を決定する。本研究では、チェーンアクション内で使用する評価関数をニューラルネットワークで近似し,学習することを試みた。学習では、ある報酬を仮定し、強豪チームの行動決定方法(方策)に基づく状態価値関数を、強化学習の手法を用いて試合ログから計算した。その結果、学習前のニューラルネットワークを用いたチームより対agent2dでの勝率が向上した。 | |||||||||
| 書誌レコードID | ||||||||||
| 収録物識別子タイプ | NCID | |||||||||
| 収録物識別子 | AN00349328 | |||||||||
| 書誌情報 |
第83回全国大会講演論文集 巻 2021, 号 1, p. 333-334, 発行日 2021-03-04 |
|||||||||
| 出版者 | ||||||||||
| 言語 | ja | |||||||||
| 出版者 | 情報処理学会 | |||||||||