WEKO3
アイテム
MuZeroへの内部報酬の導入による探索の効率化
https://ipsj.ixsq.nii.ac.jp/records/230200
https://ipsj.ixsq.nii.ac.jp/records/2302004da61012-a7a3-44ab-8aa9-ab7d878e0942
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2023 by the Information Processing Society of Japan
|
Item type | National Convention(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2023-02-16 | |||||||||
タイトル | ||||||||||
タイトル | MuZeroへの内部報酬の導入による探索の効率化 | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
キーワード | ||||||||||
主題Scheme | Other | |||||||||
主題 | 人工知能と認知科学 | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||
資源タイプ | conference paper | |||||||||
著者所属 | ||||||||||
東京工科大 | ||||||||||
著者所属 | ||||||||||
東京工科大 | ||||||||||
著者名 |
野村, 隆浩
× 野村, 隆浩
× 長名, 優子
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | Alpha Goでは、ゲーム木探索としてモンテカルロ木探索を行い、その結果を学習することで囲碁の対戦でプロ棋士に勝利することに成功している。さらに、Alpha Goの後継手法であるAlpha Zeroに深層学習を導入することで、囲碁などのボードゲームだけでなくビデオゲームにも対応したMuZeroが提案されている。一方で、Deep Q-Networkを改良したNGU(Never Give Up)では、学習時に同じ状態を何度も訪れにくくなるように内部報酬を導入することで、より様々な状態への探索が促され、深層強化学習の課題であった報酬が疎な環境においても早い段階で学習を進行させることを可能にしている。そこで、本研究では、MuZeroにNGUで提案された内部報酬の考え方を導入することで探索の効率化を行い、報酬が疎な環境においても早い段階で学習を進められるようにすることを目指す。 | |||||||||
書誌レコードID | ||||||||||
収録物識別子タイプ | NCID | |||||||||
収録物識別子 | AN00349328 | |||||||||
書誌情報 |
第85回全国大会講演論文集 巻 2023, 号 1, p. 829-830, 発行日 2023-02-16 |
|||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |