WEKO3
アイテム
分布シフトの影響を緩和する深層強化学習におけるモデル平均化手法
https://ipsj.ixsq.nii.ac.jp/records/229876
https://ipsj.ixsq.nii.ac.jp/records/2298763a250a0f-4346-4704-a045-ec33769cdd26
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2023 by the Information Processing Society of Japan
|
Item type | National Convention(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2023-02-16 | |||||||||
タイトル | ||||||||||
タイトル | 分布シフトの影響を緩和する深層強化学習におけるモデル平均化手法 | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
キーワード | ||||||||||
主題Scheme | Other | |||||||||
主題 | 人工知能と認知科学 | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||
資源タイプ | conference paper | |||||||||
著者所属 | ||||||||||
北陸先端大 | ||||||||||
著者所属 | ||||||||||
モントリオール大学/モントリオール学習アルゴリズム研究所 | ||||||||||
著者名 |
高橋, 快成
× 高橋, 快成
× 長沼, 大樹
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 実用的な深層強化学習のスキームであるロボット制御では、シミュレーション環境において学習し、実際のロボットでの動作を想定する。シミュレーションと実社会での動作における環境差、データの分布シフトによって獲得したエージェントが汎化しないことが喫緊の課題である。近年、アンサンブル手法がこの課題に対して有効であることが示されているが、膨大な計算コストを必要とする。我々は、計算コストの削減と学習の安定化が報告されているアンサンブル手法の近似手法に着目し、この課題に取り組む。Super Mario Bros の異なるステージを実験環境として用いて、疑似アンサンブル手法が深層強化学習における分布シフトの堅牢性へ与える影響について検証を行なった。 | |||||||||
書誌レコードID | ||||||||||
収録物識別子タイプ | NCID | |||||||||
収録物識別子 | AN00349328 | |||||||||
書誌情報 |
第85回全国大会講演論文集 巻 2023, 号 1, p. 151-152, 発行日 2023-02-16 |
|||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |