ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 全国大会
  2. 85回
  3. 人工知能と認知科学

分布シフトの影響を緩和する深層強化学習におけるモデル平均化手法

https://ipsj.ixsq.nii.ac.jp/records/229876
https://ipsj.ixsq.nii.ac.jp/records/229876
3a250a0f-4346-4704-a045-ec33769cdd26
名前 / ファイル ライセンス アクション
IPSJ-Z85-6P-03.pdf IPSJ-Z85-6P-03.pdf (206.2 kB)
Copyright (c) 2023 by the Information Processing Society of Japan
Item type National Convention(1)
公開日 2023-02-16
タイトル
タイトル 分布シフトの影響を緩和する深層強化学習におけるモデル平均化手法
言語
言語 jpn
キーワード
主題Scheme Other
主題 人工知能と認知科学
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_5794
資源タイプ conference paper
著者所属
北陸先端大
著者所属
モントリオール大学/モントリオール学習アルゴリズム研究所
著者名 高橋, 快成

× 高橋, 快成

高橋, 快成

Search repository
長沼, 大樹

× 長沼, 大樹

長沼, 大樹

Search repository
論文抄録
内容記述タイプ Other
内容記述 実用的な深層強化学習のスキームであるロボット制御では、シミュレーション環境において学習し、実際のロボットでの動作を想定する。シミュレーションと実社会での動作における環境差、データの分布シフトによって獲得したエージェントが汎化しないことが喫緊の課題である。近年、アンサンブル手法がこの課題に対して有効であることが示されているが、膨大な計算コストを必要とする。我々は、計算コストの削減と学習の安定化が報告されているアンサンブル手法の近似手法に着目し、この課題に取り組む。Super Mario Bros の異なるステージを実験環境として用いて、疑似アンサンブル手法が深層強化学習における分布シフトの堅牢性へ与える影響について検証を行なった。
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN00349328
書誌情報 第85回全国大会講演論文集

巻 2023, 号 1, p. 151-152, 発行日 2023-02-16
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 11:22:52.471708
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3