ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 知能システム(ICS)
  3. 2022
  4. 2022-ICS-205

マルチエージェント強化学習の差分報酬近似手法における推定報酬の学習の改良

https://ipsj.ixsq.nii.ac.jp/records/216465
https://ipsj.ixsq.nii.ac.jp/records/216465
4bb9ce93-8677-46a6-9c11-053b57dd939f
名前 / ファイル ライセンス アクション
IPSJ-ICS22205012.pdf IPSJ-ICS22205012.pdf (387.0 kB)
Copyright (c) 2022 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2022-02-14
タイトル
タイトル マルチエージェント強化学習の差分報酬近似手法における推定報酬の学習の改良
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
名古屋工業大学工学部情報工学科
著者所属
名古屋工業大学大学院工学研究科情報工学専攻
著者名 中嶋, 亮太

× 中嶋, 亮太

中嶋, 亮太

Search repository
松井, 俊浩

× 松井, 俊浩

松井, 俊浩

Search repository
論文抄録
内容記述タイプ Other
内容記述 差分報酬は,各エージェントの貢献度に応じた報酬であり,協調問題におけるマルチエージェント強化学習の改善のために用いられる.しかし,環境全体の情報や大域的報酬の計算式が未知の状況では,差分報酬を計算することができない.従来研究では,大域的報酬関数がブラックボックスの状況で,各エージェントの局所的な情報と関連付けて大域的報酬を推定する関数を学習し,差分報酬を近似する手法が提案されている.従来手法では推定報酬の学習にニューラルネットワークを用いているが,ニューラルネットワークの更新部分に改良の余地があると考えられる.本研究では,従来手法における推定報酬の学習に対して,一般的な推定手法で使用されている改良手法,学習データの標準化とミニバッチ勾配降下法を適用する.ベンチマーク問題を用いた実験により提案手法を評価し,推定報酬の学習の改良手法により,比較的小規模な環境において,マルチエージェント強化学習系全体の獲得報酬が改善されることを示す.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA11135936
書誌情報 研究報告知能システム(ICS)

巻 2022-ICS-205, 号 12, p. 1-7, 発行日 2022-02-14
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-885X
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 15:50:19.353133
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3