WEKO3
アイテム
マルチエージェント強化学習の差分報酬近似手法における推定報酬の学習の改良
https://ipsj.ixsq.nii.ac.jp/records/216465
https://ipsj.ixsq.nii.ac.jp/records/2164654bb9ce93-8677-46a6-9c11-053b57dd939f
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2022 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||||
---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2022-02-14 | |||||||||
タイトル | ||||||||||
タイトル | マルチエージェント強化学習の差分報酬近似手法における推定報酬の学習の改良 | |||||||||
言語 | ||||||||||
言語 | jpn | |||||||||
資源タイプ | ||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||
資源タイプ | technical report | |||||||||
著者所属 | ||||||||||
名古屋工業大学工学部情報工学科 | ||||||||||
著者所属 | ||||||||||
名古屋工業大学大学院工学研究科情報工学専攻 | ||||||||||
著者名 |
中嶋, 亮太
× 中嶋, 亮太
× 松井, 俊浩
|
|||||||||
論文抄録 | ||||||||||
内容記述タイプ | Other | |||||||||
内容記述 | 差分報酬は,各エージェントの貢献度に応じた報酬であり,協調問題におけるマルチエージェント強化学習の改善のために用いられる.しかし,環境全体の情報や大域的報酬の計算式が未知の状況では,差分報酬を計算することができない.従来研究では,大域的報酬関数がブラックボックスの状況で,各エージェントの局所的な情報と関連付けて大域的報酬を推定する関数を学習し,差分報酬を近似する手法が提案されている.従来手法では推定報酬の学習にニューラルネットワークを用いているが,ニューラルネットワークの更新部分に改良の余地があると考えられる.本研究では,従来手法における推定報酬の学習に対して,一般的な推定手法で使用されている改良手法,学習データの標準化とミニバッチ勾配降下法を適用する.ベンチマーク問題を用いた実験により提案手法を評価し,推定報酬の学習の改良手法により,比較的小規模な環境において,マルチエージェント強化学習系全体の獲得報酬が改善されることを示す. | |||||||||
書誌レコードID | ||||||||||
収録物識別子タイプ | NCID | |||||||||
収録物識別子 | AA11135936 | |||||||||
書誌情報 |
研究報告知能システム(ICS) 巻 2022-ICS-205, 号 12, p. 1-7, 発行日 2022-02-14 |
|||||||||
ISSN | ||||||||||
収録物識別子タイプ | ISSN | |||||||||
収録物識別子 | 2188-885X | |||||||||
Notice | ||||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||
出版者 | ||||||||||
言語 | ja | |||||||||
出版者 | 情報処理学会 |