Item type |
SIG Technical Reports(1) |
公開日 |
2024-02-22 |
タイトル |
|
|
タイトル |
獲物が学習を続ける追跡問題への好奇心探索と貢献度の導入 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Applying Degree of Contribution to Curiosity-driven Search for Multi-agent Pursuit of Learning Preys |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
中部大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者名 |
稲垣, 佑竜
森山, 甲一
武藤, 敦子
島, 孔介
松井, 藤五郎
犬塚, 信博
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
エージェントの学習手法として広く用いられる強化学習は,環境から得られる報酬を最大化する行動を学習する.しかし,エージェントが複数存在するマルチエージェント環境では,それぞれが互いに干渉し,全員の報酬を同時に最大化することはできないため,強化学習で協調行動を学習することは難しい.本研究では,マルチエージェント環境として有名な追跡問題において,環境から得られる報酬(外部報酬)とは別の内部報酬を用いて,個々に学習するエージェント(追跡者)が獲物を捕まえる協調行動を学習することを試みる.これまで,目新しい状態を積極的に探索するために内部報酬を用いる好奇心探索を用いた追跡者が,追跡問題でより多くの獲物を捕まえることができたことが示されている.しかし,獲物は固定された方策か,方策を一定期間だけ学習したものであった.追跡者が方策を学習し続けるならば,獲物がそうしないことは不自然である.そこで,追跡者とともに獲物も学習をし続ける場合を考える.この場合,追跡者が獲物を追跡しない行動が見られ,ほとんど報酬を得られない場合があることが分かった.したがって本研究では,ある追跡者が獲物を捕らえたときに,他の追跡者に獲物との距離に応じた報酬を貢献度として与えることで,獲物に近づこうとする動機づけを行うことを提案する.シミュレーション実験の結果,好奇心探索と貢献度を組み合わせることで,獲物を追跡しない行動が見られなくなり,長期的に安定して獲物を捕まえられることが分かった. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11135936 |
書誌情報 |
研究報告知能システム(ICS)
巻 2024-ICS-212,
号 2,
p. 1-7,
発行日 2024-02-22
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-885X |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |