@techreport{oai:ipsj.ixsq.nii.ac.jp:00232675, author = {稲垣, 佑竜 and 森山, 甲一 and 武藤, 敦子 and 島, 孔介 and 松井, 藤五郎 and 犬塚, 信博}, issue = {2}, month = {Feb}, note = {エージェントの学習手法として広く用いられる強化学習は,環境から得られる報酬を最大化する行動を学習する.しかし,エージェントが複数存在するマルチエージェント環境では,それぞれが互いに干渉し,全員の報酬を同時に最大化することはできないため,強化学習で協調行動を学習することは難しい.本研究では,マルチエージェント環境として有名な追跡問題において,環境から得られる報酬(外部報酬)とは別の内部報酬を用いて,個々に学習するエージェント(追跡者)が獲物を捕まえる協調行動を学習することを試みる.これまで,目新しい状態を積極的に探索するために内部報酬を用いる好奇心探索を用いた追跡者が,追跡問題でより多くの獲物を捕まえることができたことが示されている.しかし,獲物は固定された方策か,方策を一定期間だけ学習したものであった.追跡者が方策を学習し続けるならば,獲物がそうしないことは不自然である.そこで,追跡者とともに獲物も学習をし続ける場合を考える.この場合,追跡者が獲物を追跡しない行動が見られ,ほとんど報酬を得られない場合があることが分かった.したがって本研究では,ある追跡者が獲物を捕らえたときに,他の追跡者に獲物との距離に応じた報酬を貢献度として与えることで,獲物に近づこうとする動機づけを行うことを提案する.シミュレーション実験の結果,好奇心探索と貢献度を組み合わせることで,獲物を追跡しない行動が見られなくなり,長期的に安定して獲物を捕まえられることが分かった.}, title = {獲物が学習を続ける追跡問題への好奇心探索と貢献度の導入}, year = {2024} }