@techreport{oai:ipsj.ixsq.nii.ac.jp:00224184, author = {中田, 瑛 and 森山, 甲一 and 武藤, 敦子 and 松井, 藤五郎 and 犬塚, 信博}, issue = {1}, month = {Feb}, note = {マルチエージェント環境下において,一般的な強化学習ではエージェントが他エージェントに対し協力行動を行うことは困難であるという問題がある.本研究では,効用利用 Q 学習と人工ポテンシャル場(APF)を組み合わせることによって,その問題の解決を図った.環境内のオブジェクトに APF を生成することで,距離に応じた内発的報酬の獲得を行う.そして,APF から獲得した内発的報酬と環境から与えられる外部報酬をもとに効用利用 Q 学習を行うことで,エージェントに対して協力行動を促すことを目的とする.その際,遺伝的アルゴリズム(GA)を用いることで,エージェントの学習に適した APF の生成を目指す.}, title = {距離に基づく内発的報酬のためのポテンシャル場生成}, year = {2023} }