@techreport{oai:ipsj.ixsq.nii.ac.jp:02000220, author = {角田,幸揮 and 森山,甲一 and 武藤,敦子 and 島,孔介 and 松井,藤五郎 and 犬塚,信博}, issue = {2}, month = {Feb}, note = {強化学習は自己利益の最大化を目的とするため、協調行動の獲得が困難とされる。先行研究では、囚人のジレンマの環境で、報酬を効用導出関数によって効用に変換し学習に用いることで、協調行動を導く手法が提案されている。しかし、囚人のジレンマの環境は、現実の社会的ジレンマにおける多様な要因を十分に考慮していないという課題がある。本研究では、2体のエージェントが協調行動を実現するための研究用フレームワークとして、GVGAIのゲーム環境「AkkaArrh」を使用する。「AkkaArrh」は、複雑な状態空間(エージェントや敵の位置、鍵の有無など)や、一連の行動の流れから報酬に反映される遅延報酬を含む特徴を持つ環境である。この環境下で、入力にエージェントの状態情報を含めることで、状態空間を考慮した効用導出関数を生成し、その有効性を検証する。}, title = {連続意思決定環境における状態を考慮した効用を持つ協調エージェントの構築}, year = {2025} }