Item type |
SIG Technical Reports(1) |
公開日 |
2025-02-11 |
タイトル |
|
|
言語 |
ja |
|
タイトル |
連続意思決定環境における状態を考慮した効用を持つ協調エージェントの構築 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Constructing cooperative agents with state-aware utility in a sequential decision-making environment |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
中部大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Chubu University |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Institute of Technology |
著者名 |
角田,幸揮
森山,甲一
武藤,敦子
島,孔介
松井,藤五郎
犬塚,信博
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
強化学習は自己利益の最大化を目的とするため、協調行動の獲得が困難とされる。先行研究では、囚人のジレンマの環境で、報酬を効用導出関数によって効用に変換し学習に用いることで、協調行動を導く手法が提案されている。しかし、囚人のジレンマの環境は、現実の社会的ジレンマにおける多様な要因を十分に考慮していないという課題がある。本研究では、2体のエージェントが協調行動を実現するための研究用フレームワークとして、GVGAIのゲーム環境「AkkaArrh」を使用する。「AkkaArrh」は、複雑な状態空間(エージェントや敵の位置、鍵の有無など)や、一連の行動の流れから報酬に反映される遅延報酬を含む特徴を持つ環境である。この環境下で、入力にエージェントの状態情報を含めることで、状態空間を考慮した効用導出関数を生成し、その有効性を検証する。 |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11135936 |
書誌情報 |
研究報告知能システム(ICS)
巻 2025-ICS-216,
号 2,
p. 1-6,
発行日 2025-02-11
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-885X |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |