WEKO3
アイテム
マルコフゲームにおける環境モデルの推定を利用したマルチエージェント強化学習法
https://ipsj.ixsq.nii.ac.jp/records/50595
https://ipsj.ixsq.nii.ac.jp/records/5059546cad9e8-7eb6-4b5d-8560-5e0ddc00f322
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2001 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2001-07-23 | |||||||
タイトル | ||||||||
タイトル | マルコフゲームにおける環境モデルの推定を利用したマルチエージェント強化学習法 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Multi - agent reinforcement learning method for Markov games : An approach based on the estimation of the environmental model | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者名 |
長行, 康男
× 長行, 康男
|
|||||||
著者名(英) |
Yasuo, Nagayuki
× Yasuo, Nagayuki
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,マルコフゲームにおけるマルチエージェント強化学習法を提案する。本稿で提案するマルチエージェント強化学習法では,エージェントが,環境モデル(環境内に存在する他エージェントの政策と,環境の状態遷移関数)を推定し,その推定した環境モデルを利用して,(エージェントが)どの行動を実行すればどの環境状態に遷移するかを予測する。そして,その予測した環境状態における価値関数(V関数)を基に,どの行動を実行すればよいかを決定し,強化学習を進行する。提案したマルチエージェント強化学習法をマルコフゲームの枠組みでモデル化した追跡問題に適用し,実験を行った結果,その有効性が示される。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this article, we propose a multi-agent reinforcement learning method for Markov games. In our multi-agent reinforcement learning method, each agent infers the environmental model which consists of the other agents' policies and the state transition function, and estimates the future states by using the inferred environmental model. Each agent conducts its reinforcement learning based on the estimated future states. In order to evaluate our multi-agent reinforcement learning method, we employ the variant of the pursuit problem as a task. Through experiments, we demonstrate that our multi-agent reinforcement learning method is effective. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA11135936 | |||||||
書誌情報 |
情報処理学会研究報告知能と複雑系(ICS) 巻 2001, 号 73(2001-ICS-125), p. 29-36, 発行日 2001-07-23 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |