WEKO3
アイテム
確率的な遷移を含んだ部分観測マルコフ決定過程における 強化学習法
https://ipsj.ixsq.nii.ac.jp/records/33317
https://ipsj.ixsq.nii.ac.jp/records/33317c86df521-581f-49ec-83f5-0e557d00243d
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2004 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2004-03-02 | |||||||
タイトル | ||||||||
タイトル | 確率的な遷移を含んだ部分観測マルコフ決定過程における 強化学習法 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Reinforcement Learning in Partially Observable Markov Decision Process Including Probability State Transitions | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
広島大学大学院工学研究科情報工学専攻 | ||||||||
著者所属 | ||||||||
広島大学大学院工学研究科情報工学専攻 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Hiroshima University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Engineering, Hiroshima University | ||||||||
著者名 |
長田, 浩
× 長田, 浩
|
|||||||
著者名(英) |
Hiroshi, Osada
× Hiroshi, Osada
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Wieringらによって提案されたHQ学習は,タスクを複数のマルコフ的なサブタスクに分割し,それぞれを独立に学習することで部分的な観測によって起こる知覚の見せかけ問題を解決している.しかしマルチエージェント強化学習において状態遷移は一般に確率的に起こるが,HQ学習ではその枠組みのために適切な学習がされない場合がある.本稿ではこの問題を解決するためにHQ学習を拡張した手法を提案し,その性能を実験的に評価する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | HQ-learning proposed by Wiering {\it et al} decomposes a given task into several independent Markovian subtasks, and activates those tasks in a sequential manner. However, in multi-agent systems which have probability state transitions, HQ-learning cannot learn appropriately due to the architecture. In this paper, we propose a new learning scheme to solve such problems, and evaluate the effectiveness experimentally. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10505667 | |||||||
書誌情報 |
情報処理学会研究報告数理モデル化と問題解決(MPS) 巻 2004, 号 18(2003-MPS-048), p. 31-34, 発行日 2004-03-02 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |