WEKO3
アイテム
行動確率場モデルに基づく強化学習 -拡張Q -学習-
https://ipsj.ixsq.nii.ac.jp/records/33617
https://ipsj.ixsq.nii.ac.jp/records/3361723568ea2-103a-43df-8941-7fadfab872db
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1999 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1999-05-14 | |||||||
タイトル | ||||||||
タイトル | 行動確率場モデルに基づく強化学習 -拡張Q -学習- | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Reinforcement Learning Based on Stochastic Field Model -Extended Q - Learning- | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
九州工業大学情報工学部 | ||||||||
著者所属 | ||||||||
九州工業大学情報工学部 | ||||||||
著者所属 | ||||||||
九州工業大学情報工学部 | ||||||||
著者所属 | ||||||||
九州工業大学情報工学部 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Kyushu Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Kyushu Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Kyushu Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Kyushu Institute of Technology | ||||||||
著者名 |
榎田, 修一
× 榎田, 修一
|
|||||||
著者名(英) |
Shuichi, Enokida
× Shuichi, Enokida
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 自律型ロポットの学習による行動獲得は,先見的な知識だけでは補いきれない行動決定の問題に対して有効な手法である.従来,センサ空間を離散化し,有限個の状態上での行動決定問題として定式化され,Q?学習など興味深い学習法が提案されて来た.しかし,離散化に伴う誤差が無視できない状況も多く,そのため誤差の影響を少なくする高精度の方法が研究対象になってきた.本論文では、Q?学習を拡張した拡張Q?学習を提案する.拡張Q?学習とは,行動確率場モデルに基づき,センサ空間から行動空間への写像を導くものである.本モデルでは写像を表す行動選択確率を規定する行動価値関数は,有限個の基底関数の重み付き和ととして表される.学習は重みを調整する作業に対応し,また,精度を保持しつつより簡潔なモデルで関数近似を行うために基底関数の自律統合を学習アルゴリズムに追加した. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Reinforcement learning has been used as a method that makes an autonomous robot to select an appropriate action in each state through an interaction with an environment. Typically, even if the autonomous robot has continuous sensor values, sensor space is quantized to reduce learning time. However, the reinforcement learning algorithms including Q-learning suffer from errors due to state space sampling. To overcome the above, we propose Extended Q-learning (EQ-learning) based on Q-learning which creates mapping that maps a continuous sensor space to a descrete action space. Through EQ-learning, action-value function approximation is represented by a summation of weighted base functions, and the autonomous robot adjusts only weights of base functions by robot learning. Other parameters are calculated automatically by unification of two similar base functions. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10505667 | |||||||
書誌情報 |
情報処理学会研究報告数理モデル化と問題解決(MPS) 巻 1999, 号 36(1999-MPS-024), p. 29-32, 発行日 1999-05-14 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |