WEKO3
アイテム
Actor-critic法における共分散を考慮した多次元正規分布による政策表現
https://ipsj.ixsq.nii.ac.jp/records/50232
https://ipsj.ixsq.nii.ac.jp/records/502324eeb23e2-7c17-41fa-ad31-ceec822ac834
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2005 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2005-03-14 | |||||||
タイトル | ||||||||
タイトル | Actor-critic法における共分散を考慮した多次元正規分布による政策表現 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Stochastic Policy Representation Using a Multidimensional Normal Distribution for Actor-critic Methods | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属 | ||||||||
大阪市立大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
奈良先端科学技術大学院大学情報科学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Osaka City University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nara Institute of Science and Technology | ||||||||
著者名 |
阿部, 哲
× 阿部, 哲
|
|||||||
著者名(英) |
Satoshi, Abe
× Satoshi, Abe
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 実世界中での行動学習問題は、入力である状態空間と出力である行動空間が共に連続空間である場合が多い。強化学習の一種であるactor-critic法は、連続状態行動空間を扱う問題にも適用が可能で、いくつかの研究が行われてきた。連続行動空間を扱う場合、行動を選択する確率分布(政策)として一般に正規分布を用いる。エージェントは、環境との相互作用を通じて、適切な行動を選択できるように、正規分布の平均や標準偏差を調節する。従来手法は簡単化のために、各次元毎に独立した正規分布を用いる。しかしマニピュレータの軌道計画問題やロボットの歩行制御問題などの実問題は、各出力が協調して動かなければならない。従来手法は出力間の相関関係を考慮できないため、協調行動の学習が困難となったり、学習に時間がかかったりする問題が考えられる。そこで本稿では、共分散を考慮した多次元正規分布を政策表現に用いたactor-critic法を提案し、学習の高速化と性能向上を目指す。本手法の有効性を検証するために、マニピュレータの軌道計画問題を取り上げる。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Actor-critic methods, which is one of reinforcement learning methods, is applied to that problems easily, and has left many achievements. Generaly,normal distribution has been used as probability distribution on which agent selects action. Agent renews means and standard deviation through policy parameter for selecting appropriate action intercting with environment. Under assumption tht output dimensions are individual, conventional methods use normal distribution. Problems, such as trajectory planning of manupulator, and robot walking control etc., every output must cooperate with each other. Conventional methods cannot make consideration correlation, so it takes long time to get policy selecting action cooperately and being high performance. In this paper, we aim that learning speed up and improvement performance by adopting multivariate normal distribution with variance and covariance matrix into probability distribution selecting action. we have some experiments to demonstrate availability of this method by trajectory planning of manipulator. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA11135936 | |||||||
書誌情報 |
情報処理学会研究報告知能と複雑系(ICS) 巻 2005, 号 24(2004-ICS-139), p. 7-12, 発行日 2005-03-14 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |