WEKO3
アイテム
強化学習における環境変化認識法
https://ipsj.ixsq.nii.ac.jp/records/50681
https://ipsj.ixsq.nii.ac.jp/records/5068158fa0cc3-9dd7-493e-a8d1-9ae901772cca
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2000 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2000-01-12 | |||||||
タイトル | ||||||||
タイトル | 強化学習における環境変化認識法 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A recognization method of environmental change on reinforcement learning | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
慶應義塾大学大学院理工学研究科 | ||||||||
著者所属 | ||||||||
慶應義塾大学大学院理工学研究科 | ||||||||
著者所属 | ||||||||
慶應義塾大学大学院理工学研究科 | ||||||||
著者所属 | ||||||||
慶應義塾大学大学院理工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Keio University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Keio University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Keio University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Keio University | ||||||||
著者名 |
山本, 真也
山口, 文彦
斎藤, 博昭
中西, 正和
× 山本, 真也 山口, 文彦 斎藤, 博昭 中西, 正和
|
|||||||
著者名(英) |
Shinya, Yamamoto
Fumihiko, Yamaguchi
Hiroaki, Saito
Masakazu, Nakanishi
× Shinya, Yamamoto Fumihiko, Yamaguchi Hiroaki, Saito Masakazu, Nakanishi
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 非マルコフ決定過程(non-MDP)の環境における強化学習の問題点の解決法として,環境変化時に何らかの処理を行う方法が提案されている.これらの研究において,環境変化の認識法は確立されていない.本論文では,non-MDPにおける有力な学習エンジンである確率的傾斜法において,学習中に環境変化を認識する方法を提案する.確率的傾斜法の内部変数Wの変化量を調べることにより環境変化を認識する.提案手法は確率的傾斜法が適用できる問題であれば簡単に内部に組み込むことのでき,環境変化の認識を行うことができる.シミュレーション実験により従来の手法の半分程度のステップで環境変化を認識できることを示す. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | There are some methods that resolve problems of reinforcement learning in non Marokov Decision Process(non-MDP) environment on environment changes. The efficient method of recognizing environmental change has not yet been proposed. This paper proposes a method for recognizing environmental changes on Stochastic Gradient Ascent(SGA) which is a major learning engine in non-MDP environment. It uses the change of an internal variable W of SGA. Our method can be easily put in SGA and it is available for all SGA-applicable problems. We had a simulation to show the efficiency of our method and succeeded to reduce the recognition time to almost half of the conventional method. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AA11135936 | |||||||
書誌情報 |
情報処理学会研究報告知能と複雑系(ICS) 巻 2000, 号 3(1999-ICS-119), p. 111-116, 発行日 2000-01-12 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |