WEKO3
アイテム
特徴構成法を用いたQ学習の効率改善
https://ipsj.ixsq.nii.ac.jp/records/33638
https://ipsj.ixsq.nii.ac.jp/records/336388ed723d6-2336-469d-bb69-cb6e3e1c74df
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1998 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1998-11-26 | |||||||
タイトル | ||||||||
タイトル | 特徴構成法を用いたQ学習の効率改善 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Improving the Effectiveness of Q - Learning by Using Feature Construction | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
神戸大学工学部情報知能工学科 | ||||||||
著者所属 | ||||||||
神戸大学工学部情報知能工学科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer and Systems Engineering, Faculty of Engineering, Kobe University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer and Systems Engineering, Faculty of Engineering, Kobe University | ||||||||
著者名 |
宮本, 行庸
上原, 邦昭
× 宮本, 行庸 上原, 邦昭
|
|||||||
著者名(英) |
Yukinobu, Miyamoto
Kuniaki, Uehara
× Yukinobu, Miyamoto Kuniaki, Uehara
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では,特徴構成法を用いた強化学習システムFCQLについて述べる.従来の強化学習では,対象とする環境の各状態を識別する適切な属性が,学習の前段階であらかじめ準備されていることを仮定している.現実には,学習システムが状態を識別するのに充分な入力系を持っているとは限らず,領域に固有の特徴を適宜構成していく機能が必要とされる.本稿では,構成的帰納学習に用いられる特徴構成法を,強化学習の一手法であるQ学習と統合し,有限離散時間環境における適切な内部表現と評価関数を学習する手法を提案する.結果として,単位時間における期待報酬値を最大化するのみでなく,収束までに費やす状態数の大幅な削減が実現できた. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In this paper, we describe a new reinforcement learning system called FCQL (Feature Constructive Q-Learning). Usually, reinforcement learning methods assume that they an identify each state before learning. In a real-world domain, the learner only has limited sensors, so is required the ability to construct new features. This paper describes an approach integrating feature construction with Q-learning to learn efficient internal state representation and a decision policy simultaneously in a finite, deterministic environment. The result shows that FCQL can not only maximize the long-term discounted reward per unit time. but also reduce the number of status to converge. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10505667 | |||||||
書誌情報 |
情報処理学会研究報告数理モデル化と問題解決(MPS) 巻 1998, 号 105(1998-MPS-022), p. 57-62, 発行日 1998-11-26 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |