ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 数理モデル化と問題解決(MPS)
  3. 1998
  4. 105(1998-MPS-022)

特徴構成法を用いたQ学習の効率改善

https://ipsj.ixsq.nii.ac.jp/records/33638
https://ipsj.ixsq.nii.ac.jp/records/33638
8ed723d6-2336-469d-bb69-cb6e3e1c74df
名前 / ファイル ライセンス アクション
IPSJ-MPS98022010.pdf IPSJ-MPS98022010.pdf (690.9 kB)
Copyright (c) 1998 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 1998-11-26
タイトル
タイトル 特徴構成法を用いたQ学習の効率改善
タイトル
言語 en
タイトル Improving the Effectiveness of Q - Learning by Using Feature Construction
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
神戸大学工学部情報知能工学科
著者所属
神戸大学工学部情報知能工学科
著者所属(英)
en
Department of Computer and Systems Engineering, Faculty of Engineering, Kobe University
著者所属(英)
en
Department of Computer and Systems Engineering, Faculty of Engineering, Kobe University
著者名 宮本, 行庸 上原, 邦昭

× 宮本, 行庸 上原, 邦昭

宮本, 行庸
上原, 邦昭

Search repository
著者名(英) Yukinobu, Miyamoto Kuniaki, Uehara

× Yukinobu, Miyamoto Kuniaki, Uehara

en Yukinobu, Miyamoto
Kuniaki, Uehara

Search repository
論文抄録
内容記述タイプ Other
内容記述 本稿では,特徴構成法を用いた強化学習システムFCQLについて述べる.従来の強化学習では,対象とする環境の各状態を識別する適切な属性が,学習の前段階であらかじめ準備されていることを仮定している.現実には,学習システムが状態を識別するのに充分な入力系を持っているとは限らず,領域に固有の特徴を適宜構成していく機能が必要とされる.本稿では,構成的帰納学習に用いられる特徴構成法を,強化学習の一手法であるQ学習と統合し,有限離散時間環境における適切な内部表現と評価関数を学習する手法を提案する.結果として,単位時間における期待報酬値を最大化するのみでなく,収束までに費やす状態数の大幅な削減が実現できた.
論文抄録(英)
内容記述タイプ Other
内容記述 In this paper, we describe a new reinforcement learning system called FCQL (Feature Constructive Q-Learning). Usually, reinforcement learning methods assume that they an identify each state before learning. In a real-world domain, the learner only has limited sensors, so is required the ability to construct new features. This paper describes an approach integrating feature construction with Q-learning to learn efficient internal state representation and a decision policy simultaneously in a finite, deterministic environment. The result shows that FCQL can not only maximize the long-term discounted reward per unit time. but also reduce the number of status to converge.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10505667
書誌情報 情報処理学会研究報告数理モデル化と問題解決(MPS)

巻 1998, 号 105(1998-MPS-022), p. 57-62, 発行日 1998-11-26
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-22 15:36:03.908741
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3