WEKO3
-
RootNode
アイテム
複数の報酬とゲート機構を用いたモジュール型強化学習アルゴリズム
https://ipsj.ixsq.nii.ac.jp/records/109849
https://ipsj.ixsq.nii.ac.jp/records/1098498d687fb0-3a7d-4ee6-a05a-0ba107a9b479
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2012 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | National Convention(1) | |||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2012-03-06 | |||||||||||
タイトル | ||||||||||||
タイトル | 複数の報酬とゲート機構を用いたモジュール型強化学習アルゴリズム | |||||||||||
言語 | ||||||||||||
言語 | jpn | |||||||||||
キーワード | ||||||||||||
主題Scheme | Other | |||||||||||
主題 | 人工知能と認知科学 | |||||||||||
資源タイプ | ||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||||
資源タイプ | conference paper | |||||||||||
著者所属 | ||||||||||||
早大 | ||||||||||||
著者所属 | ||||||||||||
早大 | ||||||||||||
著者所属 | ||||||||||||
早大 | ||||||||||||
著者名 |
吉田裕昭
× 吉田裕昭
× 中村真吾
× 橋本周司
|
|||||||||||
論文抄録 | ||||||||||||
内容記述タイプ | Other | |||||||||||
内容記述 | 強化学習を用いて入力数が多く複雑なシステムの最適な制御器を獲得しようとすると、状態空間が指数関数的に拡大し、膨大な学習時間が必要となってしまう。この問題の解決策として、複数の単純な制御器を用意し、系の制御方法を学習するモジュール型強化学習が提案されている。しかし、いずれかの制御器を選択するだけの従来手法では、制御モジュールの組み合わせが生じるような状況に対応することができない。そこで、本研究では複数の制御器とゲート機構を用意し、制御機構ごとに報酬を与えることで、状態空間の爆発を抑えつつ複雑な系の制御器を獲得する強化学習アルゴリズムを提案する。実験では、テレビゲームのキャラクタ操作制御に提案手法を適用し、その有用性を確認した。 | |||||||||||
書誌レコードID | ||||||||||||
収録物識別子タイプ | NCID | |||||||||||
収録物識別子 | AN00349328 | |||||||||||
書誌情報 |
第74回全国大会講演論文集 巻 2012, 号 1, p. 293-294, 発行日 2012-03-06 |
|||||||||||
出版者 | ||||||||||||
言語 | ja | |||||||||||
出版者 | 情報処理学会 |