深層強化学習における時系列的内部報酬生成器による探索の改善

村上, 知優; 森山, 甲一; 松井, 藤五郎; 武藤, 敦子; 犬塚, 信博

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

深層強化学習における時系列的内部報酬生成器による探索の改善

https://ipsj.ixsq.nii.ac.jp/records/203642

名前 / ファイル	ライセンス	アクション
IPSJ-MPS20127006.pdf (1.3 MB)	Copyright (c) 2020 by the Information Processing Society of Japan
オープンアクセス

Item type

SIG Technical Reports(1)

公開日

2020-02-24

タイトル

深層強化学習における時系列的内部報酬生成器による探索の改善

タイトル

言語

タイトル

Exploration Improvement by Sequential Intrinsic Reward Generator in Deep Reinforcement Learning

言語

jpn

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

名古屋工業大学大学院工学研究科情報工学専攻

著者所属

名古屋工業大学大学院工学研究科情報工学専攻

著者所属

中部大学生命健康科学部臨床工学科

著者所属

名古屋工業大学大学院工学研究科情報工学専攻

著者所属

名古屋工業大学大学院工学研究科情報工学専攻

著者所属(英)

Department of Computer Science, Graduate School of Engineering, Nagoya Institute of Technology

著者所属(英)

Department of Computer Science, Graduate School of Engineering, Nagoya Institute of Technology

著者所属(英)

Department of Clinical Engineering, College of Life and Health Sciences, Chubu University

著者所属(英)

Department of Computer Science, Graduate School of Engineering, Nagoya Institute of Technology

著者所属(英)

Department of Computer Science, Graduate School of Engineering, Nagoya Institute of Technology

著者名

村上, 知優
森山, 甲一
松井, 藤五郎
武藤, 敦子
犬塚, 信博

論文抄録

内容記述タイプ

Other

内容記述

近年，高次元状態における強化学習手法として深層強化学習という手法が注目されている．しかし，深層強化学習を含む強化学習全般において，報酬が疎な環境における学習が困難であることが知られている．この問題を解決する手段として，目新しい状態の訪問に対して内的な報酬を発生させ，エージェントに多様な状態への訪問を促進させる手法が存在する．本研究ではそれを時系列的なものへ拡張し，目新しい状態遷移に対して内部報酬を生成するようにした．これにより部分観測マルコフ決定過程における探索にも対応できるようにし，実験を行った結果，その有効性を確認した．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10505667

書誌情報

研究報告数理モデル化と問題解決（MPS）

巻 2020-MPS-127, 号 6, p. 1-6, 発行日 2020-02-24

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8833

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 20:29:42.850691

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

深層強化学習における時系列的内部報酬生成器による探索の改善

× 村上, 知優

× 森山, 甲一

× 松井, 藤五郎

× 武藤, 敦子

× 犬塚, 信博

Versions

Share

Cite as

エクスポート