Item type |
SIG Technical Reports(1) |
公開日 |
2020-06-22 |
タイトル |
|
|
タイトル |
サブゴールの自律的な探索によるモデルベース深層強化学習手法の提案 |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
NC |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
琉球大学大学院理工学研究科情報工学専攻 |
著者所属 |
|
|
|
琉球大学工学部工学科知能情報コース |
著者所属 |
|
|
|
琉球大学工学部工学科知能情報コース |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering and Science, University of the Ryukyus |
著者所属(英) |
|
|
|
en |
|
|
Computer Science and Intelligent Systems, University of the Ryukyus |
著者所属(英) |
|
|
|
en |
|
|
Computer Science and Intelligent Systems, University of the Ryukyus |
著者名 |
丸山, 元輝
遠藤, 聡志
山田, 孝治
|
著者名(英) |
Motoki, Maruyama
Endo, Satoshi
Koji, Yamada
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
モデルベース深層強化学習では,モデルフリーと比べてサンプル効率が良い反面,環境モデルを再現するために深層生成モデルを必要とする.そのため現実的なコストとして深い先読みが難しい.そこでタスクを分解しサブゴールを設けることで,浅い先読みとサブゴールの比較を行い,サブゴールの近さによって報酬を与えて学習の効率化を図る.総報酬が高かった状態履歴をサブゴール候補とし,サブゴールへの到達率を重みとしたランダムサンプリングを行うことで迷路の環境で一定の成果を示した. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA12055912 |
書誌情報 |
研究報告バイオ情報学(BIO)
巻 2020-BIO-62,
号 10,
p. 1-6,
発行日 2020-06-22
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8590 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |