Item type |
SIG Technical Reports(1) |
公開日 |
2024-02-29 |
タイトル |
|
|
タイトル |
SACEQ: 連続空間における成功確率と収益に基づく安全な強化学習 |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
中部大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者名 |
大橋, 宥斗
松井, 藤五郎
武藤, 敦子
森山, 甲一
島, 孔介
犬塚, 信博
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本論文では,連続行動空間を扱うことができる Soft Actor-Critic (SAC) を成功確率と収益に基づく強化学習 (EQ) に拡張する手法を提案する.近年,宇宙や被災地をはじめとした危険な環境においてロボットが突然危険な状況に陥ることを自律的に回避するために,強化学習により危険回避行動を学習する安全な強化学習という枠組みが提案されている.安全な強化学習の手法の一つに,高次元連続観測空間を扱う成功確率と収益に基づく強化学習 (HDEQ) がある.HDEQ は,本来離散空間のみで行えた成功確率と収益に基づく強化学習 (EQ) を拡張した手法であるが,連続行動空間を扱うことができなかった.そこで本論文では,連続観測空間のみならず連続行動空間においても EQ を扱えるよう,連続行動空間を扱うことができる SAC を拡張する.本論文では,この手法を Soft Actor-Critic for EQ (SACEQ) と呼ぶ.危険の回避が必要な環境における実験で,SACEQの効果を確認した. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA12055912 |
書誌情報 |
研究報告バイオ情報学(BIO)
巻 2024-BIO-77,
号 1,
p. 1-8,
発行日 2024-02-29
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8590 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |