@techreport{oai:ipsj.ixsq.nii.ac.jp:00232784, author = {大橋, 宥斗 and 松井, 藤五郎 and 武藤, 敦子 and 森山, 甲一 and 島, 孔介 and 犬塚, 信博}, issue = {1}, month = {Feb}, note = {本論文では,連続行動空間を扱うことができる Soft Actor-Critic (SAC) を成功確率と収益に基づく強化学習 (EQ) に拡張する手法を提案する.近年,宇宙や被災地をはじめとした危険な環境においてロボットが突然危険な状況に陥ることを自律的に回避するために,強化学習により危険回避行動を学習する安全な強化学習という枠組みが提案されている.安全な強化学習の手法の一つに,高次元連続観測空間を扱う成功確率と収益に基づく強化学習 (HDEQ) がある.HDEQ は,本来離散空間のみで行えた成功確率と収益に基づく強化学習 (EQ) を拡張した手法であるが,連続行動空間を扱うことができなかった.そこで本論文では,連続観測空間のみならず連続行動空間においても EQ を扱えるよう,連続行動空間を扱うことができる SAC を拡張する.本論文では,この手法を Soft Actor-Critic for EQ (SACEQ) と呼ぶ.危険の回避が必要な環境における実験で,SACEQの効果を確認した.}, title = {SACEQ: 連続空間における成功確率と収益に基づく安全な強化学習}, year = {2024} }