SACEQ: 連続空間における成功確率と収益に基づく安全な強化学習

大橋, 宥斗; 松井, 藤五郎; 武藤, 敦子; 森山, 甲一; 島, 孔介; 犬塚, 信博

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

SACEQ: 連続空間における成功確率と収益に基づく安全な強化学習

https://ipsj.ixsq.nii.ac.jp/records/232784

名前 / ファイル	ライセンス	アクション
IPSJ-MPS24147001.pdf (1.8 MB)	Copyright (c) 2024 by the Information Processing Society of Japan
オープンアクセス

Item type

SIG Technical Reports(1)

公開日

2024-02-29

タイトル

SACEQ: 連続空間における成功確率と収益に基づく安全な強化学習

言語

jpn

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

名古屋工業大学

著者所属

中部大学

著者所属

名古屋工業大学

著者所属

名古屋工業大学

著者所属

名古屋工業大学

著者所属

名古屋工業大学

著者名

大橋, 宥斗
松井, 藤五郎
武藤, 敦子
森山, 甲一
島, 孔介
犬塚, 信博

論文抄録

内容記述タイプ

Other

内容記述

本論文では，連続行動空間を扱うことができる Soft Actor-Critic (SAC) を成功確率と収益に基づく強化学習 (EQ) に拡張する手法を提案する．近年，宇宙や被災地をはじめとした危険な環境においてロボットが突然危険な状況に陥ることを自律的に回避するために，強化学習により危険回避行動を学習する安全な強化学習という枠組みが提案されている．安全な強化学習の手法の一つに，高次元連続観測空間を扱う成功確率と収益に基づく強化学習 (HDEQ) がある．HDEQ は，本来離散空間のみで行えた成功確率と収益に基づく強化学習 (EQ) を拡張した手法であるが，連続行動空間を扱うことができなかった．そこで本論文では，連続観測空間のみならず連続行動空間においても EQ を扱えるよう，連続行動空間を扱うことができる SAC を拡張する．本論文では，この手法を Soft Actor-Critic for EQ (SACEQ) と呼ぶ．危険の回避が必要な環境における実験で，SACEQの効果を確認した．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10505667

書誌情報

研究報告数理モデル化と問題解決（MPS）

巻 2024-MPS-147, 号 1, p. 1-8, 発行日 2024-02-29

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8833

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 10:19:21.718472

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

SACEQ: 連続空間における成功確率と収益に基づく安全な強化学習

× 大橋, 宥斗

× 松井, 藤五郎

× 武藤, 敦子

× 森山, 甲一

× 島, 孔介

× 犬塚, 信博

Versions

Share

Cite as

エクスポート