ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 数理モデル化と問題解決(MPS)
  3. 2024
  4. 2024-MPS-147

SACEQ: 連続空間における成功確率と収益に基づく安全な強化学習

https://ipsj.ixsq.nii.ac.jp/records/232784
https://ipsj.ixsq.nii.ac.jp/records/232784
536169f2-8fee-4e83-8fc5-efb3da3833e0
名前 / ファイル ライセンス アクション
IPSJ-MPS24147001.pdf IPSJ-MPS24147001.pdf (1.8 MB)
 2026年3月1日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, MPS:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-02-29
タイトル
タイトル SACEQ: 連続空間における成功確率と収益に基づく安全な強化学習
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
名古屋工業大学
著者所属
中部大学
著者所属
名古屋工業大学
著者所属
名古屋工業大学
著者所属
名古屋工業大学
著者所属
名古屋工業大学
著者名 大橋, 宥斗

× 大橋, 宥斗

大橋, 宥斗

Search repository
松井, 藤五郎

× 松井, 藤五郎

松井, 藤五郎

Search repository
武藤, 敦子

× 武藤, 敦子

武藤, 敦子

Search repository
森山, 甲一

× 森山, 甲一

森山, 甲一

Search repository
島, 孔介

× 島, 孔介

島, 孔介

Search repository
犬塚, 信博

× 犬塚, 信博

犬塚, 信博

Search repository
論文抄録
内容記述タイプ Other
内容記述 本論文では,連続行動空間を扱うことができる Soft Actor-Critic (SAC) を成功確率と収益に基づく強化学習 (EQ) に拡張する手法を提案する.近年,宇宙や被災地をはじめとした危険な環境においてロボットが突然危険な状況に陥ることを自律的に回避するために,強化学習により危険回避行動を学習する安全な強化学習という枠組みが提案されている.安全な強化学習の手法の一つに,高次元連続観測空間を扱う成功確率と収益に基づく強化学習 (HDEQ) がある.HDEQ は,本来離散空間のみで行えた成功確率と収益に基づく強化学習 (EQ) を拡張した手法であるが,連続行動空間を扱うことができなかった.そこで本論文では,連続観測空間のみならず連続行動空間においても EQ を扱えるよう,連続行動空間を扱うことができる SAC を拡張する.本論文では,この手法を Soft Actor-Critic for EQ (SACEQ) と呼ぶ.危険の回避が必要な環境における実験で,SACEQの効果を確認した.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10505667
書誌情報 研究報告数理モデル化と問題解決(MPS)

巻 2024-MPS-147, 号 1, p. 1-8, 発行日 2024-02-29
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8833
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 10:19:21.718472
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3