ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 論文誌(ジャーナル)
  2. Vol.60
  3. No.9

環境変化をともなう経路選択問題における強化学習

https://ipsj.ixsq.nii.ac.jp/records/199590
https://ipsj.ixsq.nii.ac.jp/records/199590
a2977eb1-d1aa-4361-8cf0-58ed8e7b5a51
名前 / ファイル ライセンス アクション
IPSJ-JNL6009031.pdf IPSJ-JNL6009031.pdf (1.4 MB)
Copyright (c) 2019 by the Information Processing Society of Japan
オープンアクセス
Item type Journal(1)
公開日 2019-09-15
タイトル
タイトル 環境変化をともなう経路選択問題における強化学習
タイトル
言語 en
タイトル Reinforcement Learning in Routing Problems with Environment Shifts
言語
言語 jpn
キーワード
主題Scheme Other
主題 [一般論文] 強化学習,環境変化,経路計画問題,重み付きサンプリング
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_6501
資源タイプ journal article
著者所属
株式会社豊田中央研究所
著者所属
株式会社豊田中央研究所
著者所属
株式会社豊田中央研究所
著者所属(英)
en
Toyota Central R&D Labs., Inc.
著者所属(英)
en
Toyota Central R&D Labs., Inc.
著者所属(英)
en
Toyota Central R&D Labs., Inc.
著者名 大滝, 啓介

× 大滝, 啓介

大滝, 啓介

Search repository
西, 智樹

× 西, 智樹

西, 智樹

Search repository
吉村, 貴克

× 吉村, 貴克

吉村, 貴克

Search repository
著者名(英) Keisuke, Otaki

× Keisuke, Otaki

en Keisuke, Otaki

Search repository
Tomoki, Nishi

× Tomoki, Nishi

en Tomoki, Nishi

Search repository
Takayoshi, Yoshimura

× Takayoshi, Yoshimura

en Takayoshi, Yoshimura

Search repository
論文抄録
内容記述タイプ Other
内容記述 強化学習は,ある環境においてエージェントが取るべき行動を経験から学習する手法であり,行動は特定の環境から得られる経験を用いて学習される.そのため環境自体が変化した場合には,新しい環境に対して一から,または以前学習した結果を再利用し,行動の修正が必要な状態に対して学習をやり直す必要がある.我々は経路選択問題において,目的地までの距離の変化に基づいて,再学習が必要となる状態を絞り込むことで学習を高速化する手法を提案する.本稿では格子世界を用いた実験を行い,環境変化の構造的情報を利用することで,再学習が効率的に進むことを確認した.
論文抄録(英)
内容記述タイプ Other
内容記述 Reinforcement learning involves learning a policy. The learned policy must be adjusted when the environment shifts from a source domain to another domain. Typical approaches use learned parameters of the policy as initial parameters. We propose to use knowledge of the shifts additionally to adjust the policy. The knowledge is represented by weights on states representing the degree of changes in distances from the states to an absorbing goal. Our method uses these weights to sample states, wherein an agent updates the policy. Numerical experiments on Gridworlds indicate that the knowledge about the shifts is helpful for efficient learning, particularly at an early stage.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN00116647
書誌情報 情報処理学会論文誌

巻 60, 号 9, p. 1572-1579, 発行日 2019-09-15
ISSN
収録物識別子タイプ ISSN
収録物識別子 1882-7764
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 21:40:13.962976
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3