@article{oai:ipsj.ixsq.nii.ac.jp:00199590,
 author = {大滝, 啓介 and 西, 智樹 and 吉村, 貴克 and Keisuke, Otaki and Tomoki, Nishi and Takayoshi, Yoshimura},
 issue = {9},
 journal = {情報処理学会論文誌},
 month = {Sep},
 note = {強化学習は,ある環境においてエージェントが取るべき行動を経験から学習する手法であり,行動は特定の環境から得られる経験を用いて学習される.そのため環境自体が変化した場合には,新しい環境に対して一から,または以前学習した結果を再利用し,行動の修正が必要な状態に対して学習をやり直す必要がある.我々は経路選択問題において,目的地までの距離の変化に基づいて,再学習が必要となる状態を絞り込むことで学習を高速化する手法を提案する.本稿では格子世界を用いた実験を行い,環境変化の構造的情報を利用することで,再学習が効率的に進むことを確認した., Reinforcement learning involves learning a policy. The learned policy must be adjusted when the environment shifts from a source domain to another domain. Typical approaches use learned parameters of the policy as initial parameters. We propose to use knowledge of the shifts additionally to adjust the policy. The knowledge is represented by weights on states representing the degree of changes in distances from the states to an absorbing goal. Our method uses these weights to sample states, wherein an agent updates the policy. Numerical experiments on Gridworlds indicate that the knowledge about the shifts is helpful for efficient learning, particularly at an early stage.},
 pages = {1572--1579},
 title = {環境変化をともなう経路選択問題における強化学習},
 volume = {60},
 year = {2019}
}