@article{oai:ipsj.ixsq.nii.ac.jp:00209332, author = {村上, 知優 and 森山, 甲一 and 松井, 藤五郎 and 武藤, 敦子 and 犬塚, 信博 and Kazuhiro, Murakami and Koichi, Moriyama and Tohgoroh, Matsui and Atsuko, Mutoh and Nobuhiro, Inuzuka}, issue = {1}, journal = {情報処理学会論文誌数理モデル化と応用(TOM)}, month = {Jan}, note = {近年,高次元状態における強化学習手法として深層強化学習という手法が注目されている.しかし,深層強化学習を含む強化学習全般において,報酬が疎な環境における学習が困難であることが知られている.この問題を解決する手段として,目新しい状態の訪問に対して内的な報酬を発生させ,エージェントに多様な状態への訪問を促進させる手法が存在する.本研究ではそれを時系列的なものへ拡張し,目新しい状態遷移に対して内部報酬を生成するようにした.これにより部分観測マルコフ決定過程における探索にも対応できるようにし,実験を行った結果,その有効性を確認した., Deep reinforcement learning is working well in the environment with high dimensional states. However, it is difficult for a reinforcement learning agent to learn an optimal policy in the environment where it hardly obtain rewards. Curiosity-driven exploration is a solution that gives intrinsic rewards to the agent in unfamiliar states to encourage it for visiting various states. This work proposes Sequential Intrinsic Reward Generator (SRG), which extends curiosity-driven exploration to a sequence of states and gives the agent intrinsic rewards for unfamiliar state transitions. Due to this sequential property, SRG is promising to work well also in partially observable Markov decision processes. The result of experiments shows that SRG worked better than other methods in such environments.}, pages = {1--11}, title = {深層強化学習における時系列的内部報酬生成器による探索の改善}, volume = {14}, year = {2021} }