@techreport{oai:ipsj.ixsq.nii.ac.jp:00231935, author = {大鹿, 海都 and 板谷, 英典 and 平川, 翼 and 山下, 隆義 and 藤吉, 弘亘}, issue = {13}, month = {Jan}, note = {深層強化学習ではエージェントと環境間の相互作用により学習データを収集するため,環境の効率的な探索は網羅的な学習データの獲得に繋がる.この課題を解決する手法として,エージェントの内発的動機付けによる探索の効率化が提案されている.観測情報の新規性を評価し未知の状態空間への探索を促すことで効率的な探索を実現する.しかし,従来の内発的動機付けは現状態のみに着目しているため,環境の時系列情報を考慮していない.そこで,環境の状態遷移に着目した内発的動機付けを提案する.Atari2600 を用いた評価実験により,エージェント性能を解析することで状態遷移を考慮する有効性を示す.}, title = {深層強化学習における状態遷移を考慮した内発的動機付けによる探索の効率化}, year = {2024} }