@techreport{oai:ipsj.ixsq.nii.ac.jp:00220265,
 author = {原, 航基 and 中澤, 篤志 and Koki, Hara and Atsushi, Nakazawa},
 issue = {1},
 month = {Sep},
 note = {注視行動は人間の外界に対する注意機能にとって重要な要素の一つである.機械学習等による顕著性推定の研究は,与えられた画像や動画のどこに意識を向けているかを推定するものである.一方で日常生活において,人の注意は必ずしも限られた視野領域のみでなく,状況に応じて周辺領域に移動することがある.このような機能が機械学習等で実現できれば,入力された映像外にある重要な情報を予測すること等が可能になる.これを実現するため本研究では,一人称映像の中心部分の画像のみから,広範囲のシーンにおける注視領域を推定するアルゴリズムについて研究を行った.DR(eye)VE による映像+注視点データセットに対し,中心部領域の映像のみを入力として,画面外を含んだ注視領域を推定するアルゴリズムを実装した.RGB 画像のみを入力するネットワークと,RGB 画像とオプティカルフローを両方用いる手法を実装し,従来法(SP Module)と比較した.その結果,RGB 画像のみを入力とした提案法が平均精度 0.957 (????-1 = 0.846) で最もよい結果を示した.このことから,中心領域の画像特徴のみから,画像外に対する注視行動が予測可能であることが確認できた., Gazing behavior is one of the most important elements of human attention to the outward things. The study of saliency estimation using machine learning is to estimate the location of attention in a given image or video. On the other hand, in daily life, people’s attention is not necessarily limited to the field of view, but may shift to the surrounding areas depending on the situation. If such function can be realized by machine learning, etc., it will be possible to predict important information located outside of the input video. To realize this function, we studied an algorithm for estimating the gaze area of an entire egocentric video image from only the central part of the image. We implemented the algorithm for estimating the gaze area including outside of the image from the DR(eye)VE video + gaze point dataset, using only the central part video as input. We implemented two networks using only RGB images and using both RGB images and optical flow as input, and compared them with a conventional method (SP Module). The results show that the proposed method with only RGB images as input has the best results with an average accuracy of 0.957 (????-1 = 0.846). This confirms that the proposed method can predict gaze behavior including outside of the image from the image features of the central area only.},
 title = {視界外の注目領域の推定},
 year = {2022}
}