@inproceedings{oai:ipsj.ixsq.nii.ac.jp:00240301, author = {北出, 卓也 and 山谷, 佳祐 and 春山, 知生 and 中村, 匠 and 安川, 真平 and 今井, 倫太}, book = {マルチメディア,分散,協調とモバイルシンポジウム2024論文集}, month = {Jun}, note = {ネットワークカメラの普及により,遠隔地の映像をリアルタイムに確認可能となっている.特に自動運転車両における遠隔監視は一人のオペレータが複数映像を監視することで省人化が可能となるため,映像監視自動化システムの重要性が増しており,システムとしてはオペレータが特に確認すべきシーンを抽出し,オペレータが短時間に理解可能な情報として提示できることが求められている.これまでもネットワークカメラ映像に映る人物の行動を分析する手法が研究されてきたが,それぞれの行動に対して認識モデルの開発が必要であった.そこで本研究では「人の動きがある」シーンのみを抽出しVLMで汎用的に分析し,その結果を使用してシーンを短文で説明する手法を提案する.VLMを説明した文章の文脈変化が大きな部位がシーンの大きな変化となり得るという考え方で,オペレータが確認すべきシーンを絞り込む.この手法により,自動運転バスを想定した映像から重要なシーンを抽出し,文章での説明ができること,そして実用上の課題を確認した.}, pages = {1304--1310}, publisher = {情報処理学会}, title = {文脈に基づくネットワークカメラ映像の変化点抽出および説明手法の提案}, volume = {2024}, year = {2024} }