@techreport{oai:ipsj.ixsq.nii.ac.jp:00234171, author = {中溝, 雄斗 and 柳井, 啓司}, issue = {40}, month = {May}, note = {近年,ビデオ理解分野では大規模言語モデルを活用し,対話的なビデオ理解を可能にしたモデルが登場している.しかし,既存のモデルではビデオの各区間に含まれる動作については注目されていない.そこで本研究では,動作特徴を用いた対話型ビデオ理解モデル Act-ChatGPT を提案する.Act-ChatGPT は定量的な比較においてベースモデルを上回り,定性的な比較においても動作の認識などで応答を改善する例が確認された.}, title = {対話型ビデオ理解モデルにおける動作特徴量の活用}, year = {2024} }