対話型ビデオ理解モデルにおける動作特徴量の活用

中溝, 雄斗; 柳井, 啓司

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

対話型ビデオ理解モデルにおける動作特徴量の活用

https://ipsj.ixsq.nii.ac.jp/records/234171

名前 / ファイル	ライセンス	アクション
IPSJ-CVIM24238040.pdf (4.2 MB) 2026年5月8日からダウンロード可能です。	Copyright (c) 2024 by the Information Processing Society of Japan
非会員：¥660, IPSJ:学会員：¥330, CVIM:会員：¥0, DLIB:会員：¥0

Item type

SIG Technical Reports(1)

公開日

2024-05-08

タイトル

対話型ビデオ理解モデルにおける動作特徴量の活用

言語

jpn

キーワード

主題Scheme

Other

主題

卒論スポットライトセッション (CVIM)

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

現在，電気通信大学

著者所属

現在，電気通信大学

著者所属(英)

Presently with The University of Electro-Communications

著者所属(英)

Presently with The University of Electro-Communications

著者名

中溝, 雄斗
柳井, 啓司

論文抄録

内容記述タイプ

Other

内容記述

近年，ビデオ理解分野では大規模言語モデルを活用し，対話的なビデオ理解を可能にしたモデルが登場している．しかし，既存のモデルではビデオの各区間に含まれる動作については注目されていない．そこで本研究では，動作特徴を用いた対話型ビデオ理解モデル Act-ChatGPT を提案する．Act-ChatGPT は定量的な比較においてベースモデルを上回り，定性的な比較においても動作の認識などで応答を改善する例が確認された．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AA11131797

書誌情報

研究報告コンピュータビジョンとイメージメディア（CVIM）

巻 2024-CVIM-238, 号 40, p. 1-8, 発行日 2024-05-08

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8701

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 09:52:46.674834

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

対話型ビデオ理解モデルにおける動作特徴量の活用

× 中溝, 雄斗

× 柳井, 啓司

Versions

Share

Cite as

エクスポート