WEKO3
アイテム
大規模言語モデルを活用した自己教師あり学習によるビデオ要約
https://ipsj.ixsq.nii.ac.jp/records/236164
https://ipsj.ixsq.nii.ac.jp/records/236164e71e0ded-709e-445f-9006-983327854990
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2024 by the Information Processing Society of Japan
|
Item type | National Convention(1) | |||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
公開日 | 2024-03-01 | |||||||||||||
タイトル | ||||||||||||||
タイトル | 大規模言語モデルを活用した自己教師あり学習によるビデオ要約 | |||||||||||||
言語 | ||||||||||||||
言語 | jpn | |||||||||||||
キーワード | ||||||||||||||
主題Scheme | Other | |||||||||||||
主題 | 人工知能と認知科学 | |||||||||||||
資源タイプ | ||||||||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||||||
資源タイプ | conference paper | |||||||||||||
著者所属 | ||||||||||||||
東大 | ||||||||||||||
著者所属 | ||||||||||||||
東大 | ||||||||||||||
著者所属 | ||||||||||||||
東大 | ||||||||||||||
著者所属 | ||||||||||||||
東大 | ||||||||||||||
著者名 |
杉原, 朋弥
× 杉原, 朋弥
× 増田, 俊太郎
× 肖, 玲
× 山崎, 俊彦
|
|||||||||||||
論文抄録 | ||||||||||||||
内容記述タイプ | Other | |||||||||||||
内容記述 | 既存のビデオ要約手法は重要シーン抽出にコンピュータービジョン技術をベースにしていて、大量のアノテーションデータが必要である。しかし、人手によるアノテーションは主観的である上にコストが高いため教師データの作成難易度が高い。そこで本研究では、近年の大規模言語モデルの進歩を活用した、自己教師あり学習に基づく新しいフレームワークを提案する。具体的には、フレームからキャプションを生成して映像を言語化し、大規模言語モデルにより映像の要約を作成する。この要約を教師データとして使用して、自然言語処理による新しいビデオ要約手法を実現した。本研究はビデオ要約の分野に新しい方向性を示し、既存の課題の解決に寄与する。 | |||||||||||||
書誌レコードID | ||||||||||||||
収録物識別子タイプ | NCID | |||||||||||||
収録物識別子 | AN00349328 | |||||||||||||
書誌情報 |
第86回全国大会講演論文集 巻 2024, 号 1, p. 653-654, 発行日 2024-03-01 |
|||||||||||||
出版者 | ||||||||||||||
言語 | ja | |||||||||||||
出版者 | 情報処理学会 |