スポーツ放送映像におけるマルチモーダル行動認識　-画像特徴量と実況音声テキスト特徴量の統合-

大久保, 深; 秦野, 亮; 西山, 裕之

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

スポーツ放送映像におけるマルチモーダル行動認識　-画像特徴量と実況音声テキスト特徴量の統合-

https://ipsj.ixsq.nii.ac.jp/records/236209

名前 / ファイル	ライセンス	アクション
IPSJ-Z86-7U-05.pdf (332.3 kB)	Copyright (c) 2024 by the Information Processing Society of Japan

Item type

National Convention(1)

公開日

2024-03-01

タイトル

スポーツ放送映像におけるマルチモーダル行動認識　-画像特徴量と実況音声テキスト特徴量の統合-

言語

jpn

キーワード

主題Scheme

Other

主題

人工知能と認知科学

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_5794

資源タイプ

conference paper

著者所属

東理大

著者所属

東理大

著者所属

東理大

著者名

大久保, 深
秦野, 亮
西山, 裕之

論文抄録

内容記述タイプ

Other

内容記述

従来のスポーツ映像における行動認識研究は主に画像特徴量のみを使用していた。しかし、スポーツ放送映像には場面説明を行う実況音声が存在し、それが有効な特徴量となると考えられる。そこで本研究では、画像特徴量と実況音声から取得したテキスト特徴量を用いるマルチモーダルな手法を提案する。野球放送映像に提案手法を適用したところ、画像特徴量のみに基づく従来手法よりも高い精度を達成し、実況音声テキストが有効な特徴量であると示された。さらに、三種類の追加実験から、提案手法は学習データにない実況者による実況音声や別スポーツに対しても汎用的であり、実況音声テキスト特徴量は他特徴量には含まれない有効性を持つと示された。

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN00349328

書誌情報

第86回全国大会講演論文集

巻 2024, 号 1, p. 751-752, 発行日 2024-03-01

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 09:21:01.265679

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

スポーツ放送映像におけるマルチモーダル行動認識　-画像特徴量と実況音声テキスト特徴量の統合-

× 大久保, 深

× 秦野, 亮

× 西山, 裕之

Versions

Share

Cite as

エクスポート

インデックスリンク

インデックスツリー

アイテム

スポーツ放送映像におけるマルチモーダル行動認識 -画像特徴量と実況音声テキスト特徴量の統合-

× 大久保, 深

× 秦野, 亮

× 西山, 裕之

Versions

Share

Cite as

エクスポート

スポーツ放送映像におけるマルチモーダル行動認識　-画像特徴量と実況音声テキスト特徴量の統合-