WEKO3
アイテム
スポーツ放送映像におけるマルチモーダル行動認識 -画像特徴量と実況音声テキスト特徴量の統合-
https://ipsj.ixsq.nii.ac.jp/records/236209
https://ipsj.ixsq.nii.ac.jp/records/236209a84ad6bb-5994-4d65-9846-0831f6f333ed
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
| Item type | National Convention(1) | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2024-03-01 | |||||||||||
| タイトル | ||||||||||||
| タイトル | スポーツ放送映像におけるマルチモーダル行動認識 -画像特徴量と実況音声テキスト特徴量の統合- | |||||||||||
| 言語 | ||||||||||||
| 言語 | jpn | |||||||||||
| キーワード | ||||||||||||
| 主題Scheme | Other | |||||||||||
| 主題 | 人工知能と認知科学 | |||||||||||
| 資源タイプ | ||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_5794 | |||||||||||
| 資源タイプ | conference paper | |||||||||||
| 著者所属 | ||||||||||||
| 東理大 | ||||||||||||
| 著者所属 | ||||||||||||
| 東理大 | ||||||||||||
| 著者所属 | ||||||||||||
| 東理大 | ||||||||||||
| 著者名 |
大久保, 深
× 大久保, 深
× 秦野, 亮
× 西山, 裕之
|
|||||||||||
| 論文抄録 | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | 従来のスポーツ映像における行動認識研究は主に画像特徴量のみを使用していた。しかし、スポーツ放送映像には場面説明を行う実況音声が存在し、それが有効な特徴量となると考えられる。そこで本研究では、画像特徴量と実況音声から取得したテキスト特徴量を用いるマルチモーダルな手法を提案する。野球放送映像に提案手法を適用したところ、画像特徴量のみに基づく従来手法よりも高い精度を達成し、実況音声テキストが有効な特徴量であると示された。さらに、三種類の追加実験から、提案手法は学習データにない実況者による実況音声や別スポーツに対しても汎用的であり、実況音声テキスト特徴量は他特徴量には含まれない有効性を持つと示された。 | |||||||||||
| 書誌レコードID | ||||||||||||
| 収録物識別子タイプ | NCID | |||||||||||
| 収録物識別子 | AN00349328 | |||||||||||
| 書誌情報 |
第86回全国大会講演論文集 巻 2024, 号 1, p. 751-752, 発行日 2024-03-01 |
|||||||||||
| 出版者 | ||||||||||||
| 言語 | ja | |||||||||||
| 出版者 | 情報処理学会 | |||||||||||