WEKO3
アイテム
音声・状況の同時認識に基づくスポーツ実況中継へのメタ情報付与
https://ipsj.ixsq.nii.ac.jp/records/9275
https://ipsj.ixsq.nii.ac.jp/records/9275f0d00afb-05d7-49a9-913d-20a70e753e39
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2009 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | Journal(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2009-02-15 | |||||||
タイトル | ||||||||
タイトル | 音声・状況の同時認識に基づくスポーツ実況中継へのメタ情報付与 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Extracting Meta-information for Sports Live Games Based on Speech and Situation Recognition | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 特集:音声ドキュメント処理 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_6501 | |||||||
資源タイプ | journal article | |||||||
その他タイトル | ||||||||
その他のタイトル | 情報抽出、構造化 | |||||||
著者所属 | ||||||||
神戸大学大学院自然科学研究科 | ||||||||
著者所属 | ||||||||
神戸大学自然科学系先端融合研究環 | ||||||||
著者所属 | ||||||||
神戸大学自然科学系先端融合研究環 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Graduate School of Science and Technology, Kobe University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Organization of Advanced Science and Technology, Kobe University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Organization of Advanced Science and Technology, Kobe University | ||||||||
著者名 |
佐古, 淳
× 佐古, 淳
|
|||||||
著者名(英) |
Atsushi, Sako
× Atsushi, Sako
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 近年,多くのマルチメディア・コンテンツの所有が可能となってきた.大量のコンテンツの中から欲しい情報を得るためには,検索のためのメタ情報を付与しておく必要がある.本研究では,マルチメディア・コンテンツの一例としてスポーツ実況中継,特に野球実況中継に注目し,実況中継音声から音声認識を用いてメタ情報を抽出することを目的としている.野球のメタ情報としては,今何が起こっているかを表すイベントと,その積み重ねである状況が存在すると考えられる.まず,現実にイベントや状況が存在し,これを基にアナウンサは実況を行う.本研究では,実況音声から単語列だけを推定する音声認識を拡張し,実況音声から単語列・イベント系列・状況系列すべてを同時に推定する音声認識手法を提案する.定式化により,イベント依存音響モデル,状況遷移モデル,イベント推定モデル,状況依存言語モデルを得る.これらを確率の枠組みで統合的に用いることで,単語列とメタ情報の同時推定を行う.実験により,イベント検出F値0.87,イベント正解率0.86,状況正解率0.77を得た.その他,各モデルの「メタ情報付与性能」への寄与や,音声認識率と「メタ情報付与性能」との関係について考察を行う. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Recently a large quantity of multimedia contents are broadcast and accessed. In order to retrieve exactly what we want to know from multimedia database, automatic extraction of meta-information is required. We focused on live speeches, especially baseball commentary speeches as a kind of multimedia contents. The purpose of this study is to provide meta-information based on speech recognition techniques. Events and situations are defined as metainformation. First of all, an event is occured or a situation is changed, then an announcer speaks based on an event and a situation. In this paper, we propose a extended speech recognition technique that estimates not only a word sequence but also a event sequence and a situation sequence concurrently. As a result of formulation, event dependent acoustic model, situation transition model, event estimation model and situation dependent language model are derived. A word sequence and meta-information are estimated based on these models. The experimental results showed that the proposed method provided meta-information with a high degree of accuracy. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN00116647 | |||||||
書誌情報 |
情報処理学会論文誌 巻 50, 号 2, p. 563-574, 発行日 2009-02-15 |
|||||||
ISSN | ||||||||
収録物識別子タイプ | ISSN | |||||||
収録物識別子 | 1882-7764 |