Item type |
Journal(1) |
公開日 |
2011-12-15 |
タイトル |
|
|
タイトル |
音声会話コンテンツにおける聴衆の反応に基づく音響イベントとホットスポットの検出 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Detecting Acoustic Events and Hot Spots Based on Audience's Reaction in Conversational Speech Content |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
特集:情報爆発時代におけるIT基盤技術(論文賞受賞) |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_6501 |
|
資源タイプ |
journal article |
著者所属 |
|
|
|
京都大学情報学研究科 |
著者所属 |
|
|
|
京都大学情報学研究科 |
著者所属 |
|
|
|
産業技術総合研究所 |
著者所属 |
|
|
|
産業技術総合研究所 |
著者所属(英) |
|
|
|
en |
|
|
School of Informatics, Kyoto University |
著者所属(英) |
|
|
|
en |
|
|
School of Informatics, Kyoto University |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Advanced Industrial Science and Technology (AIST) |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Advanced Industrial Science and Technology (AIST) |
著者名 |
河原, 達也
須見, 康平
緒方, 淳
後藤, 真孝
|
著者名(英) |
Tatsuya, Kawahara
Kouhei, Sumi
Jun, Ogata
Masataka, Goto
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
ポッドキャストのような音声会話コンテンツの効率的な視聴のために,会話中の聞き手の反応に着目し,その音響イベントの検出に基づいてインデキシングを行う方法を提案する.本研究では,笑い声やあいづちを生起させる箇所(=ホットスポット)が,第三者である視聴者にとっても有益な情報を含んでいると考えて,それらの検出を行った.様々な会話・背景音楽が存在する状況で,このような短い音響イベントを頑健に検出するために,BICに基づく音響セグメンテーションとGMMによるセグメントの分類,さらに有声休止検出器・音声認識器を組み合わせる.特に,BICセグメンテーションにおける分割重みのパラメータを,背景音響条件に応じて自動的に推定して切り替える方法を提案する.提案手法により,フレームごとの分類精度および笑い声・あいづちの検出精度が有意に向上した.また,被験者実験によって各ホットスポットの妥当性を評価し,実際に被験者が興味・関心を持つような箇所であることが示された.さらに,これらのホットスポットに基づいて,効率的にコンテンツを視聴するためのインタフェースも作成した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
We present a novel scheme for indexing “hot spots” in conversational speech content, such as podcasts, based on the reaction of the audience. Specifically, we focus on laughters and non-lexical reactive tokens, which are presumably related with funny spots and interesting spots, respectively. A robust detection method of these acoustic events is realized by combining BIC-based segmentation and GMM-based classification, with additional verifiers for reactive tokens. We also propose a novel method for automatically estimating and switching a penalty weight for the BIC-based segmentation according to the background acoustic environment. Experimental results show a significant improvement in detection accuracy by the proposed method. Furthermore, subjective evaluations suggest that hot spots associated with these acoustic events are mostly useful, attracting the viewer's interest. Finally, we design a new interface “podspotter”, which provides efficient access to speech content based on these results. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN00116647 |
書誌情報 |
情報処理学会論文誌
巻 52,
号 12,
p. 3363-3373,
発行日 2011-12-15
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
1882-7764 |