@article{oai:ipsj.ixsq.nii.ac.jp:00079542, author = {河原, 達也 and 須見, 康平 and 緒方, 淳 and 後藤, 真孝 and Tatsuya, Kawahara and Kouhei, Sumi and Jun, Ogata and Masataka, Goto}, issue = {12}, journal = {情報処理学会論文誌}, month = {Dec}, note = {ポッドキャストのような音声会話コンテンツの効率的な視聴のために,会話中の聞き手の反応に着目し,その音響イベントの検出に基づいてインデキシングを行う方法を提案する.本研究では,笑い声やあいづちを生起させる箇所(=ホットスポット)が,第三者である視聴者にとっても有益な情報を含んでいると考えて,それらの検出を行った.様々な会話・背景音楽が存在する状況で,このような短い音響イベントを頑健に検出するために,BICに基づく音響セグメンテーションとGMMによるセグメントの分類,さらに有声休止検出器・音声認識器を組み合わせる.特に,BICセグメンテーションにおける分割重みのパラメータを,背景音響条件に応じて自動的に推定して切り替える方法を提案する.提案手法により,フレームごとの分類精度および笑い声・あいづちの検出精度が有意に向上した.また,被験者実験によって各ホットスポットの妥当性を評価し,実際に被験者が興味・関心を持つような箇所であることが示された.さらに,これらのホットスポットに基づいて,効率的にコンテンツを視聴するためのインタフェースも作成した., We present a novel scheme for indexing “hot spots” in conversational speech content, such as podcasts, based on the reaction of the audience. Specifically, we focus on laughters and non-lexical reactive tokens, which are presumably related with funny spots and interesting spots, respectively. A robust detection method of these acoustic events is realized by combining BIC-based segmentation and GMM-based classification, with additional verifiers for reactive tokens. We also propose a novel method for automatically estimating and switching a penalty weight for the BIC-based segmentation according to the background acoustic environment. Experimental results show a significant improvement in detection accuracy by the proposed method. Furthermore, subjective evaluations suggest that hot spots associated with these acoustic events are mostly useful, attracting the viewer's interest. Finally, we design a new interface “podspotter”, which provides efficient access to speech content based on these results.}, pages = {3363--3373}, title = {音声会話コンテンツにおける聴衆の反応に基づく音響イベントとホットスポットの検出}, volume = {52}, year = {2011} }