Item type |
SIG Technical Reports(1) |
公開日 |
2016-07-21 |
タイトル |
|
|
タイトル |
音素エントロピーを利用した背景発話に頑健なDNNに基づく音声区間検出 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Robust DNN-based VAD augmented with phone entropy based rejection of background speech |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
特徴量・VAD |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
ヤフー株式会社 |
著者所属 |
|
|
|
ヤフー株式会社 |
著者所属(英) |
|
|
|
en |
|
|
Yahoo Japan Corporation |
著者所属(英) |
|
|
|
en |
|
|
Yahoo Japan Corporation |
著者名 |
藤田, 悠哉
磯, 健一
|
著者名(英) |
Yuya, Fujita
Ken-ichi, Iso
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
DNN に基づく音声区間検出に音素エントロピーによる棄却を追加することで背景発話の誤検出を抑制する方法を提案する.我々が運用している音声認識サービスでは,DNN に基づく音声区間検出を採用している.音声区間検出の誤りを観察したところ,そのほとんどが TV またはラジオや周囲の人の会話に由来する背景発話の誤検出だった.本稿ではそのような誤検出を抑制するために,DNN 音響モデルの音素事後確率のエントロピーに基づく信頼度スコアを導入する.背景発話はユーザーが音声認識サービスの利用を意図して行う発話よりもマイクロフォンとの距離が遠いことが多く,ノイズや残響の影響を受けやすい.従って背景発話音声は音素事後確率のエントロピーが大きな値を持つと考えられる.そこで,DNN に基づく音声区間検出により音声と判定されたフレームのうち,音素事後確率のエントロピーが閾値以上のフレームを棄却し,背景発話による誤検出を抑制する.実験により,音声認識サービスの文誤り率が 10%以上削減できることを確認した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
We propose a DNN-based voice activity detector augmented by entropy based frame rejection. DNN-based VAD classifies a frame into speech or non-speech and achieves significantly higher VAD performance compared to conventional statistical model-based VAD. We observed that many of the remaining errors are false alarms caused by background human speech, such as TV / radio or surrounding peoples' conversations. In order to reject such background speech frames, we introduce an entropy-based confidence measure using the phone posterior probability output by a DNN-based acoustic model. Compared to the target speaker's voice background speech tends to have relatively unclear pronunciation or is contaminated by other types of noises so its entropy becomes larger than audio signals with only the target speaker's voice. Combining DNN-based VAD and the entropy criterion, we reject speech frames classified by the DNN-based VAD as having an entropy larger than a threshold value. We have evaluated the proposed approach and confirmed greater than 10% reduction in Sentence Error Rate. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2016-SLP-112,
号 9,
p. 1-6,
発行日 2016-07-21
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |