ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2016
  4. 2016-SLP-112

音素エントロピーを利用した背景発話に頑健なDNNに基づく音声区間検出

https://ipsj.ixsq.nii.ac.jp/records/169880
https://ipsj.ixsq.nii.ac.jp/records/169880
0d28f74e-9f92-4f4e-a818-a0cf5b241987
名前 / ファイル ライセンス アクション
IPSJ-SLP16112009.pdf IPSJ-SLP16112009.pdf (1.0 MB)
Copyright (c) 2016 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2016-07-21
タイトル
タイトル 音素エントロピーを利用した背景発話に頑健なDNNに基づく音声区間検出
タイトル
言語 en
タイトル Robust DNN-based VAD augmented with phone entropy based rejection of background speech
言語
言語 jpn
キーワード
主題Scheme Other
主題 特徴量・VAD
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
ヤフー株式会社
著者所属
ヤフー株式会社
著者所属(英)
en
Yahoo Japan Corporation
著者所属(英)
en
Yahoo Japan Corporation
著者名 藤田, 悠哉

× 藤田, 悠哉

藤田, 悠哉

Search repository
磯, 健一

× 磯, 健一

磯, 健一

Search repository
著者名(英) Yuya, Fujita

× Yuya, Fujita

en Yuya, Fujita

Search repository
Ken-ichi, Iso

× Ken-ichi, Iso

en Ken-ichi, Iso

Search repository
論文抄録
内容記述タイプ Other
内容記述 DNN に基づく音声区間検出に音素エントロピーによる棄却を追加することで背景発話の誤検出を抑制する方法を提案する.我々が運用している音声認識サービスでは,DNN に基づく音声区間検出を採用している.音声区間検出の誤りを観察したところ,そのほとんどが TV またはラジオや周囲の人の会話に由来する背景発話の誤検出だった.本稿ではそのような誤検出を抑制するために,DNN 音響モデルの音素事後確率のエントロピーに基づく信頼度スコアを導入する.背景発話はユーザーが音声認識サービスの利用を意図して行う発話よりもマイクロフォンとの距離が遠いことが多く,ノイズや残響の影響を受けやすい.従って背景発話音声は音素事後確率のエントロピーが大きな値を持つと考えられる.そこで,DNN に基づく音声区間検出により音声と判定されたフレームのうち,音素事後確率のエントロピーが閾値以上のフレームを棄却し,背景発話による誤検出を抑制する.実験により,音声認識サービスの文誤り率が 10%以上削減できることを確認した.
論文抄録(英)
内容記述タイプ Other
内容記述 We propose a DNN-based voice activity detector augmented by entropy based frame rejection. DNN-based VAD classifies a frame into speech or non-speech and achieves significantly higher VAD performance compared to conventional statistical model-based VAD. We observed that many of the remaining errors are false alarms caused by background human speech, such as TV / radio or surrounding peoples' conversations. In order to reject such background speech frames, we introduce an entropy-based confidence measure using the phone posterior probability output by a DNN-based acoustic model. Compared to the target speaker's voice background speech tends to have relatively unclear pronunciation or is contaminated by other types of noises so its entropy becomes larger than audio signals with only the target speaker's voice. Combining DNN-based VAD and the entropy criterion, we reject speech frames classified by the DNN-based VAD as having an entropy larger than a threshold value. We have evaluated the proposed approach and confirmed greater than 10% reduction in Sentence Error Rate.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告音声言語情報処理(SLP)

巻 2016-SLP-112, 号 9, p. 1-6, 発行日 2016-07-21
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8663
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-20 08:49:13.937042
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3