WEKO3
アイテム
動的分散適応に基づく音声強調と音声認識の統合手法の提案
https://ipsj.ixsq.nii.ac.jp/records/56763
https://ipsj.ixsq.nii.ac.jp/records/56763226e0903-a714-41ee-b19c-ac5cdebb9e62
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2007 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2007-12-20 | |||||||
タイトル | ||||||||
タイトル | 動的分散適応に基づく音声強調と音声認識の統合手法の提案 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Dynamic feature variance adaptation for robust speech recognition with a speech enhancement pre-processor | |||||||
言語 | ||||||||
言語 | eng | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
NTT コミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
NTT コミュニケーション科学基礎研究所 | ||||||||
著者所属 | ||||||||
NTT コミュニケーション科学基礎研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NTT Communication Science Laboratories, NTT Corporation | ||||||||
著者名 |
デルクロアマーク
× デルクロアマーク
|
|||||||
著者名(英) |
Marc, DELCROIX
× Marc, DELCROIX
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 一般に、雑音や残響の影響により音声認識率は低下する。これに対し、音声強調を前処理として用いると、時間的に変化する音響的な歪みをある程度低減することができるが、必ずしも音声認識性能を改善できるとはかぎらなかった。また、モデル適応技術を用いることで、音声強調処理後の音声と音響モデルのミスマッチをある程度低減することができるが、動的なミスマッチについては扱うことはできなかった。音声強調とモデル適応のより最適な組み合わせ法の開発が重要であると考えられる。本稿では、動的なミスマッチについても適切に低減できるモデル適応法を提案する。分散を静的な分散と動的な分散で構成されるパラメトリックモデルで表現し、適応処理に基づき、モデルパラメータを最適化する。実験により、残響除去を前処理として用いた場合に、認識誤りを 80%削減できること、およびクリーン音声に近い 5.4 ることを示す。クリーン音声の場合と近い性能が得られた。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | It is well known that the performance of automatic speech recognition degrades severely in presence of noise or reverberation. Speech enhancement techniques may reduce such acoustic perturbations, but often do not interconnect well with speech recognizer. To cope with this problem, model adaptation is usually used to reduce the mismatch between the speech enhanced features and the acoustic model used by the recognizer. However, conventional model adaptation techniques assume static mismatch and may therefore not cope well with dynamic mismatch arising from noise or reverberation. There seems to be a lack of optimal ways to combine model adaptation and speech enhancement. In this paper we propose a novel adaptation scheme that may cope with dynamic mismatch. We introduce a parametric model for variance adaptation that includes static components, and dynamic components derived from a speech enhancement pre-process. The model parameters are optimized using adaptive training. An evaluation of the method with a speech dereverberation for pre-processing revealed that a 80% relative error rate reduction was possible compared with the recognition of dereverberated speech, and the final error rate was 5.4% which is close to that of clean speech (1.2%). | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2007, 号 129(2007-SLP-069), p. 55-60, 発行日 2007-12-20 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |