WEKO3
アイテム
雑音DBを用いたモデル適応化HMMのSN比別マルチパスモデルによる雑音下音声認識
https://ipsj.ixsq.nii.ac.jp/records/57376
https://ipsj.ixsq.nii.ac.jp/records/57376c33775df-b65c-4c7c-9ab9-1505dd770763
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2001 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2001-12-20 | |||||||
タイトル | ||||||||
タイトル | 雑音DBを用いたモデル適応化HMMのSN比別マルチパスモデルによる雑音下音声認識 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Rapid Model Adaptation with a Prior Noise GMM and Multi - SNR Models for Noisy Speech Recognition | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
ATR音声言語コミュニケーション研究所 | ||||||||
著者所属 | ||||||||
ATR音声言語コミュニケーション研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Spoken Language Translation Research Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Spoken Language Translation Research Laboratories | ||||||||
著者名 |
伊田, 政樹
× 伊田, 政樹
|
|||||||
著者名(英) |
Masaki, Ida
× Masaki, Ida
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 音声認識システムを実環境で利用する場合,その認識性能は周囲の環境雑音の混入に大きく影響を受ける。混入する雑音は多くの場合予測が困難であり,入力される音声信号と音響モデルの間で不一致が生じ,認識性能低下の原因となる。このことから,変動する雑音の混入に対してロバストな音響モデルが求められている。混入する雑音の問題は,雑音の種類が未知である問題とSN比が未知である問題の2つに分けて考えることができる。本稿ではこの問題に対し,一つ目の雑音の種類が未知である問題に対して既存の雑音データと雑音モデルの適応化によるHMM合成法を用い,二つ目のSN比が未知である問題に対して複数のSN比に対応した音響モデルを並列に用いる。AURORA2タスクによる評価実験の結果,1secの適応データを用いることでSNR=5dBにおいてベースラインシステムに対して53%の認識性能改善を得た。これは従来法のHMM合成を用いた場合10secの適応データを用いた場合に匹敵する。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | When a speech rocognition system is used in a real environment, the recognition performance is affected by surrounding noise. Most additional noises are difficult to predict about kinod of noise and SNR, so we cannot avoid the mismatch situation between those of training data and test data. Then we need a method to deal with mismatched noise problems and unknown SNRs. In this paper, we propose an HMM composition-based model adaptation that uses a prior noise data against mismatches. We also prepare plural HMMs for several SNRs and select the best model based on acoustic likelihood to deal with the unknown SNRs. Experimental results with AURORA2 task show 53% word accuracy improvement from baseline system with 1 sec real noise data for daptation. The performance is equivalent to a case with 10 sec real data using the conventional HMM composition method. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2001, 号 123(2001-SLP-039), p. 51-56, 発行日 2001-12-20 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |