WEKO3
アイテム
PESQと擬似音声を用いた雑音下音声認識の性能予測の検討
https://ipsj.ixsq.nii.ac.jp/records/57157
https://ipsj.ixsq.nii.ac.jp/records/5715755277dff-4f56-4883-98fb-564186f90348
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2003 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2003-12-18 | |||||||
タイトル | ||||||||
タイトル | PESQと擬似音声を用いた雑音下音声認識の性能予測の検討 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Performance Prediction of Noisy Speech Recognition Using PESQ and Artificial Voice | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
筑波大学電子・情報工学系 | ||||||||
著者所属 | ||||||||
筑波大学電子・情報工学系 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Institute of Information Sciences and Electronics, University of Tsukuba | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Institute of Information Sciences and Electronics, University of Tsukuba | ||||||||
著者名 |
山田, 武志
× 山田, 武志
|
|||||||
著者名(英) |
Takeshi, Yamada
× Takeshi, Yamada
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 雑音抑圧手法を音声認識の前処理として用いたときの認識性能を予測する方法としては,雑音抑圧後の音声信号から算出したひずみ値を用いることが考えられる.この方法では認識実験を行わないので,数秒程度の疑似音声を用いることが可能になり,音声認識の運用時の手法洗濯や新しい手法の研究開発の効率を大幅に高めることができると考えられる.本稿では,音声の客観品質評価のためのひずみ尺度であるITU-T勧告P.862のPESQ,ケプストラム距離,セグメンタルSNRに着目し,ひずみ値と認識性能の関係を雑音下連続数字認識タスクであるAURORA-2Jを用いて調べた.その結果,単語正解精度との相関が最も強いのはPESQ値であることが明らかとなった.また,ITU-T勧告P.50の疑似音声を用いて,疑似音声の適用可能性を調査した.その結果,実音声から算出したPESQ値と疑似音声から算出したPESQ値は概ね線形関係にあり,実音声の変わりに擬似音声を用いても、単語正解精度との強い相関が保たれていることが明らかとなった. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | One approach for predicting the performance of speech recognizers using noise reduction algorithms is to use distortion values calculated from the output speech signals of the noise reduction algorithm. This paper focuses on the PESQ (ITU-T Recommendation P.862), the cepstrum distance and the segmental SNR as the distortion measure, and investigates the relationship between the recognition performance and the distortion value. recognition task. Also, the distortion values were calculated from the real speech and the artificial voice (ITU-T P.50). There results confirmed that there is the strong liner relationship between the word accuracy and the PESQ score for both the real speech and the artificial voice. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2003, 号 124(2003-SLP-049), p. 37-42, 発行日 2003-12-18 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |