WEKO3
アイテム
話者正規化スペクトルサブバンドパラメータを用いた 雑音下での音声認識
https://ipsj.ixsq.nii.ac.jp/records/57646
https://ipsj.ixsq.nii.ac.jp/records/5764605747026-9f62-4a3b-89d9-5b44cd529cb8
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 1998 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 1998-12-10 | |||||||
タイトル | ||||||||
タイトル | 話者正規化スペクトルサブバンドパラメータを用いた 雑音下での音声認識 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Speaker normalized spectral subband parameters for noise robust speech recognition | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
ATR音声翻訳通信研究所/徳島大学 | ||||||||
著者所属 | ||||||||
ATR音声翻訳通信研究所 | ||||||||
著者所属 | ||||||||
ATR音声翻訳通信研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Interpreting Telecommunications Research Laboratories/Tokushima University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Interpreting Telecommunications Research Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Interpreting Telecommunications Research Laboratories | ||||||||
著者名 |
柘植, 覚
× 柘植, 覚
|
|||||||
著者名(英) |
Satoru, Tsuge
× Satoru, Tsuge
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 本稿では、雑音下での音声認識における補助的特徴量として、話者正規化SSC(spectral subband centroids)を提案する。SSCは、サブバンド内に含まれる音声パワースペクトルのセントロイド周波数として定義される。この特徴量は、雑音環境下においても比較的変動の少ない、スペクトルのピーク(フォルマント)が示す周波数をおおまかにとらえるため、雑音に対してロバストな特徴量であると考えられる。SSCはスペクトルのピークが示す周波数に依存する特徴量のため、スペクトル形状の異なる複数話者から求めたSSCの分布は広がり、異なる音素の分布間に大きな重なりが生じると考えられる。そこで、この分布の重なりを低減するため、話者正規化手法をSSCの計算に取り入れた話者正規化SSCを提案する。自由発話音声を用いた連続音声認識実験により、話者正規化SSCを補助的特徴量として用いた場合、20.3%(SNR=15dB)の誤り改善率を得ることができた。また、話者正規化手法を用いないSSCとの比較においても、14.3%(SNR=15dB)の誤り改善率を得ることができた。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper proposes speaker normalized spectral subband centroids (SSCs) as supplementary features in noise environment speech recognition. SSCs are computed as frequency centroids for each subband from the power spectrum of the speech signal. This feature can be obtained reliably even under noisy conditions because SSC are mainly computed from spectral peaks such as formants whose positions are almost unchanged in a noisy environment. Since the conventional SSCs depend on formant frequencies of a speaker, the distributions of SSCs computed from large amounts of speakers will be highly overlapped between different phones. Therefore, we introduce a speaker normalization technique into SSC computation to reduce the speaker variability. Experimental results on spontaneous speech recognition show that the speaker normalized SSCs are more useful as supplementary features for improving the recognition performance than the conventional SSCs. We observed significant improvement in error rate by 20.3% and 14.3% at SNR=15dB by adding speaker normalized SSCs to the conventional features and by incorporating a speaker normalized technique into the conventional SSCs, respectively. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 1998, 号 114(1998-SLP-024), p. 63-68, 発行日 1998-12-10 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |