WEKO3
アイテム
MLPを用いた話者正準化に基づく音声認識の検討
https://ipsj.ixsq.nii.ac.jp/records/102199
https://ipsj.ixsq.nii.ac.jp/records/102199cc156a45-84f1-4af4-bec4-c39aa26e3b27
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2014 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2014-07-17 | |||||||
タイトル | ||||||||
タイトル | MLPを用いた話者正準化に基づく音声認識の検討 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | A study on MLP-based speaker canonicalization | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | ニューラルネットワーク | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
早稲田大学 | ||||||||
著者所属 | ||||||||
早稲田大学 | ||||||||
著者所属 | ||||||||
早稲田大学 | ||||||||
著者所属 | ||||||||
早稲田大学 | ||||||||
著者所属 | ||||||||
早稲田大学/豊橋技術科学大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Dept. of Compute Science, Waseda University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Dept. of Compute Science, Waseda University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Dept. of Compute Science, Waseda University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Dept. of Compute Science, Waseda University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Dept. of Compute Science, Waseda University / Toyohashi University of Technology | ||||||||
著者名 |
久保田雄一
× 久保田雄一
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 不特定話者音声認識システムの性能向上を目的として,低演算かつ高精度な話者正準化手法を提案する.話者正準化の代表的な手法として,声道長正規化 (Vocal Tract Length Normalization; VTLN) が広く用いられているが,計算量および表現能力の 2 つの観点で改善の余地がある.まず最適なワーピングパラメータを推定する際に,用意したパラメータ数だけ同時に音声認識を行う必要があるため,計算量が多くなる.また,VTLN は一つの発話内において同じパラメータで線形変換を実現している.しかし,最適な写像関数は音素ごとに異なると言われており,表現能力に改善の余地がある.そこで,本報告では多層パーセプトロン (Multi Layer Perceptoron; MLP) を用いた話者正準化手法を提案する.MLP は,任意話者の母音スペクトルを標準話者の母音スペクトルへ写像する関数を学習する.提案法は,(1) 認識時にパラメータを推定する必要がない (2)MLP により発話内で音素ごとに非線形な写像関数を実現させることができるという点で VTLN よりも優れる.しかしながら,スペクトルの低域および高域において歪が生じ,認識性能が低下する.この問題を解決するために,MLP による写像後のスペクトルと入力スペクトルの周波数重み付けを行う.不特定話者連続数字認識実験による評価では,提案法が VTLN と比較し 1.6% 性能を改善することを示す. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Accurate and efficient speaker canonicalization is proposed to improve the performance of speaker-independent ASR systems. Vocal tract length normalization (VTLN) is often applied to speaker canonicalization in ASR; however, it requires parallel decoding of speech when estimating the optimal warping parameter. In addition, VTLN provides the same linear spectral transformation in an utterance, although optimal mapping functions differ among phonemes. In this study, we propose a novel speaker canonicalization using multilayer perceptron (MLP) that is trained with a data set of vowels to map an input spectrum to the output spectrum of a standard speaker or a canonical speaker. The proposed speaker canonicalization operates according to the integration of MLP-based mapping and identity mapping that depends on frequency bands and achieves accurate recognition without any tuning of mapping function during run-time. Results of experiments conducted with a continuous digit recognition task showed that the proposed method reduces the intra-class variability in both of the vowel and consonant parts and outperforms VTLN. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2014-SLP-102, 号 8, p. 1-6, 発行日 2014-07-17 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |