| Item type |
SIG Technical Reports(1) |
| 公開日 |
2005-12-22 |
| タイトル |
|
|
タイトル |
発話位置依存CMNとマルチマイクロフォンアレイ処理の併用による遠隔発話の音声認識 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Robust Distant Speech Recognition by Combining Multiple Microphone-array Processing with Position Dependent CMN |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
豊橋技術科学大学情報工学系 |
| 著者所属 |
|
|
|
豊橋技術科学大学情報工学系 |
| 著者所属 |
|
|
|
豊橋技術科学大学情報工学系 |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Information and computer Sciences, Toyohashi University of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Information and computer Sciences, Toyohashi University of Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Department of Information and computer Sciences, Toyohashi University of Technology |
| 著者名 |
王, 龍標
北岡, 教英
中川, 聖一
|
| 著者名(英) |
Longbiao, WANG
Norihide, NorihideKITAOKA
Seiichi, NAKAGAWA
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
遠隔環境において,伝送歪みは音声認識の性能を大きく劣化させる。本稿では,発話位置依存ケプストラム平均正規化とマルチマイクロフォンアレイ処理の併用による遠隔発話の音声認識を提案する。各マイクロフォンにょる認識結果によって認識単語候補に投票し,最多得票の単語を最終の結果として選択する(投票法),もしくは各マイクロフォンによる単語尤度を同一単語毎に加算して尤度最大の単語を最終の結果として識別する(最大連合尤度法)。さらに,投票法あるいは最大連合尤度法と遅延和ビームフォーミングを統合するマルチマイクロフォンアレイを提案する。マルチマイクロフォンアレイ処理前に,各チャンネルの入力を位置依存CMNにより補正し,音声認識を行う。シミュレーション環境と実環境において孤立単語認識実験を行った。実環境において、提案した発話位置依存CMNとマルチマイクロフォン処理の併用手法では,従来の発声毎CMNに基づく遅延和ビームフォーミング処理より3.2%(50.0%の相対エラー減少率)の改善を達成することができた。 |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In a distant environment, channel distortion may drastically degrade speech recognition performances. In this paper, we propose a robust distant speech recognition by combining multiple microphone-array processing with position dependent Cepstral Mean Normalization (CMN). In this paper, the maximum voting method (that is, Voting method) or the maximum summation likelihood (that is, Maximum-summation-likelihood method of whole channels were used to obtain the final result. Furthermore, we combined the delay-and-sum beam forming with Voting method or Maximum-summation-likelihood method) which was called multiple microphone-array processing. Before multiple microphone-array processing) the system compensated the input features by proposed position dependent CMN and performed speech recognition for each channel. We conducted our experiments in both simulated and real environments. The proposed combinational method improved the 100 isolated word recognition performance remarkably in both situations. We achieved 3.291o improvement (50.0% relative error reduction rate) than the delay-and-sum beam forming with conventional CMN in a real environment. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP)
巻 2005,
号 127(2005-SLP-059),
p. 193-198,
発行日 2005-12-22
|
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |