WEKO3
アイテム
コードブックを用いた実時間処理CMNの実装と評価
https://ipsj.ixsq.nii.ac.jp/records/56908
https://ipsj.ixsq.nii.ac.jp/records/5690858ed34d3-cea5-47b7-85a1-047e3a71d65c
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2006 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2006-02-03 | |||||||
タイトル | ||||||||
タイトル | コードブックを用いた実時間処理CMNの実装と評価 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Real-time Cepstrum Mean Normalization Using Codebook | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
奈良先端大情報 | ||||||||
著者所属 | ||||||||
奈良先端大情報 | ||||||||
著者所属 | ||||||||
奈良先端大情報 | ||||||||
著者所属 | ||||||||
奈良先端大情報 | ||||||||
著者所属 | ||||||||
奈良先端大情報 | ||||||||
著者所属 | ||||||||
名工大 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NAIST | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NAIST | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NAIST | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NAIST | ||||||||
著者所属(英) | ||||||||
en | ||||||||
NAIST | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Nagoya Institute of Technology | ||||||||
著者名 |
追立真吾
× 追立真吾
|
|||||||
著者名(英) |
Shingo, Oidate
× Shingo, Oidate
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 人型ロボットや券売機など公共の音声認識システムには話者交替が頻繁に生じるという特徴があるため,高速な話者適応技術が重要である.話者,空間,収録機器等を簡便に一括して正規化する手法としてケプストラム平均正規化(CMN)が広く用いられている。公共の音声認識システムでは,空間や収録機器の特性が急激な変化をすることは少ないので,CMNは主に話者正規化の効果を果たす.しかしながら、CMNは一般に発話単位でケプストラム平均値を算出するため,発話の入力開始と同時に認識処理を開始できない.そのため公共の音声認識システムでは必須である実時間処理が困難である.また,公共の音声認識システムは発話が短時間である傾向があるが,そのような場合,CMNは音韻の偏りの影響により性能が劣化してしまうという問題点がある.そこで,認識処理中に母音区間を検出し,母音ケプストラムを入力情報として,コードブックにより発話者に近い話者の発話を発話データベースから選択し、近似的に長時間CMをフレーム同期で求める手法を提案する.音声対話情報案内システム「たけまるくん」により収集した実環境データを用いた実験により、公共の音声認識システムにおけるオンライン/オフラインCMNの効果を明らかにする。結果,提案法は実時間処理であるが,発話単位でCMを算出するCMNに匹敵する性能を示した.また,代表的な従来の実時間処理CMNと比較しても,提案法が優位であることがわかった. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | A rapid speaker adaptaion in a public speech-recognition system such as the humanoid robots and ticket vending machines is important because a speaker frequently exchanges. Cepstral Mean Normalization (CMN) is widely used as a technique for normalizing the transmission characteristics such as the speaker, the spaces, and the collection equipment. Especially, because the transmission characteristics of the space and the collection equipment is almost consistent in a public speech-recognition system, CMN mainly causes the effect of the speaker adaptation. The recognition processing cannot begin at the same time as the input of the utterance beginning because CM( Cepstral Mean ) is calculated over an utterance in general. Therefore, a real-time processing is difficult. We propose a technique for in real time approximately obtaining CM by using the codebook. The proposed method is evaluated using the data which were collected with the speech-oriented information system ``Takemaru-kun.''We also demonstrate the performance of several offline CMN methods. The result shows that the proposed method works better than the conventional methods. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2006, 号 12(2006-SLP-060), p. 7-12, 発行日 2006-02-03 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |