WEKO3
アイテム
中国語音声認識における音素環境のモデリング
https://ipsj.ixsq.nii.ac.jp/records/57441
https://ipsj.ixsq.nii.ac.jp/records/57441d7c07785-6521-4747-bdee-edc15e308742
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2001 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2001-02-02 | |||||||
タイトル | ||||||||
タイトル | 中国語音声認識における音素環境のモデリング | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | MODELING SEGMENTAL CONTEXT EFFECT FOR CHINESE SPEECH RECOGNITION | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
ATR音声言語通信研究所 | ||||||||
著者所属 | ||||||||
ATR音声言語通信研究所 | ||||||||
著者所属 | ||||||||
ATR音声言語通信研究所 | ||||||||
著者所属 | ||||||||
ATR音声言語通信研究所 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Spoken Language Translation Research Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Spoken Language Translation Research Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Spoken Language Translation Research Laboratories | ||||||||
著者所属(英) | ||||||||
en | ||||||||
ATR Spoken Language Translation Research Laboratories | ||||||||
著者名 |
張勁松
× 張勁松
|
|||||||
著者名(英) |
Jin-Song, Zhang
× Jin-Song, Zhang
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | トライフォンモデルを中国語音声認識に応用する場合、出現するモデルの数が膨大となり、モデルの学習を十分に行うことは難しい。そのため、タスクの変更により音素環境のミスマッチが生じた場合、認識性能は大きく劣化する。そこで我々は音響環境を考慮し、調音特性をもとに音素環境を分類するとともに、この分類に対し適当な調音質問による文脈分類木を作成した。これにより音響モデルをデータ駆動クラスタリングにより状態共有することで、モデル数を大幅に削減することが可能となり、タスクの変更に伴う音素環境のミスマッチに関する問題を解決することができた。タスク依存データ・非依存データを用いた認識実験の結果、タスク非依存データにおいて14%の誤り改善率を得るとともに、タスク依存データに対して性能の劣化が無いことを確認した。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | This paper reports our approach of modeling the segmental coarticulatory effects for Chinese speech recognition. When building triphones based on the Initials and Finals, the number of possible triphone units are very large and easily lead to serious unseen phone problem. We propose to cluster the segmental context effects in to a few categories according to articulatory configurations in order to reduce the number of triphone units. and do phonetic-decision-tree (PDT) based state tying at the level of category to improve data-sharing when training HMMs. The proposal is able to reduce an original 111k possible triphones to 4.6k ones and nearly solve the unseen triphone problem. Application to both a task-dependent(TDEP) and a task-independent(TINd) experiments of speaker independent continuous speech recognition showed that the proposal brought by relative 14% error reduction in the TIND task, and had no significant differences in the TDEP task. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2001, 号 11(2000-SLP-035), p. 37-42, 発行日 2001-02-02 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |