WEKO3
アイテム
HMMと音節セグメントの統計量を用いた音節認識
https://ipsj.ixsq.nii.ac.jp/records/57370
https://ipsj.ixsq.nii.ac.jp/records/573708ef29221-3218-441b-aa3e-56f25607b395
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2001 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2001-12-20 | |||||||
タイトル | ||||||||
タイトル | HMMと音節セグメントの統計量を用いた音節認識 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Syllable recognition using syllable - segmental statistics and syllable - based HMM | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
豊橋技術科学大学・情報工学系 | ||||||||
著者所属 | ||||||||
豊橋技術科学大学・情報工学系 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Information and Computer Sciences, Toyohashi University | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Information and Computer Sciences, Toyohashi University | ||||||||
著者名 |
高橋, 伸寿
× 高橋, 伸寿
|
|||||||
著者名(英) |
Nobutoshi, Takahashi
× Nobutoshi, Takahashi
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 我々はこれまでに、連続する4フレーム分のメルケプストラム係数を1つのベクトルに対してKL展開を用いて20次元に圧縮し入力ベクトルとするセグメント単位入力HMMの研究を行なっており、その有効性を示している。しかし、このようなモデルにおいては隣接するフレーム間の相関は考慮されているが、長区間にまたがるフレーム間の相関は考慮されていない。本報告では、より長い区間の特徴ベクトルの相関を表現するために、音節HMMの各状態に割り当てられる特徴量の平均値を連結したベクトルを1つの入力ベクトルとする、音節セグメントの統計量を用いた音節認識手法の提案を行なう。この特徴ベクトルは次元数が大きいため、KL展開を用いて次元圧縮を行なう。音節セグメント統計量はGMMでモデル化する。音節セグメント統計量を用いることにより、より長い区間にわたる特徴ベクトルの相関を表現することが可能となる(例えば、第1状態の特徴ベクトルと第4状態の特徴ベクトルなど)。モデルの学習と評価はベースとなるHMMでのフォースアライメントにより切り出された音節区間を用いて行なった。切り出し区間の音節認識実験ではベースモデルと音節セグメントモデルの両方を併用することにより音節認識率が83.7%から87.7%に向上した。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | In our previous reserach, we demonstrated the validity of segmental unit input hidden Markov model (HMM), which regards successive four frame MEL-cepstrum coefficients as a feature vector. The vector is compressed into 20 dimensions using the KL transform. However, the model considers only the correlation between frames in a short section, but not the correlation between the frames over a long section. In this paper, in order to represent the correlation over along distance, we use the syllable-segmental statistics that are calculated feature vector consists of a high dimension, the dimension is reduced using the K-L transform. The statistics are modeled by a GMM. The use of syllable-segment statistics allows the model to express the correlation between the frames over a long distance (e.g., the correlation between a vector in the first state and a vector in the fourth state in a syllable-based HMM). For modeling and estimationg, we conducted a forced Viterbi alignment against continuous speech using a conventional HMM, and then we segmented continuous speech into syllable segments. By combining this approach with a segmetal-unit input HMM. the syllable recognition rate was improved to 87.7% from 83.7% for syllables taken from continuous speech, without using a language model. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2001, 号 123(2001-SLP-039), p. 13-18, 発行日 2001-12-20 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |