WEKO3
アイテム
特定話者音節 HMM の標準偏差補正と無音削除処理による認識率改善
https://ipsj.ixsq.nii.ac.jp/records/56849
https://ipsj.ixsq.nii.ac.jp/records/568499a9d8524-de30-40ca-86e2-b11967fc8b13
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2006 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2006-12-21 | |||||||
タイトル | ||||||||
タイトル | 特定話者音節 HMM の標準偏差補正と無音削除処理による認識率改善 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Standard deviation control of acoustic parameters and pause deletion method for speaker dependent HMM | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
崇城大学情報学部 | ||||||||
著者所属 | ||||||||
崇城大学情報学部 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
SOJO University Conputers and Infomations Science Department | ||||||||
著者所属(英) | ||||||||
en | ||||||||
SOJO University Conputers and Infomations Science Department | ||||||||
著者名 |
西, 宏之
× 西, 宏之
|
|||||||
著者名(英) |
Hiroyuki, NISHI
× Hiroyuki, NISHI
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 現在、音声認識においては前後の音素環境を考慮した不特定話者音素 HMM を音響モデルとして用いる手法が主流であるが、これらのシステムでは、話者適応化のための長時間のトレーニング用発話が必要であり、音声認識に馴染みのないユーザへの障壁となっている。本報告では、特定話者音節 HMM を用いて学習用発話の時間短縮と認識率の確保を試みた結果を述べる。日本語では110個程度の音節で、外来語を含むすべての単語を表現できるので、特定話者音節モデルを採用することで、学習用の発話を数分以内に完了できるという利点がある。その反面、単語発話や連続発話では、音節境界付近の音響パラメータが音節発話の場合とは大きく異なることから、単語数が多くなると認識率の劣化が避けられないという問題点がある。本報告では、音節境界付近の音響パラメータの変形を、音節 HMM のパラメータの標準偏差を操作し、さらに無音区間を削除することで吸収し、認識率を改善する手法を提案する。はじめに、音節発話から得られた音節 HMM をそのまま適用して認識率を確認し、次に標準偏差を種々の固定値とし、無音区間を削除して学習と認識を行った場合を対象に評価した。その結果、標準偏差を平均値の30%前後に設定すると、単語数20で、1位正解率88%、単語数50では1位正解率76%程度まで改善できることを示した。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Speaker independent phoneme HMM that considers the phoneme environment is a main current in speech recognition systems. However, that system requires long time utterance for training. In this report, using the speaker dependent syllable HMM, the result of trying shortening the time of the utterance for training and improving the recognition accuracy is described. All of japanese words are organized by 110 syllables and utterance for training can be completed in several minutes. On the other hand, feature parameters in the syllable boundary of word utterance or continuous utterance are different from that of syllable utterence. Therefore, it is difficult to secure the hige recogniton accuracy by syrablle HMM. In order to solve the problem, the method that absorbe the transformation of HMM parameters by controlling the standard deviations of parameters is described. Referencing the original accuracy of raw syrablle HMM, the effect of the controlling the standard deviations of parameters is confirmed. The best score is obtained under the condition that the standard deviation is 30% of the averave value. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2006, 号 136(2006-SLP-064), p. 113-118, 発行日 2006-12-21 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |