WEKO3
アイテム
モノフォンモデルを用いた状態選択に基づく音響尤度計算の高速化
https://ipsj.ixsq.nii.ac.jp/records/57466
https://ipsj.ixsq.nii.ac.jp/records/57466a2b0469f-4692-4d02-b8e9-03ab06078e15
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2000 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||
|---|---|---|---|---|---|---|---|---|
| 公開日 | 2000-12-21 | |||||||
| タイトル | ||||||||
| タイトル | モノフォンモデルを用いた状態選択に基づく音響尤度計算の高速化 | |||||||
| タイトル | ||||||||
| 言語 | en | |||||||
| タイトル | State Selection using Context - Independent HMM for Fast Likelihood Calculation | |||||||
| 言語 | ||||||||
| 言語 | jpn | |||||||
| 資源タイプ | ||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
| 資源タイプ | technical report | |||||||
| 著者所属 | ||||||||
| 奈良先端科学技術大学院大学情報科学研究科 | ||||||||
| 著者所属 | ||||||||
| 京都大学情報学研究科 | ||||||||
| 著者所属 | ||||||||
| 奈良先端科学技術大学院大学情報科学研究科 | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Nara Institute of Science and Technology | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Kyoto University | ||||||||
| 著者所属(英) | ||||||||
| en | ||||||||
| Nara Institute of Science and Technology | ||||||||
| 著者名 |
李晃伸
河原, 達也
鹿野, 清宏
× 李晃伸 河原, 達也 鹿野, 清宏
|
|||||||
| 著者名(英) |
Akinobu, Lee
Tatsuya, Kawahara
Kiyohiro, Shikano
× Akinobu, Lee Tatsuya, Kawahara Kiyohiro, Shikano
|
|||||||
| 論文抄録 | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | 音素環境非依存のモノフォンモデルの尤度に基づいてトライフォンの予備選択を行うことで,大語彙連続音声認識における音響尤度計算量を高速化する手法を提案する.フレームごとに全モノフォン状態の尤度を計算し,上位の状態についてのみ,対応するより高い解像度のトライフォンモデルの尤度を計算するとともに,下位の状態に対応するトライフォンについてはモノフォンの尤度をそのまま割り付けることで,非計算状態に対しても信頼度の高いback-off尤度を与える.比較実験の結果,従来手法であるベクトル量子化に基づくガウス分布選択(Gaussian selection)と同等の性能を示し,さらに計算するガウス分布数を絞った条件下でも安定した性能が得られた.Phonetic tied-mixture (PTM)モデルとの組合わせで,精度をほとんど落とさずに音響尤度計算コストを全体の約14%に抑えることができた. | |||||||
| 論文抄録(英) | ||||||||
| 内容記述タイプ | Other | |||||||
| 内容記述 | We address a method to efficiently select Gaussian mixtures for fast acoustic likelihood computation. It makes use of context-independent models for selection and back-off of corresponding triphone models. Specifically, for the k-best phone models by the preliminary evaluation, triphone models of higher resolution are applied, and others are assigned likelihoods with the monophone models. This selection scheme assigns more reliable back-off likelihoods to the un-selected states than the conventional Gaussian selection based on a VQ codebook. Experimental results show that this method can achieves a comparable performance, and works much better under the aggressive pruning condition. Together with the phonetic tied-mixture (PTM) modeling, acoustic matching cost is reduced to almost 14% with little loss of accuracy. | |||||||
| 書誌レコードID | ||||||||
| 収録物識別子タイプ | NCID | |||||||
| 収録物識別子 | AN10442647 | |||||||
| 書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2000, 号 119(2000-SLP-034), p. 95-100, 発行日 2000-12-21 |
|||||||
| Notice | ||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
| 出版者 | ||||||||
| 言語 | ja | |||||||
| 出版者 | 情報処理学会 | |||||||