WEKO3
アイテム
フレーム単位の信頼度を用いた並列音声認識におけるデコーダ間枝刈りの検討
https://ipsj.ixsq.nii.ac.jp/records/56888
https://ipsj.ixsq.nii.ac.jp/records/56888681a3170-b439-44a7-bec9-c8bd52648cca
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2006 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2006-07-07 | |||||||
タイトル | ||||||||
タイトル | フレーム単位の信頼度を用いた並列音声認識におけるデコーダ間枝刈りの検討 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Inter-decoder Pruning on Parallel Decoding using Frame-wise Confidence Scores | |||||||
言語 | ||||||||
言語 | jpn | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
名古屋工業大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
名古屋工業大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
名古屋工業大学大学院工学研究科 | ||||||||
著者所属 | ||||||||
名古屋工業大学大学院工学研究科 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science and Engineering, Nagoya Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science and Engineering, Nagoya Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science and Engineering, Nagoya Institute of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Department of Computer Science and Engineering, Nagoya Institute of Technology | ||||||||
著者名 |
袴田, 智博
× 袴田, 智博
|
|||||||
著者名(英) |
Tomohiro, Hakamata
× Tomohiro, Hakamata
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 様々な環境や話者に対して高精度な不特定話者音声認識を実現するためのアプローチとして、対象の異なる複数のモデルによる結果を選択する方法が研究されている。この実現方法のひとつとしてモデルごとに独立した認識処理を統合する並列デコーディングがあるが、この場合デコーダの数に比例して計算量が増大する問題がある。本研究では、各デコーダの認識処理途中のフレームの情報に基づいてデコーダ間で動的に枝狩りを行うことを検討する。人力音声に対して相対的に適合しないと判断できるモデルの認識処理を中断することにより、最後まで処理を行うデコーダの数を絞り込み、トータルの計算量を削減する。枝刈りの基準として、フレームごとの現存単語仮説の最大累積尤度および、その現存仮説集合から得られる事後確率に基づく信頼度の上位の値を検討する。7~12のモデルの組み合せを用いた評価実験において、認識処理終了後にモデル選択を行う従来の並列音声認識に比べてほぼ同じ精度を保ちつつ、計算量を全体の1/3程度に抑えることができた。 | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Parallel decoding based on multiple models has been studied on a speech recognition system to efficiently cover various conditions and speakers in real world. However, running many recognizers in parallel applying all models causes the total computational cost to grow. In this paper, an efficient way of finding and pruning unpromising decoding process while search based on frame-wise likelihoods of each model is proposed. By comparing temporal search statistics at each frame among all decoders, a decoder with relatively unmatched models can be pruned in halfway of recognition process. This method allows the model structures to be mutually independent. Experimental results on parallel recognition of various acoustic models showed that two thirds of the computational cost was reduced compared to full computation by using the both criteria without spoiling the recognition accuracy as compared with conventional post-selection. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
情報処理学会研究報告音声言語情報処理(SLP) 巻 2006, 号 73(2006-SLP-062), p. 31-36, 発行日 2006-07-07 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |