@techreport{oai:ipsj.ixsq.nii.ac.jp:00056888, author = {袴田, 智博 and 南角, 吉彦 and 李晃伸 and 徳田, 恵一 and Tomohiro, Hakamata and Yoshihiko, Nankaku and Akinobu, Lee and Keiichi, Tokuda}, issue = {73(2006-SLP-062)}, month = {Jul}, note = {様々な環境や話者に対して高精度な不特定話者音声認識を実現するためのアプローチとして、対象の異なる複数のモデルによる結果を選択する方法が研究されている。この実現方法のひとつとしてモデルごとに独立した認識処理を統合する並列デコーディングがあるが、この場合デコーダの数に比例して計算量が増大する問題がある。本研究では、各デコーダの認識処理途中のフレームの情報に基づいてデコーダ間で動的に枝狩りを行うことを検討する。人力音声に対して相対的に適合しないと判断できるモデルの認識処理を中断することにより、最後まで処理を行うデコーダの数を絞り込み、トータルの計算量を削減する。枝刈りの基準として、フレームごとの現存単語仮説の最大累積尤度および、その現存仮説集合から得られる事後確率に基づく信頼度の上位の値を検討する。7~12のモデルの組み合せを用いた評価実験において、認識処理終了後にモデル選択を行う従来の並列音声認識に比べてほぼ同じ精度を保ちつつ、計算量を全体の1/3程度に抑えることができた。, Parallel decoding based on multiple models has been studied on a speech recognition system to efficiently cover various conditions and speakers in real world. However, running many recognizers in parallel applying all models causes the total computational cost to grow. In this paper, an efficient way of finding and pruning unpromising decoding process while search based on frame-wise likelihoods of each model is proposed. By comparing temporal search statistics at each frame among all decoders, a decoder with relatively unmatched models can be pruned in halfway of recognition process. This method allows the model structures to be mutually independent. Experimental results on parallel recognition of various acoustic models showed that two thirds of the computational cost was reduced compared to full computation by using the both criteria without spoiling the recognition accuracy as compared with conventional post-selection.}, title = {フレーム単位の信頼度を用いた並列音声認識におけるデコーダ間枝刈りの検討}, year = {2006} }