@article{oai:ipsj.ixsq.nii.ac.jp:00099495,
 author = {神田, 直之 and 糸山, 克寿 and 奥乃, 博 and Naoyuki, Kanda and Katsutoshi, Itoyama and Hiroshi, G.Okuno},
 issue = {3},
 journal = {情報処理学会論文誌},
 month = {Mar},
 note = {本研究では音声検索語検出のために複数の音声認識器から出力された認識結果を統合する手法において,未知語区間推定結果に基づいてインデックスを選択的に統合することで,検出精度の劣化を抑えつつインデックスサイズを削減する手法について提案する.提案する手法は4種類の音声認識器から得られた出力を1つのネットワークへと統合する.その際,未知語区間推定結果に基づきネットワーク中の有効なアークの選択や,インデックスに用いるサブワード単位の選択を行うことで,冗長なインデックスを削減する.日本語話し言葉コーパスを用いた評価の結果,提案法によって,検出精度の劣化を1.4ポイントに抑えたうえで音素Transition Networkから22.7%のインデックスが削減できることを確認した.単一の音声認識結果から作成した音素単位のネットワークと比較した場合,提案法では,インデックスの統合による検出精度向上の効果(既知語で16.3%,未知語で16.0%の検出エラー削減)を保ちながら,単一の音声認識結果に基づくインデックスと同等以下の大きさまでインデックスサイズを抑えることができた., In this paper, a novel index combination method for spoken term detection is proposed. In our method, outputs from four different recognizers are combined into one confusion network. A novel index-selection method for the multiple index-combination method is then used to suppress the increase of the index size. Two methods are proposed to reduce index size: (1) arc selection and (2) unit selection, both of which are based on an Out-of-Vocabulary (OOV)-region estimator score. Experimental results with Japanese lecture recordings, Corpus of Spontaneous Japanese, showed that the index-selection method achieved a 22.7% reduction of index size of the best confusion network with only 1.4 points loss of its high accuracy. Compared with the best phoneme-based index from a single recognizer, the proposed method achieved smaller index size while keeping high accuracy of the index combination method (a 16.3% and 16.0% relative error reduction for IV and OOV queries).},
 pages = {1201--1211},
 title = {音声中の任意検索語検出のための未知語区間推定に基づく選択的インデックス統合法},
 volume = {55},
 year = {2014}
}