@techreport{oai:ipsj.ixsq.nii.ac.jp:00232525, author = {北條, 圭悟 and 若林, 佑幸 and 太田, 健吾 and 小川, 厚徳 and 北岡, 教英 and Keigo, Hojo and Yukoh, Wakabayashi and Kengo, Ohta and Atsunori, Ogawa and Norihide, Kitaoka}, issue = {55}, month = {Feb}, note = {従来の音声認識の性能を改善する手法として,複数の音声認識システムの統合が行われていた.一方で,近年普及している End-to-End 音声認識では,外部言語モデルを併用した手法を用いた精度改善が行われており,近年登場した Density ratio approach(DRA)が,標準的な統合手法である Shallow fusion の性能を上回ることが判明した.我々はこのシステム統合とDRA の考え方を応用し,複数の音声認識モデルを統合することで得られる頑健な音響情報と音声認識モデルが学習していない言語情報を再学習無しで統合する手法を提案する.この提案手法の有効性を検証するため,従来の統合手法との比較を行った.実験の結果,提案手法は新たな学習を行うことなく,従来の音声認識統合手法や言語モデル統合手法よりも高性能であることが確認された.また,提案手法の複数のモデルの統合によって,学習データがもつドメインの偏りの軽減が可能になることが明らかとなった., We propose a method of integrating multiple Automatic speech recognition (ASR) models and target-domain language model to improve the performance of speech recognition system by applying the idea of system integration and Density Ratio Approach (DRA). To verify the effectiveness of the proposed method, we compared it with conventional integration methods using character error rates. Experimental results showed that the proposed method outperformed conventional methods for integrating speech recognition system and language models without any additional training. The proposed method also reduced the domain bias of the training data by integrating multiple ASR models.}, title = {複数音声認識モデルを統合した音声認識システムの高精度化}, year = {2024} }