Item type |
SIG Technical Reports(1) |
公開日 |
2024-02-22 |
タイトル |
|
|
タイトル |
複数音声認識モデルを統合した音声認識システムの高精度化 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Improving speech recognition system consisting of multiple speech recognition models |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション2 SP/SLP |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属 |
|
|
|
阿南工業高等専門学校 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi University of Technology |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi University of Technology |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Technology, Anan College |
著者所属(英) |
|
|
|
en |
|
|
Nippoin Telegraph and Telephone Corporation |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi University of Technology |
著者名 |
北條, 圭悟
若林, 佑幸
太田, 健吾
小川, 厚徳
北岡, 教英
|
著者名(英) |
Keigo, Hojo
Yukoh, Wakabayashi
Kengo, Ohta
Atsunori, Ogawa
Norihide, Kitaoka
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
従来の音声認識の性能を改善する手法として,複数の音声認識システムの統合が行われていた.一方で,近年普及している End-to-End 音声認識では,外部言語モデルを併用した手法を用いた精度改善が行われており,近年登場した Density ratio approach(DRA)が,標準的な統合手法である Shallow fusion の性能を上回ることが判明した.我々はこのシステム統合とDRA の考え方を応用し,複数の音声認識モデルを統合することで得られる頑健な音響情報と音声認識モデルが学習していない言語情報を再学習無しで統合する手法を提案する.この提案手法の有効性を検証するため,従来の統合手法との比較を行った.実験の結果,提案手法は新たな学習を行うことなく,従来の音声認識統合手法や言語モデル統合手法よりも高性能であることが確認された.また,提案手法の複数のモデルの統合によって,学習データがもつドメインの偏りの軽減が可能になることが明らかとなった. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
We propose a method of integrating multiple Automatic speech recognition (ASR) models and target-domain language model to improve the performance of speech recognition system by applying the idea of system integration and Density Ratio Approach (DRA). To verify the effectiveness of the proposed method, we compared it with conventional integration methods using character error rates. Experimental results showed that the proposed method outperformed conventional methods for integrating speech recognition system and language models without any additional training. The proposed method also reduced the domain bias of the training data by integrating multiple ASR models. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-151,
号 55,
p. 1-6,
発行日 2024-02-22
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |