Item type |
SIG Technical Reports(1) |
公開日 |
2024-02-22 |
タイトル |
|
|
タイトル |
CTC音声認識モデルにおけるビームサーチデコーディング内での暗黙的言語情報の置換 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Substitution of Implicit Linguistic Information in Beam Search Decoding Using CTC-based Speech Recognition Models |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション2 SP/SLP |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi University of Technology |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi University of Technology |
著者所属(英) |
|
|
|
en |
|
|
NTT Corporation |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi University of Technology |
著者名 |
高城, 巽成
若林, 佑幸
小川, 厚徳
北岡, 教英
|
著者名(英) |
Tatsunari, Takagi
Yukoh, Wakabayashi
Atsunori, Ogawa
Norihide, Kitaoka
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
自動音声認識の分野ではニューラルネットワークの台頭により,音声認識モデルの精度が向上し,字幕生成や議事録作成など様々な分野で利用されている.しかしながら,音声認識モデルの学習と推論に用いるデータのドメインが異なる場合,認識精度が低下する問題がある.この問題を解決するドメイン適応手法として,Shallow FusionやDensity Ratio Approach (DRA) が提案されており,音声認識モデルの再学習なしにドメイン適応が可能であるため,導入のコストが低く,より実用的な手法となっている.我々の先行研究では,CTC デコーダを用いた音声認識モデルにおけるDRA の適用を検討したが,ビームサーチと併用した場合の DRA の適用については検討されていない.そこで本研究では,CTC デコーダを用いた音声認識モデルにおけるビームサーチ内での DRA の適用を検討した.ビームサーチ内で DRA を適用させるためにアルゴリズムを拡張した.実験において,加算用と減算用の言語モデルについてさまざまな種類の言語モデルを組み合わせ,実験を行った.実験の結果として,ビームサーチ内での DRA の適用により,1-gram 言語モデルから 6-gram 言語モデルを用いた様々な組み合わせで認識精度が向上することを示した.特に,減算用言語モデルに 1-gram 言語モデルを用いた場合に最も認識精度が向上することを示した.これは CTC デコーダを用いた音声認識モデルにおける暗黙の言語情報が 1-gram 言語モデルに近い言語情報を持っており,正しく言語情報を置換できたことで認識精度が向上したと考えられる. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
The rise of neural networks in the field of automatic speech recognition has notably improved the accuracy of speech recognition models, making them widely applicable in areas such as subtitle generation and meeting transcription. However, a challenge arises when there is a mismatch between the domains of data used for training and inference, leading to reduced accuracy. To address this issue, domain adaptation techniques like Shallow Fusion and Density Ratio Approach (DRA) have been proposed. These methods enable domain adaptation without the need to retrain the speech recognition model, making them cost-effective and practical. In our prior research, we explored the application of DRA in speech recognition models using a Connectionist Temporal Classification (CTC) decoder. However, the use of DRA in conjunction with beam search had not been examined. Therefore, our current study investigates the application of DRA within beam search in CTC decoder-based speech recognition models. We expanded the algorithm to integrate DRA within beam search. Our experiments involved various combinations of additive and subtractive language models. The results demonstrated that applying DRA within beam search improved recognition accuracy across different combinations of language models, from 1-gram to 6-gram. Notably, the use of a 1-gram model as the subtractive language model showed the most significant improvement in accuracy. This suggests that the implicit linguistic information in CTC decoder-based speech recognition models is closely aligned with a 1-gram language model, and the correct replacement of linguistic information through DRA led to enhanced recognition accuracy. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-151,
号 60,
p. 1-6,
発行日 2024-02-22
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |