ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2024
  4. 2024-SLP-151

CTC音声認識モデルにおけるビームサーチデコーディング内での暗黙的言語情報の置換

https://ipsj.ixsq.nii.ac.jp/records/232530
https://ipsj.ixsq.nii.ac.jp/records/232530
f17b9d57-a6ec-480c-8ec2-374ea6fff3a5
名前 / ファイル ライセンス アクション
IPSJ-SLP24151060.pdf IPSJ-SLP24151060.pdf (1.1 MB)
Copyright (c) 2024 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
SLP:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-02-22
タイトル
タイトル CTC音声認識モデルにおけるビームサーチデコーディング内での暗黙的言語情報の置換
タイトル
言語 en
タイトル Substitution of Implicit Linguistic Information in Beam Search Decoding Using CTC-based Speech Recognition Models
言語
言語 jpn
キーワード
主題Scheme Other
主題 ポスターセッション2 SP/SLP
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
豊橋技術科学大学
著者所属
豊橋技術科学大学
著者所属
日本電信電話株式会社
著者所属
豊橋技術科学大学
著者所属(英)
en
Toyohashi University of Technology
著者所属(英)
en
Toyohashi University of Technology
著者所属(英)
en
NTT Corporation
著者所属(英)
en
Toyohashi University of Technology
著者名 高城, 巽成

× 高城, 巽成

高城, 巽成

Search repository
若林, 佑幸

× 若林, 佑幸

若林, 佑幸

Search repository
小川, 厚徳

× 小川, 厚徳

小川, 厚徳

Search repository
北岡, 教英

× 北岡, 教英

北岡, 教英

Search repository
著者名(英) Tatsunari, Takagi

× Tatsunari, Takagi

en Tatsunari, Takagi

Search repository
Yukoh, Wakabayashi

× Yukoh, Wakabayashi

en Yukoh, Wakabayashi

Search repository
Atsunori, Ogawa

× Atsunori, Ogawa

en Atsunori, Ogawa

Search repository
Norihide, Kitaoka

× Norihide, Kitaoka

en Norihide, Kitaoka

Search repository
論文抄録
内容記述タイプ Other
内容記述 自動音声認識の分野ではニューラルネットワークの台頭により,音声認識モデルの精度が向上し,字幕生成や議事録作成など様々な分野で利用されている.しかしながら,音声認識モデルの学習と推論に用いるデータのドメインが異なる場合,認識精度が低下する問題がある.この問題を解決するドメイン適応手法として,Shallow FusionやDensity Ratio Approach (DRA) が提案されており,音声認識モデルの再学習なしにドメイン適応が可能であるため,導入のコストが低く,より実用的な手法となっている.我々の先行研究では,CTC デコーダを用いた音声認識モデルにおけるDRA の適用を検討したが,ビームサーチと併用した場合の DRA の適用については検討されていない.そこで本研究では,CTC デコーダを用いた音声認識モデルにおけるビームサーチ内での DRA の適用を検討した.ビームサーチ内で DRA を適用させるためにアルゴリズムを拡張した.実験において,加算用と減算用の言語モデルについてさまざまな種類の言語モデルを組み合わせ,実験を行った.実験の結果として,ビームサーチ内での DRA の適用により,1-gram 言語モデルから 6-gram 言語モデルを用いた様々な組み合わせで認識精度が向上することを示した.特に,減算用言語モデルに 1-gram 言語モデルを用いた場合に最も認識精度が向上することを示した.これは CTC デコーダを用いた音声認識モデルにおける暗黙の言語情報が 1-gram 言語モデルに近い言語情報を持っており,正しく言語情報を置換できたことで認識精度が向上したと考えられる.
論文抄録(英)
内容記述タイプ Other
内容記述 The rise of neural networks in the field of automatic speech recognition has notably improved the accuracy of speech recognition models, making them widely applicable in areas such as subtitle generation and meeting transcription. However, a challenge arises when there is a mismatch between the domains of data used for training and inference, leading to reduced accuracy. To address this issue, domain adaptation techniques like Shallow Fusion and Density Ratio Approach (DRA) have been proposed. These methods enable domain adaptation without the need to retrain the speech recognition model, making them cost-effective and practical. In our prior research, we explored the application of DRA in speech recognition models using a Connectionist Temporal Classification (CTC) decoder. However, the use of DRA in conjunction with beam search had not been examined. Therefore, our current study investigates the application of DRA within beam search in CTC decoder-based speech recognition models. We expanded the algorithm to integrate DRA within beam search. Our experiments involved various combinations of additive and subtractive language models. The results demonstrated that applying DRA within beam search improved recognition accuracy across different combinations of language models, from 1-gram to 6-gram. Notably, the use of a 1-gram model as the subtractive language model showed the most significant improvement in accuracy. This suggests that the implicit linguistic information in CTC decoder-based speech recognition models is closely aligned with a 1-gram language model, and the correct replacement of linguistic information through DRA led to enhanced recognition accuracy.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告音声言語情報処理(SLP)

巻 2024-SLP-151, 号 60, p. 1-6, 発行日 2024-02-22
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8663
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 10:25:00.577928
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3