<?xml version='1.0' encoding='UTF-8'?>
<OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
  <responseDate>2026-03-06T15:46:34Z</responseDate>
  <request metadataPrefix="oai_dc" verb="GetRecord" identifier="oai:ipsj.ixsq.nii.ac.jp:00232530">https://ipsj.ixsq.nii.ac.jp/oai</request>
  <GetRecord>
    <record>
      <header>
        <identifier>oai:ipsj.ixsq.nii.ac.jp:00232530</identifier>
        <datestamp>2025-01-19T10:25:01Z</datestamp>
        <setSpec>1164:5159:11541:11549</setSpec>
      </header>
      <metadata>
        <oai_dc:dc xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:oai_dc="http://www.openarchives.org/OAI/2.0/oai_dc/" xmlns="http://www.w3.org/2001/XMLSchema" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd">
          <dc:title>CTC音声認識モデルにおけるビームサーチデコーディング内での暗黙的言語情報の置換</dc:title>
          <dc:title>Substitution of Implicit Linguistic Information in Beam Search Decoding Using CTC-based Speech Recognition Models</dc:title>
          <dc:creator>高城, 巽成</dc:creator>
          <dc:creator>若林, 佑幸</dc:creator>
          <dc:creator>小川, 厚徳</dc:creator>
          <dc:creator>北岡, 教英</dc:creator>
          <dc:creator>Tatsunari, Takagi</dc:creator>
          <dc:creator>Yukoh, Wakabayashi</dc:creator>
          <dc:creator>Atsunori, Ogawa</dc:creator>
          <dc:creator>Norihide, Kitaoka</dc:creator>
          <dc:subject>ポスターセッション2 SP/SLP</dc:subject>
          <dc:description>自動音声認識の分野ではニューラルネットワークの台頭により，音声認識モデルの精度が向上し，字幕生成や議事録作成など様々な分野で利用されている．しかしながら，音声認識モデルの学習と推論に用いるデータのドメインが異なる場合，認識精度が低下する問題がある．この問題を解決するドメイン適応手法として，Shallow FusionやDensity Ratio Approach (DRA) が提案されており，音声認識モデルの再学習なしにドメイン適応が可能であるため，導入のコストが低く，より実用的な手法となっている．我々の先行研究では，CTC デコーダを用いた音声認識モデルにおけるDRA の適用を検討したが，ビームサーチと併用した場合の DRA の適用については検討されていない．そこで本研究では，CTC デコーダを用いた音声認識モデルにおけるビームサーチ内での DRA の適用を検討した．ビームサーチ内で DRA を適用させるためにアルゴリズムを拡張した．実験において，加算用と減算用の言語モデルについてさまざまな種類の言語モデルを組み合わせ，実験を行った．実験の結果として，ビームサーチ内での DRA の適用により，1-gram 言語モデルから 6-gram 言語モデルを用いた様々な組み合わせで認識精度が向上することを示した．特に，減算用言語モデルに 1-gram 言語モデルを用いた場合に最も認識精度が向上することを示した．これは CTC デコーダを用いた音声認識モデルにおける暗黙の言語情報が 1-gram 言語モデルに近い言語情報を持っており，正しく言語情報を置換できたことで認識精度が向上したと考えられる．</dc:description>
          <dc:description>The rise of neural networks in the ﬁeld of automatic speech recognition has notably improved the accuracy of speech recognition models, making them widely applicable in areas such as subtitle generation and meeting transcription. However, a challenge arises when there is a mismatch between the domains of data used for training and inference, leading to reduced accuracy. To address this issue, domain adaptation techniques like Shallow Fusion and Density Ratio Approach (DRA) have been proposed. These methods enable domain adaptation without the need to retrain the speech recognition model, making them cost-eﬀective and practical. In our prior research, we explored the application of DRA in speech recognition models using a Connectionist Temporal Classiﬁcation (CTC) decoder. However, the use of DRA in conjunction with beam search had not been examined. Therefore, our current study investigates the application of DRA within beam search in CTC decoder-based speech recognition models. We expanded the algorithm to integrate DRA within beam search. Our experiments involved various combinations of additive and subtractive language models. The results demonstrated that applying DRA within beam search improved recognition accuracy across diﬀerent combinations of language models, from 1-gram to 6-gram. Notably, the use of a 1-gram model as the subtractive language model showed the most signiﬁcant improvement in accuracy. This suggests that the implicit linguistic information in CTC decoder-based speech recognition models is closely aligned with a 1-gram language model, and the correct replacement of linguistic information through DRA led to enhanced recognition accuracy.</dc:description>
          <dc:description>technical report</dc:description>
          <dc:publisher>情報処理学会</dc:publisher>
          <dc:date>2024-02-22</dc:date>
          <dc:format>application/pdf</dc:format>
          <dc:identifier>研究報告音声言語情報処理（SLP）</dc:identifier>
          <dc:identifier>60</dc:identifier>
          <dc:identifier>2024-SLP-151</dc:identifier>
          <dc:identifier>1</dc:identifier>
          <dc:identifier>6</dc:identifier>
          <dc:identifier>2188-8663</dc:identifier>
          <dc:identifier>AN10442647</dc:identifier>
          <dc:identifier>https://ipsj.ixsq.nii.ac.jp/record/232530/files/IPSJ-SLP24151060.pdf</dc:identifier>
          <dc:language>jpn</dc:language>
        </oai_dc:dc>
      </metadata>
    </record>
  </GetRecord>
</OAI-PMH>
