@techreport{oai:ipsj.ixsq.nii.ac.jp:00218453,
 author = {趙, 懐博 and 樋口, 陽祐 and 木田, 祐介 and 小川, 哲司 and 小林, 哲則 and Huaibo, Zhao and Yosuke, Higuchi and Yusuke, Kida and Tetsuji, Ogawa and Tetsunori, Kobayashi},
 issue = {61},
 month = {Jun},
 note = {Transducer 型の End-to-End 音声認識モデルを Mask-CTC を用いて事前学習することで,低遅延で高精度なストリーミング音声認識を実現することを試みた.Transducer に基づく End-to-End 音声認識モデルは,入力音声の各フレームに対してトークンの予測を行うフレーム同期型のモデルであり,Acoustic Encoder における先読み範囲を制御することで,ストリーミングによる認識が可能となる.このとき,Acoustic Encoder として Transformer などの大域的な注意機構を用いるネットワークを用いる場合,先読み範囲を長く取る (将来の文脈を考慮する) と高い認識精度が得られる一方で,遅延量は増大する.そこで本研究では,低遅延かつ高精度なストリーミング音声認識の実現を目指し,Transducer 型モデルにおける Acoustic Encoder の事前学習に Mask-CTC を利用することを試みた.Mask-CTC は,将来の情報を含む長期的な文脈を考慮した音響特徴表現を抽出可能にする枠組みであり,Acoustic Encoder の事前学習に利用することで,先読み範囲を短くすることが望ましいストリーミング音声認識に適した音響特徴表現を学習しやくすなることを期待する.提案法の有効性を実証するために,Wall Street Journal と TED-LIUM2 を用いて音声認識実験を行ったところ,提案モデルは遅延を短く抑えながら高い認識精度を与えることがわかった.},
 title = {Tranducer型ストリーミング音声認識におけるMask-CTCを用いた事前学習},
 year = {2022}
}