@techreport{oai:ipsj.ixsq.nii.ac.jp:00213245,
 author = {趙, 懐博 and 樋口, 陽祐 and 小川, 哲司 and 小林, 哲則 and Huaibo, Zhao and Yosuke, Higuchi and Tetsuji, Ogawa and Tetsunori, Kobayashi},
 month = {Oct},
 note = {Mask-CTC と Triggered attention 機構を組み合わせ,低遅延で高性能なストリーミング End-to-End 音声認識システムの構築を試みた.Triggered attention 機構とは,Connectionist Temporal Classification (CTC) による記号の出力タイミングに基づいて推論を行う手法であり,ストリーミング音声認識における有効性が示されている.しかし,CTC 出力に基づくアライメント推定を高精度に行うためには,多少の遅延を許しても未来の情報を入力して推論を行うことが望ましい.一方で,ストリーミング音声認識では,遅延を低く抑えつつ,高い認識精度を達成することが望ましい.そこで,本研究では,未来の情報を含む長期的な文脈を考慮して特徴表現を学習する枠組みである Mask-CTC をエンコーダの事前学習に導入することで,低遅延かつ高精度なストリーミング音声認識を実現することを目指す.WSJ データを用いたストリーミング音声認識実験により,従来の Triggered attention 型ストリーミング音声認識モデルと比較して,提案モデルは遅延を低く抑えながら高い認識性能を与えることが明らかになった.},
 title = {Triggered attention型ストリーミング音声認識におけるMask-CTCを用いた事前学習},
 year = {2021}
}