@techreport{oai:ipsj.ixsq.nii.ac.jp:00202993,
 author = {稲熊, 寛文 and 三村, 正人 and 河原, 達也},
 issue = {9},
 month = {Feb},
 note = {ラベル同期型モデルである注意機構型 sequence-to-sequence では，入力音声フレームごとの出力を獲得できないためストリーミング認識には不向きであった．これに対処するため，逐次トークンを出力できるモデルがこれまで提案されてきたが，アライメント境界は過去のアライメントに依存するため，出力系列長が長くなるにつれて認識誤りの影響が後方のトークン生成へ伝搬するという問題があった．そこで本稿では，CTC のアライメント情報を教師として学習中に与えることにより，アライメントの学習を頑健にする CTC 同期学習を提案する．また，一定区間の入力フレームごとに枝刈りを行うチャンク同期型ビームサーチを提案し，外部の音声区間検出モデルを用いない，講演単位の認識を行う．日本語話し言葉コーパスにおける実験において，CTC 同期学習による認識精度の改善を確認する．},
 title = {ストリーミング注意機構型sequence-to-sequenceモデルによる講演音声認識},
 year = {2020}
}