@techreport{oai:ipsj.ixsq.nii.ac.jp:00202993, author = {稲熊, 寛文 and 三村, 正人 and 河原, 達也}, issue = {9}, month = {Feb}, note = {ラベル同期型モデルである注意機構型 sequence-to-sequence では,入力音声フレームごとの出力を獲得できないためストリーミング認識には不向きであった.これに対処するため,逐次トークンを出力できるモデルがこれまで提案されてきたが,アライメント境界は過去のアライメントに依存するため,出力系列長が長くなるにつれて認識誤りの影響が後方のトークン生成へ伝搬するという問題があった.そこで本稿では,CTC のアライメント情報を教師として学習中に与えることにより,アライメントの学習を頑健にする CTC 同期学習を提案する.また,一定区間の入力フレームごとに枝刈りを行うチャンク同期型ビームサーチを提案し,外部の音声区間検出モデルを用いない,講演単位の認識を行う.日本語話し言葉コーパスにおける実験において,CTC 同期学習による認識精度の改善を確認する.}, title = {ストリーミング注意機構型sequence-to-sequenceモデルによる講演音声認識}, year = {2020} }