2024-03-30T00:59:08Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:002081522024-03-29T05:26:34Z01164:05159:10092:10413
CTC とマスク推定に基づく推論速度の速いEnd-to-End 音声認識Fast End-to-End Speech Recognition with CTC and Mask Predictjpn音声検索・認識http://id.nii.ac.jp/1001/00208050/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=208152&item_no=1&attribute_id=1&file_no=1Copyright (c) 2020 by the Information Processing Society of Japan早稲田大学京都大学ジョンズ・ホプキンス大学早稲田大学早稲田大学早稲田大学樋口, 陽祐稲熊, 寛文渡部, 晋治小川, 哲司小林, 哲則Connectionist Temporal Classification (CTC) とマスク推定により非自己回帰的な End-to-End 音声認識モデルを学習し,推論時は CTC の出力をマスク推定により改善することで,推論速度の速い End-to-End 音声認識を実現することを試みる.従来の高精度な End-to-End モデルは,推論時に系列を自己回帰的に生成するため,目的系列の長さに比例した計算コストを要する.それに対し,非自己回帰的なモデルは複数の記号を並列に出力し,一定の計算コストで系列を生成できるため,推論速度が速く,より実用的な性能を期待できる.本研究では,CTC に基づく非自己回帰的なモデルを構築する.このとき,目的系列の「穴埋め問題」を解くマスク推定と同時学習することで,推論時に出力記号間の依存性を考慮した高精度な認識が行えるようにする.複数の音声認識タスクにおいて提案のモデルを評価したところ,推論速度の速い認識(CPU で RTF が 0.1 以下)が行えることを確認した.また,認識精度は CTC のみで学習したモデルから大幅に向上し,自己回帰的なモデルと同等の性能が得られることを確認した.We present a fast non-autoregressive (NAR) end-to-end automatic speech recognition (E2E-ASR) framework, which generates a sequence by refining outputs of the connectionist temporal classification (CTC) via mask prediction. Many of the previous studies on E2E-ASR focus on an autoregressive (AR) model: each output token is generated by conditioning on previously generated tokens, at the cost of requiring as many iterations as the output length. On the other hand, NAR models can simultaneously generate tokens within a constant number of iterations, which results in significant inference time reduction and better suits end-to-end ASR model for real-world scenarios. In this work, we train an E2E-ASR model with joint objectives of CTC and mask prediction. During inference, the greedy CTC output is refined by mask prediction, where errors in the CTC output are recovered by taking account of conditional dependence between output tokens. Experimental results on different speech recognition tasks show that the proposed model achieves fast inference time (<0.1 RTF using CPU), outperforming a standard CTC model and achieving competitive results to the AR models.AN10442647研究報告音声言語情報処理(SLP)2020-SLP-1343162020-11-252188-86632020-11-24