@techreport{oai:ipsj.ixsq.nii.ac.jp:00224440, author = {森谷, 崇史 and 芦原, 孝典 and 佐藤, 宏 and 松浦, 孝平 and 田中, 智大 and 増村, 亮 and Takafumi, Moriya and Takanori, Ashihara and Hiroshi, Sato}, issue = {43}, month = {Feb}, note = {本研究では Recurrent neural network-transducer(RNNT)を用いた音声認識における Scheduled sampling (SS)を提案する.SS は自己回帰モデルにおいて認識誤りに頑健となるように,学習時にモデルの実際の出力をランダムに正解ラベルと入れ替えて学習する手法である.SS は注意機構付き Encoder-Decoder で提案された手法であり,自己回帰モデルにおける Exposure bias と呼ばれる学習時と推論時のモデルの挙動の違いを抑制するアプローチである.しかしながら RNNT の学習時において複雑な出力形式をとるため,SS を RNNT へ適用することは困難である.本研究で RNNT の全パラメタ,または一部のパラメタである内部言語モデルの出力分布に従ってサンプリングを行う RNNT のための SS を提案する.3種類のコーパスを用いて実験を行い,提案手法の SS を用いて学習した RNNT が最も良い認識性能を達成することを確認した.また,日本語話し言葉コーパスでは他の文献と比較しても最高性能を達成したことを報告する., In this paper, we propose scheduled sampling approaches suited for the recurrent neural network-trans- ducer (RNNT) that is a promising approach for automatic speech recognition (ASR). SS is a technique to train autoregressive model robustly to past errors by randomly replacing some ground-truth tokens with actual outputs generated from a model. SS mitigates the gaps between training and decoding steps, known as exposure bias, and it is often used for attentional encoder-decoder training. However, SS has not been fully examined for RNNT because of the difficulty in applying SS to RNNT due to the complicated RNNT output form. Our SS approaches sample the tokens generated from the distribution of RNNT itself, i.e. internal language model or RNNT outputs. Experiments in three datasets confirm that RNNT trained with our SS approach achieves the best ASR performance. In particular, on a Japanese ASR task, our best system outperforms the previous state-of-the-art alternative.}, title = {Neural Transducer型音声認識におけるScheduled Samplingの検討}, year = {2023} }