Item type |
SIG Technical Reports(1) |
公開日 |
2023-02-21 |
タイトル |
|
|
タイトル |
Neural Transducer型音声認識におけるScheduled Samplingの検討 |
タイトル |
|
|
言語 |
en |
|
タイトル |
A Study on Scheduled Sampling for Neural Transducer-based ASR |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
SP2:音声認識 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属(英) |
|
|
|
en |
|
|
NTT Corporation |
著者所属(英) |
|
|
|
en |
|
|
NTT Corporation |
著者所属(英) |
|
|
|
en |
|
|
NTT Corporation |
著者所属(英) |
|
|
|
en |
|
|
NTT Corporation |
著者所属(英) |
|
|
|
en |
|
|
NTT Corporation |
著者所属(英) |
|
|
|
en |
|
|
NTT Corporation |
著者名 |
森谷, 崇史
芦原, 孝典
佐藤, 宏
松浦, 孝平
田中, 智大
増村, 亮
|
著者名(英) |
Takafumi, Moriya
Takanori, Ashihara
Hiroshi, Sato
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究では Recurrent neural network-transducer(RNNT)を用いた音声認識における Scheduled sampling (SS)を提案する.SS は自己回帰モデルにおいて認識誤りに頑健となるように,学習時にモデルの実際の出力をランダムに正解ラベルと入れ替えて学習する手法である.SS は注意機構付き Encoder-Decoder で提案された手法であり,自己回帰モデルにおける Exposure bias と呼ばれる学習時と推論時のモデルの挙動の違いを抑制するアプローチである.しかしながら RNNT の学習時において複雑な出力形式をとるため,SS を RNNT へ適用することは困難である.本研究で RNNT の全パラメタ,または一部のパラメタである内部言語モデルの出力分布に従ってサンプリングを行う RNNT のための SS を提案する.3種類のコーパスを用いて実験を行い,提案手法の SS を用いて学習した RNNT が最も良い認識性能を達成することを確認した.また,日本語話し言葉コーパスでは他の文献と比較しても最高性能を達成したことを報告する. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this paper, we propose scheduled sampling approaches suited for the recurrent neural network-trans- ducer (RNNT) that is a promising approach for automatic speech recognition (ASR). SS is a technique to train autoregressive model robustly to past errors by randomly replacing some ground-truth tokens with actual outputs generated from a model. SS mitigates the gaps between training and decoding steps, known as exposure bias, and it is often used for attentional encoder-decoder training. However, SS has not been fully examined for RNNT because of the difficulty in applying SS to RNNT due to the complicated RNNT output form. Our SS approaches sample the tokens generated from the distribution of RNNT itself, i.e. internal language model or RNNT outputs. Experiments in three datasets confirm that RNNT trained with our SS approach achieves the best ASR performance. In particular, on a Japanese ASR task, our best system outperforms the previous state-of-the-art alternative. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2023-SLP-146,
号 43,
p. 1-6,
発行日 2023-02-21
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |