Item type |
SIG Technical Reports(1) |
公開日 |
2022-02-22 |
タイトル |
|
|
タイトル |
Hybrid RNN-T/Attention 構造を用いたストリーミング型End-to-End 音声認識モデルと内部言語モデル統合の検討 |
タイトル |
|
|
言語 |
en |
|
タイトル |
A Study on Hybrid RNN-T/Attention-based Streaming ASR with Triggered Chunkwise Attention and Dual Internal Language Model Integration |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
SP2 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
日本電信電話株式会社/東京工業大学 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
東京工業大学 |
著者所属(英) |
|
|
|
en |
|
|
NTT Corporation / Tokyo Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
NTT Corporation |
著者所属(英) |
|
|
|
en |
|
|
NTT Corporation |
著者所属(英) |
|
|
|
en |
|
|
NTT Corporation |
著者所属(英) |
|
|
|
en |
|
|
NTT Corporation |
著者所属(英) |
|
|
|
en |
|
|
NTT Corporation |
著者所属(英) |
|
|
|
en |
|
|
NTT Corporation |
著者所属(英) |
|
|
|
en |
|
|
NTT Corporation |
著者所属(英) |
|
|
|
en |
|
|
Tokyo Institute of Technology |
著者名 |
森谷, 崇史
芦原, 孝典
安藤, 厚志
佐藤, 宏
田中, 智大
松浦, 孝平
増村, 亮
デルクロア, マーク
篠崎, 隆宏
|
著者名(英) |
Takafumi, Moriya
Takanori, Ashihara
Atsushi, Ando
Hiroshi, Sato
Tomohiro, Tanaka
Kohei, Matsuura
Ryo, Masumura
Marc, Delcroix
Takahiro, Shinozaki
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究ではストリーミング音声認識における Recurrent neural network-transducer(RNN-T)と Atten- tion-based decoder(AD)を組み合わせた Hybrid RNN-T/Attention モデルの改善手法について述べる.一般に AD は注意重みの計算に始端から終端までの入力音声情報が必要なためストリーミング動作が困難であった.そこで我々は先行研究として始端から各 trigger の位置までの音響特徴量を用いて注意重みを計算する Triggered attention-based decoder(TAD)と組み合わせることでストリーミング動作可能な Hybrid RNN-T/Attention モデルを提案した.しかしながら従来の TAD ではストリーミング処理を可能としたが,計算量やメモリ消費量に課題があった.本研究では認識精度を保ちながら計算コストが削減可能な Triggered chunkwise attention-based decoder(TCAD)を用いた Hybrid RNN-T/Attention モデルを提案する.また,本研究ではさらなる認識精度の改善に向けて Hybrid RNN-T/Attention モデルが持つ 2 種類の内部言語モデルを用いた言語モデルの統合方法についても検討を行なう. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this paper we propose improvements to our recently proposed hybrid RNN-T/Attention architecture that includes a shared encoder followed by recurrent neural network-transducer (RNN-T) and triggered attention-based decoders (TAD). The use of triggered attention enables the attention-based decoder (AD) to operate in a streaming manner. When a trigger point is detected by RNN-T, TAD uses the context from the start-of-speech up to that trigger point to compute the attention weights. Consequently, the computation costs and the memory consumptions are quadratically increased with the duration of the utterances because all input features must be stored and used to re-compute the attention weights. In this paper, we use a short context from a few frames prior to each trigger point for attention weight computation resulting in reduced computation and memory costs. We call the proposed framework triggered chunkwise AD (TCAD). We also investigate the effectiveness of internal language model (ILM) estimation approach using both ILMs of RNN-T and TCAD heads for improving RNN-T performance. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2022-SLP-140,
号 19,
p. 1-6,
発行日 2022-02-22
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |