ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2022
  4. 2022-SLP-140

Hybrid RNN-T/Attention 構造を用いたストリーミング型End-to-End 音声認識モデルと内部言語モデル統合の検討

https://ipsj.ixsq.nii.ac.jp/records/216620
https://ipsj.ixsq.nii.ac.jp/records/216620
ea3a480a-b2fd-4374-a2bb-b410d460c52a
名前 / ファイル ライセンス アクション
IPSJ-SLP22140019.pdf IPSJ-SLP22140019.pdf (2.0 MB)
Copyright (c) 2022 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
SLP:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2022-02-22
タイトル
タイトル Hybrid RNN-T/Attention 構造を用いたストリーミング型End-to-End 音声認識モデルと内部言語モデル統合の検討
タイトル
言語 en
タイトル A Study on Hybrid RNN-T/Attention-based Streaming ASR with Triggered Chunkwise Attention and Dual Internal Language Model Integration
言語
言語 jpn
キーワード
主題Scheme Other
主題 SP2
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
日本電信電話株式会社/東京工業大学
著者所属
日本電信電話株式会社
著者所属
日本電信電話株式会社
著者所属
日本電信電話株式会社
著者所属
日本電信電話株式会社
著者所属
日本電信電話株式会社
著者所属
日本電信電話株式会社
著者所属
日本電信電話株式会社
著者所属
東京工業大学
著者所属(英)
en
NTT Corporation / Tokyo Institute of Technology
著者所属(英)
en
NTT Corporation
著者所属(英)
en
NTT Corporation
著者所属(英)
en
NTT Corporation
著者所属(英)
en
NTT Corporation
著者所属(英)
en
NTT Corporation
著者所属(英)
en
NTT Corporation
著者所属(英)
en
NTT Corporation
著者所属(英)
en
Tokyo Institute of Technology
著者名 森谷, 崇史

× 森谷, 崇史

森谷, 崇史

Search repository
芦原, 孝典

× 芦原, 孝典

芦原, 孝典

Search repository
安藤, 厚志

× 安藤, 厚志

安藤, 厚志

Search repository
佐藤, 宏

× 佐藤, 宏

佐藤, 宏

Search repository
田中, 智大

× 田中, 智大

田中, 智大

Search repository
松浦, 孝平

× 松浦, 孝平

松浦, 孝平

Search repository
増村, 亮

× 増村, 亮

増村, 亮

Search repository
デルクロア, マーク

× デルクロア, マーク

デルクロア, マーク

Search repository
篠崎, 隆宏

× 篠崎, 隆宏

篠崎, 隆宏

Search repository
著者名(英) Takafumi, Moriya

× Takafumi, Moriya

en Takafumi, Moriya

Search repository
Takanori, Ashihara

× Takanori, Ashihara

en Takanori, Ashihara

Search repository
Atsushi, Ando

× Atsushi, Ando

en Atsushi, Ando

Search repository
Hiroshi, Sato

× Hiroshi, Sato

en Hiroshi, Sato

Search repository
Tomohiro, Tanaka

× Tomohiro, Tanaka

en Tomohiro, Tanaka

Search repository
Kohei, Matsuura

× Kohei, Matsuura

en Kohei, Matsuura

Search repository
Ryo, Masumura

× Ryo, Masumura

en Ryo, Masumura

Search repository
Marc, Delcroix

× Marc, Delcroix

en Marc, Delcroix

Search repository
Takahiro, Shinozaki

× Takahiro, Shinozaki

en Takahiro, Shinozaki

Search repository
論文抄録
内容記述タイプ Other
内容記述 本研究ではストリーミング音声認識における Recurrent neural network-transducer(RNN-T)と Atten- tion-based decoder(AD)を組み合わせた Hybrid RNN-T/Attention モデルの改善手法について述べる.一般に AD は注意重みの計算に始端から終端までの入力音声情報が必要なためストリーミング動作が困難であった.そこで我々は先行研究として始端から各 trigger の位置までの音響特徴量を用いて注意重みを計算する Triggered attention-based decoder(TAD)と組み合わせることでストリーミング動作可能な Hybrid RNN-T/Attention モデルを提案した.しかしながら従来の TAD ではストリーミング処理を可能としたが,計算量やメモリ消費量に課題があった.本研究では認識精度を保ちながら計算コストが削減可能な Triggered chunkwise attention-based decoder(TCAD)を用いた Hybrid RNN-T/Attention モデルを提案する.また,本研究ではさらなる認識精度の改善に向けて Hybrid RNN-T/Attention モデルが持つ 2 種類の内部言語モデルを用いた言語モデルの統合方法についても検討を行なう.
論文抄録(英)
内容記述タイプ Other
内容記述 In this paper we propose improvements to our recently proposed hybrid RNN-T/Attention architecture that includes a shared encoder followed by recurrent neural network-transducer (RNN-T) and triggered attention-based decoders (TAD). The use of triggered attention enables the attention-based decoder (AD) to operate in a streaming manner. When a trigger point is detected by RNN-T, TAD uses the context from the start-of-speech up to that trigger point to compute the attention weights. Consequently, the computation costs and the memory consumptions are quadratically increased with the duration of the utterances because all input features must be stored and used to re-compute the attention weights. In this paper, we use a short context from a few frames prior to each trigger point for attention weight computation resulting in reduced computation and memory costs. We call the proposed framework triggered chunkwise AD (TCAD). We also investigate the effectiveness of internal language model (ILM) estimation approach using both ILMs of RNN-T and TCAD heads for improving RNN-T performance.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告音声言語情報処理(SLP)

巻 2022-SLP-140, 号 19, p. 1-6, 発行日 2022-02-22
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8663
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 15:47:29.348497
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3