ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2023
  4. 2023-SLP-146

Neural Transducer型音声認識におけるScheduled Samplingの検討

https://ipsj.ixsq.nii.ac.jp/records/224440
https://ipsj.ixsq.nii.ac.jp/records/224440
ab8847d8-f964-49bb-a104-3f3db77013eb
名前 / ファイル ライセンス アクション
IPSJ-SLP23146043.pdf IPSJ-SLP23146043.pdf (1.1 MB)
Copyright (c) 2023 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
SLP:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2023-02-21
タイトル
タイトル Neural Transducer型音声認識におけるScheduled Samplingの検討
タイトル
言語 en
タイトル A Study on Scheduled Sampling for Neural Transducer-based ASR
言語
言語 jpn
キーワード
主題Scheme Other
主題 SP2:音声認識
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
日本電信電話株式会社
著者所属
日本電信電話株式会社
著者所属
日本電信電話株式会社
著者所属
日本電信電話株式会社
著者所属
日本電信電話株式会社
著者所属
日本電信電話株式会社
著者所属(英)
en
NTT Corporation
著者所属(英)
en
NTT Corporation
著者所属(英)
en
NTT Corporation
著者所属(英)
en
NTT Corporation
著者所属(英)
en
NTT Corporation
著者所属(英)
en
NTT Corporation
著者名 森谷, 崇史

× 森谷, 崇史

森谷, 崇史

Search repository
芦原, 孝典

× 芦原, 孝典

芦原, 孝典

Search repository
佐藤, 宏

× 佐藤, 宏

佐藤, 宏

Search repository
松浦, 孝平

× 松浦, 孝平

松浦, 孝平

Search repository
田中, 智大

× 田中, 智大

田中, 智大

Search repository
増村, 亮

× 増村, 亮

増村, 亮

Search repository
著者名(英) Takafumi, Moriya

× Takafumi, Moriya

en Takafumi, Moriya

Search repository
Takanori, Ashihara

× Takanori, Ashihara

en Takanori, Ashihara

Search repository
Hiroshi, Sato

× Hiroshi, Sato

en Hiroshi, Sato

Search repository
論文抄録
内容記述タイプ Other
内容記述 本研究では Recurrent neural network-transducer(RNNT)を用いた音声認識における Scheduled sampling (SS)を提案する.SS は自己回帰モデルにおいて認識誤りに頑健となるように,学習時にモデルの実際の出力をランダムに正解ラベルと入れ替えて学習する手法である.SS は注意機構付き Encoder-Decoder で提案された手法であり,自己回帰モデルにおける Exposure bias と呼ばれる学習時と推論時のモデルの挙動の違いを抑制するアプローチである.しかしながら RNNT の学習時において複雑な出力形式をとるため,SS を RNNT へ適用することは困難である.本研究で RNNT の全パラメタ,または一部のパラメタである内部言語モデルの出力分布に従ってサンプリングを行う RNNT のための SS を提案する.3種類のコーパスを用いて実験を行い,提案手法の SS を用いて学習した RNNT が最も良い認識性能を達成することを確認した.また,日本語話し言葉コーパスでは他の文献と比較しても最高性能を達成したことを報告する.
論文抄録(英)
内容記述タイプ Other
内容記述 In this paper, we propose scheduled sampling approaches suited for the recurrent neural network-trans- ducer (RNNT) that is a promising approach for automatic speech recognition (ASR). SS is a technique to train autoregressive model robustly to past errors by randomly replacing some ground-truth tokens with actual outputs generated from a model. SS mitigates the gaps between training and decoding steps, known as exposure bias, and it is often used for attentional encoder-decoder training. However, SS has not been fully examined for RNNT because of the difficulty in applying SS to RNNT due to the complicated RNNT output form. Our SS approaches sample the tokens generated from the distribution of RNNT itself, i.e. internal language model or RNNT outputs. Experiments in three datasets confirm that RNNT trained with our SS approach achieves the best ASR performance. In particular, on a Japanese ASR task, our best system outperforms the previous state-of-the-art alternative.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告音声言語情報処理(SLP)

巻 2023-SLP-146, 号 43, p. 1-6, 発行日 2023-02-21
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8663
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 13:09:04.992213
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3