ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2021
  4. 2021-SLP-138

Triggered attention型ストリーミング音声認識におけるMask-CTCを用いた事前学習

https://ipsj.ixsq.nii.ac.jp/records/213245
https://ipsj.ixsq.nii.ac.jp/records/213245
115bf802-639f-47db-90e8-40b3e15095d1
名前 / ファイル ライセンス アクション
IPSJ-SLP21138017.pdf IPSJ-SLP21138017.pdf (248.0 kB)
Copyright (c) 2021 by the Information Processing Society of Japan
オープンアクセス
Item type SIG Technical Reports(1)
公開日 2021-10-12
タイトル
タイトル Triggered attention型ストリーミング音声認識におけるMask-CTCを用いた事前学習
タイトル
言語 en
タイトル An Investigation of Enhancing CTC Model for Triggered Attention-based Streaming ASR
言語
言語 jpn
キーワード
主題Scheme Other
主題 H/SP/SLP
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
早稲田大学基幹理工学部情報通信学科
著者所属
早稲田大学基幹理工学部情報通信学科
著者所属
早稲田大学基幹理工学部情報通信学科
著者所属
早稲田大学基幹理工学部情報通信学科
著者所属(英)
en
Department of Communications and Computer Engineering, Waseda University
著者所属(英)
en
Department of Communications and Computer Engineering, Waseda University
著者所属(英)
en
Department of Communications and Computer Engineering, Waseda University
著者所属(英)
en
Department of Communications and Computer Engineering, Waseda University
著者名 趙, 懐博

× 趙, 懐博

趙, 懐博

Search repository
樋口, 陽祐

× 樋口, 陽祐

樋口, 陽祐

Search repository
小川, 哲司

× 小川, 哲司

小川, 哲司

Search repository
小林, 哲則

× 小林, 哲則

小林, 哲則

Search repository
著者名(英) Huaibo, Zhao

× Huaibo, Zhao

en Huaibo, Zhao

Search repository
Yosuke, Higuchi

× Yosuke, Higuchi

en Yosuke, Higuchi

Search repository
Tetsuji, Ogawa

× Tetsuji, Ogawa

en Tetsuji, Ogawa

Search repository
Tetsunori, Kobayashi

× Tetsunori, Kobayashi

en Tetsunori, Kobayashi

Search repository
論文抄録
内容記述タイプ Other
内容記述 Mask-CTC と Triggered attention 機構を組み合わせ,低遅延で高性能なストリーミング End-to-End 音声認識システムの構築を試みた.Triggered attention 機構とは,Connectionist Temporal Classification (CTC) による記号の出力タイミングに基づいて推論を行う手法であり,ストリーミング音声認識における有効性が示されている.しかし,CTC 出力に基づくアライメント推定を高精度に行うためには,多少の遅延を許しても未来の情報を入力して推論を行うことが望ましい.一方で,ストリーミング音声認識では,遅延を低く抑えつつ,高い認識精度を達成することが望ましい.そこで,本研究では,未来の情報を含む長期的な文脈を考慮して特徴表現を学習する枠組みである Mask-CTC をエンコーダの事前学習に導入することで,低遅延かつ高精度なストリーミング音声認識を実現することを目指す.WSJ データを用いたストリーミング音声認識実験により,従来の Triggered attention 型ストリーミング音声認識モデルと比較して,提案モデルは遅延を低く抑えながら高い認識性能を与えることが明らかになった.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告音声言語情報処理(SLP)

巻 2021-SLP-138, p. 1-6, 発行日 2021-10-12
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8663
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 17:13:35.639964
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3