Item type |
SIG Technical Reports(1) |
公開日 |
2022-06-10 |
タイトル |
|
|
タイトル |
Tranducer型ストリーミング音声認識におけるMask-CTCを用いた事前学習 |
タイトル |
|
|
言語 |
en |
|
タイトル |
An Investigation of Enhancing Transducer-based Streaming ASR with Mask-CTC Pre-training |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション4 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
早稲田大学基幹理工学部情報通信学科 |
著者所属 |
|
|
|
早稲田大学基幹理工学部情報通信学科 |
著者所属 |
|
|
|
LINE株式会社 |
著者所属 |
|
|
|
早稲田大学基幹理工学部情報通信学科 |
著者所属 |
|
|
|
早稲田大学基幹理工学部情報通信学科 |
著者所属(英) |
|
|
|
en |
|
|
Department of Communications and Computer Engineering, Waseda University |
著者所属(英) |
|
|
|
en |
|
|
Department of Communications and Computer Engineering, Waseda University |
著者所属(英) |
|
|
|
en |
|
|
LINE Corporation |
著者所属(英) |
|
|
|
en |
|
|
Department of Communications and Computer Engineering, Waseda University |
著者所属(英) |
|
|
|
en |
|
|
Department of Communications and Computer Engineering, Waseda University |
著者名 |
趙, 懐博
樋口, 陽祐
木田, 祐介
小川, 哲司
小林, 哲則
|
著者名(英) |
Huaibo, Zhao
Yosuke, Higuchi
Yusuke, Kida
Tetsuji, Ogawa
Tetsunori, Kobayashi
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Transducer 型の End-to-End 音声認識モデルを Mask-CTC を用いて事前学習することで,低遅延で高精度なストリーミング音声認識を実現することを試みた.Transducer に基づく End-to-End 音声認識モデルは,入力音声の各フレームに対してトークンの予測を行うフレーム同期型のモデルであり,Acoustic Encoder における先読み範囲を制御することで,ストリーミングによる認識が可能となる.このとき,Acoustic Encoder として Transformer などの大域的な注意機構を用いるネットワークを用いる場合,先読み範囲を長く取る (将来の文脈を考慮する) と高い認識精度が得られる一方で,遅延量は増大する.そこで本研究では,低遅延かつ高精度なストリーミング音声認識の実現を目指し,Transducer 型モデルにおける Acoustic Encoder の事前学習に Mask-CTC を利用することを試みた.Mask-CTC は,将来の情報を含む長期的な文脈を考慮した音響特徴表現を抽出可能にする枠組みであり,Acoustic Encoder の事前学習に利用することで,先読み範囲を短くすることが望ましいストリーミング音声認識に適した音響特徴表現を学習しやくすなることを期待する.提案法の有効性を実証するために,Wall Street Journal と TED-LIUM2 を用いて音声認識実験を行ったところ,提案モデルは遅延を短く抑えながら高い認識精度を与えることがわかった. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10438388 |
書誌情報 |
研究報告音楽情報科学(MUS)
巻 2022-MUS-134,
号 61,
p. 1-6,
発行日 2022-06-10
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8752 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |