WEKO3
アイテム
ストリーミング注意機構型sequence-to-sequenceモデルによる講演音声認識
https://ipsj.ixsq.nii.ac.jp/records/202993
https://ipsj.ixsq.nii.ac.jp/records/2029938318bf70-d806-4c9a-af55-3d4dd18674cd
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
|
Copyright (c) 2020 by the Information Processing Society of Japan
|
|
| オープンアクセス | ||
| Item type | SIG Technical Reports(1) | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2020-02-06 | |||||||||||
| タイトル | ||||||||||||
| タイトル | ストリーミング注意機構型sequence-to-sequenceモデルによる講演音声認識 | |||||||||||
| 言語 | ||||||||||||
| 言語 | jpn | |||||||||||
| キーワード | ||||||||||||
| 主題Scheme | Other | |||||||||||
| 主題 | 一般講演2 | |||||||||||
| 資源タイプ | ||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
| 資源タイプ | technical report | |||||||||||
| 著者所属 | ||||||||||||
| 京都大学大学院情報学研究科 | ||||||||||||
| 著者所属 | ||||||||||||
| 京都大学大学院情報学研究科 | ||||||||||||
| 著者所属 | ||||||||||||
| 京都大学大学院情報学研究科 | ||||||||||||
| 著者名 |
稲熊, 寛文
× 稲熊, 寛文
× 三村, 正人
× 河原, 達也
|
|||||||||||
| 論文抄録 | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | ラベル同期型モデルである注意機構型 sequence-to-sequence では,入力音声フレームごとの出力を獲得できないためストリーミング認識には不向きであった.これに対処するため,逐次トークンを出力できるモデルがこれまで提案されてきたが,アライメント境界は過去のアライメントに依存するため,出力系列長が長くなるにつれて認識誤りの影響が後方のトークン生成へ伝搬するという問題があった.そこで本稿では,CTC のアライメント情報を教師として学習中に与えることにより,アライメントの学習を頑健にする CTC 同期学習を提案する.また,一定区間の入力フレームごとに枝刈りを行うチャンク同期型ビームサーチを提案し,外部の音声区間検出モデルを用いない,講演単位の認識を行う.日本語話し言葉コーパスにおける実験において,CTC 同期学習による認識精度の改善を確認する. | |||||||||||
| 書誌レコードID | ||||||||||||
| 収録物識別子タイプ | NCID | |||||||||||
| 収録物識別子 | AN10442647 | |||||||||||
| 書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2020-SLP-131, 号 9, p. 1-7, 発行日 2020-02-06 |
|||||||||||
| ISSN | ||||||||||||
| 収録物識別子タイプ | ISSN | |||||||||||
| 収録物識別子 | 2188-8663 | |||||||||||
| Notice | ||||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
| 出版者 | ||||||||||||
| 言語 | ja | |||||||||||
| 出版者 | 情報処理学会 | |||||||||||