ストリーミング注意機構型sequence-to-sequenceモデルによる講演音声認識

稲熊, 寛文; 三村, 正人; 河原, 達也

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

ストリーミング注意機構型sequence-to-sequenceモデルによる講演音声認識

https://ipsj.ixsq.nii.ac.jp/records/202993

名前 / ファイル	ライセンス	アクション
IPSJ-SLP20131009.pdf (4.2 MB)	Copyright (c) 2020 by the Information Processing Society of Japan
オープンアクセス

Item type

SIG Technical Reports(1)

公開日

2020-02-06

タイトル

ストリーミング注意機構型sequence-to-sequenceモデルによる講演音声認識

言語

jpn

キーワード

主題Scheme

Other

主題

一般講演2

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

京都大学大学院情報学研究科

著者所属

京都大学大学院情報学研究科

著者所属

京都大学大学院情報学研究科

著者名

稲熊, 寛文
三村, 正人
河原, 達也

論文抄録

内容記述タイプ

Other

内容記述

ラベル同期型モデルである注意機構型 sequence-to-sequence では，入力音声フレームごとの出力を獲得できないためストリーミング認識には不向きであった．これに対処するため，逐次トークンを出力できるモデルがこれまで提案されてきたが，アライメント境界は過去のアライメントに依存するため，出力系列長が長くなるにつれて認識誤りの影響が後方のトークン生成へ伝搬するという問題があった．そこで本稿では，CTC のアライメント情報を教師として学習中に与えることにより，アライメントの学習を頑健にする CTC 同期学習を提案する．また，一定区間の入力フレームごとに枝刈りを行うチャンク同期型ビームサーチを提案し，外部の音声区間検出モデルを用いない，講演単位の認識を行う．日本語話し言葉コーパスにおける実験において，CTC 同期学習による認識精度の改善を確認する．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10442647

書誌情報

研究報告音声言語情報処理（SLP）

巻 2020-SLP-131, 号 9, p. 1-7, 発行日 2020-02-06

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8663

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-19 20:41:53.161967

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

ストリーミング注意機構型sequence-to-sequenceモデルによる講演音声認識

× 稲熊, 寛文

× 三村, 正人

× 河原, 達也

Versions

Share

Cite as

エクスポート