CTCによる文字単位のモデルを併用したAttentionによる単語単位のEnd-to-End音声認識

上乃, 聖; 稲熊, 寛文; 三村, 正人; 河原, 達也

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

CTCによる文字単位のモデルを併用したAttentionによる単語単位のEnd-to-End音声認識

https://ipsj.ixsq.nii.ac.jp/records/185809

名前 / ファイル	ライセンス	アクション
IPSJ-SLP18120016.pdf (839.2 kB)
オープンアクセス

Item type

SIG Technical Reports(1)

公開日

2018-02-13

タイトル

CTCによる文字単位のモデルを併用したAttentionによる単語単位のEnd-to-End音声認識

言語

jpn

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

京都大学大学院情報学研究科

著者所属

京都大学大学院情報学研究科

著者所属

京都大学大学院情報学研究科

著者所属

京都大学大学院情報学研究科

著者名

上乃, 聖
稲熊, 寛文
三村, 正人
河原, 達也

論文抄録

内容記述タイプ

Other

内容記述

End-to-End 音声認識が従来の DNN-HMM ハイブリッド音声認識よりも高速で簡潔であることから注目されている．特に入力の音響特徴量から出力の単語列に直接変換する単語単位 End-to-End 音声認識は外部の言語モデルが必要なく，更なる簡潔性が期待される．しかし，出現頻度の低い単語に関する学習データのスパース性が問題となる．そこで本稿では文字を出力単位としたモデルを併用する単語単位モデルを提案する．文字単位モデルを併せて学習することで単語単位モデルのオーバーフィットを軽減することが期待できる．また，単語単位モデルが未知語を出力した際に文字単位モデルで対応する文字列を参照することで未知語の推定を行う．提案手法を「日本語話し言葉コーパス」 (CSJ) で評価を行なった結果，従来のハイブリッド音声認識よりも非常に速い処理時間で同等以上の認識精度を実現し，さらに種々の改善手法により高い性能が得られた．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10442647

書誌情報

研究報告音声言語情報処理（SLP）

巻 2018-SLP-120, 号 16, p. 1-6, 発行日 2018-02-13

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8663

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-20 02:49:59.391994

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

CTCによる文字単位のモデルを併用したAttentionによる単語単位のEnd-to-End音声認識

× 上乃, 聖

× 稲熊, 寛文

× 三村, 正人

× 河原, 達也

Versions

Share

Cite as

エクスポート