部分文字再帰的ニューラルネットを使ったend-to-end音声認識の仮説修正

太刀岡, 勇気; Yuuki, Tachioka

WEKO3

lat lon distance

[[sub_check.contents]]

[[sub_radio.contents]]

Field does not validate

[[sub_attr.contents]]　

インデックスツリー

アイテム

部分文字再帰的ニューラルネットを使ったend-to-end音声認識の仮説修正

https://ipsj.ixsq.nii.ac.jp/records/192698

名前 / ファイル	ライセンス	アクション
IPSJ-SLP18125001.pdf (939.8 kB)	Copyright (c) 2018 by the Information Processing Society of Japan
オープンアクセス

Item type

SIG Technical Reports(1)

公開日

2018-12-03

タイトル

部分文字再帰的ニューラルネットを使ったend-to-end音声認識の仮説修正

言語

jpn

キーワード

主題Scheme

Other

主題

セッション1 音声認識

資源タイプ

資源タイプ識別子

http://purl.org/coar/resource_type/c_18gh

資源タイプ

technical report

著者所属

デンソーアイティーラボラトリ

著者名

太刀岡, 勇気

著者名(英)

Yuuki, Tachioka

論文抄録

内容記述タイプ

Other

内容記述

End-to-end 音声認識は，その構成が単純なことから一般的になりつつある．しかし，語彙外単語に遭遇することが，従来の音響モデルと言語モデルの両方を使うハイブリッド手法よりも頻繁になる．とりわけ，単語に基づく end-to-end システムは学習データに現れなかった単語を出力することはできない．この問題に対処するため，文字単位の end-to-end システムが提案されているものの，ノイズの影響を受けやすく，出力される単語が必ずしも言語的に正しいものでなくなるという問題がある．これはデコード処理時に辞書や言語モデルといった言語制約を欠いているためである．ゆえにスペル誤りのような誤りが起こりやすくなる．自然言語処理の分野では，スペル誤りを修正するため，部分文字再帰的ニューラルネットワーク (scRNN) が提案されている．scRNN は，単語内の文字の個数を入力とし，単語 ID を出力とするものである．scRNN は置換誤りのみに焦点を当てているため，これを音声認識に適用する際には，拡張が必要となる．ここでは，挿入・置換誤りを考慮するため，connectionist temporal classification の空白記号に似た空白単語記号と単語結合を導入する．騒音下音声認識と大語彙音声認識の 2 つの異なる音声認識タスクにおいて，提案の拡張を用いた scRNN が単語誤り率を改善することを示す．

書誌レコードID

収録物識別子タイプ

NCID

収録物識別子

AN10442647

書誌情報

研究報告音声言語情報処理（SLP）

巻 2018-SLP-125, 号 1, p. 1-6, 発行日 2018-12-03

ISSN

収録物識別子タイプ

ISSN

収録物識別子

2188-8663

Notice

SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.

出版者

言語

出版者

情報処理学会

戻る

views

See details

	Views

Versions

Ver.1

2025-01-20 00:02:27.053577

Show All versions

Cite as

エクスポート

OAI-PMH

JPCOAR
DublinCore
DDI

Other Formats

JSON
BIBTEX

インデックスリンク

インデックスツリー

アイテム

部分文字再帰的ニューラルネットを使ったend-to-end音声認識の仮説修正

× 太刀岡, 勇気

× Yuuki, Tachioka

Versions

Share

Cite as

エクスポート