Item type |
SIG Technical Reports(1) |
公開日 |
2019-10-04 |
タイトル |
|
|
タイトル |
HMMおよびEnd-to-End音声認識における非線形帯域拡張法の性能調査 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Performance survey of nonlinear bandwidth extension method in HMM and end-to-end speech recognition |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ショートオーラルセッション |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
首都大学東京システムデザイン学部 |
著者所属 |
|
|
|
首都大学東京システムデザイン学部 |
著者所属 |
|
|
|
首都大学東京システムデザイン学部 |
著者所属(英) |
|
|
|
en |
|
|
Tokyo Metropolitan University |
著者所属(英) |
|
|
|
en |
|
|
Tokyo Metropolitan University |
著者所属(英) |
|
|
|
en |
|
|
Tokyo Metropolitan University |
著者名 |
今泉, 遼
塩田, さやか
貴家, 仁志
|
著者名(英) |
Ryo, Imaizumi
Sayaka, Shiota
Hitoshi, Kiya
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本論文では非線形帯域拡張法を適用した音声が音声認識システムに与える影響について性能調査する.音声認識システムと入力されるテストデータにサンプリング周波数の不一致がある場合,高周波数に合わせる手法として帯域拡張法がある.帯域拡張法をテストデータに用いることでサンプリング周波数ごとに音声認識システムを再構築する必要がないという利点がある.しかし,これまでに音声認識における帯域拡張法の影響については報告がされていなかった.そこで本論文では非学習型の帯域拡張法が GMM-HMM および End-to-End に基づく音声認識システムに与える影響を調査した.実験結果より GMM-HMM に基づく手法に対しては,明瞭性を損なわない帯域拡張法を用いた場合に高い精度が得られる傾向があるが,End-to-End に基づく手法に対しては,原音声とのスペクトル距離が近くなる帯域拡張法を用いた場合に高い精度が得られることがわかった. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this paper, we investigate the performance of automatic speech recognition (ASR) systems using some nonlinear bandwidth extension (BWE) methods for narrowband evaluation data. When the sampling frequency of training data for ASR systems is different from that of an input utterance, BWE methods are used to generate harmonics frequencies lacked by band-limitation. The advantage of using BWE methods is not to require the reconstruction of ASR systems for each sampling frequency of input utterances. However, it has not been reported about the effects of BWE methods on ASR. Therefore, in this paper, GMM-HMM-based and End-to-End ASR systems are performed with band extended utterances by non-learning BWE methods in order to investigate the effects. From the experimental results, the GMM-HMM-based ASR system obtained high accuracy when the BWE methods provided high intelligibility. In contrast the End-to-End ASR obtained high accuracy when the BWE methods provided a close spectral distance to original speech. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2019-SLP-129,
号 6,
p. 1-5,
発行日 2019-10-04
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |