WEKO3
アイテム
音節単位DNN-HMMによる音声認識の検討
https://ipsj.ixsq.nii.ac.jp/records/96738
https://ipsj.ixsq.nii.ac.jp/records/9673879081bb4-cdba-49c6-9bd4-250e092302ed
名前 / ファイル | ライセンス | アクション |
---|---|---|
![]() |
Copyright (c) 2013 by the Information Processing Society of Japan
|
|
オープンアクセス |
Item type | SIG Technical Reports(1) | |||||||
---|---|---|---|---|---|---|---|---|
公開日 | 2013-12-12 | |||||||
タイトル | ||||||||
タイトル | 音節単位DNN-HMMによる音声認識の検討 | |||||||
タイトル | ||||||||
言語 | en | |||||||
タイトル | Consideration on Syllable-Unit based Deep Neural Network for Speech Recognition | |||||||
言語 | ||||||||
言語 | jpn | |||||||
キーワード | ||||||||
主題Scheme | Other | |||||||
主題 | 音声認識 | |||||||
資源タイプ | ||||||||
資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||
資源タイプ | technical report | |||||||
著者所属 | ||||||||
豊橋技術科学大学 | ||||||||
著者所属 | ||||||||
豊橋技術科学大学 | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Toyohashi University of Technology | ||||||||
著者所属(英) | ||||||||
en | ||||||||
Toyohashi University of Technology | ||||||||
著者名 |
関, 博史
× 関, 博史
|
|||||||
著者名(英) |
Hiroshi, Seki
× Hiroshi, Seki
|
|||||||
論文抄録 | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | 近年,音声認識にディープニューラルネットワークを用いることで,従来手法である GMM-HMM と比較し精度が向上するという結果が多数報告されている.本研究では,3 つの年齢層 (成人・子供・老人) と性別 (男性・女性) に依存した計 6 クラスの学習データベースを使用し,それぞれ音節単位 DNN-HMM を学習した.その結果,従来手法である GMM-HMM と比較して 4 クラスで精度の向上が見られた.そして 6 つのクラスを 1 つのネットワークで学習することにより,5 クラスで精度の向上が見られた.また,直前の音素を考慮した左コンテキスト依存の音節単位 DNN-HMM についても検討した.左コンテキスト依存の音節単位 DNN-HMM は学習すべきパラメータ数が多いため,学習には多くの時間が必要となる.そこで,状態を 「結び」 にして学習する方法と学習を高速化するために Rectified Linear Unit を導入した結果も報告する. | |||||||
論文抄録(英) | ||||||||
内容記述タイプ | Other | |||||||
内容記述 | Recently, Deep Neural Networks have been applied to speech recognition and outperformed the conventional GMM based methods. In this paper, we provide 6 class training sets which depend on gender(male, female) and age(elder, adult, child). We trained each syllable-unit based DNN and it outperformed the baseline GMM-HMM for 4 classes. We also trained one DNN using all 6 class training sets and it outperformed the baseline GMM-HMM for 5 classes. In addition, we considered a left context dependent syllable-unit based DNN-HMM. Modeling context dependent phonemes increases parameters to learn, and needs a lot of time. So we also report results about tied state syllable modeling and use of rectified linear unit to train parameters quickly. | |||||||
書誌レコードID | ||||||||
収録物識別子タイプ | NCID | |||||||
収録物識別子 | AN10442647 | |||||||
書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2013-SLP-99, 号 4, p. 1-6, 発行日 2013-12-12 |
|||||||
Notice | ||||||||
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||
出版者 | ||||||||
言語 | ja | |||||||
出版者 | 情報処理学会 |