ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2021
  4. 2021-SLP-138

大規模音声コーパスを用いたDNN-HSMM音声合成のためのモデル学習の検討

https://ipsj.ixsq.nii.ac.jp/records/213239
https://ipsj.ixsq.nii.ac.jp/records/213239
504d353d-4592-4130-97ca-a369fcee2ae7
名前 / ファイル ライセンス アクション
IPSJ-SLP21138011.pdf IPSJ-SLP21138011.pdf (1.7 MB)
Copyright (c) 2021 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
SLP:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2021-10-12
タイトル
タイトル 大規模音声コーパスを用いたDNN-HSMM音声合成のためのモデル学習の検討
タイトル
言語 en
タイトル A Study on model training for DNN-HMM-based speech synthesis using a large-scale speech corpus
言語
言語 jpn
キーワード
主題Scheme Other
主題 H/SP/SLP
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
株式会社KDDI 総合研究所
著者所属
株式会社KDDI 総合研究所
著者所属(英)
en
KDDI Research, Inc.
著者所属(英)
en
KDDI Research, Inc.
著者名 西澤, 信行

× 西澤, 信行

西澤, 信行

Search repository
服部, 元

× 服部, 元

服部, 元

Search repository
著者名(英) Nobuyuki, Nishizawa

× Nobuyuki, Nishizawa

en Nobuyuki, Nishizawa

Search repository
Gen, Hattori

× Gen, Hattori

en Gen, Hattori

Search repository
論文抄録
内容記述タイプ Other
内容記述 本研究では,接続合成用に収集された大規模音声コーパスを用いて,DNN-HSMM 音声合成のためのモデル学習を行った.従来の HSMM 音声合成では入力である言語情報に対応する HSMM のパラメータを決定木で予測していたが,DNN-HSMM 音声合成はこの予測に DNN を用いており,より高い合成音品質が期待できる.しかし,HSMM の状態継続長分布のパラメータを同時に DNN で推定するため,モデル学習の初期段階では学習データに対して HSMM の状態のアラインメントを適切に行うことができず,確率的勾配法によるモデル学習が進まない可能性がある.特に DNN に LSTM(long short-term memory)を用いた RNN を用いた場合の学習時の挙動については充分な検討が行われていない.そこで本研究では大規模な音声学習セットを用いて,LSTM を用いた場合のモデル学習時の挙動について調べた.実験の結果,オプティマイザの学習率を適切に設定することで,パラメータをランダムに設定した初期状態からモデル学習が可能なこと,また,各層が 2048 セルの LSTM で構成される 3 層の双方向 RNN を用いた場合,推定誤差性能が飽和する学習データサイズは 20.6 時間以上であることが分かった.
論文抄録(英)
内容記述タイプ Other
内容記述 In this study, an investigation into model training for DNN-HSMM-based speech synthesis using a large speech cor- pus collected for connection synthesis was conducted. While conventional HSMM-based speech synthesis uses decision trees to predict the HSMM parameters corresponding to the linguistic information, DNN-HSMM-based speech synthesis uses DNNs for this prediction. Thus, it is expected to synthesize higher quality sounds by the method. However, since the parameters of the state duration distributions of the HSMMs are simultaneously estimated by the training, the training by the stochastic gradient method may not properly progress in the early stage of model training where the states cannot be appropriately aligned with training data yet. In particular, the behavior of training of RNNs using LSTM (long short-term memory) for DNN-HSMM-based speech synthesis has not yet been sufficiently studied. The experimental results show that the model can be trained from the randomly initialized states by setting the learning rate of the optimizer appropriately, and the training data size at which performance of the prediction saturates is more than 20.6 hours where using a three-layer bidirectional RNN where each layer consists of 2048-cell LSTMs.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告音声言語情報処理(SLP)

巻 2021-SLP-138, p. 1-6, 発行日 2021-10-12
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8663
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 17:13:44.702294
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3