Item type |
SIG Technical Reports(1) |
公開日 |
2021-10-12 |
タイトル |
|
|
タイトル |
大規模音声コーパスを用いたDNN-HSMM音声合成のためのモデル学習の検討 |
タイトル |
|
|
言語 |
en |
|
タイトル |
A Study on model training for DNN-HMM-based speech synthesis using a large-scale speech corpus |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
H/SP/SLP |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
株式会社KDDI 総合研究所 |
著者所属 |
|
|
|
株式会社KDDI 総合研究所 |
著者所属(英) |
|
|
|
en |
|
|
KDDI Research, Inc. |
著者所属(英) |
|
|
|
en |
|
|
KDDI Research, Inc. |
著者名 |
西澤, 信行
服部, 元
|
著者名(英) |
Nobuyuki, Nishizawa
Gen, Hattori
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究では,接続合成用に収集された大規模音声コーパスを用いて,DNN-HSMM 音声合成のためのモデル学習を行った.従来の HSMM 音声合成では入力である言語情報に対応する HSMM のパラメータを決定木で予測していたが,DNN-HSMM 音声合成はこの予測に DNN を用いており,より高い合成音品質が期待できる.しかし,HSMM の状態継続長分布のパラメータを同時に DNN で推定するため,モデル学習の初期段階では学習データに対して HSMM の状態のアラインメントを適切に行うことができず,確率的勾配法によるモデル学習が進まない可能性がある.特に DNN に LSTM(long short-term memory)を用いた RNN を用いた場合の学習時の挙動については充分な検討が行われていない.そこで本研究では大規模な音声学習セットを用いて,LSTM を用いた場合のモデル学習時の挙動について調べた.実験の結果,オプティマイザの学習率を適切に設定することで,パラメータをランダムに設定した初期状態からモデル学習が可能なこと,また,各層が 2048 セルの LSTM で構成される 3 層の双方向 RNN を用いた場合,推定誤差性能が飽和する学習データサイズは 20.6 時間以上であることが分かった. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this study, an investigation into model training for DNN-HSMM-based speech synthesis using a large speech cor- pus collected for connection synthesis was conducted. While conventional HSMM-based speech synthesis uses decision trees to predict the HSMM parameters corresponding to the linguistic information, DNN-HSMM-based speech synthesis uses DNNs for this prediction. Thus, it is expected to synthesize higher quality sounds by the method. However, since the parameters of the state duration distributions of the HSMMs are simultaneously estimated by the training, the training by the stochastic gradient method may not properly progress in the early stage of model training where the states cannot be appropriately aligned with training data yet. In particular, the behavior of training of RNNs using LSTM (long short-term memory) for DNN-HSMM-based speech synthesis has not yet been sufficiently studied. The experimental results show that the model can be trained from the randomly initialized states by setting the learning rate of the optimizer appropriately, and the training data size at which performance of the prediction saturates is more than 20.6 hours where using a three-layer bidirectional RNN where each layer consists of 2048-cell LSTMs. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2021-SLP-138,
p. 1-6,
発行日 2021-10-12
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |