@techreport{oai:ipsj.ixsq.nii.ac.jp:00146191, author = {チョウ, イ and 峯松, 信明 and 齋藤, 大輔 and Yi, Zhao and Nobuaki, Minematsu and Daisuke, Saito}, issue = {19}, month = {Nov}, note = {論文では,データが限られた話者に対する音声合成の質の向上を目的とした,多層双方向 LSTM リカレントニューラルネットワークに基づく複数話者音声合成モデルを提案する.提案モデルは,話者非依存のネットワーク (SIN) と話者依存のネットワーク (SDN) で構成されており,SIN は複数話者のデータで学習され,SDN はターゲット話者のデータで学習される.さらに,性別コードと話者コード,i-vector を導入することで,SIN 内部において,話者の識別性をより高めることが期待される.データ数が限られたデータベースを用いた音声合成実験により,提案法は,多層ニューラルネットワークと多層双方向 LSTM リカレントニューラルネットワークに基づく複数話者音声合成と比較して,合成音声の品質の向上を確認することができた.さらに,提案した複数話者モデルに話者適応を導入可能であり,実験的に新話者に対する音声合成の自然性と話者性を向上することができた., In this paper, a deep bidirectional long short-term memory recurrent neural network (DBLSTM-RNN) based multi-speaker synthesis model is proposed to improve the synthesis quality for a target speaker whose corpus is limited. This model consists of speaker independent network (SIN) and speaker dependent network (SDN), where SIN is jointly trained by multiple speakers and SDN is designed for designed for each of the target speakers. In particular, gender code as well as speaker code or i-vector are prepared as augmented input information to help SIN realize better distinction among different target speakers. Experimental results show that our proposed model improves the synthesis performance with a fairly small database for each speaker, compared with DNN-based multi-speaker TTS and conventional DBLSTM-RNN based TTS. In addition, this multi-speaker model can also be used to perform speaker adaptation, and is experimentally shown to be capable of achieving good quality speech of a new speaker in terms of naturalness and speaker identity.}, title = {多層双方向 LSTM リカレントニューラルネットワークに基づく複数話者音声合成と話者適応}, year = {2015} }