@techreport{oai:ipsj.ixsq.nii.ac.jp:00199666,
 author = {岡本, 拓磨 and 戸田, 智基 and 志賀, 芳則 and 河井, 恒},
 issue = {3},
 month = {Oct},
 note = {2016年 までの統計的テキスト音声合成や声質変換では,ニューラルネットワークに基づく音響モデルを用いたとしても,ソースフィルタモデルに基づくボコーダによる音質劣化が肉声感を阻む大きな壁となっていた.2016 年 9 月,WaveNet からはじまるニューラルボコーダの登場により,言語特徴量や音響特徴量からニューラルネットにより音声波形を直接合成できるようになり,Tacotron 2 においては,ついに自然音声と区別のつかない品質の英語テキスト音声合成が実現された.現在,ニューラルボコーダは音声合成における基盤技術となり,様々な方式が提案されている.本チュートリアルでは,WaveNet の登場から最先端のリアルタイムニューラルボコーダまでを紹介し,合成精度,合成速度,モデルサイズ,学習難易度,学習時間等の観点からの比較を行う.},
 title = {音声波形直接生成モデル「ニューラルボコーダ」の比較},
 year = {2019}
}