Item type |
SIG Technical Reports(1) |
公開日 |
2019-11-29 |
タイトル |
|
|
タイトル |
歌声合成におけるニューラルボコーダの比較検討 |
タイトル |
|
|
言語 |
en |
|
タイトル |
A comparison of neural vocoders in singing voice synthesis |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
セッション2:多様な音声言語処理 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属 |
|
|
|
名古屋工業大学 |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Institute of Technology |
著者名 |
和田, 蒼汰
法野, 行哉
高木, 信二
橋本, 佳
大浦, 圭一郎
南角, 吉彦
徳田, 恵一
|
著者名(英) |
Sota, Wada
Yukiya, Hono
Shinji, Takaki
Kei, Hashimoto
Keiichiro, Oura
Yoshihiko, Nankaku
Keiichi, Tokuda
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,5 種類のニューラルネットワークに基づくボコーダ (ニューラルボコーダ) を歌声合成に用いた場合について,その性能の比較検討を行う.近年,ニューラルボコーダとして WaveNet vocoder が提案された. WaveNet vocoder は音声波形を高精度にモデル化することができ,自然な音声を生成できるが,自己回帰構造を持つことから実時間で合成できないという問題があった.この問題に対し,大きく 2 つのアプローチが提案されている.1 つ目は,自己回帰モデルのモデル構造を小さくし,1 度の順伝播にかかる時間を減らすことによって高速な合成を可能とする手法である.2 つ目は,Flow を用いることにより複数のサンプルを 1 度に合成する手法である.これらの手法に関する性能の比較は発話文を用いて行われており,歌声を用いた場合については未だ行われていなかった.そこで本稿では,5 種類のニューラルボコーダを歌声合成に用いる場合について性能を比較する.主観評価実験と客観評価実験の結果より,自然性を重視するのであれば WaveRNN が,ピッチやビブラートの再現性を重視するのであれば WaveNet が適切なニューラルボコーダであることを示した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this study, we compare five types of vocoders based on neural networks (neural vocoders) for singing voice synthesis. In recent years, WaveNet vocoder has been proposed as a neural vocoder. WaveNet vocoder can model speech waveforms with high accuracy and generate natural sounding speech. However there is a problem that WaveNet vocoder cannot synthesize speech in real time due to its autoregressive structure. To address this problem, two approaches have been proposed. The first approach is to use a compact model with an autoregressive structure. This increases the efficiency of sampling from the models and allows faster synthesis than real time.The second approach is to synthesize multiple samples simultaneously by using flow-based generative models. The performance of these methods has been investigated by using utterances. However, the performance of them on singing voice has not been investigated yet. Therefore, in this paper, we compare the performance of five types of neural vocoders on singing voice synthesis. The results of subjective and objective evaluation experiments show that WaveRNN is an appropriate neural vocoder when emphasizing naturalness, and WaveNet is appropriate when emphasizing reproducibility of pitch and vibrato. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2019-SLP-130,
号 17,
p. 1-6,
発行日 2019-11-29
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |