| Item type |
SIG Technical Reports(1) |
| 公開日 |
2022-02-22 |
| タイトル |
|
|
タイトル |
バックコーラス歌唱合成のためのDNNを用いた自然性の高い歌声合成方式の検討 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Study of natural singing-voice synthesis for backing vocals based on DNN |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
SP2 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
岡山大学大学院ヘルスシステム統合科学研究科 |
| 著者所属 |
|
|
|
岡山大学大学院ヘルスシステム統合科学研究科 |
| 著者所属 |
|
|
|
岡山大学大学院ヘルスシステム統合科学研究科 |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Interdisciplinary Science and Engineering in Health Systems, Okayama University |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Interdisciplinary Science and Engineering in Health Systems, Okayama University |
| 著者所属(英) |
|
|
|
en |
|
|
Graduate School of Interdisciplinary Science and Engineering in Health Systems, Okayama University |
| 著者名 |
木岡, 智宏
阿部, 匡伸
原, 直
|
| 著者名(英) |
Tomohiro, Kioka
Masanobu, Abe
Sunao, Hara
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本報告では,DNN を用いて楽譜情報から自然性の高いバックコーラス歌唱を合成する方式を検討する.主旋律を邪魔することなく歌の厚みを持たせることを主な目的とするバックコーラス歌唱を合成する場合であっても, 楽譜通りの基本的な音高の制御に加え,歌唱表現としての音高の揺らぎも精度良く制御できる方式が必要となる.そこで,F0 生成部,スペクトル生成部,波形合成部の 3 段階で構成される合成モデルを提案する.F0 生成部とスペクトル生成部では,LSTM を用いて音響特徴量の長期依存関係を捉える.波形合成部では,サンプル単位で音声の生波形を直接予測するネットワーク構造を持つ WaveNet を用いることで,肉声に近い高品質で自然な音声の合成を実現する. 本報告では,合成モデル実装の前段階としてスペクトル生成部,波形合成部の 2 段階を実装する.評価実験では,基本周波数とスペクトログラムの観点から合成モデルの予測精度を評価した.その結果,推定したメルスペクトログラ ムを WaveNet の補助情報として用いた場合でも,基本的なスペクトル構造は再現可能であることが明らかとなった. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In this paper, we investigate a singing-voice synthesis method for natural backing vocals using DNN, which is based on features obtained from a musical score. Although a main purpose of backing vocals is to make a song complex without interrupting the main vocal, the method for generating backing vocals requires accurately controlling the fluctuation of pitch as a singing expression as well as basically controlling the pitch according to the score. Therefore, we propose a synthesis model which consists of three stages: F0 estimation, spectrum estimation, and waveform synthesis. We use LSTM for the stages of F0 estimation and spectrum estimation to seize the long-term dependency of acoustic features. Also, we use WaveNet for the stage of waveform synthesis because WaveNet achieves natural and high-quality synthesizing since it has a network structure that directly predicts the raw audio waveform based on a sample-by-sample estimation. In this paper, we implement the two stages, spectrum estimation, and waveform synthesis as a preliminary step to implementing the synthesis model. In the evaluation experiments, we showed that WaveNet can synthesize singing voice using estimated mel-spectrum as conditional inputs. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2022-SLP-140,
号 21,
p. 1-6,
発行日 2022-02-22
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |