Item type |
SIG Technical Reports(1) |
公開日 |
2019-06-15 |
タイトル |
|
|
タイトル |
周期・非周期信号を用いたDNNに基づくリアルタイム音声ボコーダ |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション1 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
国立大学法人名古屋工業大学/株式会社テクノスピーチ |
著者所属 |
|
|
|
株式会社テクノスピーチ |
著者所属 |
|
|
|
国立大学法人名古屋工業大学/株式会社テクノスピーチ |
著者所属 |
|
|
|
国立大学法人名古屋工業大学 |
著者所属 |
|
|
|
国立大学法人名古屋工業大学/株式会社テクノスピーチ |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Institute of Technology / Techno-Speech, Inc. |
著者所属(英) |
|
|
|
en |
|
|
Techno-Speech, Inc. |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Institute of Technology / Techno-Speech, Inc. |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Institute of Technology |
著者所属(英) |
|
|
|
en |
|
|
Nagoya Institute of Technology / Techno-Speech, Inc. |
著者名 |
大浦, 圭一郎
中村, 和寛
橋本, 佳
南角, 吉彦
徳田, 恵一
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本稿では,ニューラルネットワークに基づく音声ボコーダにおいて,周期信号と非周期信号を入力とする音声生成の枠組みを提案する.近年,ニューラルネットワークを用いて音声波形を直接モデル化する手法として WaveNet [1] が提案された.WaveNet は音声波形を高精度にモデル化することができ,自然な音声を直接生成することができるため,特に音声ボコーダ [2] として様々な研究で利用されている [3],[4],[5].しかし,過去の音声サンプル列から次の音声サンプルを生成する自己回帰構造を持ち,合成時に並列演算ができないことから,実時間で合成できない問題があった.また,WaveNet を学習する際のデータベースに無い音高の再現ができない問題や,補助特徴量として指定したピッチ情報の音高を再現しないことがある問題があった.これらの問題に対し,本稿では明示的に周期信号と非周期信号の列を入力として用い,対応する音声サンプルの列を一度に生成する手法を提案する.提案手法を用いることで,実時間より高速に音声を生成できること,および,学習データの範囲外のピッチを持つ音声波形を生成できることを確認した.また,自然性に関する主観評価実験を行い,WaveNet と比較して合成音声品質の向上を確認した. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10438388 |
書誌情報 |
研究報告音楽情報科学(MUS)
巻 2019-MUS-123,
号 34,
p. 1-6,
発行日 2019-06-15
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8752 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |