| Item type |
SIG Technical Reports(1) |
| 公開日 |
2023-06-16 |
| タイトル |
|
|
タイトル |
MS-Harmonic-Net++ vs SiFi-GAN:基本周波数制御可能な高速ニューラル波形生成モデルの比較 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
MS-Harmonic-Net++ vs SiFi-GAN: Comparison of fundamental frequency controllable fast neural waveform generative models. |
| 言語 |
|
|
言語 |
jpn |
| キーワード |
|
|
主題Scheme |
Other |
|
主題 |
一般発表 |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
神戸大学/情報通信研究機構 |
| 著者所属 |
|
|
|
情報通信研究機構 |
| 著者所属 |
|
|
|
神戸大学 |
| 著者所属 |
|
|
|
情報通信研究機構 |
| 著者所属 |
|
|
|
神戸大学 |
| 著者所属 |
|
|
|
名古屋大学/情報通信研究機構 |
| 著者所属 |
|
|
|
情報通信研究機構 |
| 著者所属(英) |
|
|
|
en |
|
|
Kobe University / National Institute of Information and Communications Technology |
| 著者所属(英) |
|
|
|
en |
|
|
National Institute of Information and Communications Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Kobe University |
| 著者所属(英) |
|
|
|
en |
|
|
National Institute of Information and Communications Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Nagoya University / National Institute of Information and Communications Technology |
| 著者所属(英) |
|
|
|
en |
|
|
National Institute of Information and Communications Technology |
| 著者名 |
清水, 聡太
岡本, 拓磨
高島, 遼一
大谷, 大和
滝口, 哲也
戸田, 智基
河井, 恒
|
| 著者名(英) |
Sota, Shimizu
Takuma, Okamoto
Ryoichi, Takashima
Yamato, Ohtani
Tetsuya, Takiguchi
Tomoki, Toda
Hisashi, Kawai
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Harmonic-Net+ は WORLD 特徴量で動作する,基本周波数 ( ????o) および話速 (SR) 制御可能な高速ニューラルボコーダとして提案されているが,WORLD 特徴量抽出における計算時間が遅く,特徴量抽出を含めたリアルタイム合成を実現できない.これに対し,特徴量抽出を含む音声合成において, ????o と SR 制御可能な高速ニューラルボコーダである Harmonic-Net++ が提案されている.このモデルは入力がメルスペクトログラムである WORLD 特徴量推定ネットワークを Harmonic-Net+ に導入したものである.さらに,Harmonic-Net++ の合成速度を向上させるため,Multi-stream 構造に基づく学習可能な高速アップサンプリング層を導入した MS-Harmonic-Net++ も提案されている.本研究では, ????o 制御可能な高速ニューラル波形生成モデルである,MS-Harmonic-Net++ と,Harmonic-Net+ 同様に,HiFi-GAN に対して改良を行い,高品質かつ CPU のみでもリアルタイム合成可能なモデルとして提案されている SiFi-GAN の比較を行う. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Although Harmonic-Net+ has been proposed as a fundamental frequency ( ????o) and speech rate (SR) controllable fast neural vocoder with WORLD features, the computational time of WORLD feature extraction itself is slow, and Harmonic-Net+ cannot realize real-time inference when including feature extraction. Then, to realize ????o and SR controllable fast neural vocoder including feature extraction, Harmonic-Net++ is proposed with WORLD feature prediction network from mel-spectrogram input. Furthermore, to accelerate the inference speed of Harmonic-Net++ and MS-Harmonic-Net++, which is proposed by introducing multi-stream-based trainable fast upsampling. In this study, we compare MS-Harmonic-Net++ and SiFi-GAN,which is proposed as a high-quality and real-time inference model on CPU by improving on HiFi-GAN as well as Harmonic-Net+, which are fast neural waveform generation models with ????o control. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
| 書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2023-SLP-147,
号 24,
p. 1-6,
発行日 2023-06-16
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |