Item type |
SIG Technical Reports(1) |
公開日 |
2023-06-16 |
タイトル |
|
|
タイトル |
全結合層型アップサンプリングを導入した高速ニューラル波形生成モデル |
タイトル |
|
|
言語 |
en |
|
タイトル |
Fast Neural Waveform Generation Model With Fully Connected Upsampling |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
一般発表 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
神戸大学/情報通信研究機構 |
著者所属 |
|
|
|
情報通信研究機構 |
著者所属 |
|
|
|
神戸大学 |
著者所属 |
|
|
|
情報通信研究機構 |
著者所属 |
|
|
|
神戸大学 |
著者所属 |
|
|
|
名古屋大学 |
著者所属 |
|
|
|
情報通信研究機構 |
著者所属(英) |
|
|
|
en |
|
|
Kobe University / National Institute of Information and Communications Technology |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Information and Communications Technology |
著者所属(英) |
|
|
|
en |
|
|
Kobe University |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Information and Communications Technology |
著者所属(英) |
|
|
|
en |
|
|
Kobe University |
著者所属(英) |
|
|
|
en |
|
|
Nagoya University |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Information and Communications Technology |
著者名 |
山下, 陽生
岡本, 拓磨
高島, 遼一
大谷, 大和
滝口, 哲也
戸田, 智基
河井, 恒
|
著者名(英) |
Haruki, Yamashita
Takuma, Okamoto
Ryoichi, Takashima
Yamato, Ohtani
Tetsuya, Takiguchi
Tomoki, Toda
Hisashi, Kawai
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年,VITS や JETS といったモデルを用いることで高速かつ高品質なテキスト音声合成 (Text-toSpeech: TTS)が可能になった.しかし1つの CPU での Real Time Factor (RTF) は 1 弱であり,その品質を保ったまま更に推論速度を向上させることが求められている.ここでボコーダである HiFi-GAN が推論速度のボトルネックになっていることが知られており,HiFi-GAN の高速化モデルとして,Multi-stream (MS) HiFi-GAN,iSTFTNet,MS-iSTFT-HiFiGAN,などが提案されてきた.しかし本研究において,iSTFTNet の推論する中間特徴量は STFT 結果のスペクトログラムとは全く違う形になっており,特徴量を効率的に扱えていないことが分かった.そこで本稿では,iSTFT 構造を全結合層 (Fully Connected: FC) に変更した FC 構造を iSTFTNet と MS-iSTFT-HiFiGAN に適応した FC-HiFi-GAN と MS-FC-HiFiGANを提案する.FC 構造を用いたモデルは iSTFT 構造を用いるよりも中間特徴量を効率よく扱うことができ,VITS,JETSを用いた TTS による合成品質の向上が確認された. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In recent years, in text-to-speech synthesis, it is required to improve the inference speed while keeping the quality. Multi-stream (MS) iSTFT-HiFiGAN was proposed as a high-speed model of HiFi-GAN, a vocoder capable of inferring waveforms on single CPU. In the TTS task using VITS, although there was some deterioration in sound quality, the speed was increased by about 4 times. In this paper, we propose a MS-FC-HiFiGAN in which the inverse short-time Fourier transform (iSTFT) part is changed to trainable fully connected layer for the purpose of improving the synthesis quality of the MS-iSTFT-HiFiGAN. As for the inference speed, RTF was 0.15 on 1 CPU, which is the same as MS-iSTFT-HiFiGAN. Synthesis quality was inferior to that of MS-iSTFT-HiFiGAN in TTS task, but was superior to thatin analysis/synthesis task |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2023-SLP-147,
号 54,
p. 1-6,
発行日 2023-06-16
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |