Item type |
SIG Technical Reports(1) |
公開日 |
2023-02-21 |
タイトル |
|
|
タイトル |
MS-FC-HiFiGAN : 学習可能な軽量アップサンプリングを用いた高速ニューラル波形生成モデル |
タイトル |
|
|
言語 |
en |
|
タイトル |
MS-FC-HiFiGAN : Fast Neural Waveform Generation Model With Learnable Lightweight Upsampling |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
SP1:音声合成 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
神戸大学/情報通信研究機構 |
著者所属 |
|
|
|
情報通信研究機構 |
著者所属 |
|
|
|
神戸大学 |
著者所属 |
|
|
|
神戸大学 |
著者所属 |
|
|
|
名古屋大学 |
著者所属 |
|
|
|
情報通信研究機構 |
著者所属(英) |
|
|
|
en |
|
|
MS-FC-HiFiGAN : Fast Neural Waveform Generation Model With Learnable Lightweight Upsampling |
著者名 |
山下, 陽生
岡本, 拓磨
高島, 遼一
滝口, 哲也
戸田, 智基
河井, 恒
|
著者名(英) |
Haruki, Yamashita
Takuma, Okamoto
Ryoichi, Takashima
Tetsuya, Takiguchi
Tomoki, Toda
Hisashi, Kawai
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年テキスト音声合成 (Text-to-Speech: TTS) では品質を保ったまま推論速度を向上することが求められており,そのためニューラルボコーダの高速化が研究されている.Multi-Stream (MS) iSTFT-HiFi-GAN は 1CPU でも音声波形を推論可能なボコーダである HiFi-GAN の高速モデルとして提案され,VITS を用いた TTS タスクにおいて若干の音質の劣化があったものの約 4 倍の高速化がなされた.そこで本稿では,MS-iSTFT-HiFiGAN の合成品質向上を目的として逆短時間フーリエ変換 (iSTFT) 部を学習可能な全結合層へと変更した MS-FC-HiFi-GAN を提案する.このモデルについて,分析合成タスクとテキスト音声合成タスクの 2 つのタスクにおいて推論速度,合成品質を既存のHiFi-GAN の高速モデルと比較を行った.実験の結果,分析合成タスクにおける提案モデルの推論速度は 1CPU において 0.15 の Real Time Factor となり,MS-iSTFT-HiFiGAN と同程度であることが確認された.また提案モデルの合成品質は,TTS タスクではMS-iSTFT-HiFiGAN に劣ったものの分析合成では上回る結果となった. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In recent years, in text-to-speech synthesis, it is required to improve the inference speed while keeping the quality. Multi-stream(MS) iSTFT-HiFiGAN was proposed as a high-speed model of HiFi-GAN, a vocoder capable of inferring waveforms on single CPU. In the TTS task using VITS, although there was some deterioration in sound quality, the speed was increased by about 4 times. In this paper, we propose a MS-FC-HiFi-GAN in which the inverse short-time Fourier transform (iSTFT) part is changed to trainable fully connected layer for the purpose of improving the synthesis quality of the MS-iSTFT-HiFiGAN. As for the inference speed, RTF was 0.15 on 1 CPU, which is the same as MS-iSTFT-HiFiGAN. Synthesis quality was inferior to that of MS-iSTFT-HiFiGAN in TTS task, but was superior to thatin analysis/synthesis task. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2023-SLP-146,
号 2,
p. 1-6,
発行日 2023-02-21
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |