WEKO3
アイテム
DDPMVC:連続時間拡散確率モデルを用いた非パラレル声質変換と評価
https://ipsj.ixsq.nii.ac.jp/records/232482
https://ipsj.ixsq.nii.ac.jp/records/23248273d214ae-51c1-4014-9b7a-ac878f8dc2b1
| 名前 / ファイル | ライセンス | アクション |
|---|---|---|
|
2026年2月22日からダウンロード可能です。
|
Copyright (c) 2024 by the Information Processing Society of Japan
|
|
| 非会員:¥660, IPSJ:学会員:¥330, SLP:会員:¥0, DLIB:会員:¥0 | ||
| Item type | SIG Technical Reports(1) | |||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 公開日 | 2024-02-22 | |||||||||||
| タイトル | ||||||||||||
| タイトル | DDPMVC:連続時間拡散確率モデルを用いた非パラレル声質変換と評価 | |||||||||||
| タイトル | ||||||||||||
| 言語 | en | |||||||||||
| タイトル | DDPMVC:Non-parallel voice conversion and evaluation using continuous diffusion probabilistic model | |||||||||||
| 言語 | ||||||||||||
| 言語 | jpn | |||||||||||
| キーワード | ||||||||||||
| 主題Scheme | Other | |||||||||||
| 主題 | SLP | |||||||||||
| 資源タイプ | ||||||||||||
| 資源タイプ識別子 | http://purl.org/coar/resource_type/c_18gh | |||||||||||
| 資源タイプ | technical report | |||||||||||
| 著者所属 | ||||||||||||
| 電気通信大学 | ||||||||||||
| 著者所属 | ||||||||||||
| 電気通信大学 | ||||||||||||
| 著者所属 | ||||||||||||
| 電気通信大学 | ||||||||||||
| 著者所属(英) | ||||||||||||
| en | ||||||||||||
| The University of Electro-Communications | ||||||||||||
| 著者所属(英) | ||||||||||||
| en | ||||||||||||
| The University of Electro-Communications | ||||||||||||
| 著者所属(英) | ||||||||||||
| en | ||||||||||||
| The University of Electro-Communications | ||||||||||||
| 著者名 |
畠山, 瑠一
× 畠山, 瑠一
× 奥田, 耕平
× 中鹿, 亘
|
|||||||||||
| 論文抄録 | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | 本稿では,生成モデルの一つである連続時間拡散確率モデルを用いて,非パラレルデータでの声質変換モデルである DDPMVC を提案する.生成モデルとして近年用いられている拡散モデルは,高次元のデータに対して表現力が高く,従来の生成モデルよりも安定して学習できるのが特徴である.拡散モデルを用いた声質変換はいくつか提案されているが,非パラレルデータを用いて,任意の話者を複数の話者に変換 (Any-to-Many) する場合に対応しているモデルは少ない.ただしその中でも,VoiceGrad は,拡散モデルの一つであるスコアベースモデルを用いた声質変換モデルであり,前述した条件を満たしている.この VoiceGrad のモデルから派生し,DDPMVC は拡散モデルを連続時間化し,さらにエンコーダにルールベースの拡散過程を追加したモデルである.実験の評価では,VoiceGrad と DDPMVC で変換の精度の比較をメルケプストラム歪み(MCD)用いて行った. | |||||||||||
| 論文抄録(英) | ||||||||||||
| 内容記述タイプ | Other | |||||||||||
| 内容記述 | This paper proposes DDPMVC, a voice conversion model for nonparallel data, using a continuous-time diffusion probabilistic model , which is one of the generative models. Diffusion models, which have recently been used as generative models, are highly expressive for high-dimensional data and can be trained more stably than conventional generative models. Although several voice conversion models based on diffusion models have been proposed, few of them support the case of any-to-many conversion of any speakers to multiple speakers using nonparallel data. However, VoiceGrad is a voice conversion model using a score-based model, which is one of the diffusion models, and satisfies the aforementioned conditions. Derived from the VoiceGrad model, DDPMVC uses the continuous-time version of the diffusion model and adds a rule-based diffusion process to the encoder. The experimental evaluation compared the accuracy of the VoiceGrad and DDPMVC transforms in terms of mel-cepstrum distortion (MCD). | |||||||||||
| 書誌レコードID | ||||||||||||
| 収録物識別子タイプ | NCID | |||||||||||
| 収録物識別子 | AN10442647 | |||||||||||
| 書誌情報 |
研究報告音声言語情報処理(SLP) 巻 2024-SLP-151, 号 12, p. 1-6, 発行日 2024-02-22 |
|||||||||||
| ISSN | ||||||||||||
| 収録物識別子タイプ | ISSN | |||||||||||
| 収録物識別子 | 2188-8663 | |||||||||||
| Notice | ||||||||||||
| SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. | ||||||||||||
| 出版者 | ||||||||||||
| 言語 | ja | |||||||||||
| 出版者 | 情報処理学会 | |||||||||||