ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2024
  4. 2024-SLP-151

DDPMVC:連続時間拡散確率モデルを用いた非パラレル声質変換と評価

https://ipsj.ixsq.nii.ac.jp/records/232482
https://ipsj.ixsq.nii.ac.jp/records/232482
73d214ae-51c1-4014-9b7a-ac878f8dc2b1
名前 / ファイル ライセンス アクション
IPSJ-SLP24151012.pdf IPSJ-SLP24151012.pdf (289.4 kB)
 2026年2月22日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, SLP:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-02-22
タイトル
タイトル DDPMVC:連続時間拡散確率モデルを用いた非パラレル声質変換と評価
タイトル
言語 en
タイトル DDPMVC:Non-parallel voice conversion and evaluation using continuous diffusion probabilistic model
言語
言語 jpn
キーワード
主題Scheme Other
主題 SLP
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
電気通信大学
著者所属
電気通信大学
著者所属
電気通信大学
著者所属(英)
en
The University of Electro-Communications
著者所属(英)
en
The University of Electro-Communications
著者所属(英)
en
The University of Electro-Communications
著者名 畠山, 瑠一

× 畠山, 瑠一

畠山, 瑠一

Search repository
奥田, 耕平

× 奥田, 耕平

奥田, 耕平

Search repository
中鹿, 亘

× 中鹿, 亘

中鹿, 亘

Search repository
論文抄録
内容記述タイプ Other
内容記述 本稿では,生成モデルの一つである連続時間拡散確率モデルを用いて,非パラレルデータでの声質変換モデルである DDPMVC を提案する.生成モデルとして近年用いられている拡散モデルは,高次元のデータに対して表現力が高く,従来の生成モデルよりも安定して学習できるのが特徴である.拡散モデルを用いた声質変換はいくつか提案されているが,非パラレルデータを用いて,任意の話者を複数の話者に変換 (Any-to-Many) する場合に対応しているモデルは少ない.ただしその中でも,VoiceGrad は,拡散モデルの一つであるスコアベースモデルを用いた声質変換モデルであり,前述した条件を満たしている.この VoiceGrad のモデルから派生し,DDPMVC は拡散モデルを連続時間化し,さらにエンコーダにルールベースの拡散過程を追加したモデルである.実験の評価では,VoiceGrad と DDPMVC で変換の精度の比較をメルケプストラム歪み(MCD)用いて行った.
論文抄録(英)
内容記述タイプ Other
内容記述 This paper proposes DDPMVC, a voice conversion model for nonparallel data, using a continuous-time diffusion probabilistic model , which is one of the generative models. Diffusion models, which have recently been used as generative models, are highly expressive for high-dimensional data and can be trained more stably than conventional generative models. Although several voice conversion models based on diffusion models have been proposed, few of them support the case of any-to-many conversion of any speakers to multiple speakers using nonparallel data. However, VoiceGrad is a voice conversion model using a score-based model, which is one of the diffusion models, and satisfies the aforementioned conditions. Derived from the VoiceGrad model, DDPMVC uses the continuous-time version of the diffusion model and adds a rule-based diffusion process to the encoder. The experimental evaluation compared the accuracy of the VoiceGrad and DDPMVC transforms in terms of mel-cepstrum distortion (MCD).
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告音声言語情報処理(SLP)

巻 2024-SLP-151, 号 12, p. 1-6, 発行日 2024-02-22
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8663
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 10:25:59.328215
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3