ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音楽情報科学(MUS)
  3. 2025
  4. 2025-MUS-143

重み付きAttentionのアライメント機構を用いた系列変換型声質変換

https://ipsj.ixsq.nii.ac.jp/records/2002371
https://ipsj.ixsq.nii.ac.jp/records/2002371
2351daa0-1a57-4fd7-b433-662a8b69d4c4
名前 / ファイル ライセンス アクション
IPSJ-MUS25143075.pdf IPSJ-MUS25143075.pdf (1.0 MB)
 2027年6月6日からダウンロード可能です。
Copyright (c) 2025 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, MUS:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2025-06-06
タイトル
言語 ja
タイトル 重み付きAttentionのアライメント機構を用いた系列変換型声質変換
タイトル
言語 en
タイトル Sequence-to-sequence voice conversion model using a weighted attention-based alignment module
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
神戸大学/情報通信研究機構
著者所属
情報通信研究機構
著者所属
神戸大学
著者所属
情報通信研究機構
著者所属
神戸大学
著者所属
名古屋大学/情報通信研究機構
著者所属
情報通信研究機構
著者所属(英)
en
Kobe University / National Institute of Information and Communications Technology
著者所属(英)
en
National Institute of Information and Communications Technology
著者所属(英)
en
Kobe University
著者所属(英)
en
National Institute of Information and Communications Technology
著者所属(英)
en
Kobe University
著者所属(英)
en
Nagoya University / National Institute of Information and Communications Technology
著者所属(英)
en
National Institute of Information and Communications Technology
著者名 山下,陽生

× 山下,陽生

山下,陽生

Search repository
岡本,拓磨

× 岡本,拓磨

岡本,拓磨

Search repository
高島,遼一

× 高島,遼一

高島,遼一

Search repository
大谷,大和

× 大谷,大和

大谷,大和

Search repository
滝口,哲也

× 滝口,哲也

滝口,哲也

Search repository
戸田,智基

× 戸田,智基

戸田,智基

Search repository
河井,恒

× 河井,恒

河井,恒

Search repository
論文抄録
内容記述タイプ Other
内容記述 近年,非自己回帰型(Non-Autoregressive: Non-AR)のSequence-to-Sequence (S2S)モデルに基づく声質変換(Voice Conversion: VC)が注目されており,これらのモデルは話速や韻律の制御を可能であり,高品質かつ高速な音声変換が実現されている.こうしたS2S VCモデルでは,ソース話者とターゲット話者間のアライメント精度が変換精度に大きく影響を及ぼす.従来手法であるMonotonic Alignment Search (MAS)はCTC-Lossに基づくことで学習の安定性を確保しているが,アライメントの柔軟性に課題がある.一方,EdenVCではAttentionベースのアライメント手法により,より滑らかなアライメントを学習することでアライメント精度の向上を目指しているが,ノンネイティブ(L2)話者からネイティブ(L1)話者への変換のような複雑な条件下では不安定になり学習ができないという問題がある.本研究では,MASによる安定性とAttentionによる柔軟性を統合したWSAS-VCに注目し,FastSpeech2-VC,EdenVC,WSAS-VCの3手法について,L2話者からL1話者への変換性能の比較評価を行った.その結果,WSAS-VCはEdenVCよりも高い学習安定性を持ち,FastSpeech2-VCよりも高精度な変換が可能であることを確認した.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10438388
書誌情報 研究報告音楽情報科学(MUS)

巻 2025-MUS-143, 号 75, p. 1-6, 発行日 2025-06-06
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8752
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-05-30 06:50:01.117193
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3