| Item type |
SIG Technical Reports(1) |
| 公開日 |
2025-06-06 |
| タイトル |
|
|
言語 |
ja |
|
タイトル |
重み付きAttentionのアライメント機構を用いた系列変換型声質変換 |
| タイトル |
|
|
言語 |
en |
|
タイトル |
Sequence-to-sequence voice conversion model using a weighted attention-based alignment module |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
神戸大学/情報通信研究機構 |
| 著者所属 |
|
|
|
情報通信研究機構 |
| 著者所属 |
|
|
|
神戸大学 |
| 著者所属 |
|
|
|
情報通信研究機構 |
| 著者所属 |
|
|
|
神戸大学 |
| 著者所属 |
|
|
|
名古屋大学/情報通信研究機構 |
| 著者所属 |
|
|
|
情報通信研究機構 |
| 著者所属(英) |
|
|
|
en |
|
|
Kobe University / National Institute of Information and Communications Technology |
| 著者所属(英) |
|
|
|
en |
|
|
National Institute of Information and Communications Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Kobe University |
| 著者所属(英) |
|
|
|
en |
|
|
National Institute of Information and Communications Technology |
| 著者所属(英) |
|
|
|
en |
|
|
Kobe University |
| 著者所属(英) |
|
|
|
en |
|
|
Nagoya University / National Institute of Information and Communications Technology |
| 著者所属(英) |
|
|
|
en |
|
|
National Institute of Information and Communications Technology |
| 著者名 |
山下,陽生
岡本,拓磨
高島,遼一
大谷,大和
滝口,哲也
戸田,智基
河井,恒
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年,非自己回帰型(Non-Autoregressive: Non-AR)のSequence-to-Sequence (S2S)モデルに基づく声質変換(Voice Conversion: VC)が注目されており,これらのモデルは話速や韻律の制御を可能であり,高品質かつ高速な音声変換が実現されている.こうしたS2S VCモデルでは,ソース話者とターゲット話者間のアライメント精度が変換精度に大きく影響を及ぼす.従来手法であるMonotonic Alignment Search (MAS)はCTC-Lossに基づくことで学習の安定性を確保しているが,アライメントの柔軟性に課題がある.一方,EdenVCではAttentionベースのアライメント手法により,より滑らかなアライメントを学習することでアライメント精度の向上を目指しているが,ノンネイティブ(L2)話者からネイティブ(L1)話者への変換のような複雑な条件下では不安定になり学習ができないという問題がある.本研究では,MASによる安定性とAttentionによる柔軟性を統合したWSAS-VCに注目し,FastSpeech2-VC,EdenVC,WSAS-VCの3手法について,L2話者からL1話者への変換性能の比較評価を行った.その結果,WSAS-VCはEdenVCよりも高い学習安定性を持ち,FastSpeech2-VCよりも高精度な変換が可能であることを確認した. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10438388 |
| 書誌情報 |
研究報告音楽情報科学(MUS)
巻 2025-MUS-143,
号 75,
p. 1-6,
発行日 2025-06-06
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8752 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |