@techreport{oai:ipsj.ixsq.nii.ac.jp:02002371, author = {山下,陽生 and 岡本,拓磨 and 高島,遼一 and 大谷,大和 and 滝口,哲也 and 戸田,智基 and 河井,恒}, issue = {75}, month = {Jun}, note = {近年,非自己回帰型(Non-Autoregressive: Non-AR)のSequence-to-Sequence (S2S)モデルに基づく声質変換(Voice Conversion: VC)が注目されており,これらのモデルは話速や韻律の制御を可能であり,高品質かつ高速な音声変換が実現されている.こうしたS2S VCモデルでは,ソース話者とターゲット話者間のアライメント精度が変換精度に大きく影響を及ぼす.従来手法であるMonotonic Alignment Search (MAS)はCTC-Lossに基づくことで学習の安定性を確保しているが,アライメントの柔軟性に課題がある.一方,EdenVCではAttentionベースのアライメント手法により,より滑らかなアライメントを学習することでアライメント精度の向上を目指しているが,ノンネイティブ(L2)話者からネイティブ(L1)話者への変換のような複雑な条件下では不安定になり学習ができないという問題がある.本研究では,MASによる安定性とAttentionによる柔軟性を統合したWSAS-VCに注目し,FastSpeech2-VC,EdenVC,WSAS-VCの3手法について,L2話者からL1話者への変換性能の比較評価を行った.その結果,WSAS-VCはEdenVCよりも高い学習安定性を持ち,FastSpeech2-VCよりも高精度な変換が可能であることを確認した.}, title = {重み付きAttentionのアライメント機構を用いた系列変換型声質変換}, year = {2025} }