@techreport{oai:ipsj.ixsq.nii.ac.jp:00224647, author = {玄元, 奏 and 島田, 伸敬 and 松尾, 直志 and Kanade, Gemmoto and Nobutaka, Shimada and Tadashi, Matsuo}, issue = {81}, month = {Feb}, note = {本論文ではパラレルデータを必要としない一対一の日本語歌声変換手法を提案する.提案手法は CycleGAN に基づくスペクトログラム変換において,音声認識モデルを用いた歌唱音素列における知覚的損失を導入することにより,歌唱者変換後の歌声の品質を改善する.モード崩壊を抑制する Adaptive Multi Adversarial Training を用いることに加え,敵対的訓練の切り替えを識別器の精度を元に制御することで,少数の日本語歌声データを用いて歌唱者の変換を行うことができることを報告する., This paper proposes a one-to-one Japanese Singing Voice Conversion (SVC) method without using parallel data. Our method improves naturalness of singing by introducing the sung phoneme sequence perceptual loss, utilizing a speech recognition model in CycleGAN-based spectrogram conversion. In addition to incorporating the Adaptive Multi Adversarial Training(AMAT) framework, which prevents mode collapse, we demonstrate that singer conversion can be performed using a limited amount of Japanese singing data by controlling the adversarial training switch based on the accuracy of the Discriminator.}, title = {歌唱音素列の知覚的損失を考慮したCycleGANによるノンパラレルデータ日本語歌い手変換}, year = {2023} }