| Item type |
SIG Technical Reports(1) |
| 公開日 |
2023-02-23 |
| タイトル |
|
|
タイトル |
歌唱音素列の知覚的損失を考慮したCycleGANによるノンパラレルデータ日本語歌い手変換 |
| 言語 |
|
|
言語 |
jpn |
| 資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
| 著者所属 |
|
|
|
立命館大学 |
| 著者所属 |
|
|
|
立命館大学 |
| 著者所属 |
|
|
|
立命館大学 |
| 著者所属(英) |
|
|
|
en |
|
|
Ritsumeikan University |
| 著者所属(英) |
|
|
|
en |
|
|
Ritsumeikan University |
| 著者所属(英) |
|
|
|
en |
|
|
Ritsumeikan University |
| 著者名 |
玄元, 奏
島田, 伸敬
松尾, 直志
|
| 著者名(英) |
Kanade, Gemmoto
Nobutaka, Shimada
Tadashi, Matsuo
|
| 論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本論文ではパラレルデータを必要としない一対一の日本語歌声変換手法を提案する.提案手法は CycleGAN に基づくスペクトログラム変換において,音声認識モデルを用いた歌唱音素列における知覚的損失を導入することにより,歌唱者変換後の歌声の品質を改善する.モード崩壊を抑制する Adaptive Multi Adversarial Training を用いることに加え,敵対的訓練の切り替えを識別器の精度を元に制御することで,少数の日本語歌声データを用いて歌唱者の変換を行うことができることを報告する. |
| 論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
This paper proposes a one-to-one Japanese Singing Voice Conversion (SVC) method without using parallel data. Our method improves naturalness of singing by introducing the sung phoneme sequence perceptual loss, utilizing a speech recognition model in CycleGAN-based spectrogram conversion. In addition to incorporating the Adaptive Multi Adversarial Training(AMAT) framework, which prevents mode collapse, we demonstrate that singer conversion can be performed using a limited amount of Japanese singing data by controlling the adversarial training switch based on the accuracy of the Discriminator. |
| 書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AA11131797 |
| 書誌情報 |
研究報告コンピュータビジョンとイメージメディア(CVIM)
巻 2023-CVIM-233,
号 81,
p. 1-6,
発行日 2023-02-23
|
| ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8701 |
| Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
| 出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |