ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. コンピュータビジョンとイメージメディア(CVIM)
  3. 2023
  4. 2023-CVIM-233

歌唱音素列の知覚的損失を考慮したCycleGANによるノンパラレルデータ日本語歌い手変換

https://ipsj.ixsq.nii.ac.jp/records/224647
https://ipsj.ixsq.nii.ac.jp/records/224647
2d5a0c48-046d-4323-b8e4-084739c9699e
名前 / ファイル ライセンス アクション
IPSJ-CVIM23233081.pdf IPSJ-CVIM23233081.pdf (2.2 MB)
Copyright (c) 2023 by the Institute of Electronics, Information and Communication Engineers This SIG report is only available to those in membership of the SIG.
CVIM:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2023-02-23
タイトル
タイトル 歌唱音素列の知覚的損失を考慮したCycleGANによるノンパラレルデータ日本語歌い手変換
言語
言語 jpn
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
立命館大学
著者所属
立命館大学
著者所属
立命館大学
著者所属(英)
en
Ritsumeikan University
著者所属(英)
en
Ritsumeikan University
著者所属(英)
en
Ritsumeikan University
著者名 玄元, 奏

× 玄元, 奏

玄元, 奏

Search repository
島田, 伸敬

× 島田, 伸敬

島田, 伸敬

Search repository
松尾, 直志

× 松尾, 直志

松尾, 直志

Search repository
著者名(英) Kanade, Gemmoto

× Kanade, Gemmoto

en Kanade, Gemmoto

Search repository
Nobutaka, Shimada

× Nobutaka, Shimada

en Nobutaka, Shimada

Search repository
Tadashi, Matsuo

× Tadashi, Matsuo

en Tadashi, Matsuo

Search repository
論文抄録
内容記述タイプ Other
内容記述 本論文ではパラレルデータを必要としない一対一の日本語歌声変換手法を提案する.提案手法は CycleGAN に基づくスペクトログラム変換において,音声認識モデルを用いた歌唱音素列における知覚的損失を導入することにより,歌唱者変換後の歌声の品質を改善する.モード崩壊を抑制する Adaptive Multi Adversarial Training を用いることに加え,敵対的訓練の切り替えを識別器の精度を元に制御することで,少数の日本語歌声データを用いて歌唱者の変換を行うことができることを報告する.
論文抄録(英)
内容記述タイプ Other
内容記述 This paper proposes a one-to-one Japanese Singing Voice Conversion (SVC) method without using parallel data. Our method improves naturalness of singing by introducing the sung phoneme sequence perceptual loss, utilizing a speech recognition model in CycleGAN-based spectrogram conversion. In addition to incorporating the Adaptive Multi Adversarial Training(AMAT) framework, which prevents mode collapse, we demonstrate that singer conversion can be performed using a limited amount of Japanese singing data by controlling the adversarial training switch based on the accuracy of the Discriminator.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AA11131797
書誌情報 研究報告コンピュータビジョンとイメージメディア(CVIM)

巻 2023-CVIM-233, 号 81, p. 1-6, 発行日 2023-02-23
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8701
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 13:04:21.099588
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3