ログイン 新規登録
言語:

WEKO3

  • トップ
  • ランキング
To
lat lon distance
To

Field does not validate



インデックスリンク

インデックスツリー

メールアドレスを入力してください。

WEKO

One fine body…

WEKO

One fine body…

アイテム

  1. 研究報告
  2. 音声言語情報処理(SLP)
  3. 2024
  4. 2024-SLP-152

歌唱者埋め込み表現抽出器の構築において歌唱者内の音響変動を重要視することの効果の検証

https://ipsj.ixsq.nii.ac.jp/records/234747
https://ipsj.ixsq.nii.ac.jp/records/234747
19dd9797-e1ef-4332-86c4-09449bce22d4
名前 / ファイル ライセンス アクション
IPSJ-SLP24152060.pdf IPSJ-SLP24152060.pdf (1.1 MB)
 2026年6月7日からダウンロード可能です。
Copyright (c) 2024 by the Information Processing Society of Japan
非会員:¥660, IPSJ:学会員:¥330, SLP:会員:¥0, DLIB:会員:¥0
Item type SIG Technical Reports(1)
公開日 2024-06-07
タイトル
タイトル 歌唱者埋め込み表現抽出器の構築において歌唱者内の音響変動を重要視することの効果の検証
タイトル
言語 en
タイトル Exploring Impact of Prioritizing Intra-Singer Acoustic Variations on Singer Embedding Extractor Construction for Singer Verification
言語
言語 jpn
キーワード
主題Scheme Other
主題 ポスターセッション2
資源タイプ
資源タイプ識別子 http://purl.org/coar/resource_type/c_18gh
資源タイプ technical report
著者所属
早稲田大学
著者所属
早稲田大学
著者所属
早稲田大学
著者所属
株式会社第一興商
著者所属
株式会社第一興商
著者所属
早稲田大学
著者所属(英)
en
Waseda Uniersity
著者所属(英)
en
Waseda Uniersity
著者所属(英)
en
Waseda Uniersity
著者所属(英)
en
DAIICHIKOSHO CO., LTD.
著者所属(英)
en
DAIICHIKOSHO CO., LTD.
著者所属(英)
en
Waseda Uniersity
著者名 当間, 佐耶佳

× 当間, 佐耶佳

当間, 佐耶佳

Search repository
有賀, 智輝

× 有賀, 智輝

有賀, 智輝

Search repository
樋口, 陽祐

× 樋口, 陽祐

樋口, 陽祐

Search repository
早坂, 一寿

× 早坂, 一寿

早坂, 一寿

Search repository
執行, 里恵

× 執行, 里恵

執行, 里恵

Search repository
小川, 哲司

× 小川, 哲司

小川, 哲司

Search repository
論文抄録
内容記述タイプ Other
内容記述 歌唱者埋め込み表現抽出器の構築における歌唱者内の音響変動の影響に関して,識別する歌唱者数と歌唱者ごとの学習データ数に焦点を当てて調査を行った.話者照合における埋め込み表現抽出器は多数の話者を識別するニューラルネットワークであり,一般的に TDNN や ECAPA-TDNN が用いられている.本研究でも既存の話者照合技術を歌唱者の照合に利用することを試みるが,音声の話者内変動は,発話音声と比較して歌唱音声の方が大きいと考えられる.例えば,歌唱音声は多様な感情表現や歌唱技法を含むことや,その質や量は楽曲によって異なることがその理由である.そこで本研究では,埋め込み表現抽出器の学習において用いるデータについて,歌唱者内変動が照合性能に与える影響を調査した.具体的には,特徴抽出器の学習に用いる歌唱者ごとの楽曲数や,技法の有無の影響が照合性能に与える影響を明らかにすることを試みた.独自に構築した大規模日本語歌唱音声コーパスを用いて実施した実験は,i) 歌唱者ごとに複数曲を用いた方が安定して高い性能を得られること,ii) 特に登録・照合データ間に技法の違いがある場合その影響が大きいこと,iii) 識別する歌唱者数よりも歌唱者ごとの学習データ数を重要視すべきこと,を実証した.
論文抄録(英)
内容記述タイプ Other
内容記述 We explored the significance of prioritizing acoustic variations within singers while training a singer embedding extractor for singer verification. Neural networks effective for speaker verification, like TDNN and ECAPA-TDNN, may lead to increased false rejections as the number of identifiable speakers grows. To address this, it is crucial to enhance the variation in training data per speaker. Singing voice, with its diverse emotional expressions and singing techniques, is believed to demonstrate more intra-speaker variability compared to spoken voice, varying in quality and quantity across different songs. In this study, we aimed to investigate the impact of intra-singer acoustic variations, specifically focusing on the number of songs per singer and the presence of singing techniques in the data used for training the singer embedding extractor, on verification performance. Experiments conducted using a self-constructed large-scale Japanese singing voice corpus revealed that: i) utilizing multiple songs per singer consistently resulted in higher verification performance, ii) variations in singing techniques between enrollment and verification data affected verification performance, and iii) prioritizing the number of training data per singer was more important than the total number of identifiable singers.
書誌レコードID
収録物識別子タイプ NCID
収録物識別子 AN10442647
書誌情報 研究報告音声言語情報処理(SLP)

巻 2024-SLP-152, 号 60, p. 1-6, 発行日 2024-06-07
ISSN
収録物識別子タイプ ISSN
収録物識別子 2188-8663
Notice
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc.
出版者
言語 ja
出版者 情報処理学会
戻る
0
views
See details
Views

Versions

Ver.1 2025-01-19 09:42:18.989818
Show All versions

Share

Mendeley Twitter Facebook Print Addthis

Cite as

エクスポート

OAI-PMH
  • OAI-PMH JPCOAR
  • OAI-PMH DublinCore
  • OAI-PMH DDI
Other Formats
  • JSON
  • BIBTEX

Confirm


Powered by WEKO3


Powered by WEKO3