Item type |
SIG Technical Reports(1) |
公開日 |
2024-06-07 |
タイトル |
|
|
タイトル |
歌唱者埋め込み表現抽出器の構築において歌唱者内の音響変動を重要視することの効果の検証 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Exploring Impact of Prioritizing Intra-Singer Acoustic Variations on Singer Embedding Extractor Construction for Singer Verification |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション2 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
早稲田大学 |
著者所属 |
|
|
|
早稲田大学 |
著者所属 |
|
|
|
早稲田大学 |
著者所属 |
|
|
|
株式会社第一興商 |
著者所属 |
|
|
|
株式会社第一興商 |
著者所属 |
|
|
|
早稲田大学 |
著者所属(英) |
|
|
|
en |
|
|
Waseda Uniersity |
著者所属(英) |
|
|
|
en |
|
|
Waseda Uniersity |
著者所属(英) |
|
|
|
en |
|
|
Waseda Uniersity |
著者所属(英) |
|
|
|
en |
|
|
DAIICHIKOSHO CO., LTD. |
著者所属(英) |
|
|
|
en |
|
|
DAIICHIKOSHO CO., LTD. |
著者所属(英) |
|
|
|
en |
|
|
Waseda Uniersity |
著者名 |
当間, 佐耶佳
有賀, 智輝
樋口, 陽祐
早坂, 一寿
執行, 里恵
小川, 哲司
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
歌唱者埋め込み表現抽出器の構築における歌唱者内の音響変動の影響に関して,識別する歌唱者数と歌唱者ごとの学習データ数に焦点を当てて調査を行った.話者照合における埋め込み表現抽出器は多数の話者を識別するニューラルネットワークであり,一般的に TDNN や ECAPA-TDNN が用いられている.本研究でも既存の話者照合技術を歌唱者の照合に利用することを試みるが,音声の話者内変動は,発話音声と比較して歌唱音声の方が大きいと考えられる.例えば,歌唱音声は多様な感情表現や歌唱技法を含むことや,その質や量は楽曲によって異なることがその理由である.そこで本研究では,埋め込み表現抽出器の学習において用いるデータについて,歌唱者内変動が照合性能に与える影響を調査した.具体的には,特徴抽出器の学習に用いる歌唱者ごとの楽曲数や,技法の有無の影響が照合性能に与える影響を明らかにすることを試みた.独自に構築した大規模日本語歌唱音声コーパスを用いて実施した実験は,i) 歌唱者ごとに複数曲を用いた方が安定して高い性能を得られること,ii) 特に登録・照合データ間に技法の違いがある場合その影響が大きいこと,iii) 識別する歌唱者数よりも歌唱者ごとの学習データ数を重要視すべきこと,を実証した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
We explored the significance of prioritizing acoustic variations within singers while training a singer embedding extractor for singer verification. Neural networks effective for speaker verification, like TDNN and ECAPA-TDNN, may lead to increased false rejections as the number of identifiable speakers grows. To address this, it is crucial to enhance the variation in training data per speaker. Singing voice, with its diverse emotional expressions and singing techniques, is believed to demonstrate more intra-speaker variability compared to spoken voice, varying in quality and quantity across different songs. In this study, we aimed to investigate the impact of intra-singer acoustic variations, specifically focusing on the number of songs per singer and the presence of singing techniques in the data used for training the singer embedding extractor, on verification performance. Experiments conducted using a self-constructed large-scale Japanese singing voice corpus revealed that: i) utilizing multiple songs per singer consistently resulted in higher verification performance, ii) variations in singing techniques between enrollment and verification data affected verification performance, and iii) prioritizing the number of training data per singer was more important than the total number of identifiable singers. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-152,
号 60,
p. 1-6,
発行日 2024-06-07
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |