Item type |
SIG Technical Reports(1) |
公開日 |
2024-02-22 |
タイトル |
|
|
タイトル |
話者照合のための話者性の変動量を考慮した声道長摂動による疑似話者生成 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Pseudo-speaker augmentation based on vocal tract length perturbation considering speaker variability for speaker verification |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
SP1 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京都立大学 |
著者所属 |
|
|
|
東京都立大学 |
著者所属 |
|
|
|
東京都立大学 |
著者所属(英) |
|
|
|
en |
|
|
Tokyo Metropolitan University |
著者所属(英) |
|
|
|
en |
|
|
Tokyo Metropolitan University |
著者所属(英) |
|
|
|
en |
|
|
Tokyo Metropolitan University |
著者名 |
大野, 史夏
若松, 智花
塩田, さやか
|
著者名(英) |
Fumika, Ono
Tomoka, Wakamatsu
Sayaka, Shiota
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
性能の高い話者埋め込みに基づく話者照合システムを実現するためには,話者埋め込み抽出モデルを大規模な学習データを用いて学習する必要がある.十分な量の学習データを用意するための手法の一つとしてデータ拡張がある.従来の話者照合におけるデータ拡張では主に発話数の拡張が行われていたが,話者埋め込みに基づく話者照合システムでは,十分な話者数を用意することも精度向上のために重要であることが知られている.話者数の拡張においてはこれまでに,データ拡張として声道長摂動を用いた疑似話者生成を行うことの有効性も報告されている.一方で,疑似話者生成時の適切なパラメータの設定方法やデータ拡張に有効な疑似話者数が限られているなどの問題があった.そこで本研究では話者性の変動量を考慮して声道長摂動のパラメータを自動調整することで,従来の疑似話者選択法に比べてより多くの疑似話者を話者数の拡張に用いる手法を提案する.実験では,提案手法を用いた疑似話者生成を行い,最先端手法である ECAPA-TDNN に基づく話者照合システムを用いた評価を行った.実験結果から,話者埋め込みに基づく話者照合のためのデータ拡張において,1 話者あたりの発話数拡張と話者性の変動量を考慮した話者数拡張を併用することで話者照合システムの性能が最も向上したことを報告する. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
In order to construct a reliable speaker verification system based on speaker embeddings, it is necessary to train the speaker embedding extraction model using large-scale training data. Data augmentation is one method for preparing a sufficient amount of training data. Data augmentation in conventional speaker verification mainly involves increasing the number of utterances. However, in the speaker verification systems based on speaker embedding, providing sufficient speakers is also important for improving accuracy. As a method for increasing the number of speakers, the effectiveness of generating pseudo-speakers using vocal tract length perturbations (VTLP) has also been reported. On the other hand, there were problems, such as how to set appropriate parameters when generating pseudo-speakers and the number of effective pseudo-speakers. Therefore, in this paper, by automatically adjusting the parameters of VTLP in consideration of the amount of variation in speaker characteristics, we can increase the number of speakers by selecting more pseudo-speakers than in the conventional pseudo-speaker selection method. In the experiment, we generated pseudo-speakers using the proposed method and evaluated it using a speaker verification system based on ECAPA-TDNN, a state-of-the-art method. From the experimental results, we found that in data augmentation for speaker verification based on speaker embedding, we can improve the speaker verification system by using both augmentations of the number of utterances per speaker and the number of speakers that take into account the variation in speaker characteristics. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-151,
号 2,
p. 1-6,
発行日 2024-02-22
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |