Item type |
SIG Technical Reports(1) |
公開日 |
2023-10-07 |
タイトル |
|
|
タイトル |
知覚的話者間類似度との関連に着目した話者埋め込み空間の構成法の比較検討 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Comparative study on different speaker embedding spaces focusing on the relation to perceptual inter-speaker similarity |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
音声 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
東京大学大学院工学系研究科 |
著者所属 |
|
|
|
東京大学大学院工学系研究科 |
著者所属 |
|
|
|
東京大学大学院工学系研究科 |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering, The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering, The University of Tokyo |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Engineering, The University of Tokyo |
著者名 |
森田, 湧大
齋藤, 大輔
峯松, 信明
|
著者名(英) |
Wakuto, Morita
Daisuke, Saito
Nobuaki, Minematsu
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究では,話者埋め込み特徴量に基づく話者間類似度と主観評価実験に基づく知覚的話者間類似度との対応関係について,複数の話者埋め込み手法の比較・分析を行った.筆者らのこれまでの実験により,話者埋め込み特徴量の次元数を変化させた場合に,上述の対応関係について傾向の変化が見られることが明らかとなっている.これに対して,本稿では低次元においても識別能力の高い潜在表現を得られる話者埋め込み手法を導入し,埋め込み空間の違いが人間の知覚との対応関係に与える影響について更なる議論を進める.実験の結果より,埋め込み手法の違いに依らない大局的な傾向が確認された一方,埋め込み空間の性質により,次元数が変化した場合における傾向の変化の程度は異なることが明らかとなった. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
This study examines the correspondence between inter-speaker similarity based on speaker embeddings and perceptual speaker similarity based on human listening tests. In our previous study, we have shown that the tendency of correspondence mentioned above depends on the dimension of embedding space. This paper introduces a speaker embedding method which can encode discriminative information on speaker individuality even in low dimensions, and discusses the effect of differences in embedding methods on the correspondence with human perception. The experimental results have shown that 1) a general tendency independent of the embedding methods was confirmed and 2) the degree of change in the tendency depended on the embedding methods. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2023-SLP-148,
号 6,
p. 1-6,
発行日 2023-10-07
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |