Item type |
SIG Technical Reports(1) |
公開日 |
2024-02-22 |
タイトル |
|
|
タイトル |
x-vectorの話者空間を利用した2話者間の中間話者音声合成 |
タイトル |
|
|
言語 |
en |
|
タイトル |
Intermediate speaker speech synthesis between two speakers using x-vector speaker space |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション2 SP/SLP |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属 |
|
|
|
豊橋技術科学大学 |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi Uniersity of Technology |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi Uniersity of Technology |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi Uniersity of Technology |
著者所属(英) |
|
|
|
en |
|
|
Toyohashi Uniersity of Technology |
著者名 |
細井, 颯太
木内, 貴浩
若林, 佑幸
北岡, 教英
|
著者名(英) |
Sota, Hosoi
Takahiro, Kinouchi
Yukoh, Wakabayashi
Norihide, Kitaoka
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
近年,複数話者の声質や話し方について学習している音声合成器を用いて,学習セットに含まれていない話者の音声を新たに合成する話者生成手法が考案されている.本研究では,複数話者音声合成に用いる話者空間に x-vector を採用し,二人の話者の中間に位置するような中間音声を合成する手法を提案する.まず提案手法では,話者の音声から x-vector を抽出するときに,損失関数として話者間の類似度を考慮する.そして,それらの x-vector の内分点をとることで話者間の中間に位置するような中間話者 x-vector を生成する.最終的には,テキストと中間話者 x-vector を結合した特徴量を用いて中間音声を生成する.提案手法により,基本周波数と発話区間長において,合成された音声が元話者の中間に位置していることが示された.また,x-vector およびユークリッドノルムに関して正規化された x-vector を用いた手法と比較したところ,基本周波数と発話区間長に関する客観評価,中間音声を選択する主観評価実験の両方で同等程度の品質であることが示された. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Recent advancements in speech synthesis technologies have enabled the synthesis of speeches of speakers not in the training set using multi-speaker speech synthesizers that learn diverse speech qualities and speaking styles. This study proposes a novel speaker generation approach to synthesize intermediate speech between two speakers by incorporating x-vectors in the speaker space used for multi-speaker speech synthesis. The proposed method constructs x-vectors from multi-speakers’ speeches with a loss function that accounts for speaker similarity. Intermediate speaker x-vectors are then generated by calculating the internal division points between these x-vectors. An intermediate speech is generated using a combination of text and the intermediate speaker x-vector. Experimental results indicate that the synthesized intermediate speech appropriately aligns with the intermediate position of the original speeches in terms of fundamental frequency and the length of voice active frames. The proposed approach demonstrates comparable quality in objective and subjective evaluation experiments compared to methods using original x-vectors and normalized x-vectors with an Euclidean norm. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2024-SLP-151,
号 57,
p. 1-6,
発行日 2024-02-22
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |