Item type |
SIG Technical Reports(1) |
公開日 |
2021-02-24 |
タイトル |
|
|
タイトル |
音素継続時間長のモデル化のための 発話リズムに基づく話者埋め込みの検討 |
タイトル |
|
|
言語 |
en |
|
タイトル |
An investigation of rhythm-based speaker embeddings for phoneme duration modeling |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
SP1 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属 |
|
|
|
日本電信電話株式会社 |
著者所属(英) |
|
|
|
en |
|
|
Nippon Telegraph and Telephone Corporation |
著者所属(英) |
|
|
|
en |
|
|
Nippon Telegraph and Telephone Corporation |
著者所属(英) |
|
|
|
en |
|
|
Nippon Telegraph and Telephone Corporation |
著者名 |
藤田, 健一
安藤, 厚志
井島, 勇祐
|
著者名(英) |
Kenichi, Fujita
Atsushi, Ando
Yusuke, Ijima
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
本研究では,音声合成における個人ごとの音素継続時間長のモデル化に適した話者埋め込み手法について検討を行う.従来の話者埋め込みベクトルの生成手法であるx-vectorやi-vectorなどでは,メルスペクトログラムなどのスペクトル特徴量を用いているが,スペクトル特徴量は発話リズムなどの時間的特徴を明に含まないため,発話リズムの個人性が表現されていない可能性があった.そこで本論文では,音素とその継続時間長を用いた時間的特徴に基づく話者埋め込みベクトルの生成手法を提案する.そして,話者照合実験及び話者ベクトル分布から提案法は一定の話者照合精度を示し,かつ音素継続時間長が類似している話者では類似した話者埋め込みベクトルが生成されることを示す. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2021-SLP-136,
号 23,
p. 1-6,
発行日 2021-02-24
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |