Item type |
SIG Technical Reports(1) |
公開日 |
2022-06-10 |
タイトル |
|
|
タイトル |
LSP周波数間隔のクロスエントロピー誤差最小化に基づくVAE声質変換 |
タイトル |
|
|
言語 |
en |
|
タイトル |
VAE-VC based on cross-entropy error minimization of LSP frequency intervals |
言語 |
|
|
言語 |
jpn |
キーワード |
|
|
主題Scheme |
Other |
|
主題 |
ポスターセッション4 |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
電気通信大学情報理工学研究科 |
著者所属 |
|
|
|
電気通信大学情報理工学研究科 |
著者所属 |
|
|
|
電気通信大学情報理工学研究科 |
著者所属 |
|
|
|
電気通信大学情報理工学研究科 |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Informatics and Engineering, The University of Electro-Communications |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Informatics and Engineering, The University of Electro-Communications |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Informatics and Engineering, The University of Electro-C |
著者所属(英) |
|
|
|
en |
|
|
Graduate School of Informatics and Engineering, The University of Electro-Communications |
著者名 |
平本, 佳弘
嵯峨山, 茂樹
岸田, 拓也
中鹿, 亘
|
著者名(英) |
Yoshihiro, Hiramoto
Shigeki, Sagayama
Takuya, Kishida
Toru, Nakashika
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
声質変換とは,発話音声から言語情報のみを保持したまま,話者性のみを変換するタスクであり,近年の深層学習分野の発展とともに様々な場所で応用が期待されている音声合成技術の一つである.声質変換手法は数多く提案されているが,特に VAE を用いた手法は,学習の為のリソースが少なくて済むという利点がある.また声質変換の特徴量は,スペクトル包絡を表すものとしてケプストラム分析によるものが使われている事が多い.本稿では,近年の声質変換でスペクトル包絡の特徴として用いられているメルケプストラム特徴量と,主に音声符号化の分野で用いられている LPC 特徴量で声質変換を行い,結果の違いを調査した.その際,VAE-VC の枠組みで LPC 特徴量の安定合成条件を満たす変換手法を提案した. |
論文抄録(英) |
|
|
内容記述タイプ |
Other |
|
内容記述 |
Voice conversion is a task of converting only speaker characteristics while retaining only linguistic information from speech utterances. And, this is one of the speech synthesis technologies that are expected to be applied in various places with the recent development in the field of deep learning. In this paper, we investigate the differences between voice conversion using mel-cepstrum features, which has been widely used as spectral envelope features in recent years, and LPC features, which are mainly used in the field of speech coding. And, we proposed a voice conversion method using VAE that satisfies the conditions for stable synthesis of LPC features. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10442647 |
書誌情報 |
研究報告音声言語情報処理(SLP)
巻 2022-SLP-142,
号 64,
p. 1-4,
発行日 2022-06-10
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8663 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |