@techreport{oai:ipsj.ixsq.nii.ac.jp:00218456, author = {平本, 佳弘 and 嵯峨山, 茂樹 and 岸田, 拓也 and 中鹿, 亘 and Yoshihiro, Hiramoto and Shigeki, Sagayama and Takuya, Kishida and Toru, Nakashika}, issue = {64}, month = {Jun}, note = {声質変換とは,発話音声から言語情報のみを保持したまま,話者性のみを変換するタスクであり,近年の深層学習分野の発展とともに様々な場所で応用が期待されている音声合成技術の一つである.声質変換手法は数多く提案されているが,特に VAE を用いた手法は,学習の為のリソースが少なくて済むという利点がある.また声質変換の特徴量は,スペクトル包絡を表すものとしてケプストラム分析によるものが使われている事が多い.本稿では,近年の声質変換でスペクトル包絡の特徴として用いられているメルケプストラム特徴量と,主に音声符号化の分野で用いられている LPC 特徴量で声質変換を行い,結果の違いを調査した.その際,VAE-VC の枠組みで LPC 特徴量の安定合成条件を満たす変換手法を提案した., Voice conversion is a task of converting only speaker characteristics while retaining only linguistic information from speech utterances. And, this is one of the speech synthesis technologies that are expected to be applied in various places with the recent development in the field of deep learning. In this paper, we investigate the differences between voice conversion using mel-cepstrum features, which has been widely used as spectral envelope features in recent years, and LPC features, which are mainly used in the field of speech coding. And, we proposed a voice conversion method using VAE that satisfies the conditions for stable synthesis of LPC features.}, title = {LSP周波数間隔のクロスエントロピー誤差最小化に基づくVAE声質変換}, year = {2022} }