@techreport{oai:ipsj.ixsq.nii.ac.jp:00146190, author = {高木, 信二 and 山岸, 順一 and Shinji, Takaki and Junichi, Yamagishi}, issue = {18}, month = {Nov}, note = {統計的パラメトリック音声合成システムでは,正確かつ安定したスペクトル包絡を推定するため,STRAIGHT スペクトル解析器のような音声解析モジュールが用いられ,得られたスペクトル包絡から抽出された低次元特徴量が音響モデル構築に用いられることが多い.しかし,音声合成の目標を正確なスペクトル包絡の抽出,モデル化,予測ではなく音声波形の再現と考えた場合,音声波形もしくはより原信号に近い入力を利用し,音声波形との誤差を少なくするという方向'性も考えられる.本論文では,統計的パラメトリック音声合成において,Deep Auto-encoder を用い,より原信号近い FFT スペクトルから低次元音響特徴量を抽出することを検討する.テキスト音声合成実験において,異なるスペクトル推定 (STRAIGHT,WORLD,FFT),低次元特徴量抽出 (メルケプストラム 分析,Deep Auto-encoder),音響モデル (HMM, DNN) を組み合わせた 7 種類のテキスト音声合成システムを構築し比較を行い,評価を行った., In the state-of-the-art statistical parametric speech synthesis system, a speech analysis module, e.g. STRAIGHT spectral analysis, is generally used for obtaining accurate and stable spectral envelopes, and then low-dimensional acoustic features extracted from obtained spectral envelopes are used for training acoustic models. However, a spectral envelope estimation algorithm used in such a speech analysis module includes various processing derived from human knowledge. In this paper, we investigate a deep auto-encoder based, non-linear, data-driven and unsupervised low-dimensional feature extraction using FFT spectral envelopes for statistical parametric speech synthesis. Experimental results have shown that a text-to-speech synthesis system using a deep auto-encoder based low-dimensional feature extraction from FFT spectral envelopes is indeed a promising approach.}, title = {統計的パラメトリック音声合成のための FFT スペクトルからの Deep Auto-encoder に基づく低次元音響特徴量抽出}, year = {2015} }