2024-03-29T07:48:47Zhttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_oaipmhoai:ipsj.ixsq.nii.ac.jp:001836802023-04-27T10:00:04Z01164:05159:09063:09265
DNN音声合成のための話者類似度に基づく教師なし話者適応jpnhttp://id.nii.ac.jp/1001/00183592/Technical Reporthttps://ipsj.ixsq.nii.ac.jp/ej/?action=repository_action_common_download&item_id=183680&item_no=1&attribute_id=1&file_no=1Copyright (c) 2017 by the Information Processing Society of Japan国立情報学研究所株式会社オルツ国立情報学研究所高木, 信二西村, 祥一山岸, 順一本論文では,DNN に基づく音声合成において,話者適応にテキストを必要としない,教師なし話者適応について検討する.我々はこれまで,DNN 音声合成において,言語特徴量に加え話者 ・ ジェンダー ・ 年齢コード (入力コードと呼ぶ) を利用した音声合成のための複数話者モデリング,話者適応を提案してきた.本研究では,音声データのみから計算される,学習話者に対する話者類似度を入力コードとして利用する.ここで,話者類似度とは,話者認識において広く用いられているモデル (GMM - UBM や i-vector / PLDA) を利用し計算された,個々の学習話者に対する事後確率を連結したベクトルにより表現されると仮定する.提案教師なし話者適応手法は,目標話者の音声から話者認識モデルにより計算された話者類似度ベクトルを,DNN 音声合成システムの入力コードとして用いることで,実現される.話者認識モデルの構築においては,音声合成に適した話者類似度ベクトルの取得のため,利用する音響特徴量の検討を行った.10 代後半から 80 代までの話者がバランス良く含まれた 135 名からなる高品質巨大コーパスを用い,評価実験を行った.主観評価の結果より,提案法は合成音声の品質を下げることなく,高精度な話者適応が可能であることを確認できた.AN10442647研究報告音声言語情報処理(SLP)2017-SLP-1182162017-10-062188-86632017-09-29