Item type |
SIG Technical Reports(1) |
公開日 |
2018-02-13 |
タイトル |
|
|
タイトル |
劣化音声を用いたDNN音声合成のための話者類似度に基づく教師なし話者適応 |
言語 |
|
|
言語 |
jpn |
資源タイプ |
|
|
資源タイプ識別子 |
http://purl.org/coar/resource_type/c_18gh |
|
資源タイプ |
technical report |
著者所属 |
|
|
|
国立情報学研究所 |
著者所属 |
|
|
|
株式会社オルツ |
著者所属 |
|
|
|
国立情報学研究所 |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Informatics |
著者所属(英) |
|
|
|
en |
|
|
alt Inc. |
著者所属(英) |
|
|
|
en |
|
|
National Institute of Informatics |
著者名 |
高木, 信二
西村, 祥一
山岸, 順一
|
論文抄録 |
|
|
内容記述タイプ |
Other |
|
内容記述 |
我々はこれまで,DNN に基づく音声合成において,話者適応にテキストを必要としない,教師なし話者適応を提案した.この手法は,話者認識において広く用いられているモデル (GMM-UBM,i-vector / PLDA) を利用し計算された,個々の学習話者に対する事後確率を連結したベクトルにより話者類似度が表現されると仮定し,目標話者の音声から計算された話者類似度ベクトルを,DNN 音声合成システムの入力コードとして用いることで実現される.本論文では,目標話者の音声が雑音や残響を含み劣化していることを想定し,このような劣化音声に対し,ロバストな教師なし話者適応について検討する.具体的には,雑音や残響を付与した音声データを用いることで,目標話者の劣化音声からであっても,適切に話者類似度が可能な話者認識モデルの構築を行う.10 代後半から 80 代までの話者がバランス良く含まれた 135 名からなる巨大コーパスを用い,評価実験を行った.客観評価の結果より,適切に話者認識モデルを構築することで,劣化音声にロバストな教師なし話者適応が可能であることが確認できた. |
書誌レコードID |
|
|
収録物識別子タイプ |
NCID |
|
収録物識別子 |
AN10438388 |
書誌情報 |
研究報告音楽情報科学(MUS)
巻 2018-MUS-118,
号 22,
p. 1-5,
発行日 2018-02-13
|
ISSN |
|
|
収録物識別子タイプ |
ISSN |
|
収録物識別子 |
2188-8752 |
Notice |
|
|
|
SIG Technical Reports are nonrefereed and hence may later appear in any journals, conferences, symposia, etc. |
出版者 |
|
|
言語 |
ja |
|
出版者 |
情報処理学会 |